변분 오토인코더(VAE)를 통해 압축된 잠재 공간을 구성하는 것은 효율적인 3D 확산 모델을 위한 핵심이다. 본 논문에서는 3D 형상을 COmpact한 1D 잠재 벡터의 집합으로 인코딩하면서도 품질을 저하시키지 않는 COD-VAE를 제안한다. COD-VAE는 압축 및 디코딩 효율을 개선하기 위한 2단계 오토인코더 방식을 도입한다. 첫째, 인코더 블록은 중간 점 패치(intermediate point patches)를 통해 점 구름(point clouds)을 점진적으로 압축하여 컴팩트한 잠재 벡터로 만든다. 둘째, 트리플레인(triplane) 기반 디코더는 신경 필드를 직접 디코딩하는 대신 잠재 벡터로부터 조밀한 트리플레인을 재구성함으로써 신경 필드 디코딩의 계산 부담을 크게 줄인다. 마지막으로, 불확실성 유도 토큰 가지치기(uncertainty-guided token pruning)를 제안하며, 이는 단순한 영역에서는 연산을 생략함으로써 자원을 적응적으로 배분하고 디코더 효율을 향상시킨다. 실험 결과는 COD-VAE가 기준(baseline) 대비 16배 압축을 달성하면서도 품질을 유지함을 보여준다. 이는 생성 과정에서 20.8배의 속도 향상을 가능하게 하며, 고품질 재구성과 생성에 많은 수의 잠재 벡터가 필수 조건이 아님을 시사한다. 코드는 https://github.com/join16/COD-VAE 에서 제공된다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.