Representing 3D Shapes With 64 Latent Vectors for 3D Diffusion Models | 김선주 교수 연구실 | 연세대학교 컴퓨터과학과

김선주 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

preprint|

인용수 0

·2025

Representing 3D Shapes With 64 Latent Vectors for 3D Diffusion Models

In Ho Cho, Y. G. Yoo, Jeon, Subin, Seon Joo Kim

ArXiv.org

초록

변분 오토인코더(VAE)를 통해 압축된 잠재 공간을 구성하는 것은 효율적인 3D 확산 모델을 위한 핵심이다. 본 논문에서는 3D 형상을 COmpact한 1D 잠재 벡터의 집합으로 인코딩하면서도 품질을 저하시키지 않는 COD-VAE를 제안한다. COD-VAE는 압축 및 디코딩 효율을 개선하기 위한 2단계 오토인코더 방식을 도입한다. 첫째, 인코더 블록은 중간 점 패치(intermediate point patches)를 통해 점 구름(point clouds)을 점진적으로 압축하여 컴팩트한 잠재 벡터로 만든다. 둘째, 트리플레인(triplane) 기반 디코더는 신경 필드를 직접 디코딩하는 대신 잠재 벡터로부터 조밀한 트리플레인을 재구성함으로써 신경 필드 디코딩의 계산 부담을 크게 줄인다. 마지막으로, 불확실성 유도 토큰 가지치기(uncertainty-guided token pruning)를 제안하며, 이는 단순한 영역에서는 연산을 생략함으로써 자원을 적응적으로 배분하고 디코더 효율을 향상시킨다. 실험 결과는 COD-VAE가 기준(baseline) 대비 16배 압축을 달성하면서도 품질을 유지함을 보여준다. 이는 생성 과정에서 20.8배의 속도 향상을 가능하게 하며, 고품질 재구성과 생성에 많은 수의 잠재 벡터가 필수 조건이 아님을 시사한다. 코드는 https://github.com/join16/COD-VAE 에서 제공된다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

AutoencoderDecoding methodsEncoding (memory)SpeedupEncoderBlock (permutation group theory)Set (abstract data type)ComputationCode (set theory)

타입

preprint

IF / 인용수

- / 0

원문

http://arxiv.org/abs/2503.08737

게재 연도

2025

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)