최근 3D 편집의 발전은 실시간이며 사용자 친화적인 AR/VR 응용에서 텍스트 기반 방법의 잠재력을 부각시키고 있다. 그러나 현재의 방법들은 다중 시점 정보를 충분히 고려하지 않고 2D 확산 모델에 의존함으로써 다중 시점 불일치를 초래한다. 3D 가우시안 스플래팅(3DGS)은 렌더링 품질과 속도를 크게 향상시키지만, 3D 편집 과정에서는 비효율적인 최적화로 인해 어려움을 겪는데, 이는 사전 학습된 가우시안이 과도한 소스 정보를 보유하여 최적화를 저해하기 때문이다. 이러한 한계를 해결하기 위해, 우리는 Multi-view Fusion Guidance(MFG)와 Attention-Guided Trimming(AGT)을 통합한 새로운 텍스트 기반 3D 장면 편집 프레임워크 EditSplat을 제안한다. 우리의 MFG는 텍스트-이미지 확산 모델에서의 classifier-free guidance와 3DGS에 내재된 기하학적 구조를 활용하여 확산 과정에 필수적인 다중 시점 정보를 통합함으로써 다중 시점 일관성을 보장한다. 또한 우리의 AGT는 3DGS의 명시적 표현을 이용하여 3D 가우시안을 선택적으로 가지치기(prune)하고 최적화하여 최적화 효율을 향상시키며, 정밀하고 의미론적으로 풍부한 로컬 편집을 가능하게 한다. 광범위한 정성적 및 정량적 평가를 통해 EditSplat은 최첨단 성능을 달성하여 텍스트 기반 3D 장면 편집을 위한 새로운 벤치마크를 제시한다. 프로젝트 웹사이트: https://kuai-lab.github.io/editsplat2024/
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.