본 연구에서는 자세 정보가 필요 없고 3D 사전 지식이 필요 없는, 비정렬 멀티뷰 이미지로부터 일반화 가능한 3D 복원을 수행하도록 설계된 새로운 3D Gaussian Splatting 모델 SelfSplat을 제안한다. 이러한 설정은 정답 데이터, 학습된 기하 정보의 부재, 그리고 파인튜닝 없이 정확한 3D 복원을 달성해야 한다는 점으로 인해 본질적으로 역문제에 해당하며, 이로 인해 기존 방법들이 고품질의 결과를 얻기 어렵다. 본 모델은 명시적 3D 표현과 자기지도 방식의 깊이 및 자세 추정 기법을 효과적으로 통합함으로써 이러한 도전 과제를 해결하며, 그 결과 자세 정확도와 3D 복원 품질 모두가 상호 향상된다. 또한 뷰 간 기하 일관성을 강화하여 보다 정확하고 안정적인 3D 복원을 보장하기 위해, 매칭 인지(matching-aware) 자세 추정 네트워크와 깊이 정제(depth refinement) 모듈을 도입한다. 제안 방법의 성능을 제시하기 위해 RealEstate10K, ACID, DL3DV를 포함하는 대규모 실세계 데이터셋에서 평가를 수행하였다. SelfSplat은 외관과 기하 품질 모두에서 기존의 최첨단 방법들보다 우수한 결과를 달성하며, 동시에 강력한 교차 데이터셋 일반화 능력도 보인다. 광범위한 제거 실험(ablation studies)과 분석 또한 제안된 방법들의 효과를 검증한다. 코드와 사전학습(pretrained) 모델은 https://gynjn.github.io/selfsplat/ 에서 제공된다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.