복셀 쿼리의 해상도는 카메라 기반 3D 점유 예측에서의 뷰 변환(view transformation) 품질에 큰 영향을 미친다. 그러나 계산 제약과 실시간 배포를 위해 필요한 실용적 요구로 인해 더 작은 쿼리 해상도를 사용할 수밖에 없으며, 이는 필연적으로 정보 손실로 이어진다. 따라서 제한된 쿼리 크기 내에서 풍부한 시각적 디테일을 인코딩하고 보존하되, 3D 점유에 대한 포괄적인 표현을 보장하는 것이 필수적이다. 이를 위해 우리는 뷰 변환에서 클러스터링된 이미지 분할(image segments)의 프로토타입(prototypes)을 활용하는 새로운 점유 네트워크 ProtoOcc를 제안한다. 특히, 2D 프로토타입을 3D 복셀 쿼리에 매핑함으로써 고수준의 시각적 기하를 인코딩하고, 쿼리 해상도 감소로 인한 공간 정보 손실을 보완한다. 또한, 조밀하게 압축된 시각적 단서들을 고차원 3D 점유 장면으로 효율적으로 분해하기 위해 다중 관점 디코딩(multi-perspective decoding) 전략을 설계한다. Occ3D 및 SemanticKITTI 벤치마크에 대한 실험 결과는 제안 방법의 유효성을 보여주며, 기존 베이스라인 대비 뚜렷한 성능 향상을 확인하였다. 더 나아가 ProtoOcc는 복셀 해상도를 75%까지 감소시킨 경우에도 베이스라인과 경쟁력 있는 성능을 달성한다. 프로젝트 페이지: https://kuai-lab.github.io/cvpr2025protoocc.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.