Unsupervised Monocular 3D Keypoint Discovery from Multi-View Diffusion Priors | 김선주 교수 연구실 | 연세대학교 컴퓨터과학과

김선주 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

preprint|

인용수 0

·2025

Unsupervised Monocular 3D Keypoint Discovery from Multi-View Diffusion Priors

Jeon, Subin, In Cho, Junyoung Hong, Seon Joo Kim

ArXiv.org

초록

본 논문은 단일 이미지로부터 3D 키포인트를 정확하게 예측하는 비지도 단안(monocular) 3D 키포인트 추정 프레임워크인 KeyDiff3D를 소개한다. 기존 방법들은 수동 주석 또는 보정된 다중 시점(calibrated multi-view) 이미지에 의존하는데, 이는 모두 수집 비용이 높다. 이에 비해 본 방법은 단일 시점 이미지들의 집합만을 사용하여 단안 3D 키포인트 추정을 가능하게 한다. 이를 위해, 우리는 사전(pretrained)된 다중 시점 확산(diffusion) 모델에 내장된 강력한 기하학적 사전지식을 활용한다. 본 프레임워크에서 해당 모델은 단일 이미지로부터 다중 시점 이미지를 생성하며, 이는 우리 모델에 3D 기하학적 단서를 제공하는 감독 신호(supervision signal)로 사용된다. 또한 우리는 확산 모델을 강력한 2D 다중 시점 특징 추출기로 활용하고, 그 중간 표현(intermediate representations)으로부터 3D 특징 볼륨(feature volumes)을 구성한다. 이 과정은 확산 모델이 학습한 암묵적(implicit) 3D 사전지식을 명시적(explicit) 3D 특징으로 변환한다. 정확한 키포인트 추정에 더해, 본 논문은 확산 모델이 생성한 3D 객체를 조작할 수 있게 하는 파이프라인도 함께 제안한다. Human3.6M, Stanford Dogs를 포함한 다양한 양상과 데이터셋에 대한 실험 결과, 그리고 여러 in-the-wild 및 out-of-domain 데이터셋에서, 본 방법이 정확성, 일반화 성능 측면에서 효과적이며 단일 이미지로부터 확산 모델이 생성한 3D 객체의 조작을 가능하게 함을 보여준다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Prior probabilityMonocularLeverage (statistics)Feature (linguistics)Pattern recognition (psychology)Pipeline (software)Diffusion

타입

preprint

IF / 인용수

- / 0

원문

http://arxiv.org/abs/2507.12336

게재 연도

2025

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)