단안 기반 3D 시맨틱 장면 그래프 예측 및 크로스-모달 지식 증류 연구

Monocular 3D Semantic Scene Graph Prediction with Cross-Modality Knowledge Distillation

연구 내용

단안 입력만으로 3D 시맨틱 장면 그래프를 예측하기 위해 크로스-모달 지식 증류를 적용하는 연구

단안 영상 기반으로 3차원 의미 구조를 구성하기 위해 scene graph 예측 문제를 다룹니다. 관측 가능한 단안 정보의 제약을 완화하기 위해 cross-modality knowledge distillation 전략을 적용하여 학습 신호를 보강합니다. point cloud 또는 그래프 형태의 표현과 의미 라벨을 결합해 객체 관계를 포함한 3D semantic 결과를 구성하는 방향으로 연구합니다. 예측된 장면 그래프는 downstream에서 장면 이해, 추론 기반 상호작용 분석 등에 활용될 수 있도록 설계합니다.

관련 프로젝트

0건

연구 흐름

초기 단계에서는 단안 입력으로 3D semantic 구조를 생성할 때 생기는 정보 손실과 관계 예측의 불안정성을 분석했습니다. 이후 2026년에 cross-modality knowledge distillation을 도입해 단안 학습 과정에서 필요한 표현력을 보강하는 방법을 제시했습니다. 점-기반 표현과 그래프 기반 관계 모델링을 연계하여 장면 의미를 구조적으로 복원하는 방향으로 확장했습니다. 최종적으로 단안만으로도 3D scene graph 예측이 가능하도록 학습 프레임을 정교화하는 흐름으로 발전했습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

단안 기반 3D 장면 이해
장면 관계 추론의 자동화
로봇 내비게이션용 의미 지도 생성
자율주행 주변 상황의 관계 모델링
멀티모달 데이터 구축 비용 절감
3D 기반 질의응답 전처리
도시/실내 장면 시맨틱 그래프 분석
인간-로봇 상호작용 이해
시맨틱 기반 이상 징후 탐지 보조
가상 공간 시각 데이터 정합
시각 추론 파이프라인의 학습 신호 개선