비전 기반 표현학습·해석·3D/영상 이해 연구

Vision Representation Learning, Explainability, and 3D/Video Understanding

연구 내용

영상과 3D 장면에서 유용한 특징을 학습하고 해석 가능성을 제공하기 위해 attention과 개념 기반 표현을 결합하는 연구

영상·3D 장면에서는 시공간 관계와 색·기하 정보의 안정적 활용이 성능을 좌우합니다. 연구에서는 비디오 요약에서 프레임 간·내 관계를 CNN 기반 spatiotemporal attention으로 모델링하여 중요 구간을 압축 표현합니다. 또한 이미지 분류에서 StyleGAN inversion 기반 특징을 tabular 개념으로 변환하고, Wasserstein-1 기반의 class-relevancy를 통해 해석 가능한 개념을 자동 탐색합니다. 3D visual grounding에서는 HSV 컬러 히스토그램을 활용해 RGB의 조명 민감도를 완화하고, HSV 축을 분기하는 경량 모듈로 빠른 인퍼런스를 구현합니다. 이와 연계해 시각 정보로부터 규칙을 추론하는 딥러닝 학습 장치를 특허로 확보했습니다.

관련 프로젝트

2건

연구 흐름

초기에는 비디오 요약 문제에서 attention이 장기 의존성을 다루는 한계를 확인하고, CNN을 sliding window로 활용하는 CSTA 구조를 제안하는 방향으로 연구를 수행했습니다. 이후 동일 주제의 구현을 다듬어 벤치마크 데이터에서 효율성과 성능 균형을 검증했습니다. 다음 단계에서는 이미지 분류의 설명 가능성을 확보하기 위해 생성 모델 특징을 개념 기반 표현으로 매핑하는 Img2Tab 접근을 확장했습니다. 이후 3D 장면에서의 grounding에서는 색 정보의 불안정성과 렌더링 비용을 분석하고, HSV 히스토그램 기반의 경량 모듈로 정확도와 속도를 함께 개선하는 흐름으로 이어졌습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

비디오 하이라이트 추출
영상 요약 자동화
개념 기반 이미지 설명
인터랙티브 모델 디버깅
3D 장면 기반 객체 위치화
경량 3D 인퍼런스
색상 단서 기반 탐지
디지털 트윈 객체 인식
실시간 지휘통제 보조
시각 규칙 추론 시스템