멀티스케일·변형가능 어텐션 기반 비전 및 비디오 추론 연구

Vision and Video Inference with Multi-Scale and Deformable Attention

연구 내용

멀티스케일 Transformer와 HOI-aware deformable attention, self-supervised pretext task를 결합하여 비디오 장면 경계부터 상호작용 탐지와 효율적 VideoQA까지 end-to-end로 학습하는 연구

본 분야는 장면 내 개체와 상호작용이 서로 다른 스케일과 거리에서 관측되는 문제를 해결하기 위해 멀티스케일 표현과 변형가능 attention을 적용합니다. 비디오에서는 self-supervised learning으로 경계 전이를 학습하고, 경계와 문맥의 정합성을 강화하는 pretext task를 설계합니다. 또한 장기 입력에서 시공간 고차 관계를 의미 단위로 정의하고, 디스엔탱글드 특징을 학습하는 transformer 구조를 사용하여 합성 일반화 성능을 높이는 데 집중합니다. 이를 통해 사람-물체 상호작용 탐지와 비디오 이해·질의응답을 하나의 학습 흐름으로 연결합니다.

관련 프로젝트

3건

연구 흐름

초기에는 사람-물체 상호작용 탐지에서 멀티스케일 feature 해상도를 보완하기 위한 Multi-Scale Transformer 구조와 deformable attention 모듈을 정립했습니다. 이후 비디오 영역으로 확장하여 자기지도 pretext task를 통해 장면 경계와 장면 전이를 학습하는 방법을 구축했습니다. 이어서 조밀한 시공간 정보를 효율적으로 샘플링하는 deformable attention을 VideoQA에 적용해 장기 추론을 지원했습니다. 최근에는 객체 기반 표현 사이의 시공간 고차 관계를 그래프로 모델링하고, 의미 단위를 분해하는 compositional learning으로 보이지 않는 비디오에 대한 이해 성능을 강화하는 방향으로 발전했습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

멀티스케일 인체-물체 상호작용 인식
장기 비디오 장면 경계 탐지
경계 인식 기반 자기지도 비디오 표현학습
조밀 시공간 추론을 위한 효율적 비디오 QA
스패티오템포럴 그래프 기반 비디오 이해
합성 구조 일반화 비디오 분류 및 추론
변형 가능 어텐션 샘플링 기반 실시간 비전 모델
저해상도·원거리 객체 상호작용 탐지
복합 의미 단위 디스엔탱글링 영상 모델링
비디오 전이학습 및 데이터 적응 파이프라인