Vision and Video Inference with Multi-Scale and Deformable Attention
연구 내용
멀티스케일 Transformer와 HOI-aware deformable attention, self-supervised pretext task를 결합하여 비디오 장면 경계부터 상호작용 탐지와 효율적 VideoQA까지 end-to-end로 학습하는 연구
본 분야는 장면 내 개체와 상호작용이 서로 다른 스케일과 거리에서 관측되는 문제를 해결하기 위해 멀티스케일 표현과 변형가능 attention을 적용합니다. 비디오에서는 self-supervised learning으로 경계 전이를 학습하고, 경계와 문맥의 정합성을 강화하는 pretext task를 설계합니다. 또한 장기 입력에서 시공간 고차 관계를 의미 단위로 정의하고, 디스엔탱글드 특징을 학습하는 transformer 구조를 사용하여 합성 일반화 성능을 높이는 데 집중합니다. 이를 통해 사람-물체 상호작용 탐지와 비디오 이해·질의응답을 하나의 학습 흐름으로 연결합니다.
관련 연구 성과
관련 논문
6편
관련 특허
0건
관련 프로젝트
3건
연구 흐름
초기에는 사람-물체 상호작용 탐지에서 멀티스케일 feature 해상도를 보완하기 위한 Multi-Scale Transformer 구조와 deformable attention 모듈을 정립했습니다. 이후 비디오 영역으로 확장하여 자기지도 pretext task를 통해 장면 경계와 장면 전이를 학습하는 방법을 구축했습니다. 이어서 조밀한 시공간 정보를 효율적으로 샘플링하는 deformable attention을 VideoQA에 적용해 장기 추론을 지원했습니다. 최근에는 객체 기반 표현 사이의 시공간 고차 관계를 그래프로 모델링하고, 의미 단위를 분해하는 compositional learning으로 보이지 않는 비디오에 대한 이해 성능을 강화하는 방향으로 발전했습니다.
활용 가능성
활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.
관련 논문
구분
제목
MSTR: Multi-Scale Transformer for End-to-End Human-Object Interaction Detection
MSTR: Multi-Scale Transformer for End-to-End Human-Object Interaction Detection
BaSSL: Boundary-aware Self-Supervised Learning for Video Scene Segmentation
Boundary-aware Self-supervised Learning for Video Scene Segmentation
Dense but Efficient VideoQA for Intricate Compositional Reasoning
Compositional Video Understanding with Spatiotemporal Structure-based Transformers
관련 프로젝트
구분
제목
지식기반 심층논리 신경망을 활용한 통합적 비디오 해석과 생성 연구
지식기반 심층논리 신경망을 활용한 통합적 비디오 해석과 생성 연구
지식기반 심층논리 신경망을 활용한 통합적 비디오 해석과 생성 연구