Compositional Video Understanding with Spatiotemporal Structure-based Transformers | 김은솔 교수 연구실 | 한양대학교 컴퓨터소프트웨어학부

김은솔 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 3

·2024

Compositional Video Understanding with Spatiotemporal Structure-based Transformers

Hoyeoung Yun, Jinwoo Ahn, Minseo Kim, Eun‐Sol Kim

초록

본 논문에서는 긴 비디오 입력을 통해 복잡한 의미 구조를 이해하기 위한 새로운 참신한 방법을 제안한다. 기존의 비디오 이해 방법들은 단기 클립에 집중해 왔으며, 합성곱 신경망 또는 트랜스포머 아키텍처를 사용하여 해당 단기 클립을 위한 시각적 표현을 얻도록 학습되어 있다. 그러나 대부분의 현실 세계 비디오는 수 분에서 수 시간에 이르는 긴 비디오로 구성되므로, 이를 작은 클립으로 분할하고 그로부터 표현을 학습하는 방식은 본질적으로 긴 비디오 전체의 의미 구조를 이해하는 데 한계를 초래한다. 본 연구에서는 객체 기반 표현을 의미 단위로 정의하고, 그들 사이에 시공간적 고차 관계를 설정함으로써 비디오의 다중 과립(다중 그레인) 의미 구조를 학습하기 위한 새로운 알고리즘을 제안한다. 제안 방법은 시공간 그래프를 학습할 수 있는 새로운 트랜스포머 아키텍처와, 각 의미 단위에 대해 분리된 특징을 학습하기 위한 조합적 학습(compositional learning) 방법을 포함한다. 제안된 방법을 사용하여, 보지 못한 비디오에 대한 조합적 일반화 이해(compositional generalization understanding)라는 도전적인 비디오 과제를 해결한다. 실험을 통해 두 개의 도전적인 비디오 데이터셋에서 새로운 최첨단 성능을 입증한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Computer scienceTransformerComputer visionEngineeringElectrical engineeringVoltage

타입

article

IF / 인용수

- / 3

원문

https://doi.org/10.1109/cvpr52733.2024.01774

게재 연도

2024

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)