Dense but Efficient VideoQA for Intricate Compositional Reasoning | 김은솔 교수 연구실 | 한양대학교 컴퓨터소프트웨어학부

김은솔 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 3

·2023

Dense but Efficient VideoQA for Intricate Compositional Reasoning

Jihyeon Lee, Wooyoung Kang, Eun‐Sol Kim

2023 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)

초록

대부분의 기존 비디오 질의응답(VideoQA) 데이터셋은 단순한 추론 과정을 필요로 하는 쉬운 질문들로 구성되어 있다는 점은 잘 알려져 있다. 그러나 긴 비디오는 필연적으로 시공간 축과 함께 복잡하고 조합적인 의미 구조를 포함하며, 이는 모델이 비디오에 내재된 조합적 구조를 이해해야 함을 요구한다. 본 논문에서는 복잡한 VideoQA 과제를 해결하기 위해 변형 가능 어텐션 메커니즘을 갖춘 트랜스포머 아키텍처 기반의 새로운 조합형 VideoQA 방법을 제안한다. 변형 가능 어텐션은 조밀한 시각 특징 맵에서 유익한 시각 특징들의 일부를 샘플링하여 프레임이 시간적으로 긴 범위에 걸쳐 효율적으로 커버할 수 있도록 한다. 또한 복잡한 질문 문장 내의 의존성 구조를 언어 임베딩과 함께 결합하여 질문 단어들 간의 관계를 용이하게 이해한다. 광범위한 실험과 절제(ablations) 연구 결과, 제안한 조밀하지만 효율적인 모델이 다른 모든 기준(baseline) 모델보다 성능이 우수함을 보였다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Computer scienceArtificial intelligenceVisual reasoningQuestion answeringDependency (UML)Feature (linguistics)Natural language processingArchitecture

타입

article

IF / 인용수

- / 3

원문

https://doi.org/10.1109/wacv56688.2023.00117

게재 연도

2023

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)