대부분의 기존 비디오 질의응답(VideoQA) 데이터셋은 단순한 추론 과정을 필요로 하는 쉬운 질문들로 구성되어 있다는 점은 잘 알려져 있다. 그러나 긴 비디오는 필연적으로 시공간 축과 함께 복잡하고 조합적인 의미 구조를 포함하며, 이는 모델이 비디오에 내재된 조합적 구조를 이해해야 함을 요구한다. 본 논문에서는 복잡한 VideoQA 과제를 해결하기 위해 변형 가능 어텐션 메커니즘을 갖춘 트랜스포머 아키텍처 기반의 새로운 조합형 VideoQA 방법을 제안한다. 변형 가능 어텐션은 조밀한 시각 특징 맵에서 유익한 시각 특징들의 일부를 샘플링하여 프레임이 시간적으로 긴 범위에 걸쳐 효율적으로 커버할 수 있도록 한다. 또한 복잡한 질문 문장 내의 의존성 구조를 언어 임베딩과 함께 결합하여 질문 단어들 간의 관계를 용이하게 이해한다. 광범위한 실험과 절제(ablations) 연구 결과, 제안한 조밀하지만 효율적인 모델이 다른 모든 기준(baseline) 모델보다 성능이 우수함을 보였다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.