비디오 데이터를 이용한 오디오-시각 정렬은 멀티모달 표현 학습의 자기지도(self-supervision)를 위한 기존의 접근 방식이다. 그럼에도 불구하고 배경 음악, 외부 소음, 그리고 인간의 대화 음성의 존재는 비디오 내에서 오디오와 시각 요소 사이의 불일치를 초래할 수 있다. 본 논문에서는 오류가 있는 비디오를 동시다발적으로 식별하고, 멀티모달 표현 모델을 학습하는 방법을 제안한다. 멀티모달 표현 모델의 학습 과정 전반에 걸쳐, 불일치한 오디오-시각 비디오를 탐지하는 책임 모듈을 강화하여 오류가 있는 비디오를 제거함으로써 정확한 오디오-시각 쌍을 설정한다. 불일치 오디오-시각 비디오 탐지 모듈은 VQ-VAE에 기반한 아키텍처를 특징으로 하며, 입력 비디오로부터 라벨 정보를 고려하도록 확장되어 라벨과 함께 비디오 기반 특징을 효과적으로 재구성한다. 우리는 UCF-51 및 UCF-101 데이터셋에서 비디오 인식과 비디오 검색 과제에 대해 본 방법을 평가하였고, 오디오-시각 지식 전이를 위한 기존의 표현 학습 방법들과 비교하여 경쟁력 있는 성능을 달성하였다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.