기본 정보
연구 분야
프로젝트
논문
구성원
article|
·
인용수 0
·2025
Detection of Videos with Audio-Visual Inconsistency for Video Representation Learning
Soohyun Park, Hyoung Jun Lim, Jongwon Choi
초록

비디오 데이터를 이용한 오디오-시각 정렬은 멀티모달 표현 학습의 자기지도(self-supervision)를 위한 기존의 접근 방식이다. 그럼에도 불구하고 배경 음악, 외부 소음, 그리고 인간의 대화 음성의 존재는 비디오 내에서 오디오와 시각 요소 사이의 불일치를 초래할 수 있다. 본 논문에서는 오류가 있는 비디오를 동시다발적으로 식별하고, 멀티모달 표현 모델을 학습하는 방법을 제안한다. 멀티모달 표현 모델의 학습 과정 전반에 걸쳐, 불일치한 오디오-시각 비디오를 탐지하는 책임 모듈을 강화하여 오류가 있는 비디오를 제거함으로써 정확한 오디오-시각 쌍을 설정한다. 불일치 오디오-시각 비디오 탐지 모듈은 VQ-VAE에 기반한 아키텍처를 특징으로 하며, 입력 비디오로부터 라벨 정보를 고려하도록 확장되어 라벨과 함께 비디오 기반 특징을 효과적으로 재구성한다. 우리는 UCF-51 및 UCF-101 데이터셋에서 비디오 인식과 비디오 검색 과제에 대해 본 방법을 평가하였고, 오디오-시각 지식 전이를 위한 기존의 표현 학습 방법들과 비교하여 경쟁력 있는 성능을 달성하였다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
Representation (politics)Process (computing)Feature learningVideo retrievalTraining setVideo trackingDeep learning
타입
article
IF / 인용수
- / 0
게재 연도
2025

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.