Detection of Videos with Audio-Visual Inconsistency for Video Representation Learning | 임형준 교수 연구실 | School of Aerospace Engineering

임형준 교수 연구실

서비스 플랜

연구실 검색

프로젝트 공고

정부 과제 추천

AI 기반 기업 서칭

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 0

·2025

Detection of Videos with Audio-Visual Inconsistency for Video Representation Learning

Soohyun Park, Hyoung Jun Lim, Jongwon Choi

초록

비디오 데이터를 이용한 오디오-시각 정렬은 멀티모달 표현 학습의 자기지도(self-supervision)를 위한 기존의 접근 방식이다. 그럼에도 불구하고 배경 음악, 외부 소음, 그리고 인간의 대화 음성의 존재는 비디오 내에서 오디오와 시각 요소 사이의 불일치를 초래할 수 있다. 본 논문에서는 오류가 있는 비디오를 동시다발적으로 식별하고, 멀티모달 표현 모델을 학습하는 방법을 제안한다. 멀티모달 표현 모델의 학습 과정 전반에 걸쳐, 불일치한 오디오-시각 비디오를 탐지하는 책임 모듈을 강화하여 오류가 있는 비디오를 제거함으로써 정확한 오디오-시각 쌍을 설정한다. 불일치 오디오-시각 비디오 탐지 모듈은 VQ-VAE에 기반한 아키텍처를 특징으로 하며, 입력 비디오로부터 라벨 정보를 고려하도록 확장되어 라벨과 함께 비디오 기반 특징을 효과적으로 재구성한다. 우리는 UCF-51 및 UCF-101 데이터셋에서 비디오 인식과 비디오 검색 과제에 대해 본 방법을 평가하였고, 오디오-시각 지식 전이를 위한 기존의 표현 학습 방법들과 비교하여 경쟁력 있는 성능을 달성하였다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Representation (politics)Process (computing)Feature learningVideo retrievalTraining setVideo trackingDeep learning

타입

article

IF / 인용수

- / 0

원문

https://doi.org/10.1109/avss65446.2025.11149931

게재 연도

2025

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)