본 논문의 목적은 수동으로 주석이 달린 데이터에 접근하지 않고도 화자 정체성(speaker identity)의 표현을 학습하는 것이다. 이를 위해 우리는 영상에서 얼굴과 음성 간의 자연스러운 교차 양식 동기(cross-modal synchrony)를 활용하는 자기지도 학습 목표를 개발한다. 본 접근법의 핵심 아이디어는 주석 없이 언어적 내용과 화자 정체성의 표현을 분리해내는 것이다. 이를 위해 우리는 (1) 두 표현 모두에 공통적인 저수준 특징을 공유하고, (2) 이러한 요인들을 명시적으로 분리하기 위한 자연스러운 메커니즘을 제공하는 2-스트림 아키텍처를 구성한다. 이를 통해 새로운 내용-정체성 조합에 대한 더 큰 일반화 가능성을 제공하며, 궁극적으로 더 견고한 화자 정체성 표현을 산출할 수 있다. 우리는 ‘in the wild’ 환경의 대규모 오디오-비주얼(오디오-시각) 데이터셋에서 본 방법을 학습하고, 표준 화자 인식 성능을 평가함으로써 학습된 화자 표현의 효능을 입증한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.