기본 정보
연구 분야
프로젝트
논문
구성원
article|
·
인용수 93
Disentangled Speech Embeddings Using Cross-Modal Self-Supervision
Zisserman, A, Joon Son Chung, Samuel Albanie, Nagrani, A
Oxford University Research Archive (ORA) (University of Oxford)
초록

본 논문의 목적은 수동으로 주석이 달린 데이터에 접근하지 않고도 화자 정체성(speaker identity)의 표현을 학습하는 것이다. 이를 위해 우리는 영상에서 얼굴과 음성 간의 자연스러운 교차 양식 동기(cross-modal synchrony)를 활용하는 자기지도 학습 목표를 개발한다. 본 접근법의 핵심 아이디어는 주석 없이 언어적 내용과 화자 정체성의 표현을 분리해내는 것이다. 이를 위해 우리는 (1) 두 표현 모두에 공통적인 저수준 특징을 공유하고, (2) 이러한 요인들을 명시적으로 분리하기 위한 자연스러운 메커니즘을 제공하는 2-스트림 아키텍처를 구성한다. 이를 통해 새로운 내용-정체성 조합에 대한 더 큰 일반화 가능성을 제공하며, 궁극적으로 더 견고한 화자 정체성 표현을 산출할 수 있다. 우리는 ‘in the wild’ 환경의 대규모 오디오-비주얼(오디오-시각) 데이터셋에서 본 방법을 학습하고, 표준 화자 인식 성능을 평가함으로써 학습된 화자 표현의 효능을 입증한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
Computer scienceIdentity (music)Construct (python library)ModalAnnotationSpeaker recognitionSpeech recognitionNatural language processingExploitArtificial intelligence
타입
article
IF / 인용수
- / 93
게재 연도
-

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.