Disentangled Speech Embeddings Using Cross-Modal Self-Supervision | 정준선 교수 연구실 | 한국과학기술원 전기및전자공학부

정준선 교수 연구실

서비스 플랜

연구실 검색

프로젝트 공고

정부 과제 추천

AI 기반 기업 서칭

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 93

Disentangled Speech Embeddings Using Cross-Modal Self-Supervision

Zisserman, A, Joon Son Chung, Samuel Albanie, Nagrani, A

Oxford University Research Archive (ORA) (University of Oxford)

초록

본 논문의 목적은 수동으로 주석이 달린 데이터에 접근하지 않고도 화자 정체성(speaker identity)의 표현을 학습하는 것이다. 이를 위해 우리는 영상에서 얼굴과 음성 간의 자연스러운 교차 양식 동기(cross-modal synchrony)를 활용하는 자기지도 학습 목표를 개발한다. 본 접근법의 핵심 아이디어는 주석 없이 언어적 내용과 화자 정체성의 표현을 분리해내는 것이다. 이를 위해 우리는 (1) 두 표현 모두에 공통적인 저수준 특징을 공유하고, (2) 이러한 요인들을 명시적으로 분리하기 위한 자연스러운 메커니즘을 제공하는 2-스트림 아키텍처를 구성한다. 이를 통해 새로운 내용-정체성 조합에 대한 더 큰 일반화 가능성을 제공하며, 궁극적으로 더 견고한 화자 정체성 표현을 산출할 수 있다. 우리는 ‘in the wild’ 환경의 대규모 오디오-비주얼(오디오-시각) 데이터셋에서 본 방법을 학습하고, 표준 화자 인식 성능을 평가함으로써 학습된 화자 표현의 효능을 입증한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Computer scienceIdentity (music)Construct (python library)ModalAnnotationSpeaker recognitionSpeech recognitionNatural language processingExploitArtificial intelligence

타입

article

IF / 인용수

- / 93

원문

https://ora.ox.ac.uk/objects/uuid:7ea9a007-6578-44f7-9ce8-9b3197cbeeb8

게재 연도

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)