기본 정보
연구 분야
프로젝트
논문
구성원
preprint|
인용수 0
·2025
AdaptVC: High Quality Voice Conversion with Adaptive Learning
Jaehun Kim, Ji‐Hoon Kim, Yeunju Choi, Tan Dat Nguyen, Seongkyu Mun, Joon Son Chung
arXiv (Cornell University)
초록

음성 변환의 목표는 원 화자의 발화를 참조 화자의 음성처럼 들리게 하면서 원래의 내용을 보존하는 것이다. 핵심 과제는 원 화자로부터는 분리된 언어적 콘텐츠를 추출하고, 참조 화자로부터는 음성 스타일을 추출하는 것이다. 기존 접근법들은 두 요소를 분리하기 위해 다양한 방법을 활용하지만, 일반화 성능은 특히 제로샷 시나리오에서의 견고성 측면에서 여전히 추가적인 주의가 필요하다. 본 논문에서는 어댑터로 자기지도 학습 음성 특징을 미세조정하여 콘텐츠와 화자 특징의 성공적인 분리를 달성한다. 어댑터는 풍부한 자기지도 학습 특징으로부터 미묘한 특징을 동적으로 인코딩하도록 학습되며, 디코더는 이를 융합하여 콘텐츠의 손실을 최소화하면서 참조에 정확히 유사한 음성을 생성한다. 또한, 조건부 플로우 매칭 디코더와 교차-주의(cross-attention) 기반 화자 조건화를 활용하여 합성의 품질과 효율을 한층 더 향상시킨다. 제로샷 시나리오에서의 주관적 및 객관적 평가 결과, 제안 방법은 음성의 품질과 참조 음성과의 유사성에서 기존 모델을 능가함을 확인하였다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
Quality (philosophy)Speech recognitionComputer science
타입
preprint
IF / 인용수
- / 0
게재 연도
2025

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.