음성품질 최적화 기반 TTS와 화자·표정 조건 음성변환

TTS Quality Maximization and Expressive Voice Conversion for Speaker and Prosody Control

연구 내용

MOS 예측으로 생성 음성의 품질을 직접 최적화하고, 화자 임베딩 및 prosody·emotion 정보를 조건으로 원샷 합성과 음성변환을 수행하는 연구

생성 음성의 자연스러움과 명료도를 함께 다루기 위해 MOS 예측 모델을 선학습하고, perceptual loss 형태로 최대 가능한 품질 점수와 예측값의 차이를 줄이는 방식으로 TTS를 학습합니다. 또한 RawNet3 기반 speaker representation을 결합해 FastSpeech2와 HiFi-GAN 구조에서 원샷 다화자 합성을 수행하며, 보이지 않는 화자의 음성을 생성할 수 있도록 합니다. 음성변환에서는 adaptive global response normalization과 cluster-based pseudo labels로 zero-shot 변환을 지원하고, prosody embedding과 VAD 예측을 활용해 F0·에너지·감정 속성을 보존하는 expressive voice conversion을 구현합니다.

관련 프로젝트

0건

연구 흐름

초기에는 TTS에서 발생하는 품질 저하를 원인과 무관하게 다루기 위해 MOS 예측을 직접 학습목표로 연결하는 방법을 정립했습니다. 이후 화자 특성을 빠르게 반영하기 위해 RawNet3 기반 speaker encoder를 결합한 원샷 다화자 TTS로 확장하고, 합성 품질과 화자 유사도를 함께 평가하는 체계를 마련했습니다. 최근에는 zero-shot voice conversion과 expressive voice conversion으로 연구를 확장하여, speaker identity 분리와 prosody·emotion 일관성 유지에 초점을 맞춘 모델 구성을 수행했습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

개인화 음성 합성
화자 기반 텍스트 음성 변환
원샷 화자 적응
AI 튜터 보이스 생성
영상 더빙 자동화
감정 표현 음성 생성
음성 품질 예측 기반 튜닝
보이스 클로닝 워크플로
다국어 화자 조건 음성 생성
멀티미디어 음성 콘텐츠 제작