한국어 음성 변환(voice-conversion) 과제에서는 화자 신원을 변환할 뿐만 아니라 운율(prosody)과 정서적 일관성을 보존하는 것이 필수적이다. 언어에서 의미를 전달하는 데 억양과 리듬이 핵심이기 때문이다. 그러나 기존의 음성 변환(VC) 시스템은 주로 화자 음색을 변화시키는 데 집중하며, 운율과 감정과 같은 표현적 측면을 간과하는 경향이 있다. 이러한 한계는 애니메이션 더빙이나 감정적으로 표현력 있는 음성 생성과 같은 응용에서 특히 문제가 되는데, 이들 분야에서는 정교한 전달이 중요하기 때문이다. 이에 본 연구에서는 새로운 표현적 음성 변환(EVC) 모델을 제안한다. 우리의 모델은 triple adaptive attention normalization–VC 프레임워크에 기반하며, F0, 에너지, 그리고 valence, arousal, dominance(VAD)로 표현되는 정서적 특성을 결합한 운율 임베딩을 도입한다. 이 임베딩은 한국어의 운율적 특성을 보다 정밀하게 포착한다. 또한 화자 인코더에서 운율 정보를 억제하기 위해 mix-layer normalization을 적용함으로써 화자 신원과 운율의 분리를 향상시킨다. 정서적 표현력을 더욱 강화하기 위해 전용 VAD 예측기를 포함하여 감정 학습을 안내한다. 한국어 음성 데이터로 수행한 실험 결과, 본 모델은 운율 보존과 정서적 전달 측면에서 기존 EVC 시스템보다 우수함을 보였다. 특히 본 모델은 평균 운율 mean opinion score가 4.11에 도달하여, 자연스럽고 표현력 있는 한국어 음성 생성이 가능함을 시사한다. 본 연구는 VC 시스템에서 정확성과 표현력 모두를 향상시키기 위한 유망한 방향을 제시한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.