최근의 신경망 기반 텍스트-음성 변환(TTS) 시스템은 고품질 음성 합성을 달성했으나, 학습 데이터의 제한 또는 지식 증류 과정에서의 정보 손실 등으로 인해 TTS 시스템이 저품질 음성을 생성하는 경우가 있다. 따라서 우리는 인지적 손실(perceptual loss) 하에 TTS 모델을 학습하는 새로운 방법을 제안하며, 이 손실은 가능한 최대 음성 품질 점수와 예측된 점수 사이의 거리를 측정한다. 먼저 평균 의견 점수(MOS) 예측 모델을 사전 학습하고, 이후 사전 학습된 MOS 예측 모델을 이용하여 합성 음성의 MOS를 최대화하도록 TTS 모델을 학습한다. 제안하는 방법은 TTS 모델의 아키텍처나 음성 품질 저하의 원인과 무관하게 독립적으로 적용 가능하며, 추론 시간이나 모델 복잡도를 증가시키지 않으면서도 효율적으로 동작한다. MOS 및 음소 오류율(phone error rate)에 대한 평가 결과는, 본 접근법이 자연스러움과 이해가능성 측면에서 이전 모델들을 모두 향상시킴을 보여준다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.