텍스트 자료를 음성 데이터로 변환하는 음성 합성 시스템에서 정확성과 자연성은 핵심 성능 척도이며, 최근에는 후자가 더욱 큰 주목을 받고 있다. 합성 음성을 자연스럽게 만들기 위해서는 동형이의어(동음이의어) 등 발음과 관련된 언어 현상을 고려해야 한다. 이러한 동형이의어를 구분하는 데 문법(통사)은 분명 중요한 단서를 제공하지만, 한국어의 비교적 자유로운 어순은 그러한 정보를 활용하기 어렵게 만든다. 본 논문에서는 Combinatory Categorial Grammar(결합범주문법) 프레임워크에서 더 상위 수준의 언어 정보를 활용하여 한국어에서 단어에 대해 문맥에 적합한 모음 길이를 계산적으로 생성하는 방법을 제시한다. 우리는 모음 소리의 동형이의어를 판별하기 위한 통사적·의미적 단서로 품사 정보, 접미사와의 결합 가능성, 격 정보, 활용되지 않은 형용사, 수사, 관련 명사를 동반하는 수사적 형용사, 그리고 명사와 그 서술어 간의 관계를 고려한다. 결과는 특정 시스템에 중립적으로 적용될 수 있도록 대상 시스템을 위해 Speech Synthesis Markup Language(SSML)로 표현한다. 올바르게 예측된 모음 소음을 기반으로 한 제안 시스템은 교육 도구로 활용될 수 있을 뿐 아니라, 범용 텍스트-음성 변환(Text-to-Speech, TTS) 시스템의 이해 가능성을 향상시키는 플러그인으로도 사용할 수 있다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.