Korean Sentence Symbol Preprocess System for the Improvement of Speech Synthesis Quality
Ho‐Joon Lee
Journal of the Korea Society of Computer and Information
본 논문에서는 SSML(speech synthesis markup language)을 지원하는 음성 합성 시스템에서 합성 결과의 품질을 향상시키기 위해 한국어 문장 기호 전처리기를 제안한다. 한국어 위키피디아 문서를 분석한 후, 문장 기호의 의미에 대해 8가지 범주를 제안하고, 각 범주를 분류하기 위한 11개의 정규표현식 규칙을 제시한다. 한국어 문장 기호 전처리 시스템을 개발한 결과, 63,000개의 문장에 대해 정확도 56%와 재현율 71.45%를 달성하였다.
How to Express Emotion: Role of Prosody and Voice Quality Parameters
Sang-Min Lee, Ho‐Joon Lee
Journal of the Korea Society of Computer and Information
본 논문에서는 감정을 통해 단어의 의미가 변화될 때 운율과 음질로 표현되는 음향 요소가 어떠한 역할을 하는지 분석한다. 이를 위해 6명의 발화자에 의해 5가지 감정 상태로 표현된 60개의 발화 자료를 사용하여 감정에 따른 운율 및 음질의 변화를 살펴본다. 감정에 따른 운율 및 음질의 변화를 찾기 위해 8개의 서로 다른 감정 음향 단서를 분석하였으며, 음향 단서의 지배적인 연속(서열)을 찾기 위해 판별 분석(discriminant analysis) 기법을 사용하였다. 그 결과 분노는 음의 세기(intensity level) 및 2차 포먼트 대역너비(range)와 밀접한 관련이 있음을 확인하였고, 기쁨은 2차 및 3차 포먼트 값의 위치와 음의 세기와의 상대적 관련성이 있음을 확인할 수 있었다. 또한 슬픔은 음질 단서보다는 음의 세기와 높낮이(pitch level) 수준과 같은 운율 단서와만 강한 관련이 있었으며, 공포는 음의 높낮이와 2차 포먼트 값 및 그 대역너비 범위와 관련이 있음을 알 수 있었다. 이러한 결과는 감정 상태 각각의 미묘한 특성을 드러내는 서로 다른 음향 단서의 연속이기 때문에, 감정 구어(言語) 생성 시스템의 파인튜닝을 위한 지침으로 활용될 수 있을 것으로 기대된다.
본 논문에서는 감정을 통해 단어의 의미가 변화될 때 운율과 음질로 표현되는 음향 요소가 어떠한 역할을 하는지 분석한다. 이를 위해 6명의 발화자에 의해 5가지 감정 상태로 표현된 60개의 데이터를 이용하여 감정에 따른 운율과 음질의 변화를 살펴본다. 감정에 따른 운율과 음질의 변화를 찾기 위해 8개의 음향 요소를 분석하였으며, 각 감정 상태를 표현하는 주요한 요소를 판별 해석을 통해 통계적으로 분석한다. 그 결과 화남의 감정은 음의 세기 및 2차 포먼트 대역너비와 깊은 연관이 있음을 확인할 수 있었고, 기쁨의 감정은 2차와 3차 포먼트 값 및 음의 세기와 연관이 있으며, 슬픔은 음질 보다는 주로 음의 세기와 높낮이 정보에 영향을 받는 것을 확인할 수 있었으며, 공포는 음의 높낮이와 2차 포먼트 값 및 그 대역너비와 깊은 관계가 있음을 알 수 있었다. 이러한 결과는 감정 음성 인식시스템뿐만 아니라, 감정 음성 합성 시스템에서도 적극 활용될 수 있을 것으로 예상된다.
Vowel Sound Disambiguation for Intelligible Korean Speech Synthesis
Ho‐Joon Lee, Jong Cheol Park
Institutional Repositories DataBase (IRDB)
텍스트 자료를 음성 데이터로 변환하는 음성 합성 시스템에서 정확성과 자연성은 핵심 성능 척도이며, 최근에는 후자가 더욱 큰 주목을 받고 있다. 합성 음성을 자연스럽게 만들기 위해서는 동형이의어(동음이의어) 등 발음과 관련된 언어 현상을 고려해야 한다. 이러한 동형이의어를 구분하는 데 문법(통사)은 분명 중요한 단서를 제공하지만, 한국어의 비교적 자유로운 어순은 그러한 정보를 활용하기 어렵게 만든다. 본 논문에서는 Combinatory Categorial Grammar(결합범주문법) 프레임워크에서 더 상위 수준의 언어 정보를 활용하여 한국어에서 단어에 대해 문맥에 적합한 모음 길이를 계산적으로 생성하는 방법을 제시한다. 우리는 모음 소리의 동형이의어를 판별하기 위한 통사적·의미적 단서로 품사 정보, 접미사와의 결합 가능성, 격 정보, 활용되지 않은 형용사, 수사, 관련 명사를 동반하는 수사적 형용사, 그리고 명사와 그 서술어 간의 관계를 고려한다. 결과는 특정 시스템에 중립적으로 적용될 수 있도록 대상 시스템을 위해 Speech Synthesis Markup Language(SSML)로 표현한다. 올바르게 예측된 모음 소음을 기반으로 한 제안 시스템은 교육 도구로 활용될 수 있을 뿐 아니라, 범용 텍스트-음성 변환(Text-to-Speech, TTS) 시스템의 이해 가능성을 향상시키는 플러그인으로도 사용할 수 있다.