주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
Preprint
|
인용수 0
·
2025HuBERT-VIC: Improving Noise-Robust Automatic Speech Recognition of Speech Foundation Model via Variance-Invariance-Covariance Regularization
Hyebin Ahn, Kangwook Jang, Hoirin Kim
ArXiv.org
음성 파운데이션 모델(Speech Foundation Models, SFMs)의 잡음 강건성은 중요한 과제로, 대부분의 모델이 주로 정제(clean) 데이터로 학습되며 잡음이 섞인 음성에 노출될 때 성능이 저하되는 문제가 있다. 이를 해결하기 위해 우리는 분산(variance), 불변(in-variance), 공분산(covariance) 정규화(VICReg) 목적을 갖춘 잡음 강건 SFM인 HuBERT-VIC를 제안한다. 이러한 목적은 잡음이 포함된 음성 표현의 통계를 조정하여, 모델이 다양한 음향적 특성을 포착할 수 있도록 하고 서로 다른 유형의 잡음에 대한 일반화 능력을 향상시킨다. HuBERT에 적용한 결과, 우리의 모델은 잡음이 포함된 음성으로 사전학습된 기준(baseline) 모델에 비해 LibriSpeech test-clean에서 23.3%, test-other에서 13.2%의 상대적 성능 향상을 보였다.
http://arxiv.org/abs/2508.12292
Robustness (evolution)
Covariance
Regularization (linguistics)
Generalization
Noise (video)
Noise measurement
Baseline (sea)
Hidden Markov model
Acoustic model
2
Article
|
·
인용수 2
·
2025Improving Cross-Lingual Phonetic Representation of Low-Resource Languages Through Language Similarity Analysis
Minu Kim, Kangwook Jang, Hoirin Kim
본 논문은 저자원 언어를 위한 음성 처리에서 교차언어 음성 표현이 언어적 유사성에 의해 어떻게 영향을 받는지, 그리고 효과적인 출발(소스) 언어 선택을 강조하여 고찰한다. 선행 교차언어 연구는 다양한 출발 언어를 활용해 대상 저자원 언어의 성능을 향상시켜 왔으나, 선택에 대한 철저한 고려 없이 수행되었다. 본 연구는 여러 언어 계통 간 음성적 근접성을 평가하기 위한 실용적 접근을 바탕으로, 언어 선택에 관한 심층 분석을 제공한다는 점에서 차별성을 가진다. 우리는 다언어 훈련에서 계통 내 유사성이 성능에 미치는 영향을 조사하여 언어 역동성을 이해하는 데 도움을 주고자 한다. 또한 계통과 무관하게 음운적으로 유사한 언어를 사용하는 효과를 평가한다. 음소 인식 과제에서 음운적으로 유사한 언어를 활용하면 단일언어 훈련 대비 상대적 성능이 일관되게 55.6% 향상되며, 이는 대규모 자기지도 학습 모델의 성능을 상회하기까지 한다. 동일한 언어 계통 내에서의 다언어 훈련은 더 높은 음운적 유사성이 성능을 향상시키는 반면, 낮은 유사성은 단일언어 훈련에 비해 성능을 저하시킨다는 것을 보여준다.
https://doi.org/10.1109/icassp49660.2025.10888101
Computer science
Natural language processing
Similarity (geometry)
Representation (politics)
Artificial intelligence
Linguistics
3
Article
|
인용수 0
·
2025Expressive voice conversion enhancing prosody and emotion consistency*
Sun-Mo Koo, Hoirin Kim
Phonetics and Speech Sciences
한국어 음성 변환(voice-conversion) 과제에서는 화자 신원을 변환할 뿐만 아니라 운율(prosody)과 정서적 일관성을 보존하는 것이 필수적이다. 언어에서 의미를 전달하는 데 억양과 리듬이 핵심이기 때문이다. 그러나 기존의 음성 변환(VC) 시스템은 주로 화자 음색을 변화시키는 데 집중하며, 운율과 감정과 같은 표현적 측면을 간과하는 경향이 있다. 이러한 한계는 애니메이션 더빙이나 감정적으로 표현력 있는 음성 생성과 같은 응용에서 특히 문제가 되는데, 이들 분야에서는 정교한 전달이 중요하기 때문이다. 이에 본 연구에서는 새로운 표현적 음성 변환(EVC) 모델을 제안한다. 우리의 모델은 triple adaptive attention normalization–VC 프레임워크에 기반하며, F0, 에너지, 그리고 valence, arousal, dominance(VAD)로 표현되는 정서적 특성을 결합한 운율 임베딩을 도입한다. 이 임베딩은 한국어의 운율적 특성을 보다 정밀하게 포착한다. 또한 화자 인코더에서 운율 정보를 억제하기 위해 mix-layer normalization을 적용함으로써 화자 신원과 운율의 분리를 향상시킨다. 정서적 표현력을 더욱 강화하기 위해 전용 VAD 예측기를 포함하여 감정 학습을 안내한다. 한국어 음성 데이터로 수행한 실험 결과, 본 모델은 운율 보존과 정서적 전달 측면에서 기존 EVC 시스템보다 우수함을 보였다. 특히 본 모델은 평균 운율 mean opinion score가 4.11에 도달하여, 자연스럽고 표현력 있는 한국어 음성 생성이 가능함을 시사한다. 본 연구는 VC 시스템에서 정확성과 표현력 모두를 향상시키기 위한 유망한 방향을 제시한다.
https://doi.org/10.13064/ksss.2025.17.2.039
Prosody
Consistency (knowledge bases)
Psychology
Linguistics
Communication
Cognitive psychology
Computer science
Speech recognition
Artificial intelligence
4
Article
|
·
인용수 0
·
2025ParaNoise-SV: Integrated Approach for Noise-Robust Speaker Verification with Parallel Joint Learning of Speech Enhancement and Noise Extraction
Minu Kim, Kangwook Jang, Hoirin Kim
https://doi.org/10.21437/interspeech.2025-1145
Speech enhancement
Joint (building)
Noise (video)
Speaker recognition
Speaker verification
Background noise
Noise reduction
Pattern recognition (psychology)
5
Article
|
인용수 11
·
2022Learning to Maximize Speech Quality Directly Using MOS Prediction for Neural Text-to-Speech
Yeunju Choi, Youngmoon Jung, Young-Joo Suh, Hoirin Kim
IF 3.9 (2022)
IEEE Access
최근의 신경망 기반 텍스트-음성 변환(TTS) 시스템은 고품질 음성 합성을 달성했으나, 학습 데이터의 제한 또는 지식 증류 과정에서의 정보 손실 등으로 인해 TTS 시스템이 저품질 음성을 생성하는 경우가 있다. 따라서 우리는 인지적 손실(perceptual loss) 하에 TTS 모델을 학습하는 새로운 방법을 제안하며, 이 손실은 가능한 최대 음성 품질 점수와 예측된 점수 사이의 거리를 측정한다. 먼저 평균 의견 점수(MOS) 예측 모델을 사전 학습하고, 이후 사전 학습된 MOS 예측 모델을 이용하여 합성 음성의 MOS를 최대화하도록 TTS 모델을 학습한다. 제안하는 방법은 TTS 모델의 아키텍처나 음성 품질 저하의 원인과 무관하게 독립적으로 적용 가능하며, 추론 시간이나 모델 복잡도를 증가시키지 않으면서도 효율적으로 동작한다. MOS 및 음소 오류율(phone error rate)에 대한 평가 결과는, 본 접근법이 자연스러움과 이해가능성 측면에서 이전 모델들을 모두 향상시킴을 보여준다.
https://doi.org/10.1109/access.2022.3175810
Naturalness
Computer science
Intelligibility (philosophy)
Speech recognition
Mean opinion score
Speech synthesis
Artificial neural network
Inference
Phone
Artificial intelligence