논문 | 김회린 교수 연구실 | 한국과학기술원 전기및전자공학부

|김회린 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

논문

연구 성과 추이

표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

주요 논문

*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.

Preprint

인용수 0

2025

HuBERT-VIC: Improving Noise-Robust Automatic Speech Recognition of Speech Foundation Model via Variance-Invariance-Covariance Regularization

Hyebin Ahn, Kangwook Jang, Hoirin Kim

ArXiv.org

음성 파운데이션 모델(Speech Foundation Models, SFMs)의 잡음 강건성은 중요한 과제로, 대부분의 모델이 주로 정제(clean) 데이터로 학습되며 잡음이 섞인 음성에 노출될 때 성능이 저하되는 문제가 있다. 이를 해결하기 위해 우리는 분산(variance), 불변(in-variance), 공분산(covariance) 정규화(VICReg) 목적을 갖춘 잡음 강건 SFM인 HuBERT-VIC를 제안한다. 이러한 목적은 잡음이 포함된 음성 표현의 통계를 조정하여, 모델이 다양한 음향적 특성을 포착할 수 있도록 하고 서로 다른 유형의 잡음에 대한 일반화 능력을 향상시킨다. HuBERT에 적용한 결과, 우리의 모델은 잡음이 포함된 음성으로 사전학습된 기준(baseline) 모델에 비해 LibriSpeech test-clean에서 23.3%, test-other에서 13.2%의 상대적 성능 향상을 보였다.

http://arxiv.org/abs/2508.12292

Robustness (evolution)

Covariance

Regularization (linguistics)

Generalization

Noise (video)

Noise measurement

Baseline (sea)

Hidden Markov model

Acoustic model

Article

인용수 2

2025

Improving Cross-Lingual Phonetic Representation of Low-Resource Languages Through Language Similarity Analysis

Minu Kim, Kangwook Jang, Hoirin Kim

본 논문은 저자원 언어를 위한 음성 처리에서 교차언어 음성 표현이 언어적 유사성에 의해 어떻게 영향을 받는지, 그리고 효과적인 출발(소스) 언어 선택을 강조하여 고찰한다. 선행 교차언어 연구는 다양한 출발 언어를 활용해 대상 저자원 언어의 성능을 향상시켜 왔으나, 선택에 대한 철저한 고려 없이 수행되었다. 본 연구는 여러 언어 계통 간 음성적 근접성을 평가하기 위한 실용적 접근을 바탕으로, 언어 선택에 관한 심층 분석을 제공한다는 점에서 차별성을 가진다. 우리는 다언어 훈련에서 계통 내 유사성이 성능에 미치는 영향을 조사하여 언어 역동성을 이해하는 데 도움을 주고자 한다. 또한 계통과 무관하게 음운적으로 유사한 언어를 사용하는 효과를 평가한다. 음소 인식 과제에서 음운적으로 유사한 언어를 활용하면 단일언어 훈련 대비 상대적 성능이 일관되게 55.6% 향상되며, 이는 대규모 자기지도 학습 모델의 성능을 상회하기까지 한다. 동일한 언어 계통 내에서의 다언어 훈련은 더 높은 음운적 유사성이 성능을 향상시키는 반면, 낮은 유사성은 단일언어 훈련에 비해 성능을 저하시킨다는 것을 보여준다.

https://doi.org/10.1109/icassp49660.2025.10888101

Computer science

Natural language processing

Similarity (geometry)

Representation (politics)

Artificial intelligence

Linguistics

Article

인용수 0

2025

Expressive voice conversion enhancing prosody and emotion consistency*

Sun-Mo Koo, Hoirin Kim

Phonetics and Speech Sciences

한국어 음성 변환(voice-conversion) 과제에서는 화자 신원을 변환할 뿐만 아니라 운율(prosody)과 정서적 일관성을 보존하는 것이 필수적이다. 언어에서 의미를 전달하는 데 억양과 리듬이 핵심이기 때문이다. 그러나 기존의 음성 변환(VC) 시스템은 주로 화자 음색을 변화시키는 데 집중하며, 운율과 감정과 같은 표현적 측면을 간과하는 경향이 있다. 이러한 한계는 애니메이션 더빙이나 감정적으로 표현력 있는 음성 생성과 같은 응용에서 특히 문제가 되는데, 이들 분야에서는 정교한 전달이 중요하기 때문이다. 이에 본 연구에서는 새로운 표현적 음성 변환(EVC) 모델을 제안한다. 우리의 모델은 triple adaptive attention normalization–VC 프레임워크에 기반하며, F0, 에너지, 그리고 valence, arousal, dominance(VAD)로 표현되는 정서적 특성을 결합한 운율 임베딩을 도입한다. 이 임베딩은 한국어의 운율적 특성을 보다 정밀하게 포착한다. 또한 화자 인코더에서 운율 정보를 억제하기 위해 mix-layer normalization을 적용함으로써 화자 신원과 운율의 분리를 향상시킨다. 정서적 표현력을 더욱 강화하기 위해 전용 VAD 예측기를 포함하여 감정 학습을 안내한다. 한국어 음성 데이터로 수행한 실험 결과, 본 모델은 운율 보존과 정서적 전달 측면에서 기존 EVC 시스템보다 우수함을 보였다. 특히 본 모델은 평균 운율 mean opinion score가 4.11에 도달하여, 자연스럽고 표현력 있는 한국어 음성 생성이 가능함을 시사한다. 본 연구는 VC 시스템에서 정확성과 표현력 모두를 향상시키기 위한 유망한 방향을 제시한다.

https://doi.org/10.13064/ksss.2025.17.2.039

Prosody

Consistency (knowledge bases)

Psychology

Linguistics

Communication

Cognitive psychology

Computer science

Speech recognition

Artificial intelligence

Article

인용수 0

2025

ParaNoise-SV: Integrated Approach for Noise-Robust Speaker Verification with Parallel Joint Learning of Speech Enhancement and Noise Extraction

Minu Kim, Kangwook Jang, Hoirin Kim

https://doi.org/10.21437/interspeech.2025-1145

Speech enhancement

Joint (building)

Noise (video)

Speaker recognition

Speaker verification

Background noise

Noise reduction

Pattern recognition (psychology)

Article

인용수 11

2022

Learning to Maximize Speech Quality Directly Using MOS Prediction for Neural Text-to-Speech

Yeunju Choi, Youngmoon Jung, Young-Joo Suh, Hoirin Kim

IF 3.9 (2022)

IEEE Access

최근의 신경망 기반 텍스트-음성 변환(TTS) 시스템은 고품질 음성 합성을 달성했으나, 학습 데이터의 제한 또는 지식 증류 과정에서의 정보 손실 등으로 인해 TTS 시스템이 저품질 음성을 생성하는 경우가 있다. 따라서 우리는 인지적 손실(perceptual loss) 하에 TTS 모델을 학습하는 새로운 방법을 제안하며, 이 손실은 가능한 최대 음성 품질 점수와 예측된 점수 사이의 거리를 측정한다. 먼저 평균 의견 점수(MOS) 예측 모델을 사전 학습하고, 이후 사전 학습된 MOS 예측 모델을 이용하여 합성 음성의 MOS를 최대화하도록 TTS 모델을 학습한다. 제안하는 방법은 TTS 모델의 아키텍처나 음성 품질 저하의 원인과 무관하게 독립적으로 적용 가능하며, 추론 시간이나 모델 복잡도를 증가시키지 않으면서도 효율적으로 동작한다. MOS 및 음소 오류율(phone error rate)에 대한 평가 결과는, 본 접근법이 자연스러움과 이해가능성 측면에서 이전 모델들을 모두 향상시킴을 보여준다.

https://doi.org/10.1109/access.2022.3175810

Naturalness

Computer science

Intelligibility (philosophy)

Speech recognition

Mean opinion score

Speech synthesis

Artificial neural network

Inference

Phone

Artificial intelligence

전체 논문

145

Preprint

인용수 0

2025

HuBERT-VIC: Improving Noise-Robust Automatic Speech Recognition of Speech Foundation Model via Variance-Invariance-Covariance Regularization

Hyebin Ahn, Kangwook Jang, Hoirin Kim

ArXiv.org

http://arxiv.org/abs/2508.12292

Robustness (evolution)

Covariance

Regularization (linguistics)

Generalization

Noise (video)

Noise measurement

Baseline (sea)

Hidden Markov model

Acoustic model

Article

인용수 2

2025

Improving Cross-Lingual Phonetic Representation of Low-Resource Languages Through Language Similarity Analysis

Minu Kim, Kangwook Jang, Hoirin Kim

https://doi.org/10.1109/icassp49660.2025.10888101

Computer science

Natural language processing

Similarity (geometry)

Representation (politics)

Artificial intelligence

Linguistics

Article

인용수 0

2025

Expressive voice conversion enhancing prosody and emotion consistency*

Sun-Mo Koo, Hoirin Kim

Phonetics and Speech Sciences

https://doi.org/10.13064/ksss.2025.17.2.039

Prosody

Consistency (knowledge bases)

Psychology

Linguistics

Communication

Cognitive psychology

Computer science

Speech recognition

Artificial intelligence

Article

인용수 0

2025

ParaNoise-SV: Integrated Approach for Noise-Robust Speaker Verification with Parallel Joint Learning of Speech Enhancement and Noise Extraction

Minu Kim, Kangwook Jang, Hoirin Kim

https://doi.org/10.21437/interspeech.2025-1145

Speech enhancement

Joint (building)

Noise (video)

Speaker recognition

Speaker verification

Background noise

Noise reduction

Pattern recognition (psychology)

Article

인용수 11

2022

Learning to Maximize Speech Quality Directly Using MOS Prediction for Neural Text-to-Speech

Yeunju Choi, Youngmoon Jung, Young-Joo Suh, Hoirin Kim

IF 3.9 (2022)

IEEE Access

https://doi.org/10.1109/access.2022.3175810

Naturalness

Computer science

Intelligibility (philosophy)

Speech recognition

Mean opinion score

Speech synthesis

Artificial neural network

Inference

Phone

Artificial intelligence

Article

인용수 0

2025

HuBERT-VIC: Improving Noise-Robust Automatic Speech Recognition of Speech Foundation Model via Variance-Invariance-Covariance Regularization

Hyebin Ahn, Kangwook Jang, Hoirin Kim

https://doi.org/10.21437/interspeech.2025-397

Regularization (linguistics)

Speech processing

Intelligibility (philosophy)

Pattern recognition (psychology)

Speaker recognition

Foundation (evidence)

Preprint

인용수 0

2025

ParaNoise-SV: Integrated Approach for Noise-Robust Speaker Verification with Parallel Joint Learning of Speech Enhancement and Noise Extraction

Kim, Minu, Kangwook Jang, Hoirin Kim

ArXiv.org

잡음에 강인한 화자 검증은 음성 향상(SE)과 화자 검증(SV)의 공동 학습을 활용하여 견고성을 향상시킨다. 그러나 기존의 접근법들은 암묵적인 잡음 억제에 의존하는 경우가 많으며, 학습 과정에서 잡음을 음성 특성과 명시적으로 구분하지 않기 때문에 잡음을 화자 특성으로부터 분리하는 데 어려움이 있다. SE와 SV를 통합하면 도움이 되지만, 잡음을 효과적으로 처리하는 데에는 여전히 한계가 있다. 한편 최근의 SE 연구들은 단순히 억제하는 것에 그치지 않고 잡음을 명시적으로 모델링하는 것이 잡음 내성을 향상시킨다고 시사한다. 이를 반영하여 본 연구에서는 ParaNoise-SV를 제안한다. ParaNoise-SV는 잡음 추출(NE) 네트워크와 음성 향상(SE) 네트워크의 두 개의 U-Net을 결합한다. NE U-Net은 잡음을 명시적으로 모델링하는 반면, SE U-Net은 병렬 연결을 통해 NE로부터의 지도를 받아 음성을 정교화함으로써 화자와 관련된 특징을 보존한다. 실험 결과, ParaNoise-SV는 기존의 공동 SE-SV 모델들에 비해 상대적으로 8.4% 더 낮은 동등오류율(EER)을 달성함을 보여주었다.

http://arxiv.org/abs/2508.07219

Speech enhancement

Joint (building)

Noise (video)

Speaker verification

Speaker recognition

Noise measurement

Speech processing

Preprint

인용수 0

2025

Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses

Sungnyun Kim, Kangwook Jang, Sung‐Woo Cho, Joon Son Chung, Hoirin Kim, Se-Young Yun

ArXiv.org

본 논문은 오디오-시각 음성인식(AVSR)에서 언어 공간 내에서 양식(modality) 특화 근거를 직접 추론하는 생성적 오류 정정(GER) 프레임워크의 새로운 패러다임을 제안한다. 본 프레임워크인 DualHyp은 대규모 언어 모델(LLM)이 별도의 자동 음성인식(ASR) 및 시각 음성인식(VSR) 모델로부터 독립적인 N-best 가설을 구성하도록 한다. DualHyp의 효과를 극대화하기 위해, 우리는 잡음 인지형 안내 메커니즘인 RelPrompt도 함께 제안하며, 이는 양식 기반의 프롬프트를 LLM에 제공한다. RelPrompt는 각 양식 스트림의 시간적 신뢰도를 제공하여, 모델이 ASR 및 VSR 가설 사이에 초점을 동적으로 전환하면서 정확한 정정을 수행하도록 유도한다. 다양한 손상(corruption) 시나리오에서, 본 프레임워크는 표준 ASR 기준선 대비 LRS2 벤치마크에서 최대 57.7%의 오류율 개선을 달성하였으며, 단일 스트림 GER 접근법이 단지 10%의 개선만을 보이는 것과 대비된다. DualHyp 프레임워크 내에서의 연구를 촉진하기 위해, ASR 및 VSR 가설을 포함한 코드와 데이터셋을 https://github.com/sungnyun/dualhyp 에 공개한다.

http://arxiv.org/abs/2510.13281

Word error rate

Focus (optics)

Error detection and correction

Reliability (semiconductor)

Benchmark (surveying)

Generative grammar

Language model

Code (set theory)

Article

인용수 4

2024

Learning Video Temporal Dynamics With Cross-Modal Attention For Robust Audio-Visual Speech Recognition

Sungnyun Kim, Kangwook Jang, Sangmin Bae, Hoirin Kim, Se-Young Yun

오디오-시각 음성인식(AVSR)은 오디오와 비디오 두 가지 양식을 모두 사용하여 사람의 음성을 전사하는 것을 목표로 한다. 잡음이 포함된 오디오가 지배적인 실제 환경에서는 비디오 정보의 역할이 특히 중요해진다. 그러나 기존 연구들은 주로 AVSR에서 오디오 특징을 향상시키는 데 집중해 왔으며, 비디오 특징의 중요성은 상대적으로 간과해 왔다. 본 연구에서는 비디오 데이터에서의 세 가지 시간적 역학을 학습하여 비디오 특징을 강화한다: 문맥의 순서, 재생 방향, 그리고 비디오 프레임의 속도이다. 또한 음성의 변이성을 비디오의 시간적 역학에 대한 학습 과정에서 반영할 수 있도록, 오디오 정보를 비디오 특징에 풍부하게 결합하는 교차-양식 주의 모듈을 도입한다. 우리의 접근 방법을 바탕으로 잡음 우세(noise-dominant) 설정에서 LRS2 및 LRS3 AVSR 벤치마크에 대해 최신 성능을 달성한다. 특히 잡음 대화(babble)와 음성 잡음(speech noise) 환경에서 우수함을 보이며, 이는 비디오 양식에서의 입 모양(lip movements)으로부터 인식되어야 하는 음성 신호를 구별할 수 있음을 시사한다. 우리는 시간적 역학 손실 및 교차-양식 주의 아키텍처 설계에 대한 절제 실험(ablation experiments)을 제공함으로써 방법론의 타당성을 뒷받침한다.

https://doi.org/10.1109/slt61566.2024.10832305

Computer science

Speech recognition

Audio visual

Modal

Dynamics (music)

Artificial intelligence

Multimedia

Acoustics

Article

인용수 3

2024

STaR: Distilling Speech Temporal Relation for Lightweight Speech Self-Supervised Learning Models

Kangwook Jang, Sungnyun Kim, Hoirin Kim

음성 자체지도학습(SSL) 모델에서 Transformer 기반 방법이 뛰어난 성능을 보이기는 하지만, 대규모 파라미터와 계산 비용으로 인해 활용하기에는 불리한 점이 있다. 본 연구에서는 STaR(음성 시간적 관계 distillation)로 음성 SSL 모델을 압축하는 방식을 제안한다. 각 음성 프레임의 표현을 직접 일치시키는 선행 연구와 달리, STaR 증류는 음성 프레임 간의 시간적 관계를 전달하며, 이는 제한된 수용 능력을 가진 경량 학생 모델에 더 적합하다. 우리는 세 가지 STaR 증류 목적함수를 탐색하고 최종 STaR 손실로 최선의 조합을 선택한다. HuBERT Base에서 증류한 본 모델은 SUPERB 벤치마크에서 전체 점수 79.8을 달성하였는데, 이는 최대 2,700만 파라미터를 갖는 모델들 중에서 가장 우수한 성능이다. 또한 본 방법이 다양한 음성 SSL 모델에 적용 가능하며, 파라미터를 추가로 줄인 경우에도 견고한 성능을 유지함을 보여준다.

https://doi.org/10.1109/icassp48485.2024.10447928

Computer science

Speech recognition

Relation (database)

Star (game theory)

Artificial intelligence

Mathematics

주요 논문

*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.

Preprint

인용수 0

2025

HuBERT-VIC: Improving Noise-Robust Automatic Speech Recognition of Speech Foundation Model via Variance-Invariance-Covariance Regularization

Hyebin Ahn, Kangwook Jang, Hoirin Kim

ArXiv.org

http://arxiv.org/abs/2508.12292

Robustness (evolution)

Covariance

Regularization (linguistics)

Generalization

Noise (video)

Noise measurement

Baseline (sea)

Hidden Markov model

Acoustic model

Article

인용수 2

2025

Improving Cross-Lingual Phonetic Representation of Low-Resource Languages Through Language Similarity Analysis

Minu Kim, Kangwook Jang, Hoirin Kim

https://doi.org/10.1109/icassp49660.2025.10888101

Computer science

Natural language processing

Similarity (geometry)

Representation (politics)

Artificial intelligence

Linguistics

Article

인용수 0

2025

Expressive voice conversion enhancing prosody and emotion consistency*

Sun-Mo Koo, Hoirin Kim

Phonetics and Speech Sciences

https://doi.org/10.13064/ksss.2025.17.2.039

Prosody

Consistency (knowledge bases)

Psychology

Linguistics

Communication

Cognitive psychology

Computer science

Speech recognition

Artificial intelligence

Article

인용수 0

2025

ParaNoise-SV: Integrated Approach for Noise-Robust Speaker Verification with Parallel Joint Learning of Speech Enhancement and Noise Extraction

Minu Kim, Kangwook Jang, Hoirin Kim

https://doi.org/10.21437/interspeech.2025-1145

Speech enhancement

Joint (building)

Noise (video)

Speaker recognition

Speaker verification

Background noise

Noise reduction

Pattern recognition (psychology)

Article

인용수 11

2022

Learning to Maximize Speech Quality Directly Using MOS Prediction for Neural Text-to-Speech

Yeunju Choi, Youngmoon Jung, Young-Joo Suh, Hoirin Kim

IF 3.9 (2022)

IEEE Access

https://doi.org/10.1109/access.2022.3175810

Naturalness

Computer science

Intelligibility (philosophy)

Speech recognition

Mean opinion score

Speech synthesis

Artificial neural network

Inference

Phone

Artificial intelligence

전체 논문

145

Preprint

인용수 0

2025

HuBERT-VIC: Improving Noise-Robust Automatic Speech Recognition of Speech Foundation Model via Variance-Invariance-Covariance Regularization

Hyebin Ahn, Kangwook Jang, Hoirin Kim

ArXiv.org

http://arxiv.org/abs/2508.12292

Robustness (evolution)

Covariance

Regularization (linguistics)

Generalization

Noise (video)

Noise measurement

Baseline (sea)

Hidden Markov model

Acoustic model

Article

인용수 2

2025

Improving Cross-Lingual Phonetic Representation of Low-Resource Languages Through Language Similarity Analysis

Minu Kim, Kangwook Jang, Hoirin Kim

https://doi.org/10.1109/icassp49660.2025.10888101

Computer science

Natural language processing

Similarity (geometry)

Representation (politics)

Artificial intelligence

Linguistics

Article

인용수 0

2025

Expressive voice conversion enhancing prosody and emotion consistency*

Sun-Mo Koo, Hoirin Kim

Phonetics and Speech Sciences

https://doi.org/10.13064/ksss.2025.17.2.039

Prosody

Consistency (knowledge bases)

Psychology

Linguistics

Communication

Cognitive psychology

Computer science

Speech recognition

Artificial intelligence

Article

인용수 0

2025

ParaNoise-SV: Integrated Approach for Noise-Robust Speaker Verification with Parallel Joint Learning of Speech Enhancement and Noise Extraction

Minu Kim, Kangwook Jang, Hoirin Kim

https://doi.org/10.21437/interspeech.2025-1145

Speech enhancement

Joint (building)

Noise (video)

Speaker recognition

Speaker verification

Background noise

Noise reduction

Pattern recognition (psychology)

Article

인용수 11

2022

Learning to Maximize Speech Quality Directly Using MOS Prediction for Neural Text-to-Speech

Yeunju Choi, Youngmoon Jung, Young-Joo Suh, Hoirin Kim

IF 3.9 (2022)

IEEE Access

https://doi.org/10.1109/access.2022.3175810

Naturalness

Computer science

Intelligibility (philosophy)

Speech recognition

Mean opinion score

Speech synthesis

Artificial neural network

Inference

Phone

Artificial intelligence

Article

인용수 0

2025

HuBERT-VIC: Improving Noise-Robust Automatic Speech Recognition of Speech Foundation Model via Variance-Invariance-Covariance Regularization

Hyebin Ahn, Kangwook Jang, Hoirin Kim

https://doi.org/10.21437/interspeech.2025-397

Regularization (linguistics)

Speech processing

Intelligibility (philosophy)

Pattern recognition (psychology)

Speaker recognition

Foundation (evidence)

Preprint

인용수 0

2025

ParaNoise-SV: Integrated Approach for Noise-Robust Speaker Verification with Parallel Joint Learning of Speech Enhancement and Noise Extraction

Kim, Minu, Kangwook Jang, Hoirin Kim

ArXiv.org

http://arxiv.org/abs/2508.07219

Speech enhancement

Joint (building)

Noise (video)

Speaker verification

Speaker recognition

Noise measurement

Speech processing

Preprint

인용수 0

2025

Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses

Sungnyun Kim, Kangwook Jang, Sung‐Woo Cho, Joon Son Chung, Hoirin Kim, Se-Young Yun

ArXiv.org

http://arxiv.org/abs/2510.13281

Word error rate

Focus (optics)

Error detection and correction

Reliability (semiconductor)

Benchmark (surveying)

Generative grammar

Language model

Code (set theory)

Article

인용수 4

2024

Learning Video Temporal Dynamics With Cross-Modal Attention For Robust Audio-Visual Speech Recognition

Sungnyun Kim, Kangwook Jang, Sangmin Bae, Hoirin Kim, Se-Young Yun

https://doi.org/10.1109/slt61566.2024.10832305

Computer science

Speech recognition

Audio visual

Modal

Dynamics (music)

Artificial intelligence

Multimedia

Acoustics

Article

인용수 3

2024

STaR: Distilling Speech Temporal Relation for Lightweight Speech Self-Supervised Learning Models

Kangwook Jang, Sungnyun Kim, Hoirin Kim

https://doi.org/10.1109/icassp48485.2024.10447928

Computer science

Speech recognition

Relation (database)

Star (game theory)

Artificial intelligence

Mathematics