RnDCircle Logo
김회린 연구실
한국과학기술원 전기및전자공학부 김회린 교수
음성인식
화자인증
음성합성(TTS)
연구 영역
기본 정보
논문·특허
과제
구성원

김회린 연구실

한국과학기술원 전기및전자공학부 김회린 교수

김회린 연구실은 음성 신호에서 발화 내용과 화자 특성을 추출하는 딥러닝 기반 인식 기술을 중심으로 연구합니다. 잡음 환경에서는 HuBERT 계열 음성기반 모델에 분산·불변성·공분산 정규화를 적용하고, 노이즈 추출 네트워크와 음성개선 네트워크를 병렬 학습하여 견고한 자동음성인식과 화자인증을 수행합니다. 또한 MOS 예측을 활용한 TTS 품질 최적화, RawNet3 화자 인코더 기반 원샷 다화자 합성과 prosody·emotion 조건 음성변환 모델을 개발합니다. 이 기술을 통화 음성·텍스트 분석 기반 보이스피싱 탐지·수사 지원 문제에 적용합니다.

음성인식화자인증음성합성(TTS)음성변환(VC)노이즈 견고 음성처리
대표 연구 분야
연구 영역 전체보기
잡음 강건 음성인식·화자인증과 음성개선 학습 thumbnail
잡음 강건 음성인식·화자인증과 음성개선 학습
Noise-Robust Speech Recognition and Speaker Verification with Speech Enhancement Learning
연구 분야 상세보기
연구 성과 추이
표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.
주요 논문
5
논문 전체보기
1
Preprint
|
인용수 0
·
2025
HuBERT-VIC: Improving Noise-Robust Automatic Speech Recognition of Speech Foundation Model via Variance-Invariance-Covariance Regularization
Hyebin Ahn, Kangwook Jang, Hoirin Kim
ArXiv.org
음성 파운데이션 모델(Speech Foundation Models, SFMs)의 잡음 강건성은 중요한 과제로, 대부분의 모델이 주로 정제(clean) 데이터로 학습되며 잡음이 섞인 음성에 노출될 때 성능이 저하되는 문제가 있다. 이를 해결하기 위해 우리는 분산(variance), 불변(in-variance), 공분산(covariance) 정규화(VICReg) 목적을 갖춘 잡음 강건 SFM인 HuBERT-VIC를 제안한다. 이러한 목적은 잡음이 포함된 음성 표현의 통계를 조정하여, 모델이 다양한 음향적 특성을 포착할 수 있도록 하고 서로 다른 유형의 잡음에 대한 일반화 능력을 향상시킨다. HuBERT에 적용한 결과, 우리의 모델은 잡음이 포함된 음성으로 사전학습된 기준(baseline) 모델에 비해 LibriSpeech test-clean에서 23.3%, test-other에서 13.2%의 상대적 성능 향상을 보였다.
http://arxiv.org/abs/2508.12292
Robustness (evolution)
Covariance
Regularization (linguistics)
Generalization
Noise (video)
Noise measurement
Baseline (sea)
Hidden Markov model
Acoustic model
2
Article
|
·
인용수 2
·
2025
Improving Cross-Lingual Phonetic Representation of Low-Resource Languages Through Language Similarity Analysis
Minu Kim, Kangwook Jang, Hoirin Kim
본 논문은 저자원 언어를 위한 음성 처리에서 교차언어 음성 표현이 언어적 유사성에 의해 어떻게 영향을 받는지, 그리고 효과적인 출발(소스) 언어 선택을 강조하여 고찰한다. 선행 교차언어 연구는 다양한 출발 언어를 활용해 대상 저자원 언어의 성능을 향상시켜 왔으나, 선택에 대한 철저한 고려 없이 수행되었다. 본 연구는 여러 언어 계통 간 음성적 근접성을 평가하기 위한 실용적 접근을 바탕으로, 언어 선택에 관한 심층 분석을 제공한다는 점에서 차별성을 가진다. 우리는 다언어 훈련에서 계통 내 유사성이 성능에 미치는 영향을 조사하여 언어 역동성을 이해하는 데 도움을 주고자 한다. 또한 계통과 무관하게 음운적으로 유사한 언어를 사용하는 효과를 평가한다. 음소 인식 과제에서 음운적으로 유사한 언어를 활용하면 단일언어 훈련 대비 상대적 성능이 일관되게 55.6% 향상되며, 이는 대규모 자기지도 학습 모델의 성능을 상회하기까지 한다. 동일한 언어 계통 내에서의 다언어 훈련은 더 높은 음운적 유사성이 성능을 향상시키는 반면, 낮은 유사성은 단일언어 훈련에 비해 성능을 저하시킨다는 것을 보여준다.
https://doi.org/10.1109/icassp49660.2025.10888101
Computer science
Natural language processing
Similarity (geometry)
Representation (politics)
Artificial intelligence
Linguistics
3
Article
|
인용수 0
·
2025
Expressive voice conversion enhancing prosody and emotion consistency*
Sun-Mo Koo, Hoirin Kim
Phonetics and Speech Sciences
한국어 음성 변환(voice-conversion) 과제에서는 화자 신원을 변환할 뿐만 아니라 운율(prosody)과 정서적 일관성을 보존하는 것이 필수적이다. 언어에서 의미를 전달하는 데 억양과 리듬이 핵심이기 때문이다. 그러나 기존의 음성 변환(VC) 시스템은 주로 화자 음색을 변화시키는 데 집중하며, 운율과 감정과 같은 표현적 측면을 간과하는 경향이 있다. 이러한 한계는 애니메이션 더빙이나 감정적으로 표현력 있는 음성 생성과 같은 응용에서 특히 문제가 되는데, 이들 분야에서는 정교한 전달이 중요하기 때문이다. 이에 본 연구에서는 새로운 표현적 음성 변환(EVC) 모델을 제안한다. 우리의 모델은 triple adaptive attention normalization–VC 프레임워크에 기반하며, F0, 에너지, 그리고 valence, arousal, dominance(VAD)로 표현되는 정서적 특성을 결합한 운율 임베딩을 도입한다. 이 임베딩은 한국어의 운율적 특성을 보다 정밀하게 포착한다. 또한 화자 인코더에서 운율 정보를 억제하기 위해 mix-layer normalization을 적용함으로써 화자 신원과 운율의 분리를 향상시킨다. 정서적 표현력을 더욱 강화하기 위해 전용 VAD 예측기를 포함하여 감정 학습을 안내한다. 한국어 음성 데이터로 수행한 실험 결과, 본 모델은 운율 보존과 정서적 전달 측면에서 기존 EVC 시스템보다 우수함을 보였다. 특히 본 모델은 평균 운율 mean opinion score가 4.11에 도달하여, 자연스럽고 표현력 있는 한국어 음성 생성이 가능함을 시사한다. 본 연구는 VC 시스템에서 정확성과 표현력 모두를 향상시키기 위한 유망한 방향을 제시한다.
https://doi.org/10.13064/ksss.2025.17.2.039
Prosody
Consistency (knowledge bases)
Psychology
Linguistics
Communication
Cognitive psychology
Computer science
Speech recognition
Artificial intelligence
최신 정부 과제
35
과제 전체보기
1
2025년 3월-2028년 12월
|1,384,000,000
(2세부)알려지지 않은 신종 보이스피싱 탐지·예측 기술개발
o 최종목표: 신종 보이스피싱 대응 차세대 보이스피싱 탐지 기술 개발 및 실증·상용화 o 최종 연구개발 목표 달성을 위한 세부목표 11종 ① 보이스피싱 ATT&CK 프레임워크 기반 변종·신종 시나리오 개발 ② 보이스피싱 탐지 결과 설명 및 근거 제시를 위한 XAI 기반 시각화 기술 개발 ③ 신종 보이스피싱 대응 한국어 음성 인식 기술 개발 ④ 신종 보이스피...
보이스피싱 탐지
단말 내 인공지능
인공신경망 경량화
딥페이크 탐지
악성앱 탐지
2
2025년 3월-2028년 12월
|1,540,667,000
(2세부)알려지지 않은 신종 보이스피싱 탐지·예측 기술개발
o 최종목표: 신종 보이스피싱 대응 차세대 보이스피싱 탐지 기술 개발 및 실증·상용화 o 최종 연구개발 목표 달성을 위한 세부목표 11종 ① 보이스피싱 ATT&CK 프레임워크 기반 변종·신종 시나리오 개발 ② 보이스피싱 탐지 결과 설명 및 근거 제시를 위한 XAI 기반 시각화 기술 개발 ③ 신종 보이스피싱 대응 한국어 음성 인식 기술 개발 ④ 신종 보이스피...
보이스피싱 탐지
단말 내 인공지능
인공신경망 경량화
딥페이크 탐지
악성앱 탐지
3
주관|
2022년 3월-2024년 12월
|2,302,574,000
보이스피싱 정보 수집·가공 및 빅데이터 기반 수사지원시스템 개발
∘보이스피싱 범죄 유형별 범죄정보 데이터셋·스키마·데이터베이스 ∘구축 데이터베이스 기반 음성-텍스트 동일성, 단서 추출 1차 평가 선정된 실증 기관을 통한 실증시범사업 실시 및 확대 적용 -수사지원시스템의 효과 검증 및 기술 피드백 확보 -대상 기술 : 음성·텍스트 연계한 동일조직 정보관리 – 동일조직수법 시나리오, 용의자후보 관리 – 용의자후보 열람표 조회, SIMBOX관리 – 지역별 SIMBOX 위치추적, API관리 – 수사자료 API -대상 환경 : 전화사기대응 수사지원시스템(경찰내부망PC, 경찰 모바일폰 등) ∘통합 시스템 시각화 알고리즘 : 범죄 시나리오에 기반한 범죄 위험성 및 유사성 탐지와 시각화, 추적⋅탐지 알고리즘 및 정보 연결 방법에 기초한 시각화 방법, 통합 시스템 S/W 최적화 ∘보이스피싱 수사정보 빅데이터 파이프라인 시스템 ∘수사지원 (동일조직 정보관리 – 동일조직수법 시나리오, 용의자후보 관리 – 용의자후보 열람표 조회, SIMBOX관리 – 지역별 SIMBOX 위치추적, API관리 – 수사자료 API) ∘1차 STT(Speech-To-Text) 기반 자동전사, 2차 수동 검수 및 비식별화를 통한 실제 보이스피싱 음성의 텍스트 전사 데이터 구축 ∘수사지원 시스템의 자연어처리 모듈 중 음성-텍스트 자동 변환(Speech-to-Text) 기능 제공 ∘STT 모델 성능 고도화에 구축 데이터 반영 ∘보이스피싱 음성 내 방언 표출 구간 태깅 DB 구축 ∘수사지원 시스템의 보이스 DNA에 추가정보 제공: 범죄자의 방언 구간 및 방언 사용권 지역 정보 제공 ∘딥러닝 기반 한국어 문서 유사도 판단 기술 개발 ∘Similarity Search를 통한 유사 문장 탐색 및 추천 성능 고도화 ∘실 사용이 편리하도록 프로파일링 시스템 API 제공 ∘프로파일링 시스템 API 문서화 ∘음성 기반 범죄자 특정 기술 : 자동 생성된 범죄자 음성 레이블을 활용한 도메인 적응 ∘딥러닝 기반 통화환경의 합성음성 탐지 기술 ∘용의자-사건 네트워크의 추론 알고리즘 고도화 및 가속화 ∘네트워크 압축 기술 개발 ∘앵커 네트워크를 이용한 가속화 기술 연구 ∘음성인식, 화자 프로파일링, 자연어 처리. 화자인식, 합성음성 탐지 엔진 인터페이스 미들웨어 성능 최적화 ∘클라이언트 및 엔진 최적 채널 산정 ∘미들웨어 서버 탑재를 위한 Docker Container 개발
보이스피싱 수사지원시스템 범죄 정보 자동 프로파일링 보이스피싱 대응 프레임워크 빅 데이터 기반 보이스피싱 수사 기술 인공지능 기반 보이스피싱 수사 기술
최신 특허
특허 전체보기
상태출원연도과제명출원번호상세정보
공개2024온디바이스 합성음성 탐지 시스템 및 방법1020240090068
공개2024자기지도 학습을 활용한 왜곡에 강인한 합성 음성 탐지 장치 및 그의 동작 방법1020240001353
등록2020문장에 대한 띄어읽기 처리를 수행하는 음성 합성 장치 및 그 동작 방법1020200119646
전체 특허

온디바이스 합성음성 탐지 시스템 및 방법

상태
공개
출원연도
2024
출원번호
1020240090068

자기지도 학습을 활용한 왜곡에 강인한 합성 음성 탐지 장치 및 그의 동작 방법

상태
공개
출원연도
2024
출원번호
1020240001353

문장에 대한 띄어읽기 처리를 수행하는 음성 합성 장치 및 그 동작 방법

상태
등록
출원연도
2020
출원번호
1020200119646