김남수 연구실
전기·정보공학부 김남수
김남수 연구실은 전기·정보공학부 소속으로, 음성 신호 처리, 음성 합성, 음성 인식, 화자 인식, 음성 향상 등 음성 및 오디오 인공지능 분야에서 국내외적으로 선도적인 연구를 수행하고 있습니다. 본 연구실은 딥러닝, 통계적 신호 처리, 자기지도학습 등 최신 AI 기술을 적극적으로 도입하여, 실세계에서 활용 가능한 혁신적인 음성 처리 기술을 개발하고 있습니다.
특히, 다화자 및 다스타일 음성 합성, 저자원 환경에서의 음성 합성, 제로샷 음성 합성, 멀티링구얼 음성 합성 등 다양한 음성 합성 기술을 연구하고 있습니다. 또한, 음성 인식 분야에서는 잡음 및 반향 환경에서도 높은 인식률을 보장하는 강인한 음성 인식 시스템, 음성 데이터의 전처리 및 후처리, 그리고 실시간 음성 인식 및 경량화 모델 개발에 주력하고 있습니다.
음성 향상 분야에서는 비음수 행렬 인수분해(NMF), 딥러닝 기반 음성 향상, 멀티채널 신호 처리, 자기지도학습 기반 음성 향상 등 다양한 기술을 개발하고 있습니다. 더불어, 화자 인식 및 음성 기반 인증 분야에서는 딥러닝 기반 임베딩, 화자 정보 분리, 신뢰성 있는 인증 시스템, 스푸핑 방지 등 첨단 기술을 연구하고 있습니다.
이러한 연구 성과는 스마트 디바이스, 원격 회의, 로봇, 자동차, 보안, 헬스케어 등 다양한 산업 분야에 적용되고 있으며, 실제 서비스로의 확장 가능성도 매우 높습니다. 김남수 연구실은 앞으로도 음성 및 오디오 인공지능 분야에서 세계적인 연구 성과를 창출하고, 인간과 기계 간의 자연스러운 소통을 실현하는 데 기여할 것입니다.
Speech Synthesis
Text-to-Speech Synthesis
Machine Learning for Audio
음성 신호 처리 및 음성 합성
김남수 연구실은 음성 신호 처리와 음성 합성 분야에서 국내외적으로 선도적인 연구를 수행하고 있습니다. 본 연구실은 딥러닝 기반의 음성 합성, 다화자 및 다스타일 음성 합성, 저자원 환경에서의 음성 합성 등 다양한 주제를 다루고 있습니다. 최근에는 제로샷(Zero-Shot) 다화자 음성 합성, 멀티링구얼 및 멀티스타일 음성 합성, 그리고 변환 및 제어 가능한 음성 합성 기술 개발에 집중하고 있습니다.
이러한 연구는 음성의 자연스러움, 화자 유사성, 그리고 감정 및 스타일의 다양성까지 모두 고려하는 첨단 기술을 포함합니다. 예를 들어, 변환 가능한 음성 합성 시스템, 정보 최소화 기반의 스타일 분리, 그리고 대규모 비지도 음성 데이터셋을 활용한 전이학습 기반 음성 합성 프레임워크 등이 대표적입니다. 또한, 실시간 음성 합성 및 경량화 모델 개발을 통해 실제 서비스 적용 가능성을 높이고 있습니다.
이 연구들은 인공지능 음성 비서, 자동 안내 시스템, 감정 표현이 가능한 음성 합성, 그리고 다양한 언어와 화자를 지원하는 글로벌 서비스 등 실생활에 직접적으로 응용될 수 있습니다. 앞으로도 김남수 연구실은 음성 합성의 품질과 제어 가능성을 극대화하는 혁신적인 연구를 지속적으로 추진할 계획입니다.
음성 인식 및 음성 향상
본 연구실은 음성 인식 및 음성 향상 분야에서도 오랜 기간 동안 축적된 연구 경험과 기술력을 바탕으로 다양한 성과를 내고 있습니다. 특히, 잡음 환경이나 반향 환경에서도 높은 인식률을 보장하는 강인한 음성 인식 시스템 개발에 주력하고 있습니다. 이를 위해 통계적 모델, 딥러닝 기반의 음성 인식, 그리고 다양한 특징 보상 기법을 융합하여 실제 환경에서의 음성 인식 성능을 극대화하고 있습니다.
음성 향상 분야에서는 비음수 행렬 인수분해(NMF), 딥러닝 기반 음성 향상, 멀티채널 음성 신호 처리, 그리고 실시간 음성 향상 알고리즘 등 다양한 기술을 개발하고 있습니다. 최근에는 자기지도학습, 지식 증류, 그리고 신경망 기반의 음성 코덱 및 음성 분리 기술 등 최신 AI 기법을 적극적으로 도입하고 있습니다. 또한, 음성 신호의 품질 개선, 음성 데이터의 전처리 및 후처리, 그리고 음성 인식과 연계된 음성 향상 기술 개발에도 많은 노력을 기울이고 있습니다.
이러한 연구 결과는 스마트 디바이스, 원격 회의, 로봇, 자동차, 보안 시스템 등 다양한 산업 분야에서 활용되고 있습니다. 앞으로도 김남수 연구실은 더욱 정교하고 실용적인 음성 인식 및 향상 기술을 개발하여, 인간과 기계 간의 자연스러운 소통을 실현하는 데 기여할 것입니다.
화자 인식 및 신뢰성 있는 음성 인증
김남수 연구실은 화자 인식 및 음성 기반 인증 기술 개발에도 많은 연구 역량을 집중하고 있습니다. 화자 인식 분야에서는 딥러닝 기반 임베딩, 비지도 및 준지도 학습, 화자와 무관한 특성 분리, 그리고 다양한 환경에서의 강인한 화자 검증 알고리즘을 개발하고 있습니다. 특히, 화자 임베딩의 불확실성 모델링, 화자 상태 변화 감지, 그리고 스푸핑(위조) 방지 기술 등 신뢰성 있는 음성 인증 시스템 구축에 중점을 두고 있습니다.
연구실은 대규모 음성 데이터셋을 활용한 자기지도 학습, 화자 정보와 잡음, 채널, 감정 등 비화자 요소의 분리, 그리고 다양한 화자 및 환경 조건에서의 실험을 통해 실용적이고 확장성 있는 화자 인식 기술을 개발하고 있습니다. 또한, 화자 분할, 화자 검색, 실시간 화자 인증 등 실제 서비스에 적용 가능한 다양한 응용 기술도 연구하고 있습니다.
이러한 기술은 금융, 보안, 헬스케어, 스마트홈 등 다양한 분야에서 신뢰성 있는 사용자 인증 및 맞춤형 서비스 제공에 활용될 수 있습니다. 앞으로도 김남수 연구실은 더욱 안전하고 정확한 음성 기반 인증 기술을 개발하여, 미래의 음성 중심 사회에 핵심적인 역할을 할 것입니다.
1
Variable-Length Speaker Conditioning in Flow-Based Text-to-Speech
김남수, Choi Byoung Jin, Jeong Myeonghun, Kim Minchan
IEEE SIGNAL PROCESSING LETTERS, 202401
2
Transfer Learning for Low-Resource, Multi-Lingual, and Zero-Shot Multi-Speaker Text-to-Speech
Jeong Myeonghun, Kim Minchan, 김남수, Choi Byoung Jin, Yoon Jaesam, Jang Won
IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 202401
3
Efficient Parallel Audio Generation Using Group Masked Language Modeling
Jeong Myeonghun, 김남수, Kim Minchan, Lee Joun Yeop
IEEE SIGNAL PROCESSING LETTERS, 202401
2
원격 다자간 영상회의에서 음성 품질 고도화 기술개발