김남수 교수 연구실 | 서울대 전기·정보공학부

연구 영역

대표 연구 분야

연구실에서 최근에 진행되고 있는 관심 연구 분야

음성 신호 처리 및 음성 합성

김남수 연구실은 음성 신호 처리와 음성 합성 분야에서 국내외적으로 선도적인 연구를 수행하고 있습니다. 본 연구실은 딥러닝 기반의 음성 합성, 다화자 및 다스타일 음성 합성, 저자원 환경에서의 음성 합성 등 다양한 주제를 다루고 있습니다. 최근에는 제로샷(Zero-Shot) 다화자 음성 합성, 멀티링구얼 및 멀티스타일 음성 합성, 그리고 변환 및 제어 가능한 음성 합성 기술 개발에 집중하고 있습니다. 이러한 연구는 음성의 자연스러움, 화자 유사성, 그리고 감정 및 스타일의 다양성까지 모두 고려하는 첨단 기술을 포함합니다. 예를 들어, 변환 가능한 음성 합성 시스템, 정보 최소화 기반의 스타일 분리, 그리고 대규모 비지도 음성 데이터셋을 활용한 전이학습 기반 음성 합성 프레임워크 등이 대표적입니다. 또한, 실시간 음성 합성 및 경량화 모델 개발을 통해 실제 서비스 적용 가능성을 높이고 있습니다. 이 연구들은 인공지능 음성 비서, 자동 안내 시스템, 감정 표현이 가능한 음성 합성, 그리고 다양한 언어와 화자를 지원하는 글로벌 서비스 등 실생활에 직접적으로 응용될 수 있습니다. 앞으로도 김남수 연구실은 음성 합성의 품질과 제어 가능성을 극대화하는 혁신적인 연구를 지속적으로 추진할 계획입니다.

음성 인식 및 음성 향상

본 연구실은 음성 인식 및 음성 향상 분야에서도 오랜 기간 동안 축적된 연구 경험과 기술력을 바탕으로 다양한 성과를 내고 있습니다. 특히, 잡음 환경이나 반향 환경에서도 높은 인식률을 보장하는 강인한 음성 인식 시스템 개발에 주력하고 있습니다. 이를 위해 통계적 모델, 딥러닝 기반의 음성 인식, 그리고 다양한 특징 보상 기법을 융합하여 실제 환경에서의 음성 인식 성능을 극대화하고 있습니다. 음성 향상 분야에서는 비음수 행렬 인수분해(NMF), 딥러닝 기반 음성 향상, 멀티채널 음성 신호 처리, 그리고 실시간 음성 향상 알고리즘 등 다양한 기술을 개발하고 있습니다. 최근에는 자기지도학습, 지식 증류, 그리고 신경망 기반의 음성 코덱 및 음성 분리 기술 등 최신 AI 기법을 적극적으로 도입하고 있습니다. 또한, 음성 신호의 품질 개선, 음성 데이터의 전처리 및 후처리, 그리고 음성 인식과 연계된 음성 향상 기술 개발에도 많은 노력을 기울이고 있습니다. 이러한 연구 결과는 스마트 디바이스, 원격 회의, 로봇, 자동차, 보안 시스템 등 다양한 산업 분야에서 활용되고 있습니다. 앞으로도 김남수 연구실은 더욱 정교하고 실용적인 음성 인식 및 향상 기술을 개발하여, 인간과 기계 간의 자연스러운 소통을 실현하는 데 기여할 것입니다.

화자 인식 및 신뢰성 있는 음성 인증

김남수 연구실은 화자 인식 및 음성 기반 인증 기술 개발에도 많은 연구 역량을 집중하고 있습니다. 화자 인식 분야에서는 딥러닝 기반 임베딩, 비지도 및 준지도 학습, 화자와 무관한 특성 분리, 그리고 다양한 환경에서의 강인한 화자 검증 알고리즘을 개발하고 있습니다. 특히, 화자 임베딩의 불확실성 모델링, 화자 상태 변화 감지, 그리고 스푸핑(위조) 방지 기술 등 신뢰성 있는 음성 인증 시스템 구축에 중점을 두고 있습니다. 연구실은 대규모 음성 데이터셋을 활용한 자기지도 학습, 화자 정보와 잡음, 채널, 감정 등 비화자 요소의 분리, 그리고 다양한 화자 및 환경 조건에서의 실험을 통해 실용적이고 확장성 있는 화자 인식 기술을 개발하고 있습니다. 또한, 화자 분할, 화자 검색, 실시간 화자 인증 등 실제 서비스에 적용 가능한 다양한 응용 기술도 연구하고 있습니다. 이러한 기술은 금융, 보안, 헬스케어, 스마트홈 등 다양한 분야에서 신뢰성 있는 사용자 인증 및 맞춤형 서비스 제공에 활용될 수 있습니다. 앞으로도 김남수 연구실은 더욱 안전하고 정확한 음성 기반 인증 기술을 개발하여, 미래의 음성 중심 사회에 핵심적인 역할을 할 것입니다.