AMCL
컴퓨터공학과 전찬준
AMCL(Advanced Multimedia Computing Lab)은 음성 및 오디오 신호처리, 딥러닝, 인공지능 분야에서 세계적인 연구를 선도하는 연구실입니다. 본 연구실은 음향 이벤트 위치추정 및 탐지, 음색 변환, 화자 인식, 음성 합성 등 다양한 오디오 인공지능 기술을 개발하고 있으며, 실제 산업 및 사회적 문제 해결에 기여하고 있습니다.
특히, 음향 이벤트 위치추정 및 탐지 분야에서는 다채널 마이크로폰 어레이와 딥러닝 기반 신호처리 기법을 결합하여, 복잡한 환경에서도 높은 정확도의 위치추정과 이벤트 탐지가 가능한 시스템을 개발하고 있습니다. 이러한 기술은 비상벨 감지, 재난 대응, 스마트 시티 소음 관리 등 다양한 응용 분야에서 활용되고 있습니다.
Zero-shot 음색 변환 및 음성 합성 분야에서는 병렬 데이터의 한계를 극복하기 위해 비병렬 데이터, 오토인코더, 정보 교란, diffusion 모델 등 최신 기법을 적용하고 있습니다. 이를 통해 학습 데이터에 없는 새로운 화자나 음색에 대해서도 자연스러운 음성 변환과 합성이 가능하며, 발성 장애인을 위한 음성 보조기, 개인화 음성 서비스, 미디어 콘텐츠 제작 등 다양한 산업에 혁신을 제공하고 있습니다.
화자 인식 분야에서는 대조학습 기반의 딥러닝 모델을 활용하여, 기존 방식보다 더욱 강건하고 일반화된 화자 임베딩을 학습하고 있습니다. 하드 네거티브 샘플링, InfoNCE, CLIP 기반 학습 프레임워크 등을 적용하여 실제 환경에서의 오인 문제를 효과적으로 해결하고 있으며, zero-shot classification 등 최신 연구 동향을 반영하여 새로운 화자에 대한 인식 성능도 크게 향상시키고 있습니다.
AMCL은 다양한 정부 및 산업체 연구과제, 특허, 국내외 학술지 논문, 국제학회 발표 등 활발한 연구 활동을 통해 국내외 인공지능 오디오 신호처리 분야의 발전을 이끌고 있습니다. 앞으로도 실생활에 밀접한 문제 해결과 혁신적인 기술 개발을 통해, 인공지능 기반의 오디오 신호처리 분야에서 세계적인 경쟁력을 갖춘 연구실로 성장할 것입니다.
Zero-shot Voice Conversion
Zero-shot Speech Synthesis
Multi-Speaker Text-to-Speech
음향 이벤트 위치추정 및 탐지 (Sound Event Localization and Detection)
음향 이벤트 위치추정 및 탐지 기술은 다양한 환경에서 발생하는 소리의 위치와 종류를 정확하게 파악하는 것을 목표로 합니다. 이 기술은 응급 상황에서의 비상벨 감지, 스마트 시티의 소음 관리, 실내외 환경 모니터링 등 다양한 분야에 활용될 수 있습니다. 특히, 다채널 마이크로폰 어레이와 딥러닝 기반의 신호처리 기법을 결합하여, 복잡한 환경에서도 높은 정확도의 위치추정과 이벤트 탐지가 가능합니다.
최근 연구에서는 실제 데이터와 합성 데이터를 결합하여 데이터 불균형 문제를 해결하고, 다양한 소음 환경에서도 강인한 성능을 보이는 모델을 개발하고 있습니다. 예를 들어, SELD U-Net과 같은 구조를 활용하여 소리의 위치와 종류를 동시에 추정하며, 노이즈 감소 기술을 접목하여 실시간 응용이 가능한 시스템을 구현하고 있습니다. 또한, 헝가리안 알고리즘 및 Retina U-Net 기반의 다중 음원 탐지 기술 등도 연구되고 있습니다.
이러한 기술은 재난 대응, 보안, 스마트 홈, 자율주행 등 다양한 산업 분야에서 핵심적인 역할을 할 수 있습니다. 앞으로는 엣지컴퓨팅 환경에서의 실시간 처리, 다양한 센서와의 융합, 그리고 인공지능 기반의 상황 인지 기술과 결합하여 더욱 발전할 것으로 기대됩니다.
Zero-shot 음색 변환 및 음성 합성 (Zero-shot Voice Conversion & Speech Synthesis)
Zero-shot 음색 변환 및 음성 합성 기술은 학습 데이터에 존재하지 않는 새로운 화자나 음색에 대해서도 자연스러운 음성 변환과 합성을 가능하게 하는 첨단 인공지능 기술입니다. 기존의 음색 변환 기술은 병렬 데이터에 의존하는 경우가 많았으나, 최근에는 비병렬 데이터와 오토인코더, 정보 교란(perturbation) 기법, 그리고 diffusion 모델을 활용하여 데이터 수집의 한계를 극복하고 있습니다. 이러한 접근법은 발성 장애인을 위한 음성 보조기, 개인화 음성 합성, 음성 데이터 생성 등 다양한 응용 분야에서 활용되고 있습니다.
특히, Grad-TTS와 같은 diffusion 기반 음성 합성 모델은 다화자 환경에서 높은 품질의 음성을 생성할 수 있으며, unseen speaker에 대해서도 zero-shot 합성이 가능합니다. 연구실에서는 정보 교란 방법과 사전학습된 화자인식 모델을 결합하여, 데이터셋에 없는 화자에 대해서도 자연스러운 음성 합성이 가능한 모델을 개발하고 있습니다. 또한, AUTOVC와 NANSY 구조를 결합한 perturbation AUTOVC와 같은 새로운 음색 변환 방법을 제안하여, 음성 품질과 화자 유사도 간의 trade-off 문제를 효과적으로 해결하고 있습니다.
이러한 기술은 인공지능 음성 비서, 가상 캐릭터, 미디어 콘텐츠 제작, 의료 보조 등 다양한 산업에서 혁신적인 변화를 이끌고 있습니다. 앞으로는 더욱 다양한 언어와 화자, 그리고 감정 표현까지 확장하여, 인간과 자연스럽게 소통할 수 있는 인공지능 음성 시스템 개발에 기여할 것으로 기대됩니다.
화자 인식 및 대조학습 기반 음성 신호처리
화자 인식 기술은 입력된 음성 신호로부터 화자의 신원을 정확하게 식별하는 기술로, 보안, 인증, 개인화 서비스 등 다양한 분야에서 필수적으로 활용되고 있습니다. 본 연구실에서는 딥러닝 기반의 대조학습(contrastive learning) 기법을 활용하여, 기존의 분류 기반 화자 인식 모델보다 더욱 강건하고 일반화된 화자 임베딩을 학습하고 있습니다. 특히, 하드 네거티브 샘플링(hard negative sampling)과 InfoNCE, CLIP 기반의 학습 프레임워크를 적용하여, 실제 환경에서 발생할 수 있는 유사 화자 간의 오인 문제를 효과적으로 해결하고 있습니다.
최근에는 voxceleb 데이터셋과 같은 대규모 음성 데이터셋을 활용하여, 다양한 화자와 환경에서 높은 인식률을 달성하고 있습니다. 또한, zero-shot classification과 같은 최신 연구 동향을 반영하여, 학습에 포함되지 않은 새로운 화자에 대해서도 높은 인식 성능을 보장할 수 있는 모델을 개발하고 있습니다. 이러한 연구는 음성 인증, 스마트 디바이스, 맞춤형 서비스 등 실생활에서의 활용 가능성을 크게 높이고 있습니다.
향후에는 멀티모달 신호처리, 감정 인식, 실시간 화자 추적 등과 결합하여, 더욱 지능적이고 인간 친화적인 음성 기반 인터페이스 개발에 기여할 계획입니다. 또한, 프라이버시 보호와 보안성 강화를 위한 연구도 병행하여, 안전하고 신뢰할 수 있는 음성 인식 시스템 구축을 목표로 하고 있습니다.
1
Contrastive speaker representation learning with hard negative sampling for speaker recognition
C. Go, Y. H. Lee, T. Kim, N. I. Park, C. Chun*
Sensors, 2024.09
2
Advanced forensic method to authenticate audio files from Tizen-based Samsung Galaxy Watches
N. I. Park, J. W. Lee, S. H. Lim, O.-Y. Jeon, J.-H. Kim, J. S. Byun, C. Chun, J.-H. Lee*
Forensic Science International: Digital Investigation, 2024.03
3
Static sound event localization and detection using bipartite matching loss for emergency monitoring
C. Chun, H. J. Park, M. B. Seo*
Applied Sciences, 2024.02
1
(2024-디지털-03(위탁1)) 딥러닝기반 화자 인식 기법 연구
3
엣지컴퓨팅 환경에서 실시간 AI 비상벨 시스템 경량화 및 실증