연구 영역

대표 연구 분야

연구실에서 최근에 진행되고 있는 관심 연구 분야

1

음향 이벤트 위치추정 및 탐지 (Sound Event Localization and Detection)

음향 이벤트 위치추정 및 탐지 기술은 다양한 환경에서 발생하는 소리의 위치와 종류를 정확하게 파악하는 것을 목표로 합니다. 이 기술은 응급 상황에서의 비상벨 감지, 스마트 시티의 소음 관리, 실내외 환경 모니터링 등 다양한 분야에 활용될 수 있습니다. 특히, 다채널 마이크로폰 어레이와 딥러닝 기반의 신호처리 기법을 결합하여, 복잡한 환경에서도 높은 정확도의 위치추정과 이벤트 탐지가 가능합니다. 최근 연구에서는 실제 데이터와 합성 데이터를 결합하여 데이터 불균형 문제를 해결하고, 다양한 소음 환경에서도 강인한 성능을 보이는 모델을 개발하고 있습니다. 예를 들어, SELD U-Net과 같은 구조를 활용하여 소리의 위치와 종류를 동시에 추정하며, 노이즈 감소 기술을 접목하여 실시간 응용이 가능한 시스템을 구현하고 있습니다. 또한, 헝가리안 알고리즘 및 Retina U-Net 기반의 다중 음원 탐지 기술 등도 연구되고 있습니다. 이러한 기술은 재난 대응, 보안, 스마트 홈, 자율주행 등 다양한 산업 분야에서 핵심적인 역할을 할 수 있습니다. 앞으로는 엣지컴퓨팅 환경에서의 실시간 처리, 다양한 센서와의 융합, 그리고 인공지능 기반의 상황 인지 기술과 결합하여 더욱 발전할 것으로 기대됩니다.

2

Zero-shot 음색 변환 및 음성 합성 (Zero-shot Voice Conversion & Speech Synthesis)

Zero-shot 음색 변환 및 음성 합성 기술은 학습 데이터에 존재하지 않는 새로운 화자나 음색에 대해서도 자연스러운 음성 변환과 합성을 가능하게 하는 첨단 인공지능 기술입니다. 기존의 음색 변환 기술은 병렬 데이터에 의존하는 경우가 많았으나, 최근에는 비병렬 데이터와 오토인코더, 정보 교란(perturbation) 기법, 그리고 diffusion 모델을 활용하여 데이터 수집의 한계를 극복하고 있습니다. 이러한 접근법은 발성 장애인을 위한 음성 보조기, 개인화 음성 합성, 음성 데이터 생성 등 다양한 응용 분야에서 활용되고 있습니다. 특히, Grad-TTS와 같은 diffusion 기반 음성 합성 모델은 다화자 환경에서 높은 품질의 음성을 생성할 수 있으며, unseen speaker에 대해서도 zero-shot 합성이 가능합니다. 연구실에서는 정보 교란 방법과 사전학습된 화자인식 모델을 결합하여, 데이터셋에 없는 화자에 대해서도 자연스러운 음성 합성이 가능한 모델을 개발하고 있습니다. 또한, AUTOVC와 NANSY 구조를 결합한 perturbation AUTOVC와 같은 새로운 음색 변환 방법을 제안하여, 음성 품질과 화자 유사도 간의 trade-off 문제를 효과적으로 해결하고 있습니다. 이러한 기술은 인공지능 음성 비서, 가상 캐릭터, 미디어 콘텐츠 제작, 의료 보조 등 다양한 산업에서 혁신적인 변화를 이끌고 있습니다. 앞으로는 더욱 다양한 언어와 화자, 그리고 감정 표현까지 확장하여, 인간과 자연스럽게 소통할 수 있는 인공지능 음성 시스템 개발에 기여할 것으로 기대됩니다.

3

화자 인식 및 대조학습 기반 음성 신호처리

화자 인식 기술은 입력된 음성 신호로부터 화자의 신원을 정확하게 식별하는 기술로, 보안, 인증, 개인화 서비스 등 다양한 분야에서 필수적으로 활용되고 있습니다. 본 연구실에서는 딥러닝 기반의 대조학습(contrastive learning) 기법을 활용하여, 기존의 분류 기반 화자 인식 모델보다 더욱 강건하고 일반화된 화자 임베딩을 학습하고 있습니다. 특히, 하드 네거티브 샘플링(hard negative sampling)과 InfoNCE, CLIP 기반의 학습 프레임워크를 적용하여, 실제 환경에서 발생할 수 있는 유사 화자 간의 오인 문제를 효과적으로 해결하고 있습니다. 최근에는 voxceleb 데이터셋과 같은 대규모 음성 데이터셋을 활용하여, 다양한 화자와 환경에서 높은 인식률을 달성하고 있습니다. 또한, zero-shot classification과 같은 최신 연구 동향을 반영하여, 학습에 포함되지 않은 새로운 화자에 대해서도 높은 인식 성능을 보장할 수 있는 모델을 개발하고 있습니다. 이러한 연구는 음성 인증, 스마트 디바이스, 맞춤형 서비스 등 실생활에서의 활용 가능성을 크게 높이고 있습니다. 향후에는 멀티모달 신호처리, 감정 인식, 실시간 화자 추적 등과 결합하여, 더욱 지능적이고 인간 친화적인 음성 기반 인터페이스 개발에 기여할 계획입니다. 또한, 프라이버시 보호와 보안성 강화를 위한 연구도 병행하여, 안전하고 신뢰할 수 있는 음성 인식 시스템 구축을 목표로 하고 있습니다.