잡음 강건 음성인식·화자인증과 음성개선 학습

Noise-Robust Speech Recognition and Speaker Verification with Speech Enhancement Learning

연구 내용

잡음 환경에서 음성기반 모델의 표현 통계를 정규화하고 시간관계를 증류하며, 노이즈 추출과 음성개선을 병렬 학습해 인식과 인증을 안정화하는 연구

음성기반 모델의 잡음 민감도를 줄이기 위해 자기지도학습 표현을 압축하거나 정규화하는 접근을 수행합니다. 먼저 speech temporal relation을 증류해 경량 음성 SSL 모델의 성능을 유지합니다. 이후 분산·불변성·공분산 정규화로 잡음 입력에서 표현 통계를 조정하여 일반화 능력을 강화합니다. 동시에 노이즈 추출 네트워크와 음성개선 네트워크를 병렬로 학습해 잡음과 화자 관련 특징을 분리하고, 이를 기반으로 화자인증 성능을 향상시키는 차별성을 갖습니다.

관련 프로젝트

0건

연구 흐름

초기에는 Transformer 기반 speech SSL의 계산 부담을 줄이기 위해 프레임 단위 표현 정합이 아닌 speech temporal relation 기반 증류 목적을 설계했습니다. 이후 잡음 조건에서 음성기반 표현의 통계가 흔들리는 문제를 다루기 위해 variance-invariance-covariance 정규화를 적용하며 잡음 강건화를 확장했습니다. 최근에는 음성개선과 화자인증을 단순 억제 방식이 아닌 노이즈 추출을 명시적으로 포함한 병렬 학습 구조로 전환하여, 다양한 잡음 유형에서도 안정적인 인증 성능을 확보하는 방향으로 연구를 수행했습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

잡음 환경 음성인식
화자 인증 서비스
화자인증용 프론트엔드 음성개선
경량 음성 SSL 모델
모바일 음성 생체인증
회의·통화 녹취 품질 향상
콜센터 자동통화분석
잡음 강건 음성 검색
방송·영상 자막 전사
현장형 음성 인터페이스