음성 파운데이션 모델(Speech Foundation Models, SFMs)의 잡음 강건성은 중요한 과제로, 대부분의 모델이 주로 정제(clean) 데이터로 학습되며 잡음이 섞인 음성에 노출될 때 성능이 저하되는 문제가 있다. 이를 해결하기 위해 우리는 분산(variance), 불변(in-variance), 공분산(covariance) 정규화(VICReg) 목적을 갖춘 잡음 강건 SFM인 HuBERT-VIC를 제안한다. 이러한 목적은 잡음이 포함된 음성 표현의 통계를 조정하여, 모델이 다양한 음향적 특성을 포착할 수 있도록 하고 서로 다른 유형의 잡음에 대한 일반화 능력을 향상시킨다. HuBERT에 적용한 결과, 우리의 모델은 잡음이 포함된 음성으로 사전학습된 기준(baseline) 모델에 비해 LibriSpeech test-clean에서 23.3%, test-other에서 13.2%의 상대적 성능 향상을 보였다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.