HuBERT-VIC: Improving Noise-Robust Automatic Speech Recognition of Speech Foundation Model via Variance-Invariance-Covariance Regularization | 김회린 교수 연구실 | 한국과학기술원 전기및전자공학부

|김회린 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

Preprint|

인용수 0

·2025

HuBERT-VIC: Improving Noise-Robust Automatic Speech Recognition of Speech Foundation Model via Variance-Invariance-Covariance Regularization

Hyebin Ahn, Kangwook Jang, Hoirin Kim

ArXiv.org

초록

음성 파운데이션 모델(Speech Foundation Models, SFMs)의 잡음 강건성은 중요한 과제로, 대부분의 모델이 주로 정제(clean) 데이터로 학습되며 잡음이 섞인 음성에 노출될 때 성능이 저하되는 문제가 있다. 이를 해결하기 위해 우리는 분산(variance), 불변(in-variance), 공분산(covariance) 정규화(VICReg) 목적을 갖춘 잡음 강건 SFM인 HuBERT-VIC를 제안한다. 이러한 목적은 잡음이 포함된 음성 표현의 통계를 조정하여, 모델이 다양한 음향적 특성을 포착할 수 있도록 하고 서로 다른 유형의 잡음에 대한 일반화 능력을 향상시킨다. HuBERT에 적용한 결과, 우리의 모델은 잡음이 포함된 음성으로 사전학습된 기준(baseline) 모델에 비해 LibriSpeech test-clean에서 23.3%, test-other에서 13.2%의 상대적 성능 향상을 보였다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Robustness (evolution)CovarianceRegularization (linguistics)GeneralizationNoise (video)Noise measurementBaseline (sea)Hidden Markov modelAcoustic model

타입

Preprint

IF / 인용수

- / 0

원문

http://arxiv.org/abs/2508.12292

게재 연도

2025