연구 영역
기본 정보
논문·특허
과제
구성원
Preprint|
인용수 0
·2025
HuBERT-VIC: Improving Noise-Robust Automatic Speech Recognition of Speech Foundation Model via Variance-Invariance-Covariance Regularization
Hyebin Ahn, Kangwook Jang, Hoirin Kim
ArXiv.org
초록

음성 파운데이션 모델(Speech Foundation Models, SFMs)의 잡음 강건성은 중요한 과제로, 대부분의 모델이 주로 정제(clean) 데이터로 학습되며 잡음이 섞인 음성에 노출될 때 성능이 저하되는 문제가 있다. 이를 해결하기 위해 우리는 분산(variance), 불변(in-variance), 공분산(covariance) 정규화(VICReg) 목적을 갖춘 잡음 강건 SFM인 HuBERT-VIC를 제안한다. 이러한 목적은 잡음이 포함된 음성 표현의 통계를 조정하여, 모델이 다양한 음향적 특성을 포착할 수 있도록 하고 서로 다른 유형의 잡음에 대한 일반화 능력을 향상시킨다. HuBERT에 적용한 결과, 우리의 모델은 잡음이 포함된 음성으로 사전학습된 기준(baseline) 모델에 비해 LibriSpeech test-clean에서 23.3%, test-other에서 13.2%의 상대적 성능 향상을 보였다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
Robustness (evolution)CovarianceRegularization (linguistics)GeneralizationNoise (video)Noise measurementBaseline (sea)Hidden Markov modelAcoustic model
타입
Preprint
IF / 인용수
- / 0
게재 연도
2025