음성 향상은 효율성과 지각 품질 사이의 상충 관계로 인해 여전히 어렵다. 본 논문에서는 컴팩트하고 견고한 설계를 통해 생성 기반 음성 향상을 진전시키는 Masked Audio Generative Enhancer인 MAGE를 제안한다. 무작위 마스킹을 사용하는 기존의 마스킹 생성 모델과 달리, MAGE는 희소성 인식(coars-to-fine) 마스킹 전략을 적용하여 초기 단계에서는 빈번한 토큰을 우선하고 이후 정교화 단계에서는 드문 토큰을 우선함으로써 효율성과 일반화 성능을 향상시킨다. 또한 저신뢰 예측을 탐지하고 이를 재-마스킹하여 정교화를 수행함으로써 추론의 안정성을 더욱 강화하는 경량 정정기 모듈을 제안한다. BigCodec을 기반으로 하며 Qwen2.5-0.5B로부터 파인튜닝되어, 선택적 층 유지(selective layer retention)를 통해 MAGE는 200M 파라미터로 축소된다. DNS Challenge 및 노이즈가 포함된 LibriSpeech에 대한 실험에서 MAGE는 최첨단의 지각 품질을 달성하고, 하류 인식(downstream recognition)을 위한 단어 오류율을 유의미하게 감소시키며, 더 큰 기준 모델들보다 우수한 성능을 보인다. 오디오 예시는 https://hieugiaosu.github.io/MAGE 에서 제공된다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.