기본 정보
연구 분야
프로젝트
논문
구성원
article|
인용수 0
·2026
MAGE: A Coarse-to-Fine Speech Enhancer with Masked Generative Model
The Hieu Pham, Tan Dat Nguyen, Phuong Thanh Tran, Joon Son Chung, Duc Dung Nguyen
초록

음성 향상은 효율성과 지각 품질 사이의 상충 관계로 인해 여전히 어렵다. 본 논문에서는 컴팩트하고 견고한 설계를 통해 생성 기반 음성 향상을 진전시키는 Masked Audio Generative Enhancer인 MAGE를 제안한다. 무작위 마스킹을 사용하는 기존의 마스킹 생성 모델과 달리, MAGE는 희소성 인식(coars-to-fine) 마스킹 전략을 적용하여 초기 단계에서는 빈번한 토큰을 우선하고 이후 정교화 단계에서는 드문 토큰을 우선함으로써 효율성과 일반화 성능을 향상시킨다. 또한 저신뢰 예측을 탐지하고 이를 재-마스킹하여 정교화를 수행함으로써 추론의 안정성을 더욱 강화하는 경량 정정기 모듈을 제안한다. BigCodec을 기반으로 하며 Qwen2.5-0.5B로부터 파인튜닝되어, 선택적 층 유지(selective layer retention)를 통해 MAGE는 200M 파라미터로 축소된다. DNS Challenge 및 노이즈가 포함된 LibriSpeech에 대한 실험에서 MAGE는 최첨단의 지각 품질을 달성하고, 하류 인식(downstream recognition)을 위한 단어 오류율을 유의미하게 감소시키며, 더 큰 기준 모델들보다 우수한 성능을 보인다. 오디오 예시는 https://hieugiaosu.github.io/MAGE 에서 제공된다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
Masking (illustration)Generative modelGenerative grammarInferencePerceptionWord error rateQuality (philosophy)
타입
article
IF / 인용수
- / 0
게재 연도
2026

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.