실세계 환경에서의 음성 신호는 가산 잡음, 잔향, 대역폭 제한과 같은 다양한 왜곡의 영향을 빈번히 받으며, 이러한 왜곡은 단독으로 나타나거나 조합되어 나타날 수 있다. 전통적인 음성 향상 방법은 보통 (음성 성분이 아닌 구성요소를 억제하되 관찰 가능한 구조는 보존하는 데 초점을 둔) 마스킹(masking) 또는 입력을 직접 변환하여 깨끗한 음성을 복원하려는 매핑(mapping)에 각각 의존한다. 두 접근법은 특정 상황에서의 강점이 있으나, 목표 조건 밖에서는 효과가 떨어질 수 있다. 본 연구에서는 과업 또는 입력 특성에 대한 사전 가정 없이 광범위한 왜곡 유형을 처리하도록 설계된 다재다능한 음성 향상 프레임워크인 Erase and Draw Network (EDNet)을 제안한다. EDNet은 두 개의 주요 구성요소로 이루어진다: (1) Gating Mamba (GM) 모듈로, 학습 가능한 게이팅 메커니즘을 통해 억제(Erase)와 복원(Draw) 사이를 국소 신호 특징에 근거하여 선택함으로써 마스킹과 매핑을 적응적으로 결합하고, (2) Phase Shift-Invariant Training (PSIT)으로, 학습 중 동적 정렬을 가능하게 하여 위상 추정을 개선하되 표준 손실 함수와의 호환성을 유지하는 시프트 허용적 감독(supervision) 전략이다. 잡음 제거(denoising), 잔향 제거(dereverberation), 대역폭 확장(bandwidth extension), 다중 왜곡 향상(multi distortion enhancement) 과업에 대한 실험 결과는 EDNet이 조건 전반에서 일관되게 우수한 성능을 달성함을 보여주며, 이는 다양한 과업 설정에 대한 구조적 유연성과 적응성을 입증한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.