EDNet: A Versatile Speech Enhancement Framework With Gating Mamba Mechanism and Phase Shift-Invariant Training | 정준선 교수 연구실 | 한국과학기술원 전기및전자공학부

정준선 교수 연구실

서비스 플랜

연구실 검색

프로젝트 공고

정부 과제 추천

AI 기반 기업 서칭

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 2

·2026

EDNet: A Versatile Speech Enhancement Framework With Gating Mamba Mechanism and Phase Shift-Invariant Training

Doyeop Kwak, Youngjoon Jang, Seongyu Kim, Joon Son Chung

IEEE Transactions on Audio Speech and Language Processing

초록

실세계 환경에서의 음성 신호는 가산 잡음, 잔향, 대역폭 제한과 같은 다양한 왜곡의 영향을 빈번히 받으며, 이러한 왜곡은 단독으로 나타나거나 조합되어 나타날 수 있다. 전통적인 음성 향상 방법은 보통 (음성 성분이 아닌 구성요소를 억제하되 관찰 가능한 구조는 보존하는 데 초점을 둔) 마스킹(masking) 또는 입력을 직접 변환하여 깨끗한 음성을 복원하려는 매핑(mapping)에 각각 의존한다. 두 접근법은 특정 상황에서의 강점이 있으나, 목표 조건 밖에서는 효과가 떨어질 수 있다. 본 연구에서는 과업 또는 입력 특성에 대한 사전 가정 없이 광범위한 왜곡 유형을 처리하도록 설계된 다재다능한 음성 향상 프레임워크인 Erase and Draw Network (EDNet)을 제안한다. EDNet은 두 개의 주요 구성요소로 이루어진다: (1) Gating Mamba (GM) 모듈로, 학습 가능한 게이팅 메커니즘을 통해 억제(Erase)와 복원(Draw) 사이를 국소 신호 특징에 근거하여 선택함으로써 마스킹과 매핑을 적응적으로 결합하고, (2) Phase Shift-Invariant Training (PSIT)으로, 학습 중 동적 정렬을 가능하게 하여 위상 추정을 개선하되 표준 손실 함수와의 호환성을 유지하는 시프트 허용적 감독(supervision) 전략이다. 잡음 제거(denoising), 잔향 제거(dereverberation), 대역폭 확장(bandwidth extension), 다중 왜곡 향상(multi distortion enhancement) 과업에 대한 실험 결과는 EDNet이 조건 전반에서 일관되게 우수한 성능을 달성함을 보여주며, 이는 다양한 과업 설정에 대한 구조적 유연성과 적응성을 입증한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Speech enhancementGatingBandwidth (computing)Distortion (music)AdaptabilityFlexibility (engineering)Task (project management)Speech processingPhase distortion

타입

article

IF / 인용수

- / 2

원문

https://doi.org/10.1109/taslpro.2026.3662487

게재 연도

2026

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)