주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
article
|
·
인용수 2
·
2026EDNet: A Versatile Speech Enhancement Framework With Gating Mamba Mechanism and Phase Shift-Invariant Training
Doyeop Kwak, Youngjoon Jang, Seongyu Kim, Joon Son Chung
IEEE Transactions on Audio Speech and Language Processing
실세계 환경에서의 음성 신호는 가산 잡음, 잔향, 대역폭 제한과 같은 다양한 왜곡의 영향을 빈번히 받으며, 이러한 왜곡은 단독으로 나타나거나 조합되어 나타날 수 있다. 전통적인 음성 향상 방법은 보통 (음성 성분이 아닌 구성요소를 억제하되 관찰 가능한 구조는 보존하는 데 초점을 둔) 마스킹(masking) 또는 입력을 직접 변환하여 깨끗한 음성을 복원하려는 매핑(mapping)에 각각 의존한다. 두 접근법은 특정 상황에서의 강점이 있으나, 목표 조건 밖에서는 효과가 떨어질 수 있다. 본 연구에서는 과업 또는 입력 특성에 대한 사전 가정 없이 광범위한 왜곡 유형을 처리하도록 설계된 다재다능한 음성 향상 프레임워크인 Erase and Draw Network (EDNet)을 제안한다. EDNet은 두 개의 주요 구성요소로 이루어진다: (1) Gating Mamba (GM) 모듈로, 학습 가능한 게이팅 메커니즘을 통해 억제(Erase)와 복원(Draw) 사이를 국소 신호 특징에 근거하여 선택함으로써 마스킹과 매핑을 적응적으로 결합하고, (2) Phase Shift-Invariant Training (PSIT)으로, 학습 중 동적 정렬을 가능하게 하여 위상 추정을 개선하되 표준 손실 함수와의 호환성을 유지하는 시프트 허용적 감독(supervision) 전략이다. 잡음 제거(denoising), 잔향 제거(dereverberation), 대역폭 확장(bandwidth extension), 다중 왜곡 향상(multi distortion enhancement) 과업에 대한 실험 결과는 EDNet이 조건 전반에서 일관되게 우수한 성능을 달성함을 보여주며, 이는 다양한 과업 설정에 대한 구조적 유연성과 적응성을 입증한다.
https://doi.org/10.1109/taslpro.2026.3662487
Speech enhancement
Gating
Bandwidth (computing)
Distortion (music)
Adaptability
Flexibility (engineering)
Task (project management)
Speech processing
Phase distortion
2
article
|
·
인용수 1
·
2025Toward Interactive Sound Source Localization: Better Align Sight and Sound!
Arda Senocak, Hyeonggon Ryu, Junsik Kim, Tae-Hyun Oh, Hanspeter Pfister, Joon Son Chung
IF 18.6 (2025)
IEEE Transactions on Pattern Analysis and Machine Intelligence
학습 기반 음원 위치추정에 관한 최근 연구는 주로 위치추정 성능에 초점을 맞추고 있다. 그러나 선행 연구 및 기존 벤치마크는 흔히 필수적인 측면인 크로스모달 상호작용을 간과하고 있으며, 이는 대화형(인터랙티브) 음원 위치추정에 필수적이다. 이러한 상호작용은 예를 들어 여러 물체 중 무음 물체 또는 실제 음원처럼 의미적으로 일치하거나 불일치하는 오디오-비주얼 사건을 이해하는 데 중요하다. 본 연구에서는 기존 방법, 벤치마크, 평가 지표, 크로스모달 이해 과제에 대한 크로스모달 상호작용을 포괄적으로 고찰한다. 우리는 선행 연구에서 간과된 지점을 식별하고 이를 해결하기 위한 여러 기여를 제안한다. 첫째, 검색 기반 및 수작업(핸드크래프티드) 증강 기법을 통합하는 학습 프레임워크를 제안하여 크로스모달 정렬을 통해 크로스모달 상호작용을 향상시킨다. 둘째, 위치추정 성능과 크로스모달 상호작용 모두에 초점을 맞추어 위치추정 방법을 정확하고 엄밀하게 평가하기 위한 새로운 평가 지표를 도입한다. 셋째, 대화형 음원 위치추정을 면밀히 분석하기 위해 다양한 범주적 조합을 포함하는 새로운 준-합성(semi-synthetic) 벤치마크를 제시한다. 마지막으로, 대화형 음원 위치추정과 보조 크로스모달 검색 과제를 모두 평가하여, 경쟁 방법을 우리 방법과 함께 벤치마킹한다. 본 연구의 새로운 벤치마크와 평가 지표는 이전 방법들이 제한된 크로스모달 상호작용 능력으로 인해 대화형 음원 위치추정 과제에서 어려움을 겪는다는 점을 보여준다. 크로스모달 정렬을 강화한 우리 방법은 음원 위치추정 및 크로스모달 상호작용 성능에서 더 우수함을 입증한다. 본 연구는 현재까지 음원 위치추정에 대한 가장 포괄적인 분석을 제공하며, 새로운 및 기존 벤치마크 모두에 대해 새로 제안된 및 표준 평가 지표를 사용하여 경쟁 방법들을 광범위하게 검증한다.
https://doi.org/10.1109/tpami.2025.3573994
Sound (geography)
Computer science
Acoustic source localization
Sound localization
Sight
Acoustics
Artificial intelligence
Speech recognition
Computer vision
Physics
3
article
|
·
인용수 1
·
2024Bridging the Gap Between Audio and Text Using Parallel-Attention for User-Defined Keyword Spotting
Youkyum Kim, Jaemin Jung, Jihwan Park, Byeong-Yeol Kim, Joon Son Chung
IF 3.9 (2024)
IEEE Signal Processing Letters
이 서한은 텍스트 등록(text enrollment)을 기반으로 음성 키워드를 정확하게 탐지하는 새로운 사용자 정의 키워드 스폿팅 프레임워크를 제안한다. 음성 데이터는 텍스트에 비해 추가적인 음향 정보를 지니므로, 이 두 양식(modality) 사이에는 차이가 존재한다. 이러한 문제를 해결하기 위해, 우리는 두 양식 모두에 대해 양식 내(intra) 및 양식 간(inter-modal) 정보를 효과적으로 포착하기 위해 병렬 아키텍처에서 자기-주의(self-attention) 및 교차-주의(cross-attention)를 활용하는 ParallelKWS를 제시한다. 또한 음성 및 텍스트 특징 간의 순차적 대응을 강제하는 음소 지속시간 기반 정렬 손실(alignment loss)을 제안한다. 광범위한 실험 결과, 제안하는 방법은 이전 연구에서 사용된 데이터셋 외에 추가 데이터를 통합하지 않으면서도, 여러 벤치마크 데이터셋에서 seen 도메인과 unseen 도메인 모두에 대해 최첨단(state-of-the-art) 성능을 달성함을 보여준다.
http://dx.doi.org/10.1109/lsp.2024.3442092
Keyword spotting
Bridging (networking)
Computer science
Spotting
Speech recognition
Natural language processing
Information retrieval
Artificial intelligence
Computer network
4
article
|
·
인용수 29
·
2024Audio Mamba: Bidirectional State Space Model for Audio Representation Learning
Mehmet Hamza Erol, Arda Senocak, Jiu Feng, Joon Son Chung
IF 3.9 (2024)
IEEE Signal Processing Letters
트랜스포머는 오디오 분류에서 CNN 기반 방법을 능가하며 빠르게 선호되는 선택이 되었다. 그러나 Audio Spectrogram Transformers(AST)는 자기어텐션(self-attention)으로 인해 이차적으로 스케일링한다. 이러한 이차적인 자기어텐션 비용을 제거하는 것은 매력적인 방향이다. 최근 Mamba와 같은 상태 공간 모델(SSMs)은 언어 및 비전 과제에서 그 가능성을 보여주었다. 본 연구에서는 오디오 분류 과제에서 자기어텐션에 의존할 필요가 있는지 여부를 탐구한다. 이를 위해 오디오 분류를 위한 최초의 자기어텐션이 없는 순수 SSM 기반 모델인 Audio Mamba(AuM)를 도입하여 이 질문에 답하고자 한다. 우리는 여섯 가지 서로 다른 벤치마크로 구성된 다양한 오디오 데이터셋에서 AuM을 평가하며, 잘 정립된 AST 모델과 비교하여 동등하거나 더 나은 성능을 달성함을 보인다.
https://doi.org/10.1109/lsp.2024.3483009
Computer science
Representation (politics)
Audio signal
Digital audio
Audio signal processing
Speech recognition
Speech coding
5
article
|
·
인용수 16
·
2022Augmentation Adversarial Training for Self-Supervised Speaker Representation Learning
Jingu Kang, Jaesung Huh, Hee Soo Heo, Joon Son Chung
IF 7.5 (2022)
IEEE Journal of Selected Topics in Signal Processing
본 연구의 목적은 자기지도 표현 학습을 통해 강건한 화자 인식 모델을 학습하는 것이다. 자기지도 화자 표현에 관한 최근 연구들은 대비 학습(contrastive learning)에 기반을 두고 있으며, 여기서는 동일 발화(utterance) 내 임베딩은 유사하게, 발화 간( across-utterance) 임베딩은 서로 다르게 유도한다. 그러나 동일 발화 내 구간들은 동일한 음향적 특성을 공유하므로, 채널 정보로부터 화자 정보를 분리하기가 어렵다. 이를 위해 본 연구에서는, 적용되는 증강(augmentation)에 대해서는 불변(invariant)성을 갖되 화자 정보에 대해 판별적(discriminative)이 되도록 네트워크를 학습하는 증강 적대적 학습(augmentation adversarial training) 전략을 제안한다. 증강은 음향적 특성을 모사하므로, 증강에 대해 불변하도록 네트워크를 학습하는 것은 일반적으로 채널 정보에 대해서도 불변성을 갖도록 네트워크를 유도한다. VoxCeleb 및 VOiCES 데이터셋에 대한 광범위한 실험 결과, 자기지도를 사용한 기존 연구들에 비해 유의미한 성능 향상이 확인되었으며, 우리의 자기지도 모델 성능은 인간 수준을 크게 초과한다. 또한 화자 라벨이 존재하는 상황에서 증강 적대적 학습이 성능에 이점을 제공함을 보이기 위해 반지도(semi-supervised) 학습 실험도 수행하였다.
https://doi.org/10.1109/jstsp.2022.3200915
Computer science
Discriminative model
Utterance
Speech recognition
Artificial intelligence
Adversarial system
Speaker recognition
Feature learning
Representation (politics)
Invariant (physics)