논문 | 정준선 교수 연구실 | 한국과학기술원 전기및전자공학부

정준선 교수 연구실

서비스 플랜

연구실 검색

프로젝트 공고

정부 과제 추천

AI 기반 기업 서칭

홈

기본 정보

연구 분야

프로젝트

논문

구성원

논문

연구 성과 추이

표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

5개년 연도별 논문 게재 수

126총합

5개년 연도별 피인용 수

1,895총합

주요 논문

*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.

article

인용수 2

2026

EDNet: A Versatile Speech Enhancement Framework With Gating Mamba Mechanism and Phase Shift-Invariant Training

Doyeop Kwak, Youngjoon Jang, Seongyu Kim, Joon Son Chung

IEEE Transactions on Audio Speech and Language Processing

실세계 환경에서의 음성 신호는 가산 잡음, 잔향, 대역폭 제한과 같은 다양한 왜곡의 영향을 빈번히 받으며, 이러한 왜곡은 단독으로 나타나거나 조합되어 나타날 수 있다. 전통적인 음성 향상 방법은 보통 (음성 성분이 아닌 구성요소를 억제하되 관찰 가능한 구조는 보존하는 데 초점을 둔) 마스킹(masking) 또는 입력을 직접 변환하여 깨끗한 음성을 복원하려는 매핑(mapping)에 각각 의존한다. 두 접근법은 특정 상황에서의 강점이 있으나, 목표 조건 밖에서는 효과가 떨어질 수 있다. 본 연구에서는 과업 또는 입력 특성에 대한 사전 가정 없이 광범위한 왜곡 유형을 처리하도록 설계된 다재다능한 음성 향상 프레임워크인 Erase and Draw Network (EDNet)을 제안한다. EDNet은 두 개의 주요 구성요소로 이루어진다: (1) Gating Mamba (GM) 모듈로, 학습 가능한 게이팅 메커니즘을 통해 억제(Erase)와 복원(Draw) 사이를 국소 신호 특징에 근거하여 선택함으로써 마스킹과 매핑을 적응적으로 결합하고, (2) Phase Shift-Invariant Training (PSIT)으로, 학습 중 동적 정렬을 가능하게 하여 위상 추정을 개선하되 표준 손실 함수와의 호환성을 유지하는 시프트 허용적 감독(supervision) 전략이다. 잡음 제거(denoising), 잔향 제거(dereverberation), 대역폭 확장(bandwidth extension), 다중 왜곡 향상(multi distortion enhancement) 과업에 대한 실험 결과는 EDNet이 조건 전반에서 일관되게 우수한 성능을 달성함을 보여주며, 이는 다양한 과업 설정에 대한 구조적 유연성과 적응성을 입증한다.

https://doi.org/10.1109/taslpro.2026.3662487

Speech enhancement

Gating

Bandwidth (computing)

Distortion (music)

Adaptability

Flexibility (engineering)

Task (project management)

Speech processing

Phase distortion

article

인용수 1

2025

Toward Interactive Sound Source Localization: Better Align Sight and Sound!

Arda Senocak, Hyeonggon Ryu, Junsik Kim, Tae-Hyun Oh, Hanspeter Pfister, Joon Son Chung

IF 18.6 (2025)

IEEE Transactions on Pattern Analysis and Machine Intelligence

학습 기반 음원 위치추정에 관한 최근 연구는 주로 위치추정 성능에 초점을 맞추고 있다. 그러나 선행 연구 및 기존 벤치마크는 흔히 필수적인 측면인 크로스모달 상호작용을 간과하고 있으며, 이는 대화형(인터랙티브) 음원 위치추정에 필수적이다. 이러한 상호작용은 예를 들어 여러 물체 중 무음 물체 또는 실제 음원처럼 의미적으로 일치하거나 불일치하는 오디오-비주얼 사건을 이해하는 데 중요하다. 본 연구에서는 기존 방법, 벤치마크, 평가 지표, 크로스모달 이해 과제에 대한 크로스모달 상호작용을 포괄적으로 고찰한다. 우리는 선행 연구에서 간과된 지점을 식별하고 이를 해결하기 위한 여러 기여를 제안한다. 첫째, 검색 기반 및 수작업(핸드크래프티드) 증강 기법을 통합하는 학습 프레임워크를 제안하여 크로스모달 정렬을 통해 크로스모달 상호작용을 향상시킨다. 둘째, 위치추정 성능과 크로스모달 상호작용 모두에 초점을 맞추어 위치추정 방법을 정확하고 엄밀하게 평가하기 위한 새로운 평가 지표를 도입한다. 셋째, 대화형 음원 위치추정을 면밀히 분석하기 위해 다양한 범주적 조합을 포함하는 새로운 준-합성(semi-synthetic) 벤치마크를 제시한다. 마지막으로, 대화형 음원 위치추정과 보조 크로스모달 검색 과제를 모두 평가하여, 경쟁 방법을 우리 방법과 함께 벤치마킹한다. 본 연구의 새로운 벤치마크와 평가 지표는 이전 방법들이 제한된 크로스모달 상호작용 능력으로 인해 대화형 음원 위치추정 과제에서 어려움을 겪는다는 점을 보여준다. 크로스모달 정렬을 강화한 우리 방법은 음원 위치추정 및 크로스모달 상호작용 성능에서 더 우수함을 입증한다. 본 연구는 현재까지 음원 위치추정에 대한 가장 포괄적인 분석을 제공하며, 새로운 및 기존 벤치마크 모두에 대해 새로 제안된 및 표준 평가 지표를 사용하여 경쟁 방법들을 광범위하게 검증한다.

https://doi.org/10.1109/tpami.2025.3573994

Sound (geography)

Computer science

Acoustic source localization

Sound localization

Sight

Acoustics

Artificial intelligence

Speech recognition

Computer vision

Physics

article

인용수 1

2024

Bridging the Gap Between Audio and Text Using Parallel-Attention for User-Defined Keyword Spotting

Youkyum Kim, Jaemin Jung, Jihwan Park, Byeong-Yeol Kim, Joon Son Chung

IF 3.9 (2024)

IEEE Signal Processing Letters

이 서한은 텍스트 등록(text enrollment)을 기반으로 음성 키워드를 정확하게 탐지하는 새로운 사용자 정의 키워드 스폿팅 프레임워크를 제안한다. 음성 데이터는 텍스트에 비해 추가적인 음향 정보를 지니므로, 이 두 양식(modality) 사이에는 차이가 존재한다. 이러한 문제를 해결하기 위해, 우리는 두 양식 모두에 대해 양식 내(intra) 및 양식 간(inter-modal) 정보를 효과적으로 포착하기 위해 병렬 아키텍처에서 자기-주의(self-attention) 및 교차-주의(cross-attention)를 활용하는 ParallelKWS를 제시한다. 또한 음성 및 텍스트 특징 간의 순차적 대응을 강제하는 음소 지속시간 기반 정렬 손실(alignment loss)을 제안한다. 광범위한 실험 결과, 제안하는 방법은 이전 연구에서 사용된 데이터셋 외에 추가 데이터를 통합하지 않으면서도, 여러 벤치마크 데이터셋에서 seen 도메인과 unseen 도메인 모두에 대해 최첨단(state-of-the-art) 성능을 달성함을 보여준다.

http://dx.doi.org/10.1109/lsp.2024.3442092

Keyword spotting

Bridging (networking)

Computer science

Spotting

Speech recognition

Natural language processing

Information retrieval

Artificial intelligence

Computer network

article

인용수 29

2024

Audio Mamba: Bidirectional State Space Model for Audio Representation Learning

Mehmet Hamza Erol, Arda Senocak, Jiu Feng, Joon Son Chung

IF 3.9 (2024)

IEEE Signal Processing Letters

트랜스포머는 오디오 분류에서 CNN 기반 방법을 능가하며 빠르게 선호되는 선택이 되었다. 그러나 Audio Spectrogram Transformers(AST)는 자기어텐션(self-attention)으로 인해 이차적으로 스케일링한다. 이러한 이차적인 자기어텐션 비용을 제거하는 것은 매력적인 방향이다. 최근 Mamba와 같은 상태 공간 모델(SSMs)은 언어 및 비전 과제에서 그 가능성을 보여주었다. 본 연구에서는 오디오 분류 과제에서 자기어텐션에 의존할 필요가 있는지 여부를 탐구한다. 이를 위해 오디오 분류를 위한 최초의 자기어텐션이 없는 순수 SSM 기반 모델인 Audio Mamba(AuM)를 도입하여 이 질문에 답하고자 한다. 우리는 여섯 가지 서로 다른 벤치마크로 구성된 다양한 오디오 데이터셋에서 AuM을 평가하며, 잘 정립된 AST 모델과 비교하여 동등하거나 더 나은 성능을 달성함을 보인다.

https://doi.org/10.1109/lsp.2024.3483009

Computer science

Representation (politics)

Audio signal

Digital audio

Audio signal processing

Speech recognition

Speech coding

article

인용수 16

2022

Augmentation Adversarial Training for Self-Supervised Speaker Representation Learning

Jingu Kang, Jaesung Huh, Hee Soo Heo, Joon Son Chung

IF 7.5 (2022)

IEEE Journal of Selected Topics in Signal Processing

본 연구의 목적은 자기지도 표현 학습을 통해 강건한 화자 인식 모델을 학습하는 것이다. 자기지도 화자 표현에 관한 최근 연구들은 대비 학습(contrastive learning)에 기반을 두고 있으며, 여기서는 동일 발화(utterance) 내 임베딩은 유사하게, 발화 간( across-utterance) 임베딩은 서로 다르게 유도한다. 그러나 동일 발화 내 구간들은 동일한 음향적 특성을 공유하므로, 채널 정보로부터 화자 정보를 분리하기가 어렵다. 이를 위해 본 연구에서는, 적용되는 증강(augmentation)에 대해서는 불변(invariant)성을 갖되 화자 정보에 대해 판별적(discriminative)이 되도록 네트워크를 학습하는 증강 적대적 학습(augmentation adversarial training) 전략을 제안한다. 증강은 음향적 특성을 모사하므로, 증강에 대해 불변하도록 네트워크를 학습하는 것은 일반적으로 채널 정보에 대해서도 불변성을 갖도록 네트워크를 유도한다. VoxCeleb 및 VOiCES 데이터셋에 대한 광범위한 실험 결과, 자기지도를 사용한 기존 연구들에 비해 유의미한 성능 향상이 확인되었으며, 우리의 자기지도 모델 성능은 인간 수준을 크게 초과한다. 또한 화자 라벨이 존재하는 상황에서 증강 적대적 학습이 성능에 이점을 제공함을 보이기 위해 반지도(semi-supervised) 학습 실험도 수행하였다.

https://doi.org/10.1109/jstsp.2022.3200915

Computer science

Discriminative model

Utterance

Speech recognition

Artificial intelligence

Adversarial system

Speaker recognition

Feature learning

Representation (politics)

Invariant (physics)

전체 논문

173

article

인용수 2

2026

EDNet: A Versatile Speech Enhancement Framework With Gating Mamba Mechanism and Phase Shift-Invariant Training

Doyeop Kwak, Youngjoon Jang, Seongyu Kim, Joon Son Chung

IEEE Transactions on Audio Speech and Language Processing

https://doi.org/10.1109/taslpro.2026.3662487

Speech enhancement

Gating

Bandwidth (computing)

Distortion (music)

Adaptability

Flexibility (engineering)

Task (project management)

Speech processing

Phase distortion

article

인용수 1

2025

Toward Interactive Sound Source Localization: Better Align Sight and Sound!

Arda Senocak, Hyeonggon Ryu, Junsik Kim, Tae-Hyun Oh, Hanspeter Pfister, Joon Son Chung

IF 18.6 (2025)

IEEE Transactions on Pattern Analysis and Machine Intelligence

https://doi.org/10.1109/tpami.2025.3573994

Sound (geography)

Computer science

Acoustic source localization

Sound localization

Sight

Acoustics

Artificial intelligence

Speech recognition

Computer vision

Physics

article

인용수 1

2024

Bridging the Gap Between Audio and Text Using Parallel-Attention for User-Defined Keyword Spotting

Youkyum Kim, Jaemin Jung, Jihwan Park, Byeong-Yeol Kim, Joon Son Chung

IF 3.9 (2024)

IEEE Signal Processing Letters

http://dx.doi.org/10.1109/lsp.2024.3442092

Keyword spotting

Bridging (networking)

Computer science

Spotting

Speech recognition

Natural language processing

Information retrieval

Artificial intelligence

Computer network

article

인용수 29

2024

Audio Mamba: Bidirectional State Space Model for Audio Representation Learning

Mehmet Hamza Erol, Arda Senocak, Jiu Feng, Joon Son Chung

IF 3.9 (2024)

IEEE Signal Processing Letters

https://doi.org/10.1109/lsp.2024.3483009

Computer science

Representation (politics)

Audio signal

Digital audio

Audio signal processing

Speech recognition

Speech coding

article

인용수 16

2022

Augmentation Adversarial Training for Self-Supervised Speaker Representation Learning

Jingu Kang, Jaesung Huh, Hee Soo Heo, Joon Son Chung

IF 7.5 (2022)

IEEE Journal of Selected Topics in Signal Processing

https://doi.org/10.1109/jstsp.2022.3200915

Computer science

Discriminative model

Utterance

Speech recognition

Artificial intelligence

Adversarial system

Speaker recognition

Feature learning

Representation (politics)

Invariant (physics)

article

인용수 93

Disentangled Speech Embeddings Using Cross-Modal Self-Supervision

Zisserman, A, Joon Son Chung, Samuel Albanie, Nagrani, A

Oxford University Research Archive (ORA) (University of Oxford)

본 논문의 목적은 수동으로 주석이 달린 데이터에 접근하지 않고도 화자 정체성(speaker identity)의 표현을 학습하는 것이다. 이를 위해 우리는 영상에서 얼굴과 음성 간의 자연스러운 교차 양식 동기(cross-modal synchrony)를 활용하는 자기지도 학습 목표를 개발한다. 본 접근법의 핵심 아이디어는 주석 없이 언어적 내용과 화자 정체성의 표현을 분리해내는 것이다. 이를 위해 우리는 (1) 두 표현 모두에 공통적인 저수준 특징을 공유하고, (2) 이러한 요인들을 명시적으로 분리하기 위한 자연스러운 메커니즘을 제공하는 2-스트림 아키텍처를 구성한다. 이를 통해 새로운 내용-정체성 조합에 대한 더 큰 일반화 가능성을 제공하며, 궁극적으로 더 견고한 화자 정체성 표현을 산출할 수 있다. 우리는 ‘in the wild’ 환경의 대규모 오디오-비주얼(오디오-시각) 데이터셋에서 본 방법을 학습하고, 표준 화자 인식 성능을 평가함으로써 학습된 화자 표현의 효능을 입증한다.

https://ora.ox.ac.uk/objects/uuid:7ea9a007-6578-44f7-9ce8-9b3197cbeeb8

Computer science

Identity (music)

Construct (python library)

Modal

Annotation

Speaker recognition

Speech recognition

Natural language processing

Exploit

Artificial intelligence

article

인용수 0

2026

Correction: Hearing and Seeing Through CLIP: A Framework for Self-Supervised Sound Source Localization

Sooyoung Park, Arda Senocak, Joon Son Chung

IF 9.3 (2026)

International Journal of Computer Vision

"Alignment TPAMI25 )"에서 잘못된 닫는 대괄호를 제거하십시오. [정정: " ]

https://doi.org/10.1007/s11263-026-02836-w

Sound localization

Pattern recognition (psychology)

Acoustic source localization

Signal processing

Sound (geography)

Image processing

article

인용수 0

2026

MAGE: A Coarse-to-Fine Speech Enhancer with Masked Generative Model

The Hieu Pham, Tan Dat Nguyen, Phuong Thanh Tran, Joon Son Chung, Duc Dung Nguyen

음성 향상은 효율성과 지각 품질 사이의 상충 관계로 인해 여전히 어렵다. 본 논문에서는 컴팩트하고 견고한 설계를 통해 생성 기반 음성 향상을 진전시키는 Masked Audio Generative Enhancer인 MAGE를 제안한다. 무작위 마스킹을 사용하는 기존의 마스킹 생성 모델과 달리, MAGE는 희소성 인식(coars-to-fine) 마스킹 전략을 적용하여 초기 단계에서는 빈번한 토큰을 우선하고 이후 정교화 단계에서는 드문 토큰을 우선함으로써 효율성과 일반화 성능을 향상시킨다. 또한 저신뢰 예측을 탐지하고 이를 재-마스킹하여 정교화를 수행함으로써 추론의 안정성을 더욱 강화하는 경량 정정기 모듈을 제안한다. BigCodec을 기반으로 하며 Qwen2.5-0.5B로부터 파인튜닝되어, 선택적 층 유지(selective layer retention)를 통해 MAGE는 200M 파라미터로 축소된다. DNS Challenge 및 노이즈가 포함된 LibriSpeech에 대한 실험에서 MAGE는 최첨단의 지각 품질을 달성하고, 하류 인식(downstream recognition)을 위한 단어 오류율을 유의미하게 감소시키며, 더 큰 기준 모델들보다 우수한 성능을 보인다. 오디오 예시는 https://hieugiaosu.github.io/MAGE 에서 제공된다.

https://doi.org/10.1109/icassp55912.2026.11464815

Masking (illustration)

Generative model

Generative grammar

Inference

Perception

Word error rate

Quality (philosophy)

preprint

인용수 0

2025

AdaptVC: High Quality Voice Conversion with Adaptive Learning

Jaehun Kim, Ji‐Hoon Kim, Yeunju Choi, Tan Dat Nguyen, Seongkyu Mun, Joon Son Chung

arXiv (Cornell University)

음성 변환의 목표는 원 화자의 발화를 참조 화자의 음성처럼 들리게 하면서 원래의 내용을 보존하는 것이다. 핵심 과제는 원 화자로부터는 분리된 언어적 콘텐츠를 추출하고, 참조 화자로부터는 음성 스타일을 추출하는 것이다. 기존 접근법들은 두 요소를 분리하기 위해 다양한 방법을 활용하지만, 일반화 성능은 특히 제로샷 시나리오에서의 견고성 측면에서 여전히 추가적인 주의가 필요하다. 본 논문에서는 어댑터로 자기지도 학습 음성 특징을 미세조정하여 콘텐츠와 화자 특징의 성공적인 분리를 달성한다. 어댑터는 풍부한 자기지도 학습 특징으로부터 미묘한 특징을 동적으로 인코딩하도록 학습되며, 디코더는 이를 융합하여 콘텐츠의 손실을 최소화하면서 참조에 정확히 유사한 음성을 생성한다. 또한, 조건부 플로우 매칭 디코더와 교차-주의(cross-attention) 기반 화자 조건화를 활용하여 합성의 품질과 효율을 한층 더 향상시킨다. 제로샷 시나리오에서의 주관적 및 객관적 평가 결과, 제안 방법은 음성의 품질과 참조 음성과의 유사성에서 기존 모델을 능가함을 확인하였다.

http://arxiv.org/abs/2501.01347

Quality (philosophy)

Speech recognition

Computer science

article

인용수 1

2025

From Faces to Voices: Learning Hierarchical Representations for High-quality Video-to-Speech

Jihoon Kim, Jeongsoo Choi, Jaehun Kim, Chaeyoung Jung, Joon Son Chung

본 연구의 목적은 무성(無聲) 말하기 얼굴 비디오로부터 고품질 음성을 생성하는 것으로, 이는 비디오-음성 합성(video-to-speech synthesis)이라는 과제이기도 하다. 비디오-음성 합성에서의 주요 도전 과제는 무성 비디오와 다면적(multifaceted) 음성 간에 존재하는 실질적인 모달리티 격차(modality gap)이다. 본 논문에서는 이러한 모달리티 격차를 효과적으로 해소하여 합성 음성의 품질을 유의미하게 향상시키는 새로운 비디오-음성 합성 시스템을 제안한다. 이는 비디오로부터 음성에 이르는 계층적(hierarchical) 표현을 학습함으로써 달성된다. 구체적으로, 우리는 세 가지 순차적 단계—콘텐츠(content), 팀브르(timbre), 운율(prosody) 모델링—를 통해 무성 비디오를 점진적으로 음향 특징 공간(acoustic feature space)으로 변환한다. 각 단계에서는 시각적 요인인 입 움직임, 얼굴 정체성(face identity), 얼굴 표정(facial expressions)을 해당하는 음향적 대응물과 정렬하여 매끄러운 변환이 이루어지도록 한다. 또한 시각적 표현으로부터 사실적이고 일관된 음성을 생성하기 위해, 단순한 사전 분포(prior distribution)에서 목표 음성 분포(target speech distribution)로의 직접적인 궤적을 추정하는 flow matching 모델을 사용한다. 광범위한 실험 결과, 본 방법은 실제 발화와 견줄 만한 탁월한 생성 품질을 달성하며, 기존 방법들에 비해 상당한 폭으로 성능이 우수함을 보여준다.

https://doi.org/10.1109/cvpr52734.2025.01480

Computer science

Speech recognition

Quality (philosophy)

Natural language processing

Artificial intelligence

Multimedia

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

주요 논문

*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.

article

인용수 2

2026

EDNet: A Versatile Speech Enhancement Framework With Gating Mamba Mechanism and Phase Shift-Invariant Training

Doyeop Kwak, Youngjoon Jang, Seongyu Kim, Joon Son Chung

IEEE Transactions on Audio Speech and Language Processing

https://doi.org/10.1109/taslpro.2026.3662487

Speech enhancement

Gating

Bandwidth (computing)

Distortion (music)

Adaptability

Flexibility (engineering)

Task (project management)

Speech processing

Phase distortion

article

인용수 1

2025

Toward Interactive Sound Source Localization: Better Align Sight and Sound!

Arda Senocak, Hyeonggon Ryu, Junsik Kim, Tae-Hyun Oh, Hanspeter Pfister, Joon Son Chung

IF 18.6 (2025)

IEEE Transactions on Pattern Analysis and Machine Intelligence

https://doi.org/10.1109/tpami.2025.3573994

Sound (geography)

Computer science

Acoustic source localization

Sound localization

Sight

Acoustics

Artificial intelligence

Speech recognition

Computer vision

Physics

article

인용수 1

2024

Bridging the Gap Between Audio and Text Using Parallel-Attention for User-Defined Keyword Spotting

Youkyum Kim, Jaemin Jung, Jihwan Park, Byeong-Yeol Kim, Joon Son Chung

IF 3.9 (2024)

IEEE Signal Processing Letters

http://dx.doi.org/10.1109/lsp.2024.3442092

Keyword spotting

Bridging (networking)

Computer science

Spotting

Speech recognition

Natural language processing

Information retrieval

Artificial intelligence

Computer network

article

인용수 29

2024

Audio Mamba: Bidirectional State Space Model for Audio Representation Learning

Mehmet Hamza Erol, Arda Senocak, Jiu Feng, Joon Son Chung

IF 3.9 (2024)

IEEE Signal Processing Letters

https://doi.org/10.1109/lsp.2024.3483009

Computer science

Representation (politics)

Audio signal

Digital audio

Audio signal processing

Speech recognition

Speech coding

article

인용수 16

2022

Augmentation Adversarial Training for Self-Supervised Speaker Representation Learning

Jingu Kang, Jaesung Huh, Hee Soo Heo, Joon Son Chung

IF 7.5 (2022)

IEEE Journal of Selected Topics in Signal Processing

https://doi.org/10.1109/jstsp.2022.3200915

Computer science

Discriminative model

Utterance

Speech recognition

Artificial intelligence

Adversarial system

Speaker recognition

Feature learning

Representation (politics)

Invariant (physics)

전체 논문

173

article

인용수 2

2026

EDNet: A Versatile Speech Enhancement Framework With Gating Mamba Mechanism and Phase Shift-Invariant Training

Doyeop Kwak, Youngjoon Jang, Seongyu Kim, Joon Son Chung

IEEE Transactions on Audio Speech and Language Processing

https://doi.org/10.1109/taslpro.2026.3662487

Speech enhancement

Gating

Bandwidth (computing)

Distortion (music)

Adaptability

Flexibility (engineering)

Task (project management)

Speech processing

Phase distortion

article

인용수 1

2025

Toward Interactive Sound Source Localization: Better Align Sight and Sound!

Arda Senocak, Hyeonggon Ryu, Junsik Kim, Tae-Hyun Oh, Hanspeter Pfister, Joon Son Chung

IF 18.6 (2025)

IEEE Transactions on Pattern Analysis and Machine Intelligence

https://doi.org/10.1109/tpami.2025.3573994

Sound (geography)

Computer science

Acoustic source localization

Sound localization

Sight

Acoustics

Artificial intelligence

Speech recognition

Computer vision

Physics

article

인용수 1

2024

Bridging the Gap Between Audio and Text Using Parallel-Attention for User-Defined Keyword Spotting

Youkyum Kim, Jaemin Jung, Jihwan Park, Byeong-Yeol Kim, Joon Son Chung

IF 3.9 (2024)

IEEE Signal Processing Letters

http://dx.doi.org/10.1109/lsp.2024.3442092

Keyword spotting

Bridging (networking)

Computer science

Spotting

Speech recognition

Natural language processing

Information retrieval

Artificial intelligence

Computer network

article

인용수 29

2024

Audio Mamba: Bidirectional State Space Model for Audio Representation Learning

Mehmet Hamza Erol, Arda Senocak, Jiu Feng, Joon Son Chung

IF 3.9 (2024)

IEEE Signal Processing Letters

https://doi.org/10.1109/lsp.2024.3483009

Computer science

Representation (politics)

Audio signal

Digital audio

Audio signal processing

Speech recognition

Speech coding

article

인용수 16

2022

Augmentation Adversarial Training for Self-Supervised Speaker Representation Learning

Jingu Kang, Jaesung Huh, Hee Soo Heo, Joon Son Chung

IF 7.5 (2022)

IEEE Journal of Selected Topics in Signal Processing

https://doi.org/10.1109/jstsp.2022.3200915

Computer science

Discriminative model

Utterance

Speech recognition

Artificial intelligence

Adversarial system

Speaker recognition

Feature learning

Representation (politics)

Invariant (physics)

article

인용수 93

Disentangled Speech Embeddings Using Cross-Modal Self-Supervision

Zisserman, A, Joon Son Chung, Samuel Albanie, Nagrani, A

Oxford University Research Archive (ORA) (University of Oxford)

https://ora.ox.ac.uk/objects/uuid:7ea9a007-6578-44f7-9ce8-9b3197cbeeb8

Computer science

Identity (music)

Construct (python library)

Modal

Annotation

Speaker recognition

Speech recognition

Natural language processing

Exploit

Artificial intelligence

article

인용수 0

2026

Correction: Hearing and Seeing Through CLIP: A Framework for Self-Supervised Sound Source Localization

Sooyoung Park, Arda Senocak, Joon Son Chung

IF 9.3 (2026)

International Journal of Computer Vision

"Alignment TPAMI25 )"에서 잘못된 닫는 대괄호를 제거하십시오. [정정: " ]

https://doi.org/10.1007/s11263-026-02836-w

Sound localization

Pattern recognition (psychology)

Acoustic source localization

Signal processing

Sound (geography)

Image processing

article

인용수 0

2026

MAGE: A Coarse-to-Fine Speech Enhancer with Masked Generative Model

The Hieu Pham, Tan Dat Nguyen, Phuong Thanh Tran, Joon Son Chung, Duc Dung Nguyen

https://doi.org/10.1109/icassp55912.2026.11464815

Masking (illustration)

Generative model

Generative grammar

Inference

Perception

Word error rate

Quality (philosophy)

preprint

인용수 0

2025

AdaptVC: High Quality Voice Conversion with Adaptive Learning

Jaehun Kim, Ji‐Hoon Kim, Yeunju Choi, Tan Dat Nguyen, Seongkyu Mun, Joon Son Chung

arXiv (Cornell University)

http://arxiv.org/abs/2501.01347

Quality (philosophy)

Speech recognition

Computer science

article

인용수 1

2025

From Faces to Voices: Learning Hierarchical Representations for High-quality Video-to-Speech

Jihoon Kim, Jeongsoo Choi, Jaehun Kim, Chaeyoung Jung, Joon Son Chung

https://doi.org/10.1109/cvpr52734.2025.01480

Computer science

Speech recognition

Quality (philosophy)

Natural language processing

Artificial intelligence

Multimedia