기본 정보
연구 분야
프로젝트
논문
구성원
article|
·
인용수 1
·2025
Toward Interactive Sound Source Localization: Better Align Sight and Sound!
Arda Senocak, Hyeonggon Ryu, Junsik Kim, Tae-Hyun Oh, Hanspeter Pfister, Joon Son Chung
IF 18.6IEEE Transactions on Pattern Analysis and Machine Intelligence
초록

학습 기반 음원 위치추정에 관한 최근 연구는 주로 위치추정 성능에 초점을 맞추고 있다. 그러나 선행 연구 및 기존 벤치마크는 흔히 필수적인 측면인 크로스모달 상호작용을 간과하고 있으며, 이는 대화형(인터랙티브) 음원 위치추정에 필수적이다. 이러한 상호작용은 예를 들어 여러 물체 중 무음 물체 또는 실제 음원처럼 의미적으로 일치하거나 불일치하는 오디오-비주얼 사건을 이해하는 데 중요하다. 본 연구에서는 기존 방법, 벤치마크, 평가 지표, 크로스모달 이해 과제에 대한 크로스모달 상호작용을 포괄적으로 고찰한다. 우리는 선행 연구에서 간과된 지점을 식별하고 이를 해결하기 위한 여러 기여를 제안한다. 첫째, 검색 기반 및 수작업(핸드크래프티드) 증강 기법을 통합하는 학습 프레임워크를 제안하여 크로스모달 정렬을 통해 크로스모달 상호작용을 향상시킨다. 둘째, 위치추정 성능과 크로스모달 상호작용 모두에 초점을 맞추어 위치추정 방법을 정확하고 엄밀하게 평가하기 위한 새로운 평가 지표를 도입한다. 셋째, 대화형 음원 위치추정을 면밀히 분석하기 위해 다양한 범주적 조합을 포함하는 새로운 준-합성(semi-synthetic) 벤치마크를 제시한다. 마지막으로, 대화형 음원 위치추정과 보조 크로스모달 검색 과제를 모두 평가하여, 경쟁 방법을 우리 방법과 함께 벤치마킹한다. 본 연구의 새로운 벤치마크와 평가 지표는 이전 방법들이 제한된 크로스모달 상호작용 능력으로 인해 대화형 음원 위치추정 과제에서 어려움을 겪는다는 점을 보여준다. 크로스모달 정렬을 강화한 우리 방법은 음원 위치추정 및 크로스모달 상호작용 성능에서 더 우수함을 입증한다. 본 연구는 현재까지 음원 위치추정에 대한 가장 포괄적인 분석을 제공하며, 새로운 및 기존 벤치마크 모두에 대해 새로 제안된 및 표준 평가 지표를 사용하여 경쟁 방법들을 광범위하게 검증한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
Sound (geography)Computer scienceAcoustic source localizationSound localizationSightAcousticsArtificial intelligenceSpeech recognitionComputer visionPhysics
타입
article
IF / 인용수
18.6 / 1
게재 연도
2025

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.