Learning Video Temporal Dynamics With Cross-Modal Attention For Robust Audio-Visual Speech Recognition | 김회린 교수 연구실 | 한국과학기술원 전기및전자공학부

|김회린 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

Article|

인용수 4

·2024

Learning Video Temporal Dynamics With Cross-Modal Attention For Robust Audio-Visual Speech Recognition

Sungnyun Kim, Kangwook Jang, Sangmin Bae, Hoirin Kim, Se-Young Yun

초록

오디오-시각 음성인식(AVSR)은 오디오와 비디오 두 가지 양식을 모두 사용하여 사람의 음성을 전사하는 것을 목표로 한다. 잡음이 포함된 오디오가 지배적인 실제 환경에서는 비디오 정보의 역할이 특히 중요해진다. 그러나 기존 연구들은 주로 AVSR에서 오디오 특징을 향상시키는 데 집중해 왔으며, 비디오 특징의 중요성은 상대적으로 간과해 왔다. 본 연구에서는 비디오 데이터에서의 세 가지 시간적 역학을 학습하여 비디오 특징을 강화한다: 문맥의 순서, 재생 방향, 그리고 비디오 프레임의 속도이다. 또한 음성의 변이성을 비디오의 시간적 역학에 대한 학습 과정에서 반영할 수 있도록, 오디오 정보를 비디오 특징에 풍부하게 결합하는 교차-양식 주의 모듈을 도입한다. 우리의 접근 방법을 바탕으로 잡음 우세(noise-dominant) 설정에서 LRS2 및 LRS3 AVSR 벤치마크에 대해 최신 성능을 달성한다. 특히 잡음 대화(babble)와 음성 잡음(speech noise) 환경에서 우수함을 보이며, 이는 비디오 양식에서의 입 모양(lip movements)으로부터 인식되어야 하는 음성 신호를 구별할 수 있음을 시사한다. 우리는 시간적 역학 손실 및 교차-양식 주의 아키텍처 설계에 대한 절제 실험(ablation experiments)을 제공함으로써 방법론의 타당성을 뒷받침한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Computer scienceSpeech recognitionAudio visualModalDynamics (music)Artificial intelligenceMultimediaAcoustics

타입

Article

IF / 인용수

- / 4

원문

https://doi.org/10.1109/slt61566.2024.10832305

게재 연도

2024