본 논문은 오디오-시각 음성인식(AVSR)에서 언어 공간 내에서 양식(modality) 특화 근거를 직접 추론하는 생성적 오류 정정(GER) 프레임워크의 새로운 패러다임을 제안한다. 본 프레임워크인 DualHyp은 대규모 언어 모델(LLM)이 별도의 자동 음성인식(ASR) 및 시각 음성인식(VSR) 모델로부터 독립적인 N-best 가설을 구성하도록 한다. DualHyp의 효과를 극대화하기 위해, 우리는 잡음 인지형 안내 메커니즘인 RelPrompt도 함께 제안하며, 이는 양식 기반의 프롬프트를 LLM에 제공한다. RelPrompt는 각 양식 스트림의 시간적 신뢰도를 제공하여, 모델이 ASR 및 VSR 가설 사이에 초점을 동적으로 전환하면서 정확한 정정을 수행하도록 유도한다. 다양한 손상(corruption) 시나리오에서, 본 프레임워크는 표준 ASR 기준선 대비 LRS2 벤치마크에서 최대 57.7%의 오류율 개선을 달성하였으며, 단일 스트림 GER 접근법이 단지 10%의 개선만을 보이는 것과 대비된다. DualHyp 프레임워크 내에서의 연구를 촉진하기 위해, ASR 및 VSR 가설을 포함한 코드와 데이터셋을 https://github.com/sungnyun/dualhyp 에 공개한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.