우리는 자동 음성 인식(ASR) 시스템에서 명사구 개체명(Named Entity, NE) 교정을 개선하기 위한 방법인 DeRAGEC를 제시한다. 검색-증강 생성 오류 교정(Retrieval-Augmented Generative Error Correction, RAGEC) 프레임워크를 확장함으로써, DeRAGEC는 교정에 앞서 합성된 노이즈 제거 추론을 활용하여 노이즈가 포함된 NE 후보를 걸러낸다. 음성적 유사성과 증강된 정의를 활용하여 문맥 내 학습(in-context learning)으로 노이즈가 포함된 검색 NE를 정교화하며, 추가적인 학습이 필요하지 않다. CommonVoice 및 STOP 데이터셋에 대한 실험 결과는 단어 오류율(Word Error Rate, WER)과 NE 히트 비율에서 유의미한 개선을 보여주며, 기본 ASR 및 RAGEC 방법을 능가한다. 구체적으로, 우리는 후처리 없이 ASR에 비해 WER을 상대적으로 28% 감소시키는 성과를 달성했다. 우리의 소스 코드는 다음에서 공개되어 있다:
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.