검색 증강 생성(Retrieval-Augmented Generation, RAG)은 외부 데이터베이스에서 정보를 검색하여 대규모 언어 모델(LLM)의 제한된 내부 지식을 보완함으로써, 사실적 정확도를 향상하는 데 효과적인 접근법이다. 그러나 표준 RAG은 질의와 문서 간의 관련성에만 의존하여 정보를 검색하는 경우가 많아, 이러한 자료원의 이질적인 신뢰도를 간과함으로써 부정확한 정보를 검색할 위험이 있다. 이 문제를 해결하기 위해 본 연구에서는 자료원 신뢰도 인지 RAG(Reliability-Aware RAG, RA-RAG)라는 새로운 다중 자료원 RAG 프레임워크를 제안한다. RA-RAG는 자료원의 신뢰도를 추정하고 이를 활용하여 높은 신뢰도이면서도 관련성이 높은 문서를 우선적으로 선택함으로써, 보다 견고하고 정확한 응답 생성이 가능하도록 설계되었다. 구체적으로 RA-RAG는 먼저 여러 자료원에 걸쳐 정보를 교차 대조하여 자료원의 신뢰도를 추정한다. 그 다음 신뢰도와 관련성 기준 상위 자료원에서 문서를 검색하고, 가중 다수결(weighted majority voting, WMV)로 이들의 정보를 집계한다. 이때 선택적 검색은 성능을 저하시키지 않으면서도 확장성을 보장한다. 종합적인 실험 결과, RA-RAG는 이질적인 자료원 신뢰도가 존재하는 시나리오에서 기존 기준 방법들을 일관되게 능가하며, 자료원 수가 증가함에 따라 효율적으로 확장됨을 보였다. 또한 RA-RAG가 실제 환경의 자료원에 대해 신뢰도를 추정할 수 있음을 시연함으로써, 실용적 적용 가능성을 강조한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.