여러 과제의 맥락으로 주어지는 텍스트 데이터의 길이가 길어질수록, 필요한 정보가 여기저기 흩어져 있으면 대규모 언어모델(LLM)이 관련 세부 정보를 포착하기가 더 어려워진다. 이러한 문제는 핵심 정보가 맥락 안에서 고르게 분포되어 있지 않은 경우가 흔한 질의응답(QA)과 같은 과제에서 특히 두드러진다. 이러한 정보 희소성 문제는 직접적인 맥락 조정과 검색 기반 방법과 같은 다양한 접근의 시도로 이어져 왔다. 그러나 이러한 접근은 대개 압축된 맥락을 활용하므로 핵심 정보가 삭제되는 부분에 포함될 위험이 커진다. 따라서 맥락에서 핵심 세부 정보를 잃지 않으면서 정보 희소성을 해결하는 관점에서의 연구가 필요하다. 이 문제를 해결하기 위해 우리는 엔터티-인식 지식(Highlighting entity-AWare Knowledge, HAWK) 프레임워크를 제안한다. HAWK는 세 가지 주요 단계로 구성된다: i) 엔터티 추출, ii) 엔터티-인식 서브맥락 선택, iii) 트리플릿 구성. HAWK의 핵심 메커니즘은 맥락 내 핵심 정보를 강조하고 이를 엔터티-인식 방식으로 구조화하여 지식 향상 생성(knowledge-enhanced generation)을 용이하게 하는 것이다. 광범위한 실험과 종합적인 분석을 통해 HAWK는 긴 맥락을 사용하는 QA 과제에서 유의미한 개선을 확인했으며, 기존 방법 대비 최대 27.6점의 F1 점수 향상과 평균 승률 최소 76.75%를 달성했다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.