검색 증강 언어 모델(Retrieval-Augmented Language Models, RALMs)은 지식 집약적 과제에서 상당한 잠재력을 보여 왔으나, 부적절하거나 노이즈가 포함된 검색 컨텍스트에 직면하면 성능이 저하되는 데 여전히 취약하다. 기존의 견고성 향상 접근법은 대개 층 또는 모듈 수준에서 거친(granular) 파라미터 업데이트를 통해 작동하며, 종종 대규모 언어 모델(Large Language Models, LLMs)의 내재된 뉴런 수준 희소성(neuron-level sparsity)을 간과한다. 이러한 한계를 해결하기 위해, 우리는 뉴런 유도 견고 지시 튜닝(Neuron-guided Robust Instruction Tuning)인 Neuro-RIT이라는 새로운 프레임워크를 제안한다. 이 프레임워크는 밀집 적응(dense adaptation)에서 정밀한 뉴런 정렬(precision-driven neuron alignment)로 패러다임을 전환한다. 우리의 방법은 귀속(attribution) 기반 뉴런 채굴(neuron mining)을 사용하여 관련 컨텍스트와 비관련 컨텍스트를 처리하는 데 관여하는 뉴런을 명시적으로 분리한다. 이후, 노이즈 강건성(noise robustness)을 위한 이중 역량을 강제하는 2단계 지시 튜닝 전략을 도입한다. 이는 관련성이 없는 컨텍스트에만 특이적으로 반응하는 뉴런을 기능적으로 비활성화하여 노이즈를 직접 억제하는 한편, 증거 증류(evidence distillation)를 위해 표적 층을 동시에 최적화하는 것을 포함한다. 다양한 QA 벤치마크 전반에 걸친 대규모 실험 결과, Neuro-RIT은 강력한 기준 모델과 견고성 향상 방법 모두를 일관되게 능가함을 입증하였다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.