Find the Intention of Instruction: Comprehensive Evaluation of Instruction Understanding for Large Language Models | 임희석 교수 연구실 |

|임희석 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

Article|

인용수 1

·2025

Find the Intention of Instruction: Comprehensive Evaluation of Instruction Understanding for Large Language Models

Hyeonseok Moon, Jaehyung Seo, Seungyoon Lee, Chanjun Park, Heuiseok Lim

초록

거대 언어 모델(Large Language Models, LLMs)의 핵심 강점 중 하나는 주어진 지시에 적절한 응답을 생성함으로써 인간과 상호작용할 수 있다는 점이다. 이러한 능력은 지시-추종 능력(instruction-following capability)으로 알려져 있으며, 다양한 분야에서 LLM을 활용하는 데 있어 기초를 마련했을 뿐 아니라 성능을 평가하는 데 있어 중요한 지표로 기능한다. 수많은 평가 벤치마크가 개발되었음에도 불구하고, 대부분은 명확하고 일관된 지시에만 초점을 맞추고 있다. 그러나 우리는 LLM이 지시 형식으로 작성된 문장에 의해 쉽게 주의를 빼앗길 수 있으며, 이로 인해 지시를 이해하는 능력을 간과하게 될 수 있음을 관찰하였다. 이 문제를 해결하기 위해 우리는 INTENTION OF INSTRUCTION(IOINST) 벤치마크를 도입한다. 이 벤치마크는 LLM이 불필요한 지시에 오도되지 않은 채로, 집중을 유지하며 지시를 이해할 수 있는 역량을 평가한다. 이 벤치마크의 주요 목적은 주어진 맥락의 생성을 정확히 안내하는 적절한 지시를 식별하는 데 있다. 우리의 결과는 최근에 도입된 최첨단 모델조차도 지시 이해 능력이 여전히 부족함을 시사한다. 본 연구에서는 IOINST의 제안과 함께, IOINST에 잠재적으로 적용될 수 있는 여러 전략에 대한 광범위한 분석도 함께 제시한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Computer scienceLanguage modelNatural language processingMathematics educationProgramming languagePsychology

타입

Article

IF / 인용수

- / 1

원문

https://doi.org/10.18653/v1/2025.findings-naacl.330

게재 연도

2025