대규모 언어 모델(Large Language Models, LLM)의 추론 능력은 특히 복잡한 의사결정 과제에서 핵심적인 능력이다. LLM의 추론 능력을 보여주는 데 중요한 한 과제는 코드 시간 복잡도 예측이며, 이는 변수의 입력 범위와 조건 반복문과 같은 여러 복잡한 요인을 포함한다. 현재의 벤치마크는 제한된 데이터, 언어 제약, 불충분한 라벨링으로 인해 엄밀한 평가를 제공하는 데 한계가 있다. 또한 입력 표현에 기반한 시간 복잡도를 고려하지 않으며, 예측이 정답과 동일한 범주에 속하는지만 평가하여 오답이 정답에 얼마나 가까운지에 대한 측정이 결여되어 있다. 이러한 의존성을 해결하기 위해, 우리는 코드 시간 복잡도 예측에서 LLM의 추론 능력을 평가하도록 설계된 최초의 견고하고 대규모의 데이터셋인 CodeComplex를 제안한다. CodeComplex는 4,900개의 자바 코드와 이에 상응하는 수의 파이썬 코드를 포함하며, 언어 및 라벨링 제약을 극복한다. 알고리즘 전문가 패널이 입력 특성에 기반한 복잡도 라벨로 신중하게 주석을 달았다. 더 나아가, 복잡도 예측 과제의 추론을 평가하기 위한 특화 평가 지표를 제안하여 LLM의 추론 능력을 보다 정밀하고 신뢰성 있게 평가할 수 있도록 한다. 우리는 관련 연구(NLP, SE 및 PL) 커뮤니티가 본 연구를 활용하고 참여하도록 하기 위해, 데이터셋(https://github.com/sybaik1/CodeComplex-Data)과 기준 모델(https://github.com/sybaik1/CodeComplex-Models)을 공개한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.