대규모 언어 모델(LLM)의 전례 없는 언어 이해 및 생성 역량 덕분에, 검색 보강 코드 생성(Retrieval-augmented Code Generation, RaCG)은 최근 소프트웨어 개발자들 사이에서 널리 활용되고 있다. 이는 생산성을 높였지만, 여전히 오답 코드가 제시되는 경우가 빈번하다. 특히, 주어진 질의와 API 설명만으로는 답할 수 없는 사용자 질의에 대해 그럴듯하지만 잘못된 코드가 생성되는 사례가 있다. 본 연구는 RaCG에서 사용자의 질의와 검색된 API를 바탕으로 유효한 답이 생성될 수 있는지를 평가하는 답변 가능성(answerability) 평가 과제를 제안한다. 또한, 이 과제를 수행하는 모델의 성능을 평가하기 위한 벤치마크 데이터셋인 Retrieval-augmented Code Generability Evaluation(RaCGEval)을 구축한다. 실험 결과, 이 과제는 매우 어려운 수준을 유지하고 있으며, 기준(baseline) 모델은 46.7%의 낮은 성능을 보였다. 더 나아가, 본 연구에서는 성능을 유의미하게 향상시킬 수 있는 방법들에 대해 논의한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.