Evaluation and answerability assessment for LLM-based code generation
연구 내용
대규모 언어모델이 생성한 코드의 정확도를 테스트 케이스 기반 세분 지표로 자동 평가하고, Retrieval-augmented Code Generation에서 질의에 대한 답변 가능성을 판별하는 연구
대규모 언어모델 기반 코드 생성은 그럴듯하지만 실행 결과가 틀린 코드가 발생할 수 있어, 생성 품질을 신뢰성 있게 평가하는 체계가 필요합니다. 본 연구는 프롬프트, 추론, 실행을 자동화하여 테스트 케이스 통과율을 바탕으로 정확도의 세분도를 정량화하는 평가 프레임워크를 구성합니다. 또한 Retrieval-augmented Code Generation에서 질의와 검색된 API 설명만으로 유효한 답을 생성할 수 있는지 Answerability를 정의하고, 이를 측정하기 위한 벤치마크를 구축합니다. 이를 통해 코드 생성 모델의 한계와 개선 방향을 구조적으로 분석합니다.
관련 연구 성과
관련 논문
2편
관련 특허
0건
관련 프로젝트
0건
연구 흐름
초기에는 코드 생성 능력을 반복적인 프롬프트 생성, 추론, 실행 과정을 포함해 자동 평가하는 프레임워크를 구축하고, 테스트 케이스 통과율에 기반한 세분 지표로 모델 성능을 정리하는 연구를 수행했습니다. 이후 Retrieval-augmented Code Generation 환경으로 확장하여, 질의가 주어진 API 및 설명으로 답변 가능한지 여부를 측정하는 Answerability 과제를 제안하고 평가용 데이터셋을 구성했습니다. 최종적으로는 해당 과제가 여전히 어려운 이유를 분석하고 성능 향상을 위한 방법론을 논의하는 방향으로 연구를 전개했습니다.
활용 가능성
활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.
관련 논문
구분
제목
Framework for evaluating code generation ability of large language models
Assessing the Answerability of Queries in Retrieval-Augmented Code Generation