대규모 언어모델 코드 생성의 평가 및 질의-답변 가능성 측정 연구

Evaluation and answerability assessment for LLM-based code generation

연구 내용

대규모 언어모델이 생성한 코드의 정확도를 테스트 케이스 기반 세분 지표로 자동 평가하고, Retrieval-augmented Code Generation에서 질의에 대한 답변 가능성을 판별하는 연구

대규모 언어모델 기반 코드 생성은 그럴듯하지만 실행 결과가 틀린 코드가 발생할 수 있어, 생성 품질을 신뢰성 있게 평가하는 체계가 필요합니다. 본 연구는 프롬프트, 추론, 실행을 자동화하여 테스트 케이스 통과율을 바탕으로 정확도의 세분도를 정량화하는 평가 프레임워크를 구성합니다. 또한 Retrieval-augmented Code Generation에서 질의와 검색된 API 설명만으로 유효한 답을 생성할 수 있는지 Answerability를 정의하고, 이를 측정하기 위한 벤치마크를 구축합니다. 이를 통해 코드 생성 모델의 한계와 개선 방향을 구조적으로 분석합니다.

관련 프로젝트

0건

연구 흐름

초기에는 코드 생성 능력을 반복적인 프롬프트 생성, 추론, 실행 과정을 포함해 자동 평가하는 프레임워크를 구축하고, 테스트 케이스 통과율에 기반한 세분 지표로 모델 성능을 정리하는 연구를 수행했습니다. 이후 Retrieval-augmented Code Generation 환경으로 확장하여, 질의가 주어진 API 및 설명으로 답변 가능한지 여부를 측정하는 Answerability 과제를 제안하고 평가용 데이터셋을 구성했습니다. 최종적으로는 해당 과제가 여전히 어려운 이유를 분석하고 성능 향상을 위한 방법론을 논의하는 방향으로 연구를 전개했습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

LLM 코드 생성 자동 채점
코딩 플랫폼용 성능 비교 지표
Retrieval-augmented 코드 어시스턴트 평가
잘못 생성된 코드의 품질 필터링
프롬프트 품질 진단 도구
모델 선택 및 파인튜닝 가이드
벤치마크 기반 회귀 테스트
질의 범위 적합성 검증
소프트웨어 신뢰성 평가 체계
코드 생성 학습 커리큘럼 설계