대규모 언어 모델(LLMs)은 자연어 처리 분야의 다양한 응용에서 혁신을 가져왔으며 프로그래밍 코드 생성에서의 역량을 보여주었다. 본 연구는 LLM의 코드 생성 능력을 평가하기 위한 프레임워크를 제안하고, 테스트 케이스의 통과율에 따라 정확도의 세분성을 포착하는 새로운 지표를 도입한다. 이 프레임워크는 프롬프트 생성, 추론 수행, 생성된 코드의 실행에 수반되는 반복 작업을 처리하기 위해 완전 자동화된 형태로 설계되었다. 프롬프트의 상세 수준, 문제의 게시일, 난이도 수준에 초점을 둔 예비 평가는 우리의 프레임워크가 LeetCode 코딩 플랫폼과 성공적으로 통합되었음을 보여주며, 해당 지표의 적용 가능성을 강조한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.