CheckEval: A reliable LLM-as-a-Judge framework for evaluating text generation using checklists | 강필성 교수 연구실 | 서울대학교 산업공학과

강필성 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 2

·2025

CheckEval: A reliable LLM-as-a-Judge framework for evaluating text generation using checklists

Yukyung Lee, Joong Hoon Kim, Jaehee Kim, Hyowon Cho, Jaewook Kang, Pilsung Kang, Najoung Kim

초록

텍스트 생성 평가를 위한 기존 LLM-as-a-Judge 접근법은 평가 등급의 불일치로 인해 어려움을 겪으며, 서로 다른 평가자 모델들 간에 낮은 합의도와 높은 등급 분산이 나타난다. 우리는 이러한 문제를 기존 프로토콜에서 주관적인 평가 기준과 Likert 척도 점수 매기기가 결합된 데에서 기인한다고 본다. 이 문제를 해결하기 위해, 체크리스트 기반 평가 프레임워크인 CheckEval을 제안하며, 분해된 이진 질문을 통해 등급 신뢰성을 향상시킨다. 여러 데이터셋에 걸쳐 12개의 평가자 모델로 수행한 실험을 통해, 먼저 CheckEval이 인간의 판단과 강하게 상관됨을 보인다. 더 중요하게는 CheckEval이 평가자 모델들 간 평균 합의도를 0.45만큼 크게 개선하고 점수 분산을 감소시킨다. 또한 CheckEval 점수는 평가 기준을 추적 가능한 이진 결정으로 분해함으로써, 품질 판단을 좌우하는 특정 속성에 대한 분석이 가능해져 해석 가능성 측면에서도 이점이 있다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Reliability (semiconductor)Feature (linguistics)Measure (data warehouse)Component (thermodynamics)Key (lock)

타입

article

IF / 인용수

- / 2

원문

https://doi.org/10.18653/v1/2025.emnlp-main.796

게재 연도

2025

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)