2026년 AI 모델 벤치마크 데이터셋 구축 사업(1차) 공모
본 과제는 한국어·한국 문화 기반의 고품질 AI 벤치마크 데이터셋(1만 문항)을 구축해 국내 AI 모델의 이해·추론·안전성 평가 역량을 높이는 것을 목표로 한다. 2026년 말까지 약 6억 원 규모의 정부 지원이 제공되며, 기업·대학·연구기관 등 법인사업자 중심의 컨소시엄 참여가 필수다. 한국어 평가 데이터 설계·품질관리 역량을 보유한 기관이나 AI 데이터 구축 경험이 있는 기업·연구기관에 적합한 사업이다.
본 사업은 한국형 AI 모델 개발을 위해 한국어·문화적 맥락을 반영한 신뢰도 높은 벤치마크 데이터셋을 구축하고 산업 전반에서 활용 가능한 평가 기반을 마련하기 위한 정부 주도 프로그램이다. 글로벌 벤치마크가 한국 특성을 충분히 반영하지 못하는 문제와 소버린 AI 확보 필요성이 정책 배경이며, 기업·대학·연구기관 등 다양한 법인 사업자가 컨소시엄으로 참여할 수 있다. 구축된 데이터는 산업·연구 현장에서 활용될 AI 성능 검증 체계로 확산되어 국내 AI 산업 경쟁력을 높이는 것을 지향한다.
본 과제는 한국어 텍스트의 복합 의미 해석, 추론, 경어법·관용표현 이해 등 고도 언어 능력을 평가할 수 있는 벤치마크 데이터셋 1만 문항을 정밀 설계해 구축하는 것을 목표로 한다. 이를 위해 도메인·난이도 기반 설계 체계를 마련하고, 객관식·단답형 중심의 평가 문항과 명확한 정답·근거·메타데이터 구조를 포함한 표준 스키마를 구축한다. 또한 최소 두 종류의 오픈소스 기반 AI 모델로 파일럿 평가를 수행해 신뢰도와 활용성을 검증하며, 결과를 AI허브 공개용 데이터로 최종 정제하여 국내 AI 성능 평가 인프라 고도화에 기여하는 것이 목표다.
본 과제는 한국어 능력 평가를 위한 벤치마크 데이터셋을 체계적으로 구축하고, 모델 성능 검증 기반을 마련하기 위한 세부 활동으로 구성된다. 1) 데이터셋 설계 및 구조 정의 - 한국어 품사·경어법·관용표현·문맥 추론 등 다양한 언어 도메인을 선정하고 난이도(L1~L3) 비율을 설정한다. - 객관식과 단답형 중심의 문항 구조를 설계하고, 서술형 문항에는 명확한 채점 루브릭을 포함한다. - UUID·메타데이터·프롬프트 구조·정답·근거·채점 기준을 포함한 JSONL 스키마를 마련한다. 2) 데이터 구축 및 품질관리 - 총 1만 문항 규모의 데이터셋을 단계적으로 구축하며, 초기·1차·중간·2차 데이터 제출 일정을 준수한다. - 의미 정확성 중심의 품질 검증을 전체의 50% 이상 수행하고, 내부 점검 및 보완 체계를 운영한다. - 개인정보·저작권 등 법적 요구 사항을 준수하며 원천데이터를 5년간 보관한다. 3) 파일럿 평가 수행 - Llama, Mistral 등 최소 2종의 오픈소스 AI 모델로 파일럿 평가를 실행한다. - 도메인×난이도별 성능지표(Accuracy, CharF0.5 등)와 신뢰구간, 종합 점수 산식 등을 제시한다. 4) 성과 제출 및 공개 - 구축 데이터는 AI허브에 공개되며 협약 이후 NIA에 일정 기간 배타적 권리를 제공한다. - 최종 데이터·품질검증 결과·평가 리포트를 제출하고 중간보고·최종보고 절차를 이행한다. 이 과제는 한국어 특화 AI 성능을 평가할 수 있는 국가 표준 벤치마크를 만드는 핵심 프로젝트로, 언어 데이터 구축 역량과 품질관리 경험을 갖춘 기관에 적합하다.
공고·접수: 2026.04.10~2026.05.07. 지원기간: 협약일로부터 2026.12.31까지. 지원규모: 총 1,800백만원(3종 데이터)이며 1종(과제)당 정부지원금 600백만원 수준. 지정공모로 3개 분야(한국어/지시이행/사회적 안전성) 각 1개 수행기관 선정·지원(분야당 1개). 정부지원금은 과제조정위원회 심의·조정으로 일부 조정 가능, 예산 변동 시 협약금액 최대 25% 내외 조정 가능. 정부지원금 분할 지급(협약 후 70%, 중간보고 후 30% 예정). 민간부담금은 혁신법 시행령 기준에 따라 기관 유형별 부담(비영리 100% 지원 등) 적용
우리 기관에 딱 맞는 과제를
매일 아침 추천받고 알림으로 확인해보세요!
지금 바로 과제 수주
성공률을 높여보세요!