로그인

회원가입

마감

연구개발

2026년 AI 모델 벤치마크 데이터셋 구축 사업(1차) 공모

「한국어」 능력 평가 벤치마크

부처|과학기술정보통신부

·전문기관|인공지능데이터정책과

주요 정보

지원 유형

연구개발

핵심 키워드

자연어처리·언어AI한국어 벤치마크 데이터 구축경어법·문맥추론 평가데이터

사업 규모

18억 원

지원금

6억 원

지원 가능 기관

대기업중견기업중소기업대학 연구실국공립/민간 연구기관의료기관

공고 등록일

2026-04-10

공고 마감일

2026-05-07

신청 기간

마감

미정 ~ 2026-05-07

과제 요약

본 과제는 한국어·한국 문화 기반의 고품질 AI 벤치마크 데이터셋(1만 문항)을 구축해 국내 AI 모델의 이해·추론·안전성 평가 역량을 높이는 것을 목표로 한다. 2026년 말까지 약 6억 원 규모의 정부 지원이 제공되며, 기업·대학·연구기관 등 법인사업자 중심의 컨소시엄 참여가 필수다. 한국어 평가 데이터 설계·품질관리 역량을 보유한 기관이나 AI 데이터 구축 경험이 있는 기업·연구기관에 적합한 사업이다.

요건 충족도?/4

지원 가능 기관 유형대기업, 중견기업, 중소기업, 대학 연구실, 국공립/민간 연구기관, 의료기관

지원 가능 소재지전국

지원 가능 매출액 / 사업연수-/-

부설 연구소 필요 유무불필요

지원 요건

기업부설연구소 요건

불필요

컨소시엄 여부

필수

컨소시엄 구조

주관기관+참여기관 --- 산·학·연 등 컨소시엄 --- 산·학·연·관 --- 산·학·연·관 컨소시엄 --- 산·학·연 --- 산

과제 수행 이력 요건

중복참여 시 공모 무효, 분야별 최대 3개 분야 참여 가능 --- NIA·NIPA·K-DATA의 중복·유사 데이터 구축 사업 수혜 이력 시 참여 제한. 2025·2026 독자 AI 파운데이션 모델 프로젝트 선정기관 참여 불가. --- NIA·NIPA·K-DATA의 유사·중복 과제 수행 시 참여 제한, 독자 AI 파운데이션 모델 프로젝트 선정기관 참여 불가, 재활용 데이터 사용 시 제재

과제 개요

1사업 개요 및 배경

본 사업은 한국형 AI 모델 개발을 위해 한국어·문화적 맥락을 반영한 신뢰도 높은 벤치마크 데이터셋을 구축하고 산업 전반에서 활용 가능한 평가 기반을 마련하기 위한 정부 주도 프로그램이다. 글로벌 벤치마크가 한국 특성을 충분히 반영하지 못하는 문제와 소버린 AI 확보 필요성이 정책 배경이며, 기업·대학·연구기관 등 다양한 법인 사업자가 컨소시엄으로 참여할 수 있다. 구축된 데이터는 산업·연구 현장에서 활용될 AI 성능 검증 체계로 확산되어 국내 AI 산업 경쟁력을 높이는 것을 지향한다.

2과제 목표

본 과제는 한국어 텍스트의 복합 의미 해석, 추론, 경어법·관용표현 이해 등 고도 언어 능력을 평가할 수 있는 벤치마크 데이터셋 1만 문항을 정밀 설계해 구축하는 것을 목표로 한다. 이를 위해 도메인·난이도 기반 설계 체계를 마련하고, 객관식·단답형 중심의 평가 문항과 명확한 정답·근거·메타데이터 구조를 포함한 표준 스키마를 구축한다. 또한 최소 두 종류의 오픈소스 기반 AI 모델로 파일럿 평가를 수행해 신뢰도와 활용성을 검증하며, 결과를 AI허브 공개용 데이터로 최종 정제하여 국내 AI 성능 평가 인프라 고도화에 기여하는 것이 목표다.

3과제 내용

본 과제는 한국어 능력 평가를 위한 벤치마크 데이터셋을 체계적으로 구축하고, 모델 성능 검증 기반을 마련하기 위한 세부 활동으로 구성된다. 1) 데이터셋 설계 및 구조 정의 - 한국어 품사·경어법·관용표현·문맥 추론 등 다양한 언어 도메인을 선정하고 난이도(L1~L3) 비율을 설정한다. - 객관식과 단답형 중심의 문항 구조를 설계하고, 서술형 문항에는 명확한 채점 루브릭을 포함한다. - UUID·메타데이터·프롬프트 구조·정답·근거·채점 기준을 포함한 JSONL 스키마를 마련한다. 2) 데이터 구축 및 품질관리 - 총 1만 문항 규모의 데이터셋을 단계적으로 구축하며, 초기·1차·중간·2차 데이터 제출 일정을 준수한다. - 의미 정확성 중심의 품질 검증을 전체의 50% 이상 수행하고, 내부 점검 및 보완 체계를 운영한다. - 개인정보·저작권 등 법적 요구 사항을 준수하며 원천데이터를 5년간 보관한다. 3) 파일럿 평가 수행 - Llama, Mistral 등 최소 2종의 오픈소스 AI 모델로 파일럿 평가를 실행한다. - 도메인×난이도별 성능지표(Accuracy, CharF0.5 등)와 신뢰구간, 종합 점수 산식 등을 제시한다. 4) 성과 제출 및 공개 - 구축 데이터는 AI허브에 공개되며 협약 이후 NIA에 일정 기간 배타적 권리를 제공한다. - 최종 데이터·품질검증 결과·평가 리포트를 제출하고 중간보고·최종보고 절차를 이행한다. 이 과제는 한국어 특화 AI 성능을 평가할 수 있는 국가 표준 벤치마크를 만드는 핵심 프로젝트로, 언어 데이터 구축 역량과 품질관리 경험을 갖춘 기관에 적합하다.

과제 세부 내용

공모 유형

본공고

과제 기간

협약일로부터 2026.12.31까지

사업 규모

18억 원

지원금

6억 원

지원 내용

공고·접수: 2026.04.10~2026.05.07. 지원기간: 협약일로부터 2026.12.31까지. 지원규모: 총 1,800백만원(3종 데이터)이며 1종(과제)당 정부지원금 600백만원 수준. 지정공모로 3개 분야(한국어/지시이행/사회적 안전성) 각 1개 수행기관 선정·지원(분야당 1개). 정부지원금은 과제조정위원회 심의·조정으로 일부 조정 가능, 예산 변동 시 협약금액 최대 25% 내외 조정 가능. 정부지원금 분할 지급(협약 후 70%, 중간보고 후 30% 예정). 민간부담금은 혁신법 시행령 기준에 따라 기관 유형별 부담(비영리 100% 지원 등) 적용

기관 분담률

- 중소기업: 정부지원비율 75% 이하 / 기관부담현금비율 10% 이상 - 중견기업: 정부지원비율 70% 이하 / 기관부담현금비율 13% 이상 (단, 매출 3천억원 미만 중견기업은 중소기업 수준의 현금부담 가능) - 대기업·공기업: 정부지원비율 50% 이하 / 기관부담현금비율 15% 이상 - 비영리기관(대학, 공공기관, 정부·지자체, 협회 등): 정부지원비율 100%

기타 세부 사항

[컨소시엄 구성 및 승인 중요사항] 온라인 접수 시 주관기관 및 참여기관 모두 법인공동인증서(NPKI)로 승인해야 하며, 마감 이후 구성 변경이 불가함.

[중복참여 제한] 법인번호, 대표자 동일성 기준으로 중복참여 시 공모 무효 처리될 수 있음.

[평가 기준] 수행계획서 평가점수 70점 미만 시 심의 대상자 제외.

[평가 기준 및 절차] 제안서 평가 후 과제조정위원회 심의를 거쳐 최종 사업자 선정, 70점 미만 시 심의대상 제외

[공모무효 조건] 컨소시엄 구성 승인 미완료, 중복 참여, 제출 서류 하자 등은 공모 무효 처리

[데이터 제출 및 품질관리] 1차 구축 데이터(20~60%)는 6월 말까지, 2차 구축 데이터는 9월 말까지 제출해야 하며 품질 검증을 필수 수행해야 한다.

[평가 기준] 데이터 적합성, 품질관리, 벤치마크 설계 역량, 사업 추진체계 등 총 100점 만점 평가를 통해 수행기관을 선정한다.

[사업비 집행] 간접비 책정 불가, 클라우드 임차 권고, GPU 구입 불인정. 위탁용역비는 총 사업비의 28.57% 이내.

[평가기준] 과제 목표 타당성, 데이터 구축 적합성, 품질관리, 벤치마크 역량, 추진체계, ESG 등 총 100점 기준 평가

[사업 추진 절차] 공고, 제안서 접수, 적합성 검토, 평가, 과제조정, 협약체결, 사업수행, 중간보고, 결과보고 및 정산, 최종평가 순으로 진행

[필수 제출물] 데이터 구축 계획서, 품질관리 계획서, 샘플데이터, 사업자등록증, 재무제표, 납세증명서 등

[데이터 구축 일정] 초기 데이터 5~10%는 협약 후 3주 내 제출, 1차 구축 20~60%는 6월 말, 전체 중간데이터 70% 이상은 8월말, 2차 구축 및 품질검증은 9월말까지 제출

[평가 참고 모델] Llama, Mistral 등 최소 2종의 오픈소스 파운데이션 모델을 활용한 파일럿 평가 수행

[평가(선정) 기준] 평가 70점 이상 적합 과제 중 분야별(연번별) 최고점 1개 컨소시엄을 우선지원 대상으로 선정. 평가항목: 과제목표 타당성(12), 데이터 구축 적합성(30), 품질목표/품질관리(18), 벤치마크 역량(15), 추진체계/역량(18), 안전/보건/재난(2), ESG(5) 등 총 100점(부정당업자 감점 -30). 동점 시 ‘데이터 구축 내용의 적합성’→‘벤치마크 역량’ 순으로 우선

[제출물(신청/수행)] 수행계획서 및 발표자료, 구축계획서(붙임1)·품질관리계획서(붙임2), 사업자등록증/법인서류, 참여의사확인서, 자격요건 자가점검표, 재무제표 및 납세증명 등 제출 요구

[평가/선정 기준] 평가점수 70점 이상 적합 과제 중 분야별 1개 컨소시엄 우선지원. 동점 시 ‘데이터 구축 내용의 적합성’ 배점 상위, 다음 ‘벤치마크 역량’ 배점 상위 순.

[품질관리 요구] 품질관리 계획서 제출 및 품질관리 조직 구성·운영 필수. 벤치마크 특성상 의미정확성 검사 분량을 전체 데이터의 50% 이상으로 설정 예정.

[정부지원금 지급 방식(예정)] 협약체결 이후 70%, 중간보고 이후 30% 지급 예정(정책/예산 변동 시 조정 가능).

기타 지원 조건

[인증서 제출 조건] 주관기관 및 참여기관 모두 법인공동인증서(NPKI)를 사용하여 컨소시엄 승인 완료해야 함

[사업 참여 제한] 개인사업자 불가, 법인사업자만 참여 가능. 총괄책임자는 본 사업에 50% 이상 참여해야 하며, 참여율 100% 초과 불가.

[데이터 활용 및 권리] 구축 데이터는 AI허브에 공개되며, 수행기관은 최소 2년간 NIA에 배타적 권리를 제공해야 함.

[법인사업자 요건] 법인사업자만 신청 가능하며 개인사업자는 신청 불가

[참여인력 제한] 총괄책임자는 본 사업 참여율 50% 이상, 전 참여인력은 타 사업 포함 100% 초과 불가

[중복 참여 제한] 독자 AI 파운데이션 모델 프로젝트(2025-0692, 2026-0079) 수행기관은 본 사업 참여 불가

[민간부담금] 기업 유형에 따라 총사업비 비율 및 현금부담 비율 상이하며 비영리기관은 정부지원금 100% 지원

[컨소시엄/참여 제한] 한 기관(기업·기관 등)은 3개 분야 동시 지원 가능하나(최대 3개 컨소시엄 참여), 동일 기관이 동일 분야에 주관으로 재차 지원(또는 다른 컨소시엄으로 중복 지원) 불가 등 중복·한도 규정 적용

[중복참여 제한(타 과제)] ‘독자 AI 파운데이션 모델 프로젝트(과기부 2025-0692/2026-0079)’ 수행기관으로 최종 선정된 기관은 본 사업 참여 불가(중복 제한)

[민간부담금] 혁신법 시행령 기준에 따라 민간부담금 부담(중소/중견/대기업·공기업별 정부지원 비율 상한 및 민간부담금 현금부담 최소비율 적용, 비영리기관은 정부지원금 100% 지원)

[정부지원금 조정/지급] 정부지원금은 분할 지급(협약 후 70%, 중간보고 후 30% 예정)이며 정책·예산 변동 시 협약금액 감액 등 조정(최대 25% 내외) 가능

[자격/제재] NIA 사업 수행 중 개인정보보호법 위반으로 제재 처분 중인 사업자는 지원 불가

[성과물 개방/권리] 산출물은 AI허브 클라우드 등록(필수) 후 일정 기간 활용 뒤 개방(시기는 협의). 협약 시 NIA에 데이터 배타적 권리(최소 2년) 제공 및 NIA 사전협의 없이 외부 배포·판매 금지. 원천데이터는 5년 보관 의무

[품질/제출 일정(공통)] 1차 구축량(20~60%) 6월 말 제출, 2차(잔여) 9월 말 제출 및 품질검증 완료. 초기데이터(5~10%)는 협약 후 3주 이내, 중간데이터(70% 이상) 8월 말까지 제출(세부는 협의). 자체 품질검증 결과 제출 필수, 외부 지적사항 보완 및 최소 5년 보완 의무

[위탁 제한/간접비] 외부 위탁용역은 사전 계획 제출 및 조정 범위 내에서 가능하며 기관별 위탁용역비는 (정부지원금 제외) 사업비의 40% 이내 기준(산정 예시로 총사업비×28.57% 이내 제시). 본 사업은 비R&D 지침 준용으로 간접비 책정 불가

[장비/자산] GPU 장비 구입 불인정, 클라우드 컴퓨팅 자원 임차 원칙(구매 필요 시 조정 범위 내). 정부지원사업으로 획득한 자산 현물 불인정, 자산 중복 현물출자 불인정

[참여인력/국적] 참여인력(크라우드 포함)은 원칙적으로 국내거주 대한민국 국적자로 제한(필요 시 과제조정위원회 승인 범위 내 예외 가능). AI윤리 교육을 사업기간 내(종료 1개월 전까지) PM 및 참여인력 전체 필수 이수

[중복참여 제한] ‘독자 AI 파운데이션 모델 프로젝트(과기부 2025-0692, 2026-0079)’ 수행기관으로 최종 선정된 기관은 본 사업 참여 불가.

[신청/참여 제한] 법인사업자만 지원 가능(개인사업자 불가)이며, 1개 기관은 3개 분야까지 동시 지원 가능하나 동일 분야 중복지원은 제한(위반 시 무효/감점).

[민간부담금 및 지원비율] 국가연구개발혁신법 시행령에 따라 민간부담금 부담(중소 75% 이하/중견 70% 이하/대기업·공기업 50% 이하 정부지원 등), 비영리기관(대학·공공기관·정부·지자체·협회 등)은 정부지원금 100% 가능.

AI 기반 공고 추천

딱 맞는 과제, AI가 찾아드려요

우리 기관에 딱 맞는 과제를
매일 아침 추천받고 알림으로 확인해보세요!

지금 바로 과제 수주
성공률을 높여보세요!

기관에 맞는 과제 추천/알림
과제 지원서 작성 서포트
공동연구기관 매칭