사업 개요 및 배경본 사업은 글로벌 AI 경쟁이 심화되는 가운데 국내 기술 기반의 독자 AI 파운데이션 모델을 확보하기 위해 추진되는 국가 전략 프로젝트이다. 국내 기업·기관이 주도하여 GPU·데이터·인재를 통합 지원받는 방식으로 운영되며, 6개월 단위 경쟁형 평가를 통해 정예팀을 압축해 나가는 것이 특징이다. 산업·학계·연구계 모두 참여할 수 있으며, 국산 모델의 글로벌 경쟁력 확보와 AI 활용 기반 확장을 목표로 한다. 이를 통해 국가적 기술 자립을 강화하고 산업 전반의 AI 혁신을 촉진한다.
과제 목표이 과제의 목표는 국내 독자 AI 파운데이션 모델 개발에 필요한 핵심 데이터 인프라를 구축하는 데 있다. 이를 위해 저작물 기반 데이터의 공동 구매를 통해 고품질 학습 데이터를 제공하고, 정예팀별로 모델 개발에 최적화된 데이터를 직접 구축·가공할 수 있도록 지원한다. 구축 데이터의 50% 이상 개방, 한국어와 영어 데이터의 필수 구성, 품질 인증 절차 준수 등을 통해 공공성과 활용성을 강화한다. 궁극적으로는 국산 AI 모델의 경쟁력 향상을 위한 신뢰성 높은 데이터 기반을 마련하는 것이 핵심 목표이다.
과제 내용본 과제는 국내 독자 AI 파운데이션 모델 개발을 가속화하기 위해 대규모 데이터 공급·구축 체계를 제공하는 지원형 R&D 과제이다. 공동 구매 데이터와 개별 구축 데이터를 병행 지원하며, 모델 개발팀이 실제 학습에 바로 활용할 수 있도록 품질·법적 요건을 충족한 데이터 활용 환경을 제공한다.
주요 내용은 다음과 같다.
1. 데이터 공동 구매 지원
- 전문 도서, 교과서, 문제집, 논문 등 저작물 데이터를 공급기관 Pool 내에서 구매해 정예팀에 제공한다.
- 제3자 제공 제한, 목적 외 활용 금지 등 저작권 조건을 준수해야 하며, 이용기간 종료 시 원본을 반납하거나 삭제해야 한다.
- 연 100억원 규모로 ’25~’27년 동안 지속 운영된다.
2. 데이터 개별 구축·가공 지원
- 정예팀이 모델 개발에 최적화된 데이터를 직접 구축하며, 팀당 ’25년 약 28억, ’26년 20~40억, ’27년 24억 내외의 예산이 지원된다.
- 구축된 데이터의 50% 이상은 반드시 개방해야 하며, 한국어와 영어 데이터를 모두 포함해야 한다.
- 품질 검증은 지정된 전문기관을 통해 수행하고 인증서를 제출해야 한다.
- 실제 학습에 사용된 데이터 목록, 세부내역, 학습 증빙(예: 학습 명령어 코드)을 제출해야 하며, 품질 확인을 위해 전체 구축데이터를 ’25.11월까지 NIA에 제출해야 한다.
3. 참여 조건 및 운영 방식
- 개별 구축 예산에는 기업 규모별 자부담이 적용되며(대기업 50%, 중견 30%, 중소 25%), 공동 구매 데이터는 자부담이 없다.
- 6개월 단위의 경쟁형 평가를 통해 팀별 지원 규모가 조정되며, 성과 부족 시 탈락 가능성이 있다.
- AI모델 벤치마크 데이터셋 구축 사업과 중복 참여가 불가하며, 타 정부사업과의 중복수혜도 금지된다.
본 과제를 통해 참여 팀은 대형 모델 개발에 필요한 고품질 데이터를 안정적으로 확보할 수 있으며, 데이터 품질 관리와 개방 정책을 준수하면서 차세대 국산 AI 모델 개발 기반을 마련할 수 있다.