RnDcircle

셀렉트스타 주식회사

고품질 데이터 확보를 위한 Feature Space 기반 학습 데이터 증식 및 오류 교정 통합 솔루션

2023중소벤처기업부중소기업기술혁신개발

프로젝트 소개

본 과제는 인공지능(AI)의 성능을 높이기 위해 AI가 학습하는 데이터의 품질을 향상시키는 통합 솔루션 개발에 대한 연구임. 특징 공간(Feature Space) 기술을 활용하여 학습 데이터의 오류를 찾아내어 수정하고, 필요한 경우 데이터를 증식(늘리는 것)하여 고품질 데이터를 확보하는 것을 목표로 함. 연구 목표는 인공지능 성능 향상을 위한 고품질 데이터 확보를 위해 Feature Space 기반 학습 데이터 증식 및 오류 교정 통합 솔루션을 개발하는 데 있음. 이는 인공지능 성능 저하 시나리오 분석 및 오류 발견을 위한 시각화 기술, 데이터 획득이 어려운 오류 시나리오에 대한 데이터 증식 기능, 레이블링 및 데이터셋 Coverage 오류 교정 및 방지를 위한 오토 태깅 및 데이터셋 Curation 기술, 그리고 대용량 데이터 처리 기술을 모두 탑재한 통합 솔루션 개발을 포함함. 핵심 연구 내용은 멀티모달 및 초거대모델 Feature Embedding 기반 Feature Vector 추출 및 Customizing 가능한 저장소 개발임. 또한 UMAP 등 차원 축소 알고리즘을 활용한 데이터 시각화, 레이블링 오류 교정, 데이터셋 Coverage 오류 판단 및 Curation 기능 개발을 포함함. 유사 데이터 검색 기반 Auto Tagging 기능과 Common augmentation, GAN, Diffusion model 등을 활용한 데이터 증식 기능 개발도 수행함. 이와 함께 MySQL, AWS 등 데이터베이스 및 인프라 기술을 활용한 대용량 데이터 처리 환경 및 애플리케이션 프레임워크 기반 통합 솔루션 개발을 목표로 함. 기대 효과는 국내 Data-Centric 초기 시장을 선점하여 산업 표준 기술을 확보하고, 인공지능 서비스의 품질 향상 및 시장 활성화에 크게 기여하는 것임. 또한 인공지능 학습데이터 전문 인력 육성 및 시장 수요 증대에도 긍정적인 영향을 미칠 것으로 예상됨.

데이터 중심 인공지능특징 공간비정형 데이터데이터 분석데이터 오류 교정 및 증식Data-centric AIFeature SpaceUnstructured dataData AnalysisData correction and augmentation

참여형태

주관

사업명

중소기업기술혁신개발

부처명

중소벤처기업부

주관기관명

셀렉트스타(주)

과제 수행연도

2023

과제 수행기간

2023.04.01 ~ 2025.03.31

과제 고유번호

1425175646

연구 개발단계

응용연구

연구비

총연구비

225,000,000 원

정부지원연구개발비

180,000,000 원

위탁연구비

0 원

민간연구비

45,000,000 원

주관/협동기관 정보

주관/협동	수행기관명	연구수행주체	지역
주관	셀렉트스타(주)	중소기업	대전광역시

과제 기반 국내외 특허0건

출원/등록 기관	발명의 명칭	출원일자	출원국가	출원번호	등록일자	등록번호

과제 기반 SCI(E) 논문0건

논문명	학술지명	DOI/URL