프로젝트 소개
본 과제는 인공지능(AI)의 성능을 높이기 위해 AI가 학습하는 데이터의 품질을 향상시키는 통합 솔루션 개발에 대한 연구임. 특징 공간(Feature Space) 기술을 활용하여 학습 데이터의 오류를 찾아내어 수정하고, 필요한 경우 데이터를 증식(늘리는 것)하여 고품질 데이터를 확보하는 것을 목표로 함.
연구 목표는 인공지능 성능 향상을 위한 고품질 데이터 확보를 위해 Feature Space 기반 학습 데이터 증식 및 오류 교정 통합 솔루션을 개발하는 데 있음. 이는 인공지능 성능 저하 시나리오 분석 및 오류 발견을 위한 시각화 기술, 데이터 획득이 어려운 오류 시나리오에 대한 데이터 증식 기능, 레이블링 및 데이터셋 Coverage 오류 교정 및 방지를 위한 오토 태깅 및 데이터셋 Curation 기술, 그리고 대용량 데이터 처리 기술을 모두 탑재한 통합 솔루션 개발을 포함함. 핵심 연구 내용은 멀티모달 및 초거대모델 Feature Embedding 기반 Feature Vector 추출 및 Customizing 가능한 저장소 개발임. 또한 UMAP 등 차원 축소 알고리즘을 활용한 데이터 시각화, 레이블링 오류 교정, 데이터셋 Coverage 오류 판단 및 Curation 기능 개발을 포함함. 유사 데이터 검색 기반 Auto Tagging 기능과 Common augmentation, GAN, Diffusion model 등을 활용한 데이터 증식 기능 개발도 수행함. 이와 함께 MySQL, AWS 등 데이터베이스 및 인프라 기술을 활용한 대용량 데이터 처리 환경 및 애플리케이션 프레임워크 기반 통합 솔루션 개발을 목표로 함. 기대 효과는 국내 Data-Centric 초기 시장을 선점하여 산업 표준 기술을 확보하고, 인공지능 서비스의 품질 향상 및 시장 활성화에 크게 기여하는 것임. 또한 인공지능 학습데이터 전문 인력 육성 및 시장 수요 증대에도 긍정적인 영향을 미칠 것으로 예상됨.