유니바(UNIVA Corp.)

문서 구조 인식 사전훈련 AI 모델을 활용한 자동 라벨링 기술 개발

2023중소벤처기업부창업성장기술개발
프로젝트 소개
본 과제는 문서의 구조를 인지하는 AI 모델을 미리 학습시켜, 자동으로 문서의 내용을 분류하고 이름을 붙여주는(라벨링) 기술을 개발하는 연구임. 이를 통해 수많은 문서 데이터를 효율적으로 처리하고 활용하는 것을 목표로 함. 연구 목표는 사전 학습된 모델 기반의 한국어 문서 구조 인식 및 OCR 기술 개발을 통해 문서 데이터 가공 및 추출 솔루션을 개발하는 데 있음. 구체적으로 한국어 문서 OCR F1 score 97 이상, 사업자등록증 및 영수증 기준 문서인식 F1 score 95 이상 달성을 목표로 하며, 자사 데이터 가공 플랫폼에 문서 구조 인식 및 OCR 자동 라벨링 툴을 탑재하여 라벨링 데이터 생산성 증가 및 품질 개선을 지향함. 핵심 연구 내용은 국문 문서 이미지 데이터 20만건 이상 수집 및 가공, 벤치마크 데이터 구축, 시각, 텍스트, Layout 정보를 활용한 한국어 특화 Document Pre-training 알고리즘 개발 및 문서 Auto-labeling 유효성 검증임. 또한, 저작도구 상에 문서 자동 라벨링 기술을 탑재함. 기대 효과는 Auto Labeling을 통한 라벨링 작업 효율 및 데이터 품질의 혁신적 상승, data pipelines과 workforces의 최적화, 그리고 test, image 등 다양한 data type에 대한 통합 저작도구 인터페이스 배포가 가능해질 것으로 전망됨.
자동 라벨링문서구조인식광학문자인식문서 분석Automatic LabelingDocument structure recognitionOCRDocument analysis
참여형태
주관
사업명
창업성장기술개발
부처명
중소벤처기업부
주관기관명
유니바
과제 수행연도
2023
과제 수행기간
2023.05.01 ~ 2024.04.30
과제 고유번호
1425178839
연구 개발단계
개발연구
연구비
총연구비
150,000,000
정부지원연구개발비
120,000,000
위탁연구비
0
민간연구비
30,000,000
주관/협동기관 정보
주관/협동수행기관명연구수행주체지역
주관유니바중소기업대구광역시
과제 기반 국내외 특허0건
출원/등록 기관발명의 명칭출원일자출원국가출원번호등록일자등록번호
과제 기반 SCI(E) 논문0건
논문명학술지명DOI/URL