RnDcircle

유니바(UNIVA Corp.)

문서 구조 인식 사전훈련 AI 모델을 활용한 자동 라벨링 기술 개발

2023중소벤처기업부창업성장기술개발

프로젝트 소개

본 과제는 문서의 구조를 인지하는 AI 모델을 미리 학습시켜, 자동으로 문서의 내용을 분류하고 이름을 붙여주는(라벨링) 기술을 개발하는 연구임. 이를 통해 수많은 문서 데이터를 효율적으로 처리하고 활용하는 것을 목표로 함. 연구 목표는 사전 학습된 모델 기반의 한국어 문서 구조 인식 및 OCR 기술 개발을 통해 문서 데이터 가공 및 추출 솔루션을 개발하는 데 있음. 구체적으로 한국어 문서 OCR F1 score 97 이상, 사업자등록증 및 영수증 기준 문서인식 F1 score 95 이상 달성을 목표로 하며, 자사 데이터 가공 플랫폼에 문서 구조 인식 및 OCR 자동 라벨링 툴을 탑재하여 라벨링 데이터 생산성 증가 및 품질 개선을 지향함. 핵심 연구 내용은 국문 문서 이미지 데이터 20만건 이상 수집 및 가공, 벤치마크 데이터 구축, 시각, 텍스트, Layout 정보를 활용한 한국어 특화 Document Pre-training 알고리즘 개발 및 문서 Auto-labeling 유효성 검증임. 또한, 저작도구 상에 문서 자동 라벨링 기술을 탑재함. 기대 효과는 Auto Labeling을 통한 라벨링 작업 효율 및 데이터 품질의 혁신적 상승, data pipelines과 workforces의 최적화, 그리고 test, image 등 다양한 data type에 대한 통합 저작도구 인터페이스 배포가 가능해질 것으로 전망됨.

자동 라벨링문서구조인식광학문자인식문서 분석Automatic LabelingDocument structure recognitionOCRDocument analysis

참여형태

주관

사업명

창업성장기술개발

부처명

중소벤처기업부

주관기관명

유니바

과제 수행연도

2023

과제 수행기간

2023.05.01 ~ 2024.04.30

과제 고유번호

1425178839

연구 개발단계

개발연구

연구비

총연구비

150,000,000 원

정부지원연구개발비

120,000,000 원

위탁연구비

0 원

민간연구비

30,000,000 원

주관/협동기관 정보

주관/협동	수행기관명	연구수행주체	지역
주관	유니바	중소기업	대구광역시

과제 기반 국내외 특허0건

출원/등록 기관	발명의 명칭	출원일자	출원국가	출원번호	등록일자	등록번호

과제 기반 SCI(E) 논문0건

논문명	학술지명	DOI/URL