프로젝트 소개
본 과제는 문서의 구조를 인지하는 AI 모델을 미리 학습시켜, 자동으로 문서의 내용을 분류하고 이름을 붙여주는(라벨링) 기술을 개발하는 연구임. 이를 통해 수많은 문서 데이터를 효율적으로 처리하고 활용하는 것을 목표로 함.
연구 목표는 사전 학습된 모델 기반의 한국어 문서 구조 인식 및 OCR 기술 개발을 통해 문서 데이터 가공 및 추출 솔루션을 개발하는 데 있음. 구체적으로 한국어 문서 OCR F1 score 97 이상, 사업자등록증 및 영수증 기준 문서인식 F1 score 95 이상 달성을 목표로 하며, 자사 데이터 가공 플랫폼에 문서 구조 인식 및 OCR 자동 라벨링 툴을 탑재하여 라벨링 데이터 생산성 증가 및 품질 개선을 지향함. 핵심 연구 내용은 국문 문서 이미지 데이터 20만건 이상 수집 및 가공, 벤치마크 데이터 구축, 시각, 텍스트, Layout 정보를 활용한 한국어 특화 Document Pre-training 알고리즘 개발 및 문서 Auto-labeling 유효성 검증임. 또한, 저작도구 상에 문서 자동 라벨링 기술을 탑재함. 기대 효과는 Auto Labeling을 통한 라벨링 작업 효율 및 데이터 품질의 혁신적 상승, data pipelines과 workforces의 최적화, 그리고 test, image 등 다양한 data type에 대한 통합 저작도구 인터페이스 배포가 가능해질 것으로 전망됨.