프로젝트 소개
본 과제는 한국어 자연어 처리에서 언어 모델, 개체명 인식, 기계 독해, 요약 등 여러 문제를 하나의 전이학습 기반 딥러닝 모델로 해결하려는 연구임.
연구 목표는 한국어 자연어 처리용 범용 모델을 구축하고, 학습 자원이 부족한 한계를 전이학습으로 보완하는 데 있음. 연구 내용은 대용량 텍스트로 한국어 선수학습 언어 모델을 만들고, 이를 개체명 인식, 기계 독해, 요약 등 다운스트림 태스크에 파인-튜닝하는 방식임. 1차년도 토크나이제이션과 마스킹 전략 연구, 2차년도 저자원 파인-튜닝 및 아키텍처 확장, 3차년도 모델 고도화와 TPU 학습으로 구성됨. 기대 효과는 한국어 인코더-디코더 기반 선수학습 모델 공개, 자연어 처리 성능 향상, 저자원 한국어 연구 활성화와 후속 연구 확산 가능성 확보임.