프로젝트 소개
본 과제는 한국어 자연어 처리의 여러 문제를 하나의 전이학습 기반 딥러닝 모델로 풀기 위한 연구임. 언어 모델, 개체명 인식, 기계 독해, 요약 등에서 공통으로 쓰일 범용 모델과, 학습용 언어 자원이 부족한 한국어의 한계를 보완할 방법을 찾는 데 목적이 있음.
연구 내용은 대용량 텍스트 기반 선수학습, 토크나이제이션과 마스킹 전략 연구, 적은 지도 학습 데이터를 활용한 파인-튜닝, 태스크별 아키텍처 확장, 선수학습-파인-튜닝 고도화로 구성됨. 기대 효과는 인코더-디코더 기반 한국어 선수학습 모델 공개, 자연어 생성·이해·태깅 성능 향상, 저자원 한국어 NLP 활성화와 후속 연구 확장 가능성 확보임.