변환기(transformers) 기반 양방향 인코더 표현(BERT) 모델은 라틴 기반 언어를 대상으로 다양한 자연어 처리 과제에서 괄목할 만한 성과를 거두었다. 그러나 한국어는 제한된 데이터 자원과 복잡한 언어 구조로 인해 고유한 도전 과제를 제시한다. 본 논문에서는 이러한 한국어의 고유한 언어적 복잡성을 효과적으로 해결하기 위해 형태론적 접근을 통해 설계된 언어 모델인 KRongBERT를 제안한다. KRongBERT는 한국어에서 바이트 쌍 인코딩(byte-pair-encoding) 토크나이저로 인해 발생하는 어휘 외(out-of-vocabulary) 문제를 완화하고, 이해를 향상시키기 위해 언어 특화 임베딩 층을 통합한다. 본 모델은 기존 BERT 구현에 비해 특정 자연어 이해 과제에서 최대 1.56%의 성능 향상을 보인다. 특히 KRongBERT는 다른 모델들이 필요로 하는 데이터의 11.42%만을 사용하면서도, 기존의 최신 한국어 BERT 모델들보다 우수한 성능을 달성한다. 본 실험 결과는 KRongBERT가 한국어의 복잡성을 효율적으로 처리하며, 현재의 최신 접근법을 능가함을 보여준다. 코드는 https://github.com/Splo2t/KRongBERT 에서 공개되어 있다. • 형태론적 접근에 기반한 한국어 사전학습 모델 KRongBERT를 제시 • 한국어 NLP에서 어휘 외 문제를 해결하기 위해 접사(affix)를 인식하는 토크나이저를 제안 • 한국어의 위치 정보를 포착하기 위한 형태소 임베딩 층을 통합 • 더 적은 학습 데이터로 한국어 NLU 과제에서 최신 모델을 능가
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.