KRongBERT: Enhanced factorization-based morphological approach for the Korean pretrained language model | 김무철 교수 연구실 | 중앙대학교 소프트웨어학부

김무철 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 0

·2025

KRongBERT: Enhanced factorization-based morphological approach for the Korean pretrained language model

Hyunwook Yu, Yejin Cho, Geunchul Park, Mucheol Kim

IF 6.9 (2025) Information Processing & Management

초록

변환기(transformers) 기반 양방향 인코더 표현(BERT) 모델은 라틴 기반 언어를 대상으로 다양한 자연어 처리 과제에서 괄목할 만한 성과를 거두었다. 그러나 한국어는 제한된 데이터 자원과 복잡한 언어 구조로 인해 고유한 도전 과제를 제시한다. 본 논문에서는 이러한 한국어의 고유한 언어적 복잡성을 효과적으로 해결하기 위해 형태론적 접근을 통해 설계된 언어 모델인 KRongBERT를 제안한다. KRongBERT는 한국어에서 바이트 쌍 인코딩(byte-pair-encoding) 토크나이저로 인해 발생하는 어휘 외(out-of-vocabulary) 문제를 완화하고, 이해를 향상시키기 위해 언어 특화 임베딩 층을 통합한다. 본 모델은 기존 BERT 구현에 비해 특정 자연어 이해 과제에서 최대 1.56%의 성능 향상을 보인다. 특히 KRongBERT는 다른 모델들이 필요로 하는 데이터의 11.42%만을 사용하면서도, 기존의 최신 한국어 BERT 모델들보다 우수한 성능을 달성한다. 본 실험 결과는 KRongBERT가 한국어의 복잡성을 효율적으로 처리하며, 현재의 최신 접근법을 능가함을 보여준다. 코드는 https://github.com/Splo2t/KRongBERT 에서 공개되어 있다. • 형태론적 접근에 기반한 한국어 사전학습 모델 KRongBERT를 제시 • 한국어 NLP에서 어휘 외 문제를 해결하기 위해 접사(affix)를 인식하는 토크나이저를 제안 • 한국어의 위치 정보를 포착하기 위한 형태소 임베딩 층을 통합 • 더 적은 학습 데이터로 한국어 NLU 과제에서 최신 모델을 능가

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Computer scienceFactorizationNatural language processingArtificial intelligenceLanguage modelAlgorithm

타입

article

IF / 인용수

6.9 / 0

원문

https://doi.org/10.1016/j.ipm.2025.104072

게재 연도

2025

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)