연구 영역
기본 정보
논문·특허
과제
구성원
Article|
·
인용수 0
·2025
Sylender: A Syllable-Enhanced Transformer Encoder Model Incorporating Korean Characteristics
Yumin Heo, Jiwon Heo, Minjun Choi, Youngjoong Ko
Journal of KIISE
초록

음절 단위 토크나이징은 한국어의 언어적 및 문법적 정보를 잘 보존한다는 장점이 있으나, 토큰의 의미적인 정보가 서브워드 토큰보다 적어, 서브워드 방식보다 성능이 떨어지는 경향이 있다. 따라서 본 논문에서는 기존 사전학습 서브워드 모델에 음절 모듈을 추가적으로 결합한 Sylender 모델을 제안한다. Sylender는 기존 서브워드 모델의 각 레이어에 음절 기반 모듈을 병렬적으로 결합한 구조이며 서브워드 임베딩과 음절 임베딩을 함께 사용한다. 이를 통해 언어 모델의 표현력을 유지하면서도, 음절 수준의 정보를 효과적으로 결합해 한국어의 문법 구조 및 형태론적 특성을 효과적으로 반영한다. 제안된 모델은 다양한 한국어 일반 데이터에 대한 실험 결과, Sylender는 대부분의 기존 베이스라인은 물론 일부 태스크에서는 약 2.5배, 1.5배의 파라미터 크기를 가진 대형 모델보다도 우수한 성능을 보였으며, 이는 한국어의 언어적 특성을 반영한 정보 결합 방식이 성능 향상에 매우 효과적임을 입증한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
TransformerEncoderData modelingTroubleshooting
타입
Article
IF / 인용수
- / 0
게재 연도
2025