언어 모델이 재료과학에서 점점 더 널리 활용되고 있지만, 일반적인 모델은 원래 자연어 처리 분야에서 개발된 빈도 중심의 토큰화 방법에 주로 의존한다. 그러나 이러한 방법은 종종 과도한 단편화를 유발하고 의미를 상실하게 하여, 재료 개념의 구조적·의미적 온전성을 유지하지 못한다. 이 문제를 해결하기 위해, 우리는 재료 지식을 토큰화에 통합하는 새로운 토큰화 접근법인 MATTER를 제안한다. 재료 지식 기반으로 학습된 MatDetector와, 토큰 병합 과정에서 재료 개념을 우선시하도록 설계된 재순위화 방법에 기반하여, MATTER는 식별된 재료 개념의 구조적 온전성을 유지하고 토큰화 중 단편화를 방지함으로써 해당 개념의 의미가 그대로 보존되도록 한다. 실험 결과는 MATTER가 기존 토큰화 방법보다 우수하며, 생성 및 분류 과제에서 각각 평균 성능 향상 와 를 달성함을 보여준다. 이러한 결과는 과학 텍스트 처리에서 토큰화 전략에 대한 도메인 지식의 중요성을 강조한다. 우리의 코드는 https://github.com/yerimoh/MATTER 에서 제공된다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.