언어 모델은 재료과학에서 점차 더 널리 활용되고 있으나, 일반적인 모델은 원래 자연어 처리에 사용되던 빈도 중심의 토큰화 방법에 주로 의존한다. 그러나 이러한 방법은 종종 과도한 분절(fragmentation)과 의미 손실을 야기하여, 재료 개념의 구조적 및 의미적 무결성을 유지하지 못한다. 이 문제를 해결하기 위해 우리는 재료 지식을 토큰화에 통합하는 새로운 토큰화 접근법 MATTER를 제안한다. 재료 지식 기반에서 학습된 MatDetector와, 토큰 병합(token merging) 과정에서 재료 개념을 우선하도록 하는 재랭킹(re-ranking) 방법에 기반하여 MATTER는 식별된 재료 개념의 구조적 무결성을 유지하고 토큰화 중 분절을 방지함으로써, 그 의미가 온전히 유지되도록 한다. 실험 결과는 MATTER가 기존 토큰화 방법보다 우수하며, 생성 및 분류 과제에서 각각 평균 성능 향상 4% 및 2%를 달성함을 보여준다. 이러한 결과는 과학 텍스트 처리에서 토큰화 전략에 있어 도메인 지식의 중요성을 강조한다. 1
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.