박준형 교수 연구실
기본 정보
연구 분야
논문
구성원
preprint|
인용수 0
·2025
Incorporating Domain Knowledge into Materials Tokenization
Yerim Oh, Jun-Hyung Park, Junho Kim, Sungho Kim, SangKeun Lee
ArXiv.org
초록

언어 모델이 재료과학에서 점점 더 널리 활용되고 있지만, 일반적인 모델은 원래 자연어 처리 분야에서 개발된 빈도 중심의 토큰화 방법에 주로 의존한다. 그러나 이러한 방법은 종종 과도한 단편화를 유발하고 의미를 상실하게 하여, 재료 개념의 구조적·의미적 온전성을 유지하지 못한다. 이 문제를 해결하기 위해, 우리는 재료 지식을 토큰화에 통합하는 새로운 토큰화 접근법인 MATTER를 제안한다. 재료 지식 기반으로 학습된 MatDetector와, 토큰 병합 과정에서 재료 개념을 우선시하도록 설계된 재순위화 방법에 기반하여, MATTER는 식별된 재료 개념의 구조적 온전성을 유지하고 토큰화 중 단편화를 방지함으로써 해당 개념의 의미가 그대로 보존되도록 한다. 실험 결과는 MATTER가 기존 토큰화 방법보다 우수하며, 생성 및 분류 과제에서 각각 평균 성능 향상 를 달성함을 보여준다. 이러한 결과는 과학 텍스트 처리에서 토큰화 전략에 대한 도메인 지식의 중요성을 강조한다. 우리의 코드는 https://github.com/yerimoh/MATTER 에서 제공된다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
Lexical analysisKnowledge baseDomain (mathematical analysis)Natural languageSubject-matter expertSemantics (computer science)Domain knowledgeSecurity token
타입
preprint
IF / 인용수
- / 0
게재 연도
2025

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.