사전 학습된 화학 언어 모델(Chemical Language Models, CLMs)은 SMILES와 같은 문자열 기반 분자 기술자(descriptor)를 활용하여 범용 표현을 학습함으로써 분자 특성 예측 분야에서 뛰어난 성능을 보인다. 그러나 이러한 문자열 기반 기술자는 분자 특성 예측과 밀접하게 연관된 제한된 구조 정보를 암묵적으로 포함한다. 본 연구에서는 CLM 내에서 분자 구조에 대한 이해를 향상시키기 위한 새로운 대조 학습 프레임워크인 Moleco를 제안한다. 서로 다른 분자 간의 지문(fingerprint) 벡터 유사성을 기반으로, CLM이 대조적 방식으로 구조적으로 유사한 분자와 비유사한 분자를 구별하도록 학습한다. 실험 결과는 Moleco가 CLM의 분자 특성 예측 성능을 유의미하게 향상시키며, 최신(state-of-the-art) 모델을 능가함을 보여준다. 또한 다양한 Moleco 변형에 대한 심층 분석을 통해 지문 벡터가 분자의 구조 정보에 대한 CLM의 이해를 개선하는 데 매우 효과적인 특성임을 검증한다 1.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.