화학 LLM의 추론 신뢰도와 SMILES 구조 이해 향상

Improving Chemical LLMs via Confident Reasoning and SMILES Parsing

연구 내용

화학 도메인에서 LLM이 오류 없이 추론하고 분자 구조를 정확히 이해하도록 confident reasoning과 SMILES 파싱 학습 과제를 설계하는 연구

과학·분자 영역에서 LLM의 신뢰 가능한 활용을 위해서는 추론 과정의 일관성과 분자 표현에 대한 구조적 이해가 동시에 필요합니다. 본 연구는 confident reasoning을 통해 자기훈련 과정에서 추론의 신뢰 신호를 활용하고, 생성된 텍스트가 의미론적으로 안정된 방식으로 학습되도록 구성합니다. 또한 SMILES를 단순 생성이 아니라 subgraph matching부터 global graph matching까지 결정적이고 정돈된 과제로 분해하여 학습 신호를 구조 속성에 맞추어 정렬합니다. adaptive difficulty scoring으로 사전학습 데이터의 난이도를 제어하여 분자 구조 comprehension을 향상시키며, 이를 화학 LLM의 추론 및 이해 성능으로 연결하는 방향을 취합니다.

관련 프로젝트

4건

연구 흐름

초기에는 대규모 언어 모델의 자기훈련이 추론 오류를 증폭할 수 있다는 문제를 완화하기 위해 confident reasoning을 학습 루프에 결합하는 접근을 수행했습니다. 이후 화학 도메인에서는 SMILES가 분자 그래프를 직접 나타낸다는 점에 착안하여 파싱을 deterministic task sequence로 재구성하고, 구조적 속성과 정합된 감독을 제공하는 프레임워크를 개발했습니다. 최근에는 분자 구조 이해를 넘어 화학 멀티모달 및 ADMET 예측으로 확장되는 과제 구성이 확인됩니다. 전개 과정은 추론 신뢰도 확보 → 구조 감독 정렬 → 화학 응용 데이터로 확장이라는 단계적 흐름을 보입니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

화학 추론 에이전트 학습
SMILES 구조 파싱
분자 그래프 수준 이해
자기훈련 기반 모델 개선
의미론적 일관성 강화
화학 멀티모달 파운데이션 모델
ADMET 예측 모델링
약물 개발용 구조 표현 학습
분자 이해 평가 벤치마크
분자 수준 오류 감지 및 수정