최근 거대 언어 모델의 발전은 다양한 과업에서 뛰어난 성과를 보이며, 특히 멀티모달로 확장하는 연구도 활발히 진행되고 있다. 특히 BLIP-2는 Q-Former를 통해 이미지와 문자를 효율적으로 정렬하여 성능을 높였으며, 멀티모달 데이터로 사전 학습되어 고정된 이미지 인코더가 이를 지원한다. 이러한 발전에 영감을 받아 MolCA 모델은 분자 분야에 BLIP-2를 확장하여 성능을 높였지만, 그래프 인코더는 단일모달 데이터로 사전 학습되어 모델 학습 중 갱신이 필요한 한계가 있다. 따라서 본 논문에서는 이를 멀티모달 데이터로 사전 학습된 그래프 인코더로 대체하고 고정하는 방안을 제시한다. 실험 결과, 멀티모달 데이터로 사전 학습된 그래프 인코더를 사용할 때 성능이 대체로 향상되었으며, 단일모달 데이터로 사전 학습된 그래프 인코더는 갱신할 때 성능이 높은 것에 비해 멀티모달 데이터로 사전 학습된 그래프 인코더는 갱신하지 않을 때 모든 지표에서 성능이 더 좋은 것을 확인할 수 있었다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.