연구 영역
기본 정보
논문·특허
과제
구성원
Article|
인용수 24
·2023
3D graph contrastive learning for molecular property prediction
Kisung Moon, Hyeon-Jin Im, Sunyoung Kwon
IF 4.4 (2023) Bioinformatics
초록

동기: 비지도사전학습(self-supervised learning, SSL)은 데이터에 내재된 감독 신호를 활용하여 데이터 표현을 학습하는 방법이다. 이러한 학습 방법은 약물 분야에서 주목받고 있는데, 시간 소요가 크고 비용이 많이 드는 실험으로 인해 주석이 달린 데이터가 부족하기 때문이다. 막대한 규모의 라벨 없는 데이터를 활용한 SSL은 분자 특성 예측에서 우수한 성능을 보였으나, 몇 가지 문제가 존재한다. (i) 기존의 SSL 모델은 대규모이며, 계산 자원이 충분하지 않은 환경에서 SSL을 구현하는 데 한계가 있다. (ii) 대부분의 경우 분자 표현 학습에 3차원 구조 정보를 활용하지 않는다. 약물의 활성은 해당 약물 분자의 구조와 밀접한 관련이 있다. 그럼에도 불구하고 현재의 대부분 모델은 3차원 정보를 사용하지 않거나 부분적으로만 사용한다. (iii) 분자에 대해 대조학습(contrastive learning)을 적용하는 선행 모델들은 원자와 결합을 순열(permuting)하는 데이터 증강을 사용한다. 따라서 서로 다른 특성을 가진 분자들이 동일한 양성 샘플(positive samples)에 포함될 수 있다. 우리는 위의 문제를 해결하기 위해 분자 특성 예측을 위한 소규모 3차원 그래프 대조학습(small-scale 3D Graph Contrastive Learning, 3DGCL)이라는 새로운 대조학습 프레임워크를 제안한다. 결과: 3DGCL은 약물의 의미(semantic)를 변화시키지 않는 사전학습 과정(pretraining)을 통해 분자의 구조를 반영함으로써 분자 표현을 학습한다. 사전학습 데이터로 1128개 샘플만 사용하고, 모델 파라미터는 50만(0.5 million) 개만 사용하여, 6개의 벤치마크 데이터셋에서 최첨단 성능 또는 이에 준하는 성능을 달성하였다. 광범위한 실험을 통해, 화학 지식에 기반한 3차원 구조 정보가 특성 예측을 위한 분자 표현 학습에 필수적임을 확인하였다. 이용 가능성 및 구현: 데이터와 코드는 https://github.com/moonkisung/3DGCL 에서 제공된다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
Computer scienceProperty (philosophy)Representation (politics)GraphMachine learningArtificial intelligenceTraining setFeature learningMolecular graphNatural language processing
타입
Article
IF / 인용수
4.4 / 24
게재 연도
2023