A survey on large language models in biology and chemistry | 이재윤 교수 연구실 | 서울대학교 데이터사이언스학과

이재윤 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 1

·2025

A survey on large language models in biology and chemistry

Islambek Ashyrmamatov, Su Ji Gwak, Su-Young Jin, Ikhyeong Jun, Umit Volkan Ucak, Jay-Yoon Lee, Juyong Lee

IF 12.9 (2025) Experimental & Molecular Medicine

초록

인공지능(AI)은 복잡한 생물학적 시스템에 적합한 확장 가능한 계산 프레임워크를 제공함으로써 생의학 연구를 재편하고 있다. 이 혁명의 핵심에는 대형 언어 모델을 포함한 생체/화학 언어 모델이 있으며, 이들은 분자 구조를 고급 계산 기법에 적합한 ‘언어’의 한 형태로 재개념화하고 있다. 본 연구에서는 생물학과 화학에서 이러한 모델이 수행하는 역할을 비판적으로 고찰하고, 분자 표현에서 분자 생성 및 최적화로의 진화 과정을 추적한다. 본 총설은 생물학적 거대분자와 소분자 유기 화합물 모두에 대한 주요 분자 표현 전략을 다루며, 단백질 및 뉴클레오타이드 서열부터 단일세포 데이터, 문자열 기반 화학 포맷, 그래프 기반 인코딩, 3차원 포인트 클라우드에 이르기까지 각 접근법의 상대적 장점과 AI 응용에서의 내재적 한계를 조명한다. 또한 논의에서는 트랜스포머 계열 인코더의 양방향 인코더 표현, 생성형 사전학습 트랜스포머 계열 디코더, 인코더-디코더 트랜스포머와 같은 핵심 모델 아키텍처와 함께, 자기지도 학습, 멀티태스크 학습, 검색 증강 생성(retrieval-augmented generation) 등 정교한 사전학습 전략을 함께 탐색한다. 단백질 구조 및 기능 예측, de novo 단백질 설계, 게놈 분석, 분자 특성 예측, de novo 분자 설계, 반응 예측 및 회고적 합성(retrosynthesis) 등 주요 생의학 응용은 대표 연구와 부상하는 경향을 통해 고찰된다. 마지막으로 본 총설은 에이전틱(agentic) 및 상호작용형(interactive) AI 시스템의 부상하는 지형을 고려하면서, 생의학에서 AI의 미래 궤적을 좌우할 핵심 기술적, 윤리적 및 규제적 고려사항을 함께 다루는 가운데 과학적 발견을 자동화하고 가속할 잠재력을 간략히 제시한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Representation (politics)Key (lock)Function (biology)Generative grammarScalabilityBiomedicineTracingComputational model

타입

article

IF / 인용수

12.9 / 1

원문

https://doi.org/10.1038/s12276-025-01583-1

게재 연도

2025

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)