인공지능(AI)은 복잡한 생물학적 시스템에 적합한 확장 가능한 계산 프레임워크를 제공함으로써 생의학 연구를 재편하고 있다. 이 혁명의 핵심에는 대형 언어 모델을 포함한 생체/화학 언어 모델이 있으며, 이들은 분자 구조를 고급 계산 기법에 적합한 ‘언어’의 한 형태로 재개념화하고 있다. 본 연구에서는 생물학과 화학에서 이러한 모델이 수행하는 역할을 비판적으로 고찰하고, 분자 표현에서 분자 생성 및 최적화로의 진화 과정을 추적한다. 본 총설은 생물학적 거대분자와 소분자 유기 화합물 모두에 대한 주요 분자 표현 전략을 다루며, 단백질 및 뉴클레오타이드 서열부터 단일세포 데이터, 문자열 기반 화학 포맷, 그래프 기반 인코딩, 3차원 포인트 클라우드에 이르기까지 각 접근법의 상대적 장점과 AI 응용에서의 내재적 한계를 조명한다. 또한 논의에서는 트랜스포머 계열 인코더의 양방향 인코더 표현, 생성형 사전학습 트랜스포머 계열 디코더, 인코더-디코더 트랜스포머와 같은 핵심 모델 아키텍처와 함께, 자기지도 학습, 멀티태스크 학습, 검색 증강 생성(retrieval-augmented generation) 등 정교한 사전학습 전략을 함께 탐색한다. 단백질 구조 및 기능 예측, de novo 단백질 설계, 게놈 분석, 분자 특성 예측, de novo 분자 설계, 반응 예측 및 회고적 합성(retrosynthesis) 등 주요 생의학 응용은 대표 연구와 부상하는 경향을 통해 고찰된다. 마지막으로 본 총설은 에이전틱(agentic) 및 상호작용형(interactive) AI 시스템의 부상하는 지형을 고려하면서, 생의학에서 AI의 미래 궤적을 좌우할 핵심 기술적, 윤리적 및 규제적 고려사항을 함께 다루는 가운데 과학적 발견을 자동화하고 가속할 잠재력을 간략히 제시한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.