강재우 교수 연구실 | 고려대학교 컴퓨터학과

강재우 연구실

고려대학교 컴퓨터학과 강재우 교수

Biomedical NLP

Named-entity recognition

Compound–protein interaction prediction

|강재우 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

홈

강재우 연구실

고려대학교 컴퓨터학과 강재우 교수

강재우 연구실은 생의학 및 생명과학 도메인의 데이터마이닝과 지식정보처리를 중심으로 연구를 수행합니다. 특히 문헌에서 Named-entity recognition과 Named entity normalization을 통해 화학·의료 개체를 정규화하고, Retrieval-augmented large language models을 활용해 생의학 질문응답과 설명 생성을 안정화합니다. 또한 compound–protein interaction 예측과 retrosynthetic planning을 통해 신약 후보 탐색을 지원하며, GRN-aligned 잠재 최적화를 적용해 유전자 교란 반응을 설명가능하게 모델링합니다. 이러한 기법은 바이오 빅데이터 기반 정밀의료 AI 플랫폼 개발과 연계됩니다.

Biomedical NLPNamed-entity recognitionCompound–protein interaction predictionRetrosynthetic planningRetrieval-augmented large language models

대표 연구 분야

연구 영역 전체보기

생의학 개체 추출·정규화 기반 지식베이스 구축

Biomedical entity extraction and normalization for knowledge-base construction

연구 분야 상세보기

생의학 개체 추출·정규화 기반 지식베이스 구축

Biomedical entity extraction and normalization for knowledge-base construction

연구 분야 상세보기

검색 증강과 자기반성을 결합한 생의학 LLM 응답 생성

Retrieval-augmented biomedical LLM reasoning with self-reflection

연구 분야 상세보기

신약 후보 예측을 위한 분자-생체 상호작용 모델링과 역합성 계획

Molecular interaction prediction and retrosynthetic planning for drug discovery

연구 분야 상세보기

연구 성과 추이

표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

주요 논문

논문 전체보기

Article

인용수 16

2023

MulinforCPI: enhancing precision of compound–protein interaction prediction through novel perspectives on multi-level information integration

Ngoc-Quang Nguyen, Sejeong Park, Mogan Gim, Jaewoo Kang

IF 6.8 (2023)

Briefings in Bioinformatics

화합물과 단백질 간 상호작용을 예측하는 것은 새로운 약물을 발견하는 데 결정적으로 중요하다. 그러나 기존의 서열 기반 연구들은 원자 좌표 및 거리 행렬과 같은 화합물과 단백질의 3차원(3D) 정보까지 활용하여 결합 친화도를 예측하지 못하였다. 또한, 널리 사용되는 수많은 계산 기법들은 단백질 표현을 위해 아미노산 문자 서열에 의존해 왔다. 이러한 접근은 모델이 의미 있는 생화학적 특징을 포착하는 능력을 제한할 수 있으며, 그 결과 기저 단백질에 대한 보다 포괄적인 이해를 저해할 수 있다. 이에 본 연구에서는 이러한 한계를 극복하기 위해 전이 학습 기법과 다중 수준 해상도 특징을 통합하는 2단계 딥러닝 전략인 MulinforCPI를 제안한다. 우리의 접근법은 단백질과 화합물 모두로부터 3D 정보를 활용하고, 단백질의 원자 수준 특징에 대해 심층적인 이해를 획득한다. 아울러 본 연구는 제1원리 기반 방법과 데이터 기반 방법 간의 차이를 조명함으로써 화합물-단백질 상호작용 과제에 대한 새로운 연구 가능성을 제시한다. 제안한 방법을 평가하기 위해 Davis, Metz, KIBA, CASF-2016, DUD-E 및 BindingDB의 총 6개 데이터셋에 적용하였다.

https://doi.org/10.1093/bib/bbad484

Computer science

Artificial intelligence

Resolution (logic)

Interaction information

Machine learning

Protein–protein interaction

Sequence (biology)

Computational biology

Data mining

Chemistry

Article

인용수 10

2023

KitchenScale: Learning to predict ingredient quantities from recipe contexts

Donghee Choi, Mogan Gim, Samy Badreddine, Hajung Kim, Donghyeon Park, Jaewoo Kang

IF 7.5 (2023)

Expert Systems with Applications

https://doi.org/10.1016/j.eswa.2023.120041

Recipe

Ingredient

Context (archaeology)

Computer science

Artificial intelligence

Generalizability theory

Machine learning

Transfer of learning

Natural language processing

Mathematics

Article

인용수 115

2022

BERN2: an advanced neural biomedical named entity recognition and normalization tool

Mujeen Sung, Minbyul Jeong, Yonghwa Choi, Donghyeon Kim, Jinhyuk Lee, Jaewoo Kang

IF 5.8 (2022)

Bioinformatics

생의학 자연어처리에서 개체명 인식(named entity recognition, NER)과 개체명 정규화(named entity normalization, NEN)는 급속도로 증가하는 생의학 문헌에서 생의학적 개체(예: 질환과 약물)를 자동으로 추출할 수 있게 해주는 핵심 과제이다. 본 논문에서는 다중 과업 NER 모델과 신경망 기반 NEN 모델을 사용하여 기존의 신경망 기반 NER 도구를 개선함으로써 훨씬 더 빠르고 정확한 추론을 달성하는 도구인 BERN2(Advanced Biomedical Entity Recognition and Normalization)를 소개한다. 본 도구가 생의학 지식 그래프 구축과 같은 다양한 과업을 위해 대규모 생의학 텍스트를 주석 처리하는 데 도움이 되기를 기대한다. 이용 가능성과 구현: BERN2의 웹 서비스는 http://bern2.korea.ac.kr 에서 공개되어 있다. 또한 https://github.com/dmis-lab/BERN2 에서 BERN2의 로컬 설치도 제공한다. 보충 정보: 보충 데이터는 Bioinformatics 온라인에서 제공된다.

https://doi.org/10.1093/bioinformatics/btac598

Named-entity recognition

Computer science

Normalization (sociology)

Biomedical text mining

Inference

Artificial intelligence

Artificial neural network

Entity linking

Named entity

Natural language processing

최신 정부 과제

과제 전체보기

주관|

2023년 6월-2027년 12월

|925,000,000원

바이오 빅데이터 기반 당뇨병 및 합병증 정밀 의료를 위한 AI 플랫폼 및 모델 개발

1차년도에는 국내 5개 대형병원에서 10년 이상 추적된 당뇨병 환자 50만명 이상을 포함한 국내외 임상/오믹스/영상 데이터를 수집하고, 이들을 정제하고 표준화하는 것이 목표임. 이를 위해 임상데이터(minimal common data), 유전체, 전사체, DNA 메틸화, 단백체, 영상데이터, 투약정보 등을 수집하고 표준화할 것임. - 임상정보, 영상정보, 다중오믹스정보 통합 빅데이터 기반 multi-stage covariate representation learning (RL) 사전학습 AI 모델 아키텍쳐 및 알고리즘 개발: 각 데이터 타입(임상정보, 유전체, 전사체, DNA 메틸화, 조직/혈액단백체, 영상데이터)에 대해서 RL 알고리즘을 개발하여 정보를 추출하고, covariate AI 모델을 통해 embedding vector들 사이의 관계성을 학습할 것임. - 표준화된 학습용 빅데이터와 구축된 AI 모델의 활용 및 공개를 위한 DB 플랫폼 벤치마킹: 사용자 친화적 UI/UX 웹기반 데이터 분석 가능 DB에 대한 벤치마킹 플랫폼을 선정하고, 웹기반 DB 플랫폼 서치를 통해 합당한 DB 스키마, exploration, 시각화 툴, 분류 툴 등을 선정할 것임. 2차년도에는 1차년도에 수집된 당뇨병 및 합병증 관련 임상정보, 영상정보, 다중오믹스 정보를 정리, 정제, 분석하여 AI 학습용 데이터를 구축하는 것을 목표로 함. - 데이터 매트릭스 구축: 각 당뇨병 및 합병증 관련 데이터를 각 타입별 (표준화된 임상데이터, 유전체, 전사체, DNA 메틸화, 조직/혈액단백체, 영상데이터 등)로 정리하고 매트릭스 형태로 정규화함. - Multi-stage covariate RL AI 모델 구축. 개별 RL 모델과 Covariate AI 모델을 구축: Covariate AI 모델은 임상정보, 유전체, 전사체, DNA 메틸화, 단백체, 영상 데이터를 매핑하고, stage 1에서 사용한 RL 모델의 embedding vector들 사이의 관계성을 학습시킴. 이후 covariate AI 모델은 반복 학습을 통해 수렴할 때까지 재학습할 것임. - UI/UX 친화적 웹기반 DB 플랫폼 구축: 표준화된 학습용 데이터와 AI 모델을 활용하기 위한 사용자 친화적인 DB 플랫폼을 개발할 것임. 표준화된 학습용 데이터인 임상정보, 영상정보, 다중오믹스정보, 매칭ID 등의 변수를 포함한 DB 스키마를 구축하고, exploration, 시각화, 분류 등의 툴을 탑재한 UI/UX 기반 웹 DB 시스템을 구현하고자 함. 3차년도에는 사전학습 AI 모델 개선 및 In-Silico 검증을 통한 최적화에 중점을 두고자 함 - 사전학습 AI 모델 in-silico 검증에 사용할 데이터를 수집: 기존 사용되지 않은 병원 기반 및 공공 데이터베이스의 임상, 유전체, 전사체, 단백질 및 영상 데이터를 수집하여, 사전학습 covariate AI 모델이 캡처한 데이터 간 주요 관계성과 알려진 관계성을 비교분석을 통해 AI 모델 평가하고자 함. 데이터 간의 양적 및 질적 관계를 비교 분석하여, 사전학습 AI 모델의 성능을 평가하고 개선 방향을 결정할 예정임. 기존에 사용되지 않았던 데이터 기반 구축된 RL 모델에서 생성된 합성 인공 데이터 등을 예측하여 overfitting, 정확도 및 robustness 등을 평가하고자 함. - 알려진 지식과 비교 분석 및 In-silico 검증 결과에 기반한 사전학습 AI 모델 개선 및 고도화: 알려진 양적 및 질적 관계를 바탕으로 covariate AI 모델의 아키텍처 및 알고리즘을 개선하고, 또한, in-silico 검증에서 발견된 overfitting, 정확도 및 robustness 등의 문제를 해결하기 위해, 수집한 임상, 다중오믹스, 영상 데이터를 추가하여 사전학습 AI 모델을 업데이트 함.

당뇨병

인공지능

정밀의료

예후 예측

치료 타겟

2023년 6월-2027년 12월

|1,351,000,000원

바이오 빅데이터 기반 당뇨병 및 합병증 정밀 의료를 위한 AI 플랫폼 및 모델 개발

이 과제의 최종 목표는 당뇨병 및 만성혈관합병증 관련 임상/영상/다중오믹스 빅데이터를 수집, 정제, 표준화한 후 이를 이용한 사전학습 AI 모델, 응용학습 AI 모델을 구축하고, 이를 활용하여 환자별 당뇨병 및 합병증의 예측, 진단, 치료, 예후를 제공하고, 진단을 위한 바이오마커 및 치료를 위한 타겟을 발굴하는 것임.세부 목표로는 1) 10년 이상 추적된...

당뇨병

인공지능

정밀의료

예후 예측

치료 타겟

주관|

2023년 3월-2026년 12월

|1,000,000,000원

사용자들의 다양한 관심사 맞춤형 문화유산 스토리텔링 AI 기술 개발

본 과제는 문화유산의 그림·조각 등 시각 정보와 학예사가 만든 비시각 정보를 함께 써서, 관람객 관심사에 맞는 해설 스토리를 자동 생성하는 기술 개발임. 연구 목표는 시각 지능 모델로 시각적 스토리텔링 요소를 분석·추출하고, 자연어 생성모델로 사용자 맞춤형 콘텐츠를 생성하는 디지털 문화유산 분류·검색·스토리텔링 플랫폼을 구축하는 데 있음. 이를 위해 큐레이션 맵과 관람객-문화유산 인터랙션 데이터 분석을 설계하며 학습 데이터셋과 사실 기반 언어모델 프레임워크를 개발함. 기대효과는 모바일·메타버스·공동활용 플랫폼에서 개인 맞춤형 도슨트 품질 향상과 문화격차 해소, 관광·콘텐츠 산업 확장임.

문화유산 스토리텔링 AI

관심사 맞춤형 문화유산 해설

스토리텔링 요소 인식 추론

문화유산 큐레이션 맵

자연어 기반 문화해설

최신 특허

특허 전체보기

상태	출원연도	과제명	출원번호
등록	2024	3차원 수준 정보 통합을 통해 정밀도를 강화한 화합물-단백질 결합 친화도 예측 방법 및 장치	1020240186338
등록	2024	환자에 대한 임상 노트와 모니터링 데이터의 결합을 통한 임상 결과 예측 방법 및 장치	1020240178640
거절	2021	전사체 표현형 기반 약물 작용 기전 예측 장치 및 방법	1020210190080

전체 특허

3차원 수준 정보 통합을 통해 정밀도를 강화한 화합물-단백질 결합 친화도 예측 방법 및 장치

상태

등록

출원연도

2024

출원번호

1020240186338

상세 정보 바로가기

환자에 대한 임상 노트와 모니터링 데이터의 결합을 통한 임상 결과 예측 방법 및 장치

상태

등록

출원연도

2024

출원번호

1020240178640

상세 정보 바로가기

전사체 표현형 기반 약물 작용 기전 예측 장치 및 방법

상태

거절

출원연도

2021

출원번호

1020210190080

상세 정보 바로가기