주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
Article
|
인용수 16
·
2023MulinforCPI: enhancing precision of compound–protein interaction prediction through novel perspectives on multi-level information integration
Ngoc-Quang Nguyen, Sejeong Park, Mogan Gim, Jaewoo Kang
IF 6.8 (2023)
Briefings in Bioinformatics
화합물과 단백질 간 상호작용을 예측하는 것은 새로운 약물을 발견하는 데 결정적으로 중요하다. 그러나 기존의 서열 기반 연구들은 원자 좌표 및 거리 행렬과 같은 화합물과 단백질의 3차원(3D) 정보까지 활용하여 결합 친화도를 예측하지 못하였다. 또한, 널리 사용되는 수많은 계산 기법들은 단백질 표현을 위해 아미노산 문자 서열에 의존해 왔다. 이러한 접근은 모델이 의미 있는 생화학적 특징을 포착하는 능력을 제한할 수 있으며, 그 결과 기저 단백질에 대한 보다 포괄적인 이해를 저해할 수 있다. 이에 본 연구에서는 이러한 한계를 극복하기 위해 전이 학습 기법과 다중 수준 해상도 특징을 통합하는 2단계 딥러닝 전략인 MulinforCPI를 제안한다. 우리의 접근법은 단백질과 화합물 모두로부터 3D 정보를 활용하고, 단백질의 원자 수준 특징에 대해 심층적인 이해를 획득한다. 아울러 본 연구는 제1원리 기반 방법과 데이터 기반 방법 간의 차이를 조명함으로써 화합물-단백질 상호작용 과제에 대한 새로운 연구 가능성을 제시한다. 제안한 방법을 평가하기 위해 Davis, Metz, KIBA, CASF-2016, DUD-E 및 BindingDB의 총 6개 데이터셋에 적용하였다.
https://doi.org/10.1093/bib/bbad484
Computer science
Artificial intelligence
Resolution (logic)
Interaction information
Machine learning
Protein–protein interaction
Sequence (biology)
Computational biology
Data mining
Chemistry
2
Article
|
인용수 10
·
2023KitchenScale: Learning to predict ingredient quantities from recipe contexts
Donghee Choi, Mogan Gim, Samy Badreddine, Hajung Kim, Donghyeon Park, Jaewoo Kang
IF 7.5 (2023)
Expert Systems with Applications
https://doi.org/10.1016/j.eswa.2023.120041
Recipe
Ingredient
Context (archaeology)
Computer science
Artificial intelligence
Generalizability theory
Machine learning
Transfer of learning
Natural language processing
Mathematics
3
Article
|
인용수 115
·
2022BERN2: an advanced neural biomedical named entity recognition and normalization tool
Mujeen Sung, Minbyul Jeong, Yonghwa Choi, Donghyeon Kim, Jinhyuk Lee, Jaewoo Kang
IF 5.8 (2022)
Bioinformatics
생의학 자연어처리에서 개체명 인식(named entity recognition, NER)과 개체명 정규화(named entity normalization, NEN)는 급속도로 증가하는 생의학 문헌에서 생의학적 개체(예: 질환과 약물)를 자동으로 추출할 수 있게 해주는 핵심 과제이다. 본 논문에서는 다중 과업 NER 모델과 신경망 기반 NEN 모델을 사용하여 기존의 신경망 기반 NER 도구를 개선함으로써 훨씬 더 빠르고 정확한 추론을 달성하는 도구인 BERN2(Advanced Biomedical Entity Recognition and Normalization)를 소개한다. 본 도구가 생의학 지식 그래프 구축과 같은 다양한 과업을 위해 대규모 생의학 텍스트를 주석 처리하는 데 도움이 되기를 기대한다. 이용 가능성과 구현: BERN2의 웹 서비스는 http://bern2.korea.ac.kr 에서 공개되어 있다. 또한 https://github.com/dmis-lab/BERN2 에서 BERN2의 로컬 설치도 제공한다. 보충 정보: 보충 데이터는 Bioinformatics 온라인에서 제공된다.
https://doi.org/10.1093/bioinformatics/btac598
Named-entity recognition
Computer science
Normalization (sociology)
Biomedical text mining
Inference
Artificial intelligence
Artificial neural network
Entity linking
Named entity
Natural language processing
4
Article
|
인용수 24
·
2022Sequence tagging for biomedical extractive question answering
Wonjin Yoon, Richard Jackson, Aron Lagerberg, Jaewoo Kang
IF 5.8 (2022)
Bioinformatics
동기: 현재 추출형 질의응답(extractive question answering, EQA)에 관한 연구들은 단일 스팬 추출(single-span extraction) 설정을 모델링해 왔다. 이 설정에서는 특정 질의-지문 쌍에 대해 하나의 정답 스팬이 예측해야 할 레이블이 된다. 일반 도메인 EQA에서 이 설정은 대부분의 질문이 단일 스팬으로 답할 수 있기 때문에 자연스럽다. 일반 도메인 EQA 모델을 따르는 현재의 생의의학 분야 EQA(BioEQA) 모델들은 후처리 단계를 포함하여 단일 스팬 추출 설정을 사용한다. 결과: 본 논문에서는 일반 도메인과 생의의학 도메인에 걸친 질의 분포를 분석하고, 생의의학 질문이 사실형(factoid-type) 답(단일 답변)보다 목록형(list-type) 답(복수 답변)을 요구할 가능성이 더 높음을 발견하였다. 이는 모델이 하나의 질의에 대해 여러 답변을 생성할 수 있어야 함을 의미한다. 본 예비 연구에 기반하여, 우리는 BioEQA를 위한 서열 태깅(sequence tagging) 접근법을 제안하며, 이는 다중 스팬 추출(multi-span extraction) 설정이다. 우리의 접근법은 정답으로 사용되는 구(phrase)의 수가 가변적인 질의를 직접적으로 다루며, 질의에 대한 답변의 개수를 훈련 데이터로부터 학습하여 결정할 수 있다. BioASQ 7b 및 8b의 목록형(list-type) 질문에 대한 실험 결과는 후처리 단계를 필요로 하지 않으면서도 기존의 성능이 가장 우수한 모델들을 능가하였다. 이용 가능성과 구현: 소스 코드와 자원은 https://github.com/dmis-lab/SeqTagQA 에서 다운로드할 수 있도록 무료로 제공된다. 추가 정보: 추가 데이터는 Bioinformatics 온라인에서 이용 가능하다.
https://doi.org/10.1093/bioinformatics/btac397
Computer science
Question answering
Information retrieval
Domain (mathematical analysis)
Sequence (biology)
Span (engineering)
Questions and answers
Natural language processing
5
Article
|
인용수 75
·
2022Perceiver CPI: a nested cross-attention network for compound–protein interaction prediction
Ngoc-Quang Nguyen, Gwanghoon Jang, Hajung Kim, Jaewoo Kang
IF 5.8 (2022)
Bioinformatics
동기: 화합물-단백질 상호작용(Compound-protein interaction, CPI)은 신약 개발에서 필수적인 역할을 하며, 분자 도킹 시뮬레이션을 통해 수행되는데 이는 비용이 많이 듭니다. 이러한 목적을 위해 많은 인공지능 기반 접근법이 제안되어 왔습니다. 최근에는 분자 정보를 활용하는 데 있어 유망한 결과를 보인 두 가지 유형의 모델이 보고되었습니다. 첫째는 그래프 구조(원자와 결합)로부터 학습된 분자 표현을 구성하는 그래프 합성곱 신경망(graph convolutional neural networks)이고, 둘째는 분자의 기술자(descriptors) 또는 지문(fingerprints)에 대해 연산을 수행할 수 있는 신경망입니다. 그러나 두 방법 중 어느 쪽이 우수한지는 아직 정해지지 않았습니다. 현대의 여러 연구는 화합물과 단백질로부터 추출된 정보를 통합하여 CPI 과제를 구성하려고 시도해 왔습니다. 그럼에도 불구하고, 이러한 접근법들은 단순 연결(concatenation)을 사용해 정보를 결합해 왔으며, 이는 그러한 정보 간 상호작용을 충분히 포착할 수 없습니다.
결과: 우리는 약물-표적 상호작용의 표현 학습 능력을 향상시키기 위해 교차-주의(cross-attention) 메커니즘을 채택하고, 확장 연결성 지문(extended-connectivity fingerprints)으로부터 얻는 풍부한 정보를 활용하여 성능을 개선하는 Perceiver CPI 네트워크를 제안합니다. 제안한 방법은 기존의 최신 방법들과 비교하기 위해 세 가지 주요 데이터셋(Davis, KIBA, Metz)에서 Perceiver CPI를 평가했습니다. 제안된 방법은 만족스러운 성능을 달성했으며, 모든 실험에서 이전 접근법들에 비해 유의한 개선을 보였습니다.
이용 가능성 및 구현: Perceiver CPI는 https://github.com/dmis-lab/PerceiverCPI 에서 이용할 수 있습니다.
추가 정보: 보충 데이터는 Bioinformatics online에서 이용 가능합니다.
https://doi.org/10.1093/bioinformatics/btac731
Concatenation (mathematics)
Computer science
Graph
Attention network
Artificial neural network
Machine learning
Artificial intelligence
Representation (politics)
Convolutional neural network
Aggregate (composite)