High-precision Biomedical Text Corpora for Multi-Entity Recognition: A CoDiet study | 최동희 교수 연구실 | 부산대학교 정보컴퓨터공학부

|최동희 교수 연구실

홈

연구 영역

기본 정보

논문·특허

구성원

Preprint|

인용수 1

·2025

High-precision Biomedical Text Corpora for Multi-Entity Recognition: A CoDiet study

Antoine D. Lain, Sujung Go, A M Saif Mahmud, Shruti Rajendra, Ainara Cano, Katerina Loupasaki, Georgios Theodoridis, Maider Bizkarguenaga, Yajie Gu, Olga Deda, Ricardo Conde, Nieves Embade, Ángela de Diego Rodríguez, Nerea Burguera, Danai Rossiou, Rubén Gil‐Redondo, Domniki Gallou, Itziar Tueros, Rakesh Velmurugan, Vasiliki Gkanali, Mercedes Caro, Petros Pousinis, George Alektoridis, Sara Arranz, Nasos Nikolopoulos, Xingchen Yan, Rebeca Fernández-Carrión, Thomas Rowlands, Donghee Choi, Marek Rei, Christopher Cave-Ayland, Adrian D Alessandro, Tim Beck, Joram M. Posma

bioRxiv (Cold Spring Harbor Laboratory)

초록

본 연구에서는 대사증후군(metabolic syndrome) 관련 문헌을 대상으로 하는 명명 개체 인식(named-entity recognition, NER)의 벤치마크로 활용할 수 있는 4개의 생의학 다중-개체 코퍼스를 제시한다. CoDiet-Gold 코퍼스(348,413개 주석)는 500편의 재분배 가능한 전체 텍스트 출판물을 포함하며, 각 문서는 2명의 인체 전문가가 독립적으로 주석을 달고, 불일치는 제3의 전문가가 완전히 중재하여 해결하였다. CoDiet-Electrum 코퍼스(2,349,499개 주석)는 CoDiet-gold의 개체를 사용해 주석을 단 3,688편의 출판물을 포함한다. 마지막으로, 동일한 3,688편의 문서에 대해 두 개의 완전 기계 주석 코퍼스인 CoDiet-Bronze(2,399,647개 주석)와 CoDiet-Silver(1,868,422개 주석)를, 기존 NER 알고리즘을 활용하여 이들에 주석을 달아 생성하였다. 이들 코퍼스에는 기존 코퍼스에 더해 깊이를 제공하는 범주(생물종, 질병, 유전자, 단백질, 대사산물)가 포함될 뿐 아니라, 다른 코퍼스에는 없는 새로운 범주(식품, 식이 방법, 시료 유형, 계산 방법, 연구 방법론, 인구 특성, 데이터 유형, 마이크로바이옴)도 포함한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Corpus linguisticsText corpusPopulationSample (material)Parallel corporaComputational linguistics

타입

Preprint

IF / 인용수

- / 1

원문

https://doi.org/10.1101/2025.09.04.673740

게재 연도

2025