본 연구에서는 대사증후군(metabolic syndrome) 관련 문헌을 대상으로 하는 명명 개체 인식(named-entity recognition, NER)의 벤치마크로 활용할 수 있는 4개의 생의학 다중-개체 코퍼스를 제시한다. CoDiet-Gold 코퍼스(348,413개 주석)는 500편의 재분배 가능한 전체 텍스트 출판물을 포함하며, 각 문서는 2명의 인체 전문가가 독립적으로 주석을 달고, 불일치는 제3의 전문가가 완전히 중재하여 해결하였다. CoDiet-Electrum 코퍼스(2,349,499개 주석)는 CoDiet-gold의 개체를 사용해 주석을 단 3,688편의 출판물을 포함한다. 마지막으로, 동일한 3,688편의 문서에 대해 두 개의 완전 기계 주석 코퍼스인 CoDiet-Bronze(2,399,647개 주석)와 CoDiet-Silver(1,868,422개 주석)를, 기존 NER 알고리즘을 활용하여 이들에 주석을 달아 생성하였다. 이들 코퍼스에는 기존 코퍼스에 더해 깊이를 제공하는 범주(생물종, 질병, 유전자, 단백질, 대사산물)가 포함될 뿐 아니라, 다른 코퍼스에는 없는 새로운 범주(식품, 식이 방법, 시료 유형, 계산 방법, 연구 방법론, 인구 특성, 데이터 유형, 마이크로바이옴)도 포함한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.