참조 기반 유전체 조립(reference-guided genome assembly)은 관련 종의 참조 유전체를 사용하여 고품질 유전체 조립체를 생성한다. 참조 유전체의 선택은 조립 품질에 유의미한 영향을 미치나, 이에 대한 명확한 지침은 부족한 실정이다. 본 연구에서는 참조 기반 유전체 조립에 영향을 미치는 35개의 유전체 특성을 정의하고 계산하였다. Select K-best 알고리즘을 사용하여 유전체 조립체의 품질과 관련된 상위 20개 특성을 선택하였다. 그 결과, 참조 종 및 진화적 거리와 관련된 유전체 특성들이 조립 품질과 높은 관련성을 보이는 것으로 나타났다. 또한, 주어진 참조 종을 이용하여 참조 기반 유전체 조립 접근법으로 생성된 유전체 조립체의 품질을 예측하는 기계 학습 모델을 구현하였다. 모델을 보노보(bonobo) 유전체에 대해 평가한 결과, 우리의 모델은 참조-외군 쌍(reference-outgroup pairs)에 따라 유전체 조립체의 품질 점수를 잘 예측함을 확인하였다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.