배경: 고처리량 시퀀싱 데이터를 이용한 메타유전체 어셈블리는 배양 없이 환경 시료로부터 미생물 게놈을 구축할 수 있는 강력한 방법이다. 그러나 메타유전체 어셈블리, 특히 짧은 리드만 이용할 때는 여러 미생물의 혼합 게놈이 메타유전체를 구성하므로 복잡하고 도전적인 작업이다. 장독자(롱 리드) 시퀀싱 기술이 개발되어 메타유전체 어셈블리에 사용되기 시작했으나, 긴 리드를 생성하는 데 드는 비용이 짧은 리드보다 더 높기 때문에 많은 메타유전체 연구는 여전히 짧은 리드에 기반하여 수행되고 있다. 결과: 본 연구에서는 PLR-GEN이라는 새로운 방법을 제시한다. PLR-GEN은 주어진 기준(레퍼런스) 게놈 서열을 바탕으로, 동일 또는 서로 다른 종에 속한 개체 게놈에 존재하는 소규모 서열 변이를 고려하여 메타유전체 짧은 리드로부터 의사-롱 리드(pseudo-long reads)를 생성한다. Human Microbiome Project의 모의 커뮤니티(mock community) 데이터셋에 적용한 결과, PLR-GEN은 101 bp의 짧은 리드를 길이 33 Kbp의 N50과 0.4% 오류율을 갖는 의사-롱 리드로 현저하게 확장하였다. PLR-GEN이 생성한 이러한 의사-롱 리드를 사용하면, 서열 수, 어셈블리 연속성(contiguity), 종 및 유전자 예측 측면에서 메타유전체 어셈블리가 뚜렷하게 개선되었다. 결론: PLR-GEN은 추가적인 시퀀싱 비용을 지출하지 않고 인공적인 롱 리드 서열을 생성하는 데 활용될 수 있으며, 따라서 메타유전체를 사용하는 다양한 연구를 지원한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.