크로마틴 접근성 분석은 전사 조절과 연관된 유전자 조절 요소를 전 게놈 규모에서 식별하는 데 핵심적이다. 그러나 여러 생물학적 및 기술적 요인으로 인해 데이터의 품질은 매우 다양하다. 이러한 문제를 극복하기 위해 우리는 크로마틴 접근성 데이터를 평가하고 정제하기 위한 서열 기반 기계 학습 방법을 개발하였다. 우리의 프레임워크 gapped k-mer SVM quality check(gkmQC)는 훈련된 모델의 예측 정확도를 바탕으로 샘플에 대한 품질 지표를 제공한다. 우리는 ENCODE/Roadmap 프로젝트의 DNase-seq 샘플 886개를 대상으로 gkmQC가 낮은 재래적 품질 점수에도 불구하고(낮은 read depth에 기인) ‘고품질’(HQ) 샘플을 효과적으로 식별할 수 있음을 입증하였다. HQ 샘플에서 확인된 피크는 기능적 조절 요소에 더 정확히 정렬되며, 기능적 변이를 보유한 조절 요소에 대한 농축이 더 크고, 해당 조직으로부터 표현형의 유전 가능성을 더 잘 설명한다. 또한 gkmQC는 단일세포 크로마틴 접근성 데이터에서 특히 희귀한 세포 유형에 대해 추가 피크를 식별할 수 있도록 피크 콜링 역치(peak-calling threshold)를 최적화할 수 있다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.