크로마틴 접근성 분석은 전사 조절과 연관된 유전자 조절 요소를 전유전체 수준에서 식별하는 데 있어 핵심적인 방법이다. 그러나 여러 생물학적 및 기술적 요인으로 인해 데이터의 품질이 매우 다양하게 나타난다. 이를 해결하기 위해, 우리는 DNA 서열 기반 기계학습 모델이 예측하는 열린 크로마틴 피크의 예측가능성을 활용하여 크로마틴 접근성 데이터를 평가하고 정련한다. 우리의 프레임워크인 g apped k - m er SVM q uality c heck (gkmQC)는 훈련된 모델의 예측 정확도에 기반하여 샘플의 품질 지표를 제공한다. ENCODE/Roadmap 프로젝트의 DNase-seq로부터 886개 샘플을 대상으로 gkmQC가 미미한 read depth로 인해 저성능을 보이는 고품질 샘플을 효과적으로 식별할 수 있음을 입증하였다. gkmQC가 고품질 샘플에서 식별한 피크는 기능적 조절 요소에 더 정확하게 정렬되며, 유전체전반 연관분석(GWAS)으로부터의 기능성 변이를 포함하는 조절 요소의 농축이 더 높고, 관련 조직에서의 표현형에 대한 유전성(heritability)을 더 잘 설명한다. 또한 gkmQC는 피크 콜링 역치(threshold)를 최적화하여 추가 피크를 식별할 수 있으며, 특히 단일세포 크로마틴 접근성 데이터뿐 아니라 벌크 데이터에서도 그러하다. 여기서는 이러한 분석을 위한 독립형 오픈소스 도구키트( https://github.com/Dongwon-Lee/gkmQC )를 제공하고, gkmQC를 사용해 개선된 조절 지도(regulatory maps)를 공유한다. 이러한 자원은 질병 관련 조절 유전 변이의 기능적 해석에 기여할 것이다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.