Quality assessment and refinement of chromatin accessibility data using a sequence-based predictive model | 한성규 교수 연구실 | 인하대학교 생명과학과

한성규 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 10

·2022

Quality assessment and refinement of chromatin accessibility data using a sequence-based predictive model

Seong Kyu Han, Yoshiharu Muto, Parker C. Wilson, Benjamin D. Humphreys, Matthew G. Sampson, Aravinda Chakravarti, Dongwon Lee

IF 11.1 (2022) Proceedings of the National Academy of Sciences

초록

크로마틴 접근성 분석은 전사 조절과 연관된 유전자 조절 요소를 전 게놈 규모에서 식별하는 데 핵심적이다. 그러나 여러 생물학적 및 기술적 요인으로 인해 데이터의 품질은 매우 다양하다. 이러한 문제를 극복하기 위해 우리는 크로마틴 접근성 데이터를 평가하고 정제하기 위한 서열 기반 기계 학습 방법을 개발하였다. 우리의 프레임워크 gapped k-mer SVM quality check(gkmQC)는 훈련된 모델의 예측 정확도를 바탕으로 샘플에 대한 품질 지표를 제공한다. 우리는 ENCODE/Roadmap 프로젝트의 DNase-seq 샘플 886개를 대상으로 gkmQC가 낮은 재래적 품질 점수에도 불구하고(낮은 read depth에 기인) ‘고품질’(HQ) 샘플을 효과적으로 식별할 수 있음을 입증하였다. HQ 샘플에서 확인된 피크는 기능적 조절 요소에 더 정확히 정렬되며, 기능적 변이를 보유한 조절 요소에 대한 농축이 더 크고, 해당 조직으로부터 표현형의 유전 가능성을 더 잘 설명한다. 또한 gkmQC는 단일세포 크로마틴 접근성 데이터에서 특히 희귀한 세포 유형에 대해 추가 피크를 식별할 수 있도록 피크 콜링 역치(peak-calling threshold)를 최적화할 수 있다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

ChromatinENCODEChIA-PETComputational biologyComputer scienceData miningQuality (philosophy)Support vector machineSample (material)Sequence (biology)

타입

article

IF / 인용수

11.1 / 10

원문

https://doi.org/10.1073/pnas.2212810119

게재 연도

2022

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)