Quality assessment and refinement of chromatin accessibility data using a sequence-based predictive model | 한성규 교수 연구실 | 인하대학교 생명과학과

한성규 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

preprint|

인용수 4

·2022

Quality assessment and refinement of chromatin accessibility data using a sequence-based predictive model

Seong Kyu Han, Yoshiharu Muto, Parker C. Wilson, Aravinda Chakravarti, Benjamin D. Humphreys, Matthew G. Sampson, Dongwon Lee

bioRxiv (Cold Spring Harbor Laboratory)

초록

크로마틴 접근성 분석은 전사 조절과 연관된 유전자 조절 요소를 전유전체 수준에서 식별하는 데 있어 핵심적인 방법이다. 그러나 여러 생물학적 및 기술적 요인으로 인해 데이터의 품질이 매우 다양하게 나타난다. 이를 해결하기 위해, 우리는 DNA 서열 기반 기계학습 모델이 예측하는 열린 크로마틴 피크의 예측가능성을 활용하여 크로마틴 접근성 데이터를 평가하고 정련한다. 우리의 프레임워크인 g apped k - m er SVM q uality c heck (gkmQC)는 훈련된 모델의 예측 정확도에 기반하여 샘플의 품질 지표를 제공한다. ENCODE/Roadmap 프로젝트의 DNase-seq로부터 886개 샘플을 대상으로 gkmQC가 미미한 read depth로 인해 저성능을 보이는 고품질 샘플을 효과적으로 식별할 수 있음을 입증하였다. gkmQC가 고품질 샘플에서 식별한 피크는 기능적 조절 요소에 더 정확하게 정렬되며, 유전체전반 연관분석(GWAS)으로부터의 기능성 변이를 포함하는 조절 요소의 농축이 더 높고, 관련 조직에서의 표현형에 대한 유전성(heritability)을 더 잘 설명한다. 또한 gkmQC는 피크 콜링 역치(threshold)를 최적화하여 추가 피크를 식별할 수 있으며, 특히 단일세포 크로마틴 접근성 데이터뿐 아니라 벌크 데이터에서도 그러하다. 여기서는 이러한 분석을 위한 독립형 오픈소스 도구키트( https://github.com/Dongwon-Lee/gkmQC )를 제공하고, gkmQC를 사용해 개선된 조절 지도(regulatory maps)를 공유한다. 이러한 자원은 질병 관련 조절 유전 변이의 기능적 해석에 기여할 것이다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

ChromatinChIA-PETComputational biologyPredictabilityComputer scienceENCODEData miningGenomeQuality (philosophy)Biology

타입

preprint

IF / 인용수

- / 4

원문

https://doi.org/10.1101/2022.02.24.481844

게재 연도

2022

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)