DNA 서열 기반 예측모델로 크로마틴 접근성 데이터 품질평가 및 정제 연구

Sequence-based predictive quality control for chromatin accessibility refinement

연구 내용

DNA 서열로 오픈 크로마틴 피크를 예측하는 모델 기반 품질지표를 사용해 접근성 데이터의 신뢰도를 평가하고 피크 정제 및 임계값 최적화를 수행하는 연구

본 연구는 chromatin accessibility assay가 가지는 생물학적·기술적 변동으로 인해 품질이 크게 달라지는 문제를 해결하기 위해, DNA sequence 기반 기계학습 모델의 예측 정확도를 품질지표로 활용합니다. gapped k-mer SVM quality check(gkmQC) 프레임워크는 훈련된 모델이 특정 샘플의 open-chromatin peaks를 얼마나 잘 예측하는지를 기준으로 high-quality 샘플을 선별하며, 기존 통상 품질 점수가 낮더라도 기능 조절 요소에 더 정확히 정렬되는 peak 세트를 도출합니다. 또한 질병 연관 변이의 기능적 조절 요소 농축 및 관련 조직에서의 표현형 유전성 설명력 증가와 같은 downstream 성능 개선을 확인합니다. 단일세포 접근성 데이터와 bulk 데이터 모두에서 peak-calling threshold 최적화로 추가 피크를 확보하는 응용을 포함하며, 분석을 위한 도구를 공개 형태로 제공합니다.

관련 프로젝트

1건

연구 흐름

초기에는 open chromatin peaks의 서열 예측 가능성을 이용해 접근성 데이터의 품질을 데이터 생산 단계 이전에 가까운 수준에서 재평가할 수 있는 가설을 세웠습니다. 이후에는 ENCODE/Roadmap의 다양한 DNase-seq 샘플에 대해 모델 기반 품질지표를 검증하고, low read depth 상황에서도 기능 조절 요소 정렬과 변이 풍부화 같은 해석 지표가 개선되는 결과를 축적했습니다. 최근에는 peak-calling threshold 최적화로 단일세포의 희귀 세포유형에서도 신호를 더 포괄하도록 확장하고, 개선된 규제 지도와 분석 워크플로우를 제공하는 형태로 연구를 구체화했습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

epigenomic 데이터 품질관리 자동화
오픈 크로마틴 피크 정제 파이프라인
peak-calling 임계값 최적화
희귀 세포유형 신호 복원
DNase-seq/ATAC-seq 재분석 지원
기능 조절 요소 주석 정확도 향상
단일세포 기반 규제 지도 확장
질병 연관 변이의 조절성 해석 보조
공개 데이터 통합 품질 정규화
모델 기반 품질 보고서 생성