생명체의 조직 전반에 걸친 세포 계열(cell class)의 정의는 의생명 분야에서 단일세포 RNA 시퀀싱(scRNA-seq) 데이터의 성장하는 지도(아틀라스)를 분석하는 데 있어 핵심이다. 세포 계열의 표지자(marker) 유전자는 대부분 차등발현(differential expression, DE) 방법으로 정의되는데, 이는 다양한 세포의 지형(landscape) 전반에서 개별 유전자를 직렬적으로 평가한다. 이러한 직렬적 접근은 매우 유용했으나, 동시에 여러 유전자를 분석해야만 포착될 수 있는 유전자의 잠재적 중복성 또는 상보성을 무시한다는 한계가 있다. 이진화된 발현 데이터에 대해 탐구함으로써, 우리는 개별 세포 유형에 ‘특이적’이며(enriched in) 단순히 풍부한 정도에 그치지 않는 판별(discriminating) 유전자 패널을 식별하고자 한다. 가능한 표지자 패널의 방대한 탐색 공간을 효율적으로 조사하기 위해, 시퀀싱되는 세포 수가 많다는 점을 활용하고 scRNA-seq 데이터의 영(0) 과다(zero-inflation)를 극복하고자, 표지자 유전자 패널 선택을 조합 최적화(combinatorial optimization)의 ‘최소 집합 덮기 문제(minimal set-covering problem)’의 한 변형으로 간주하는 방법을 제안한다. 혈액과 뇌 조직의 scRNA-seq 데이터를 사용하여, 본 새로운 방법인 CellCover가 세포 유형을 판별하는 유전자 패널을 정의하는 데 있어 DE 및 기타 방법과 비슷한 수준이거나 더 나은 성능을 보이면서도, 유전자 중복성을 감소시키고 DE 방법으로부터 정의되는 것과 구별되는 세포 계열 특이적 신호를 포착함을 보여준다. 마우스, 영장류, 사람 데이터에 걸친 전이학습(transfer learning) 실험은 CellCover가 신피질(neocortical) 신경발생에서 보존된 세포 계열의 표지자를 식별할 뿐 아니라, 전구세포(progenitors)와 뉴런(neurons) 모두에서 발달 진행(progress)을 나타낸다는 것을 보여준다. 포유류 전반에서 사람의 바깥 방사교세포(outer radial glia, oRG, 또는 basal RG)에 대한 표지자를 탐색한 결과, 이 핵심 세포 유형의 전사체적 요소가 사람이뇌의 확장(expansion) 과정에서 등장하기 전에 설치류의 전구( gliogenic precursors) 단계에서 이미 나타났을 가능성이 있으며, 그 이후에야 영장류 계통의 신경발생 세포에서 전 프로그램이 완전히 발현된다는 점을 보여준다. 본 보고서에서 사용하는 공개 데이터셋을 NeMO Analytics 다중오믹스 데이터 탐색 환경(NeMO Analytics multi-omic data exploration environment) []에 통합하였으며, 개별 유전자( and ) 및 표지자 유전자 패널(, , , and )의 발현을 코딩 전문지식 없이 자유롭게 탐색할 수 있다. CellCover는 in and 에서 이용 가능하다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.