단일 세포 RNA 시퀀싱 데이터의 분석 방법 및 장치
METHOD AND APPARATUS FOR ANALYSUS OF SINGLE-CELL RNA SEQUENCING DATA
특허 요약
단일 세포 RNA 시퀀싱 데이터의 분석 방법 및 장치가 개시된다. 일 실시 예에 따른 데이터 분석 방법은 복수의 배치들 각각에 대응하여, 단일 세포에서 정량적으로 측정되는 특성 정보를 획득하는 단계, 복수의 배치들 각각에 대응하는 세포들의 특성 정보의 합에 기초하여, 포아송 분포로 모델링된 특성 정보의 조건부 기대 값 및 조건부 분산을 계산하는 단계, 조건부 기대 값, 조건부 분산 및 특성 정보에 기초하여, 특성 정보에 대응하는 잔차 행렬의 공분산 행렬을 계산하는 단계 및 공분산 행렬을 고유 분해함으로써, 잔차 행렬의 PCA 분석을 위한 PC 값을 계산하는 단계를 포함할 수 있다.
청구항
번호청구항
15

제14항에 있어서,상기 프로세서는,상기 조건부 기대 값 및 조건부 분산을 계산함에 있어서,상기 특성 정보를 상기 복수의 배치들 각각에 대응하는 세포들의 특성 정보의 합을 조건부로 하는 다항 분포로 모델링하고,상기 특성 정보의 상기 다항 분포에 따른 상기 조건부 기대 값 및 상기 조건부 분산을 계산하는,장치.

1

복수의 배치(batch)들 각각에 대응하여, 단일 세포에서 정량적으로 측정되는 특성 정보를 획득하는 단계;상기 복수의 배치들 각각에 대응하는 세포들의 상기 특성 정보의 합에 기초하여, 포아송 분포(poisson distribution)로 모델링된 상기 특성 정보의 조건부 기대 값 및 조건부 분산을 계산하는 단계;상기 조건부 기대 값, 상기 조건부 분산 및 상기 특성 정보에 기초하여, 상기 특성 정보에 대응하는 잔차(residual) 행렬의 공분산 행렬을 계산하는 단계; 및상기 공분산 행렬을 고유 분해(eigen-decomposition)함으로써, 상기 잔차 행렬의 PCA(principal component analysis) 분석을 위한 PC 값을 계산하는 단계를 포함하는,데이터 분석 방법.

2

제1항에 있어서,상기 조건부 기대 값 및 조건부 분산을 계산하는 단계는상기 특성 정보를 상기 복수의 배치들 각각에 대응하는 세포들의 상기 특성 정보의 합을 조건부로 하는 다항 분포로 모델링하는 단계; 및상기 특성 정보의 상기 다항 분포에 따른 상기 조건부 기대 값 및 상기 조건부 분산을 계산하는 단계를 포함하는,데이터 분석 방법.

3

제1항에 있어서,상기 잔차 행렬의 공분산 행렬을 계산하는 단계는AAT, 2ABT 및 BBT의 합을 계산하는 단계를 포함하고,상기 A는 Ybij/σbij, 상기 B는 μbij/σbij, 상기 Ybij는 배치 b, 세포 i, 유전자 j에 대응하는 특성 정보, 상기 μbij는 상기 Ybij의 조건부 기대 값, σbij는 상기 Ybij의 조건부 분산인,데이터 분석 방법.

4

제3항에 있어서,상기 잔차 행렬은 상기 A에서 상기 B를 뺌으로써 획득된 행렬과 동치인 데이터 분석 방법.

5

제1항에 있어서,상기 잔차 행렬의 공분산 행렬은 상기 잔차 행렬 및 상기 잔차 행렬의 전치 행렬의 곱과 동치인데이터 분석 방법.

6

제3항에 있어서,상기 ABT 및 상기 BBT는 하기 수학식과 같이 계산되는,[수학식]데이터 분석 방법.

7

제1항에 있어서,상기 잔차 행렬의 공분산 행렬을 계산하는 단계는상기 조건부 기대 값, 상기 조건부 분산 및 상기 특성 정보에 기초하여, 상기 특성 정보의 각 유전자에 대응하는 잔차의 분산을 계산하는 단계;상기 각 유전자에 대응하는 잔차의 분산에 기초하여, 상기 특성 정보에 포함된 유전자의 적어도 일부를 포함하는 상기 특성 정보의 부분 집합을 결정하는 단계; 및상기 결정된 부분 집합에 대응하는 잔차 행렬의 공분산 행렬을 계산하는 단계를 포함하는,데이터 분석 방법.

8

제7항에 있어서,상기 특성 정보의 부분 집합을 결정하는 단계는상기 잔차의 분산이 큰 순서로 미리 정해진 개수의 유전자를 선택하는 단계; 및상기 선택된 유전자를 포함하는 상기 특성 정보의 부분 집합을 결정하는 단계를 포함하는,데이터 분석 방법.

9

제1항에 있어서,상기 잔차 행렬의 PC 값을 계산하는 단계는상기 잔차 행렬의 공분산 행렬을 고유 분해함으로써, 상기 잔차 행렬의 고유 공간(eigen-space)에 대응하는 고유 벡터(eigenvector)를 획득하는 단계; 및상기 고유 벡터에 기초하여, 상기 잔차 행렬의 상기 고유 공간에 대한 투영인 상기 잔차 행렬의 PC 값을 계산하는 단계를 포함하는,데이터 분석 방법.

10

제1항에 있어서,상기 특성 정보는세포 별 각 유전자에 대응하는 전사체 발현량을 포함하는 전사체 데이터(RNA sequencing data);세포 별 DNA에 결합한 전사 인자의 양에 관한 데이터; 및세포 별 오픈된 DNA의 시퀀싱 데이터중 적어도 하나를 포함하는,데이터 분석 방법.

11

제1항에 있어서,상기 특성 정보는 희소 행렬인데이터 분석 방법.

12

제1항에 있어서,상기 복수의 배치들 각각은 상기 특성 정보에 포함된 세포의 공여자에 대응되는,데이터 분석 방법.

13

하드웨어와 결합되어 제1항 내지 제12항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.

14

복수의 배치(batch)들 각각에 대응하여, 단일 세포에서 정량적으로 측정되는 특성 정보를 획득하고,상기 복수의 배치들 각각에 대응하는 세포들의 상기 특성 정보의 합에 기초하여, 포아송 분포(poisson distribution)로 모델링된 상기 특성 정보의 조건부 기대 값 및 조건부 분산을 계산하고,상기 조건부 기대 값, 상기 조건부 분산 및 상기 특성 정보에 기초하여, 상기 특성 정보에 대응하는 잔차(residual) 행렬의 공분산 행렬을 계산하며,상기 공분산 행렬을 고유 분해(eigen-decomposition)함으로써, 상기 잔차 행렬의 PCA(principal component analysis) 분석을 위한 PC 값을 계산하는,적어도 하나의 프로세서를 포함하는,장치.

16

제14항에 있어서,상기 프로세서는,상기 잔차 행렬의 공분산 행렬을 계산함에 있어서,AAT, 2ABT 및 BBT의 합을 계산하는 단계를 포함하고,상기 A는 Ybij/σbij, 상기 B는 μbij/σbij, 상기 Ybij는 배치 b, 세포 i, 유전자 j에 대응하는 특성 정보, 상기 μbij는 상기 Ybij의 조건부 기대 값, σbij는 상기 Ybij의 조건부 분산인,장치.

17

제16항에 있어서,상기 잔차 행렬은 상기 A에서 상기 B를 뺌으로써 획득된 행렬과 동치인 장치.

18

제16항에 있어서,상기 ABT 및 상기 BBT는 하기 수학식과 같이 계산되는,[수학식]장치.

19

제14항에 있어서,상기 프로세서는,상기 잔차 행렬의 공분산 행렬을 계산함에 있어서,상기 조건부 기대 값, 상기 조건부 분산 및 상기 특성 정보에 기초하여, 상기 특성 정보의 각 유전자에 대응하는 잔차의 분산을 계산하고,상기 각 유전자에 대응하는 잔차의 분산에 기초하여, 상기 특성 정보에 포함된 유전자의 적어도 일부를 포함하는 상기 특성 정보의 부분 집합을 결정하며,상기 결정된 부분 집합에 대응하는 잔차 행렬의 공분산 행렬을 계산하는,장치.

20

제19항에 있어서,상기 프로세서는,상기 특성 정보의 부분 집합을 결정함에 있어서,상기 잔차의 분산이 큰 순서로 미리 정해진 개수의 유전자를 선택하고,상기 선택된 유전자를 포함하는 상기 특성 정보의 부분 집합을 결정하는,장치.