인과추론에서는 반사실 사건을 이해하는 것이 중요하다. 만약 신약의 효과를 알아보기 위해서 신약을 복용한 사람이 있고, 신약을 복용하지 않은 사람은 있을 수 있지만, 신약을 복용하고 동시에 신약을 복용하지 않은 사람은 없다. 실제로 일어나지 않은 사건을 반사실(counterfactual) 사건이라고 하는데, 이것을 결측치로 간주하고 모형화할 수 있다. 반사실 사건을 모형화하는 다양한 방법을 제시할 수 있는데, 이 방법에 따라 추정값의 결과가 크게 차이가 날 수 있다. (1) 평균 인과 효과 (Average causal effect, ACE) 처리가 이산일 때에는 고차원 관측 자료를 이용하여 각 처리에 대한 모형을 만들고, 그 모형에 근거하여 결측된 반사실 결과를 imputation 방법을 적용하여 예측할 수 있다. 각 처리에 대한 모형을 만들 때, SIR, SAVE 등과 같은 차원 축소 방법을 이용할 것이다. Balancing score의 추정량과 각 처리에 대한 추정량에 대해서도 차원 축소 방법을 이용하여 Robins 외 (1994)에서 제시한 이중 강건 추정량의 일부분에 대입하여 강건한 추정량을 제시하고자 한다. 또한 리커트 척도와 같이 순서를 갖는 반응 변수에 대해서는 proportional odds 모형에 차원축소 방법을 적용하여 평균 인과 효과를 추정하고자 한다. 연속형일 때에는 sequential ignorability 가정 등 다양한 합리적인 가정을 도입하여 bootstrap 방법과 차원 축소 방법을 적용하고자 한다. (2) 평균 인과 매개 효과 (Average causal mediation effect, ACME)와 평균 직접 효과 (Average direct effect, ADE) Imai 외 (2010)에서는 sequential ignorability 가정 하에서 지수족에 해당하는 반응 변수에 대해서 비모수 방법으로 평균 인과 매개 효과 및 평균 직접 효과를 추정하였다. Imai 외 (2010)에서는 설명변수가 고차원일 때의 경우는 다루지 않았는데, 본 연구에서는 설명변수가 고차원일 경우에도 적용 가능한 평균 인과 매개 효과 및 평균 직접 효과 추정 방법을 연구하고자 한다. 또한 효율적 준모수 방법에 근거한 triply robust 추정량의 일부분에 대해서 차원 축소 방법을 적용하여 강건한 추정량을 제안하고자 한다. Sequential ignorability 가정에 대한 민감도 분석을 하고, 제안한 방법을 R 패키지로 구현하고, 고차원 의학, 경제, 공공 자료에 적용하고자 한다. 마지막으로, 다양한 인과 효과 추정 방법을 비교하는 연구를 할 것이다.
인과추론에서는 반사실 사건을 이해하는 것이 중요하다. 만약 신약의 효과를 알아보기 위해서 신약을 복용한 사람이 있고, 신약을 복용하지 않은 사람은 있을 수 있지만, 신약을 복용하고 동시에 신약을 복용하지 않은 사람은 없다. 실제로 일어나지 않은 사건을 반사실(counterfactual) 사건이라고 하는데, 이것을 결측치로 간주하고 모형화할 수 있다. 반사실 사건을 모형화하는 다양한 방법을 제시할 수 있는데, 이 방법에 따라 추정값의 결과가 크게 차이가 날 수 있다. (1) 평균 인과 효과 (Average causal effect, ACE) 처리가 이산일 때에는 고차원 관측 자료를 이용하여 각 처리에 대한 모형을 만들고, 그 모형에 근거하여 결측된 반사실 결과를 imputation 방법을 적용하여 예측할 수 있다. 각 처리에 대한 모형을 만들 때, SIR, SAVE 등과 같은 차원 축소 방법을 이용할 것이다. Balancing score의 추정량과 각 처리에 대한 추정량에 대해서도 차원 축소 방법을 이용하여 Robins 외 (1994)에서 제시한 이중 강건 추정량의 일부분에 대입하여 강건한 추정량을 제시하고자 한다. 또한 리커트 척도와 같이 순서를 갖는 반응 변수에 대해서는 proportional odds 모형에 차원축소 방법을 적용하여 평균 인과 효과를 추정하고자 한다. 연속형일 때에는 sequential ignorability 가정 등 다양한 합리적인 가정을 도입하여 bootstrap 방법과 차원 축소 방법을 적용하고자 한다. (2) 평균 인과 매개 효과 (Average causal mediation effect, ACME)와 평균 직접 효과 (Average direct effect, ADE) Imai 외 (2010)에서는 sequential ignorability 가정 하에서 지수족에 해당하는 반응 변수에 대해서 비모수 방법으로 평균 인과 매개 효과 및 평균 직접 효과를 추정하였다. Imai 외 (2010)에서는 설명변수가 고차원일 때의 경우는 다루지 않았는데, 본 연구에서는 설명변수가 고차원일 경우에도 적용 가능한 평균 인과 매개 효과 및 평균 직접 효과 추정 방법을 연구하고자 한다. 또한 효율적 준모수 방법에 근거한 triply robust 추정량의 일부분에 대해서 차원 축소 방법을 적용하여 강건한 추정량을 제안하고자 한다. Sequential ignorability 가정에 대한 민감도 분석을 하고, 제안한 방법을 R 패키지로 구현하고, 고차원 의학, 경제, 공공 자료에 적용하고자 한다. 마지막으로, 다양한 인과 효과 추정 방법을 비교하는 연구를 할 것이다.
인간 유전체가 발현될 때, 전사개시지점으로부터 멀리 떨어진 지점에 위치한 인핸서의 히스톤 H3K4의 모노메틸화가 인핸서의 활성과 상관관계가 높고, 전사개시지점에 근접한 프로모터는 히스톤 H3K4의 트리메틸화가 해당 프로모터의 활성과 상관관계가 높다는 것이 알려져 있다. 이런 관점에서 각각의 히스톤에 대해서 전사개시지점을 기준으로 프로모터(또는 인핸서)의 활성화된 정도를 통해 프로모터(또는 인핸서)의 기능을 분류할 수 있고, 새로운 프로모터(또는 인핸서)의 기능을 예측할 수 있다. 각각의 히스톤에 대해서 전사개시지점을 기준으로 프로모터(또는 인핸서)의 활성화된 정도를 그래프로 표시하고, 그래프의 프로파일을 몇 가지 군집으로 분류할 것이다. 연차별로 다음과 같이 연구를 진행하고자 한다.
(1) 1년차: 히스톤 변형강도에 대해 포아송 분포, 음이항 분포, 또는 포아송 분포의 정규 근사를 이용하거나 데이터에 0이 많은 경우에는 zero-inflated 포아송 모형을 적용하여 혼합 모수 모형을 만들 수 있다. 혼합 모수 모형에 근거한 군집 방법을 개발하고, 각각의 모형에 대해서 모형의 편차, AIC, BIC 등을 계산하고 군집 방법에 따른 오분류율을 추정한다.
(2) 2년차: 히스톤 변형 강도에 대해서 비모수 모형을 적용하고자 한다. 모수 모형보다 비모수 모형을 이용한 히스톤 변형 강도에 대한 근사가 더 잘 될 가능성을 배제할 수 없으므로, 비모수 모형에 근거한 군집 방법을 개발하도록 한다.
(3) 3년차: 히스톤 변형 데이터의 다양한 군집 분석 모형을 비교하고 R 패키지를 개발하여 분석 결과를 보여 준다. 그래프를 적절히 활용할 수 있도록 한다.
인간 유전체가 발현될 때, 전사개시지점으로부터 멀리 떨어진 지점에 위치한 인핸서의 히스톤 H3K4의 모노메틸화가 인핸서의 활성과 상관관계가 높고, 전사개시지점에 근접한 프로모터는 히스톤 H3K4의 트리메틸화가 해당 프로모터의 활성과 상관관계가 높다는 것이 알려져 있다. 이런 관점에서 각각의 히스톤에 대해서 전사개시지점을 기준으로 프로모터(또는 인핸서)의 활성화된 정도를 통해 프로모터(또는 인핸서)의 기능을 분류할 수 있고, 새로운 프로모터(또는 인핸서)의 기능을 예측할 수 있다. 각각의 히스톤에 대해서 전사개시지점을 기준으로 프로모터(또는 인핸서)의 활성화된 정도를 그래프로 표시하고, 그래프의 프로파일을 몇 가지 군집으로 분류할 것이다. 연차별로 다음과 같이 연구를 진행하고자 한다.
(1) 1년차: 히스톤 변형강도에 대해 포아송 분포, 음이항 분포, 또는 포아송 분포의 정규 근사를 이용하거나 데이터에 0이 많은 경우에는 zero-inflated 포아송 모형을 적용하여 혼합 모수 모형을 만들 수 있다. 혼합 모수 모형에 근거한 군집 방법을 개발하고, 각각의 모형에 대해서 모형의 편차, AIC, BIC 등을 계산하고 군집 방법에 따른 오분류율을 추정한다.
(2) 2년차: 히스톤 변형 강도에 대해서 비모수 모형을 적용하고자 한다. 모수 모형보다 비모수 모형을 이용한 히스톤 변형 강도에 대한 근사가 더 잘 될 가능성을 배제할 수 없으므로, 비모수 모형에 근거한 군집 방법을 개발하도록 한다.
(3) 3년차: 히스톤 변형 데이터의 다양한 군집 분석 모형을 비교하고 R 패키지를 개발하여 분석 결과를 보여 준다. 그래프를 적절히 활용할 수 있도록 한다.