결합 상대방을 고려하여 DNA 서열에서 단백질과 결합하는 부위를 예측하는 방법
Method for predicting protein-binding sites in a DNA sequence with consideration of binding partners
특허 요약
본 발명은 DNA 서열에서 단백질과 결합하는 염기 예측 방법에 관한 것으로, DNA 결합 상대방을 고려하여, DNA 서열에서 단백질 결합부위를 예측하는 방법을 개발하였다. DNA 및 단백질 서열을 모두 사용하여 단백질이 결합하는 DNA 염기를 예측하는 SVM(support vector machine) 모델을 개발하였고, 비교를 위해 DNA 서열만을 사용하여 단백질이 결합하는 염기를 예측하는 SVM 모델을 개발하여 DNA 서열만을 사용하여 예측하는 것보다 DNA 및 단백질 서열 모두를 사용하여 예측하는 것이 대부분의 성과 측정에서 우수함을 확인하였고, 이러한 새로운 모델은 상대방이 변경될 때 주어진 DNA 서열에 대해 서로 다른 결합 부위를 예측할 수 있음을 확인하였다. 이는 구조를 알 수 없는 경우에도 서열 데이터만으로 단백질 결합 DNA의 염기를 예측할 수 있어 생화학적 실험에 유용하게 사용될 수 있다.
청구항
번호청구항
1
  1. DNA 서열에서 단백질과 결합할 가능성이 높은 염기를 예측하기 위해, DNA 및 단백질의 다양한 특징을 특징 벡터(feature vector)로 표현하는 단계;2) 상기 단계 1)의 표현된 특징 벡터로 표현한 데이터에서 특징 벡터를 기반으로 중복 데이터를 제거하여 학습 데이터를 생성하는 단계; 및3) 상기 단계 2)의 학습 데이터를 이용하여 SVM(support vector machine) 모델을 학습시키고, 학습된 SVM 모델을 이용하여 단백질과 결합하는 DNA 염기를 예측하는 단계를 포함하는, DNA 서열에서 단백질과 결합하는 염기 예측방법.
2

제 1항에 있어서, 상기 단계 1)의 특징 벡터는 단백질 및 DNA 서열 데이터만 주어졌을 때, 결합부위 예측에 효과적인 특징을 표현하는 것을 특징으로 하는 DNA 서열에서 단백질과 결합하는 염기 예측 방법.

3

제 1항에 있어서, 상기 단계 1)의 특징 벡터의 구성요소로서 표현되는 단백질 및 DNA 서열의 특징은,전체 DNA 서열에 대한 정보를 표현하는 DNA 전체적 특징(global features);DNA 개별 염기 또는 DNA 염기 트리플렛(nucleotide triplets)에 대한 정보를 표현하는 DNA 국소적 특징(local features); 및DNA에 결합하는 단백질의 특징을 표현하는 결합 상대방 특징(partner features)을 포함하는 것을 특징으로 하는 DNA 서열에서 단백질과 결합하는 염기 예측 방법.

4

제 3항에 있어서, DNA 전체적 특징은 서열 길이 및 서열 구성요소(composition)를 포함하는 전체 DNA 서열 정보(information)를 특징 벡터 표현에 구성요소로 사용하는 것을 특징으로 하는 DNA 서열에서 단백질과 결합하는 염기 예측 방법.

5

제 3항에 있어서, 상기 DNA 국소적 특징은 염기 분자량(molecular mass, M), 염기 pKa(P), 및 염기 트리플렛의 결합성향(IP)을 특징 벡터 표현에 구성요소로 사용하는 것을 특징으로 하는 DNA 서열에서 단백질과 결합하는 염기 예측 방법.

6

제 5항에 있어서, 상기 염기 트리플렛의 결합성향(interaction propensity, IP)은 하기 수학식 1로 계산되는 것을 특징으로 하는 DNA 서열에서 단백질과 결합하는 염기 예측 방법:[수학식 1].(상기 식에서, ∠DAH는 DNA 염기와 아미노산의 수소결합에서 공여체-수용체-수소(donor-acceptor-hydrogen, D-A-H)의 각도이고, HAcos(∠DAH)는 수소-수용체(H-A)의 길이를 공여체-수용체(D-A) 방향으로 투영한 길이이며, ∑Nij는 어떠한 아미노산에 결합하는 염기 트리플렛의 총 합이고, ∑Ni는 염기 트리플렛의 총 합이며, ∑Nj는 아미노산의 총합이다).

7

제 3항에 있어서, 상기 결합 상대방 특징 Pb는 하기 수학식 2 및 3으로 계산되는 DNA와 결합하는 단백질 서열의 정보를 포함하는 것을 특징으로 하는 DNA 서열에서 단백질과 결합하는 염기 예측 방법:[수학식 2], 및[수학식 3](상기 식에서, i는 단백질 서열에서 아미노산의 위치번호, b는 20개 아미노산 중 하나, bi는 단백질의 i번째 아미노산 b를 나타낸다.).

8

제 1항에 있어서, 상기 단계 2)는,1) 단백질-DNA 상호작용 쌍들에 존재하는 모든 DNA 및 단백질 서열에서 슬라이딩 윈도우(silding window) 기법을 이용한 서열 조각을 생성하는 공정;2) 생성된 서열 조각을 DNA 서열의 전체적 특징, DNA 염기의 국소적 특징 및 결합 상대방의 특징을 이용하여 특징 벡터에 표현하는 공정; 및3) 표현된 특징 벡터에서 특징 벡터 기반의 중복 제거 기법을 통한 학습 데이터를 구축하는 것을 특징으로 하는 DNA 서열에서 단백질과 결합하는 염기 예측 방법.

9

제 1항에 있어서, 상기 방법은,1) DNA의 결합 상대방인 단백질 서열을 지정하지 않은 경우, 상대방을 고려하지 않은 모델로 단백질 결합 DNA 염기 예측; 및2) DNA의 결합 상대방인 단백질 서열이 주어지는 경우, 상대방을 고려한 모델로 단백질 결합 DNA 염기를 예측하는 것을 특징으로 하는 DNA 서열에서 단백질과 결합하는 염기 예측방법.

10
  1. 단백질과 상호작용하는 단백질 결합 DNA 염기를 결정하여 단백질-DNA 결합 부위를 결정하는 단계;2) DNA 서열에서 상기 단백질 결합 DNA 염기를 예측하기 위해, DNA 및 단백질의 다양한 특징을 특징 벡터로 표현하고, 테스트 데이터를 구축하는 단계;3) 상기 단계 2)의 테스트 데이터를 복수의 척도로 사용하여 예측성과를 평가하는 단계를 포함하는 상호작용 단백질을 고려한 DNA 서열에서 단백질과 결합하는 DNA 염기 예측 평가 방법.
11

제 10항에 있어서, 상기 단계 3)의 복수의 척도는 민감도(sensitivity, Sn), 특이도(specificity, Sp), 정확도(accuracy, Acc), 양성예측도(positive predictive value, PPV), 음성예측도(negative predictive value, NPV), F-측정(F-measure) 및 매튜 상관관계 계수(matthews correlation coefficient, MCC)인 것을 특징으로 하는 DNA 서열에서 단백질과 결합하는 DNA 염기 예측 평가 방법.