세포 침투 펩타이드(cell-penetrating peptides, CPPs)는 세포막을 관통하는 능력으로 인해 약물 전달 및 치료제 개발을 포함한 생의의학 응용 분야에서 큰 주목을 받아왔다. CPP의 정확한 예측은 새로운 펩타이드 기반 치료제의 설계 및 개발을 가속하기 위해 매우 중요하다. CPP 예측을 위한 접근법은 주로 펩타이드 특성 기반의 기존 특징(conventional features) 또는 하나나 두 개의 단백질 언어 모델(protein language models, PLMs)에 의존하지만, 이러한 방법들은 종합적으로 다양한 특징을 결합할 수 있는 잠재력을 충분히 활용하지 못하는 경우가 많다. 이러한 한계를 해결하기 위해, 우리는 다양한 기계 학습 분류기 전반에서 여러 기존 특징과 PLM 기반 특징을 평가하고, 고성능의 특징-분류기 조합을 선택한 뒤 앙상블 학습을 통해 통합하는 예측 모델 CPPpred-En을 제안한다. CPPpred-En 모델은 CPP924 및 MLCPP 2.0 데이터셋 모두로 학습되었으며, 기존의 최신(state-of-the-art) 예측 모델을 능가하여 CPP924 데이터셋에서 정확도(Acc) 97.27%, 매튜 상관계수(matthews correlation coefficient, MCC) 0.964를 달성하였고, MLCPP 2.0 데이터셋에서는 Acc 96.10%, MCC 0.707을 달성하였다. 앙상블 기반 전략은 서로 다른 데이터셋에서도 강건함을 보였으며, 모델의 일반화 능력이 뛰어남을 시사하였다. 앙상블 프레임워크에서 기존 특징과 PLM 특징을 결합하는 접근은 펩타이드 기반 치료제를 개선하기 위한 유망한 방법이다. CPPpred-En 모델은 CPP를 식별하고 약물 전달 및 표적 치료에 적용하는 데 있어 높은 정확성과 신뢰성을 지닌 도구이다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.