배경: 고처리량(High-throughput) 시퀀싱 기술의 빠른 발전은 생물학적 맥락 내에서 omics 특징을 상세하고 정확하게 측정할 수 있게 한다. 서로 다른 omics 유형을 통합하면 측정 단위, 표본 수, 특징의 변이에 의해 분석에 어려움이 발생하는 이질적 데이터셋이 만들어진다. 현재 다중-omics 연구 설계(MOSD)에서 적절한 표본 수 및 특징 선택, 전처리와 통합 방식 등 강건한 분석 결과를 위한 의사결정을 내리는 데 필요한 일반화된 지침이 부족하다. 우리는 MOSD에 대해 아홉 가지 중요한 요인—표본 크기, 특징 선택, 전처리 전략, 잡음 특성화, 범주 균형, 범주의 수, 암 아형 조합, omics 조합, 임상적 특징—을 포함하는 제안적 지침을 제시한다. 결과: 제안한 MOSD 지침의 효과를 평가하기 위해, 암 아형을 군집화(clustering)하는 것을 목적으로 다양한 TCGA 암 데이터셋에 대해 10개의 군집화 방법을 사용하여 7개의 벤치마크 테스트를 설계하고 수행하였다. 그 결과, 다음 기준을 준수할 때 암 아형 구별에서 강건한 성능을 보였다: 범주당 26개 이상의 표본, omics 특징의 10% 미만 선택, 3:1 비율 이하의 표본 균형 유지, 잡음 수준 30% 미만 유지. 특징 선택이 특히 중요했으며, 군집화 성능을 34% 향상시켰다. 결론: 본 연구의 결과는 MOSD에 대한 근거 기반 권고를 제공하여 연구자들이 분석 접근법을 최적화하고 암 데이터셋 전반에서 결과의 신뢰성을 향상시킬 수 있음을 시사한다. 제안된 MOSD 프레임워크는 다중-omics 데이터 통합에서 계산적 요인과 생물학적 요인 모두를 다루는 제안적 지침을 제공한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.