생물통계와 거짓발견률 기반 다중검정
이 연구 주제는 대규모 생명과학 데이터에서 신뢰할 수 있는 통계적 의사결정을 내리기 위한 방법론 개발에 초점을 둔다. 유전체, 대사체, 임상 바이오마커와 같이 동시에 매우 많은 가설을 검정해야 하는 환경에서는 단순한 유의확률 비교만으로는 과도한 위양성이 발생할 수 있기 때문에, 연구실은 거짓발견률(FDR) 제어를 핵심 축으로 삼아 보다 정교한 다중검정 체계를 탐구한다. 특히 보수적인 귀무가설, 복합귀무가설, 스파이크형 분포 등 실제 데이터에서 자주 나타나는 복잡한 구조를 반영하는 통계적 프레임워크를 다루는 점이 특징이다. 연구실의 학술발표와 과제 이력을 보면 2차원 거짓발견률 제어, local false discovery rate, two-stage rule과 같은 고급 방법론을 적극적으로 발전시켜 왔음을 확인할 수 있다. 이는 단순한 이론 연구에 머물지 않고 대사체 자료, 질병 연관성 분석, 생체표지자 탐색 등 실제 생물의학 문제에 적용되는 형태로 이어진다. 경험적 베이즈 모형, 분류 모형, 전처리와 검정의 통합 설계는 분석 전 과정에서 오류율을 안정적으로 관리하면서도 검정력을 높이기 위한 전략으로 이해할 수 있다. 이 연구는 정밀의학, 바이오마커 발굴, 고차원 데이터 기반 의사결정의 정확도를 높이는 데 직접적으로 기여한다. 생물학적 신호와 우연한 잡음을 구분하는 통계적 기준을 고도화함으로써, 연구 결과의 재현성과 해석 가능성을 높일 수 있다. 향후에는 멀티오믹스 통합분석, 인공지능 기반 특징선택, 임상 예후 예측과 결합되어, 복잡한 생명현상을 설명하는 통계적 플랫폼으로 확장될 가능성이 크다.
대사체학 데이터 통합분석과 메타볼라이트 식별
이 연구 주제는 NMR, GC-MS 등 다양한 분석기기로부터 생성되는 대사체학 데이터를 통합적으로 처리하고 해석하는 통계 방법 개발에 중점을 둔다. 대사체 데이터는 전처리, 피크 정렬, 화합물 식별, 다변량 분석, 분류 및 예측까지 전 과정이 긴밀하게 연결되어 있어, 각 단계에서의 오차가 최종 해석에 큰 영향을 미친다. 연구실은 이러한 문제를 해결하기 위해 전처리부터 모든 통계분석을 아우르는 플랫폼 개발을 수행하며, 실제 생물학적 표본에서 의미 있는 대사 신호를 안정적으로 추출하는 데 관심을 둔다. 논문 실적을 보면 질량분석 자료에서 partial correlation과 semipartial correlation을 활용한 화합물 식별 정확도 향상, 쌀 품종 및 과일 껍질·과육의 대사체 비교, 유방암 세포의 아미노산 프로파일 분석 등 매우 다양한 응용 연구가 축적되어 있다. 이는 연구실이 통계학적 유사도 측정, 패턴 인식, 다변량 통계분석, 실험 데이터 구조의 정량적 해석을 결합하는 역량을 가지고 있음을 보여준다. 또한 대사체학 자료 통합분석 플랫폼 과제를 통해 전처리와 통계검정을 하나의 체계로 묶으려는 시도는 재현 가능하고 표준화된 분석 환경 구축이라는 측면에서 의미가 크다. 이 연구의 파급효과는 농업, 식품, 의생명 분야 전반에 걸쳐 나타난다. 품종 특성 평가, 식품 품질 진단, 건강 유익 성분 탐색, 질병 관련 대사경로 해석 등에서 정량적 근거를 제공할 수 있으며, 최종적으로는 생체표지자 발견과 기능성 식품 연구에도 연결된다. 앞으로는 멀티플랫폼 오믹스 결합, 자동화된 메타볼라이트 주석, 고차원 시각화 및 인공지능 보조 해석으로 확장되면서 데이터 중심 생명과학 연구의 핵심 기반이 될 수 있다.
R 기반 통계교육과 데이터사이언스 응용
이 연구 주제는 통계학 이론과 데이터 분석 실무를 연결하는 교육 및 응용 연구를 포괄한다. 연구실은 통계학, 수리통계학, 다변량 통계분석을 R 환경에서 학습하고 활용할 수 있도록 지식 체계를 정리해 왔으며, 이는 단순한 강의자료 수준을 넘어 연구와 산업 현장에서 곧바로 적용 가능한 분석 역량을 키우는 방향으로 이어진다. 출판된 저서들은 통계 기초부터 고급 분석까지 폭넓은 내용을 다루며, 학문적 기반과 실용적 도구를 동시에 강조하는 연구실의 성격을 잘 보여준다. 또한 산업빅데이터의 융복합 교육연구단 참여 이력은 연구실이 데이터과학, 인공지능, 산업수학, 융합교육과 긴밀하게 연결되어 있음을 시사한다. 금융, 의료, 농업, 에너지 등 다양한 도메인에서 발생하는 데이터를 통계학적으로 모델링하고 해석하는 능력은 연구실의 중요한 경쟁력이다. 이는 전통적 통계기법뿐 아니라 고차원 데이터 분석, 분류, 시각화, 모델 기반 추론을 실제 문제 해결 맥락에서 구현하는 방향으로 발전하고 있다. 이러한 연구와 교육의 결합은 전문 인력 양성 측면에서 큰 의미를 가진다. 학생과 연구자는 R을 기반으로 자료 정제, 탐색적 분석, 추론, 예측, 재현 가능한 보고까지 전체 분석 워크플로를 익힐 수 있으며, 이는 산업과 학계 모두에서 활용도가 높다. 앞으로는 빅데이터 환경에서의 통계적 학습, 인공지능과 통계의 결합, 도메인 특화 분석 커리큘럼 개발로 확장되면서 데이터사이언스 인재 양성의 기반 역할을 수행할 것으로 기대된다.