연구실에서 최근에 진행되고 있는 관심 연구 분야
1
엑사급 초고성능컴퓨터(HPC) 및 오토튜닝 프레임워크
엑사급 초고성능컴퓨터(HPC)는 1초에 10의 18제곱 연산을 처리할 수 있는 슈퍼컴퓨터로, 과학 시뮬레이션, 인공지능 학습, 기후 예측 등 방대한 계산 자원이 필요한 분야에서 필수적인 인프라입니다. 그러나 이러한 거대한 시스템을 효율적으로 활용하기 위해서는 다양한 하드웨어 자원과 복잡한 소프트웨어 환경을 상황에 맞게 최적화하는 것이 매우 중요합니다. 이에 따라 우리 연구실은 KISTI 슈퍼컴퓨팅 센터와 협업하여 슈퍼컴퓨터 5호기(누리온 등), 6호기에서 효과적인 스케줄링 알고리즘과 프로그램 실행 시 파라미터를 자동으로 튜닝하는 오토튜닝 프레임워크를 개발하고 있습니다. 기존의 휴리스틱 또는 규칙 기반 스케줄러(FCFS, SJF 등)는 시스템 구성 변화나 새로운 워크로드 특성에 동적으로 대응하기 어렵다는 한계가 있습니다. 이를 극복하기 위해 인공지능, 특히 강화학습 기반의 스케줄링 기법을 도입하여, 다양한 성능 지표(작업 대기 시간, 처리율, 자원 활용률 등)를 동시에 최적화할 수 있는 알고리즘을 연구하고 있습니다. 또한, 대규모 데이터 적재 및 활용을 위한 공통 레포지토리 시스템 아키텍처 설계, 데이터 불균형을 고려한 작업 예측 기법 등 HPC 환경의 실질적인 문제 해결에 집중하고 있습니다. 이러한 연구는 실제 슈퍼컴퓨터 운영 환경에 적용되어, 실시간성, 확장성, 계층 간 데이터 통합을 모두 만족하는 아키텍처 구현을 목표로 합니다. 이를 통해 국내외 슈퍼컴퓨팅 인프라의 효율성을 극대화하고, 다양한 과학 및 산업 분야에서의 혁신적인 연구 성과 창출에 기여하고 있습니다.
2
대규모 그래프 데이터의 분산/병렬 처리 및 GPU 기반 그래프 신경망(GNN)
현대 사회에서 소셜 네트워크, 생명과학, 자율주행 등 다양한 도메인에서 그래프 데이터의 규모가 급격히 증가하고 있습니다. 이러한 대규모 그래프는 전통적으로 단일 머신에서 처리하기에는 물리적 한계가 존재하므로, 분산 및 병렬 처리가 필수적입니다. 우리 연구실은 GPU 기반의 그래프 병렬 처리, 그래프 파티셔닝, 그리고 대규모 그래프 신경망(GNN) 학습 및 추론 기술을 중점적으로 연구하고 있습니다. 그래프 파티셔닝은 대규모 그래프를 여러 개의 작은 서브그래프로 분할하여, 각 서브그래프 간의 연결(edge-cut)과 크기(balance)를 최적화하는 기술입니다. 이를 통해 분산 환경에서의 데이터 이동량을 최소화하고, 전체 시스템의 처리 효율을 극대화할 수 있습니다. 또한, GPU 메모리 한계를 극복하기 위해 mini-batch 기반의 학습 기법, 이웃 노드 샘플링, 피처 압축, 메모리 정렬 등 다양한 최적화 기법을 개발하여, 대규모 그래프 신경망의 학습과 추론을 효율적으로 수행하고 있습니다. 이러한 연구는 자율주행 데이터 파이프라인, 대용량 주행 시나리오 질의 시스템, 실시간 그래프 분석 등 실제 산업 및 사회 문제 해결에 직접적으로 적용되고 있습니다. 특히, GPU 기반의 대규모 그래프 처리 기술은 차세대 인공지능 및 데이터 분석 플랫폼의 핵심 요소로 자리매김하고 있으며, 국내외 다양한 연구기관 및 산업체와의 협력을 통해 실질적인 성과를 창출하고 있습니다.
3
분산 딥러닝 및 연합학습(Federated Learning) 시스템
분산 딥러닝은 대규모 데이터와 복잡한 모델을 빠르게 학습하기 위해 여러 노드와 GPU를 활용하는 기술로, 최근 인공지능 연구의 핵심 분야 중 하나입니다. 우리 연구실은 통신 오버헤드 최소화, 파라미터 동기화 효율화, 레이어 오버래핑, gradient sparsification 등 분산 딥러닝의 확장성과 효율성을 높이기 위한 다양한 알고리즘을 개발하고 있습니다. 특히, 대규모 분산 환경에서의 학습 속도 향상과 자원 활용 극대화를 위한 하이브리드 통신 기법, 가십 기반 통신, 서버리스 컴퓨팅 환경에서의 딥러닝 최적화 등 혁신적인 연구를 수행하고 있습니다. 연합학습(Federated Learning)은 각 클라이언트(모바일, IoT 등)가 보유한 데이터를 중앙 서버로 직접 공유하지 않고, 로컬에서 학습한 결과만을 서버에 전달하여 프라이버시를 보장하는 분산 기계학습 방법론입니다. 우리 연구실은 클라이언트 이질성, 데이터 불균형, 통신 비용, 라벨링 비용 절감 등 실제 환경에서 발생하는 다양한 문제를 해결하기 위한 연합학습 알고리즘을 연구하고 있습니다. 예를 들어, 정보력 기반 샘플링, core set 구성, 강화학습 기반 통신 최적화 등 차별화된 기법을 제안하여, 모델의 일반화 성능을 유지하면서도 효율적인 학습을 실현하고 있습니다. 이러한 분산 딥러닝 및 연합학습 연구는 실제 산업 현장과 사회적 요구에 부합하는 기술로, 자율주행, 의료, 보안, IoT 등 다양한 응용 분야에 적용되고 있습니다. 또한, 관련 특허 출원 및 국내외 학술대회 발표, 산업체 협력 프로젝트 등을 통해 연구 성과의 실용화와 확산에 앞장서고 있습니다.