연구실에서 최근에 진행되고 있는 관심 연구 분야
1
ACE-AI: AI를 위한 자율 클라우드 환경
ACE-AI 프로젝트는 인공지능 학습 및 추론을 위한 자율적이고 효율적인 클라우드 환경을 제공하는 것을 목표로 하고 있습니다. 본 연구는 클라우드 자원의 효율적 관리와 최적의 성능, 비용 절감을 동시에 달성하기 위한 다양한 기술을 개발하고 있습니다. 특히, 딥러닝 학습과 추론 과정에서 발생하는 막대한 연산 자원 소모와 비용 문제를 해결하기 위해, 여유 클라우드 인스턴스의 활용도를 극대화하는 방안을 연구하고 있습니다. 이 연구에서는 클라우드 환경 내에서 인공지능 워크로드의 특성을 분석하고, 자율적으로 자원을 할당 및 관리하는 시스템을 설계합니다. 이를 통해 사용자는 복잡한 인프라 설정이나 자원 관리에 신경 쓰지 않고도, 최적화된 환경에서 딥러닝 모델을 학습시키고 추론할 수 있습니다. 또한, 클라우드 인스턴스의 스팟(spot) 자원을 적극적으로 활용하여, 동일한 성능을 유지하면서도 비용을 크게 절감할 수 있는 방안을 제시합니다. 이러한 연구는 실제 산업 현장에서의 인공지능 서비스 개발 및 운영 비용을 획기적으로 낮추는 데 기여할 수 있습니다. 더불어, 자율적 클라우드 환경 구축 기술은 향후 다양한 빅데이터 및 AI 응용 분야로 확장될 수 있으며, 클라우드 컴퓨팅의 미래 지향적 발전에 중요한 역할을 할 것으로 기대됩니다.
2
ABC2: 자율 빅데이터 클라우드 컴퓨팅
ABC2 프로젝트는 복잡한 인프라 구성을 추상화하여, 다양한 빅데이터 처리 응용에 최적화된 커널 레이어를 제공하는 자율 클라우드 컴퓨팅 서비스를 구축하는 것을 목표로 합니다. 본 연구는 대규모 데이터 처리와 분석이 필요한 현대 사회에서, 사용자가 손쉽게 클라우드 자원을 활용할 수 있도록 하는 핵심 기술을 개발하고 있습니다. 연구진은 클라우드 인프라의 복잡성을 감추고, 사용자가 데이터 처리에만 집중할 수 있도록 인프라 추상화 계층을 설계합니다. 이를 통해 빅데이터 분석, 머신러닝, 데이터 마이닝 등 다양한 응용 분야에서 최적의 성능을 보장받을 수 있습니다. 또한, 자율적으로 자원을 할당하고 관리하는 시스템을 통해, 워크로드 변화에 따라 유연하게 확장 및 축소가 가능하며, 장애 상황에서도 높은 신뢰성과 가용성을 유지할 수 있습니다. 이 연구는 대규모 데이터 분석을 필요로 하는 기업 및 연구기관에 실질적인 이점을 제공합니다. 복잡한 인프라 관리 부담을 줄이고, 비용 효율성과 성능을 동시에 확보할 수 있기 때문에, 빅데이터 기반의 혁신적인 서비스 개발과 운영에 큰 기여를 할 것으로 기대됩니다.
3
클라우드 기반 비용 효율적 빅데이터 분석 플랫폼
본 연구실은 클라우드 컴퓨팅 서비스를 활용하여 비용 효율적이고 확장 가능한 빅데이터 분석 플랫폼을 구축하는 연구를 수행하고 있습니다. DeepSpotCloud와 같은 시스템을 통해 EC2 GPU 스팟 인스턴스를 적극적으로 활용하여, 딥러닝 프레임워크의 학습 및 추론 비용을 최소화하고 있습니다. 이는 대규모 데이터 분석과 인공지능 모델 학습에 드는 막대한 비용을 절감하는 데 중요한 역할을 합니다. 연구진은 다양한 클라우드 자원의 특성을 분석하고, 최적의 자원 조합을 찾아내는 알고리즘을 개발합니다. 이를 통해 사용자는 동일한 예산으로 더 많은 실험을 수행하거나, 동일한 실험을 더 저렴하게 수행할 수 있습니다. 또한, 클라우드 환경의 동적 변화에 대응하여, 자원을 실시간으로 할당 및 해제하는 기술도 함께 연구되고 있습니다. 이러한 연구는 스타트업, 연구기관, 대기업 등 다양한 조직에서 빅데이터 및 인공지능 프로젝트를 보다 효율적으로 수행할 수 있도록 지원합니다. 비용 효율성과 확장성을 동시에 확보함으로써, 데이터 기반 혁신의 장벽을 낮추고, 더 많은 분야에서 데이터 과학의 활용을 촉진할 수 있습니다.
4
효율적이고 장애 허용성이 높은 빅데이터 분석 파이프라인
연구실에서는 이기종 디바이스(다수의 코어 장치 및 GPU)와 데이터 지역성을 고려한 태스크 스케줄링, 다양한 처리 프레임워크의 통합 뷰 제공, 다양한 파라미터 실험의 버전 관리 등 효율적이고 장애 허용성이 높은 빅데이터 분석 파이프라인 구축에 관한 연구를 진행하고 있습니다. 이러한 연구는 대규모 데이터 처리 환경에서 발생할 수 있는 다양한 장애 상황에 효과적으로 대응할 수 있도록 설계되었습니다. 특히, 태스크 스케줄링 알고리즘은 각 디바이스의 성능 특성과 데이터의 위치를 고려하여, 전체 시스템의 처리 효율을 극대화합니다. 또한, 다양한 빅데이터 처리 프레임워크(예: Hadoop, Spark 등)를 통합적으로 관리할 수 있는 시스템을 개발하여, 사용자가 복잡한 환경에서도 손쉽게 실험을 설계하고 결과를 관리할 수 있도록 지원합니다. 실험 파라미터의 버전 관리 기능은 반복 실험과 결과 재현성을 보장하는 데 중요한 역할을 합니다. 이 연구는 실제 산업 현장과 연구 환경에서 대규모 데이터 분석의 신뢰성과 효율성을 크게 향상시킬 수 있습니다. 장애 상황에서도 데이터 분석이 중단되지 않고 지속될 수 있도록 하는 기술은, 데이터 기반 의사결정의 정확성과 신속성을 높이는 데 기여할 것입니다.