불확실성 하 시스템 운영을 위한 강화학습 기반 최적 의사결정 연구

Reinforcement learning for optimal decision-making under uncertainty in system operations

연구 내용

제약을 엄격히 만족하면서 불확실성에 대응하는 강화학습과 딥러닝 기반 제어·경로·운영 전략을 개발하여 시스템 성능을 개선하는 연구

본 연구는 제약이 존재하는 실제 산업 시스템에서 강화학습이 안전하게 정책을 학습하도록 하는 방법을 다룹니다. 가치기반 업데이트를 기반으로 제약 위반 상태를 피하면서도 연속 제어 공간에서의 의사결정이 가능하도록 설계합니다. 또한 복잡한 환경에서의 경로 선택 문제에는 딥러닝 기반의 이동시간 근사 모델을 결합하여 실시간 교통 혼잡을 반영합니다. 시스템 운영 과제에서는 마이크로그리드 제어, OHT 라우팅, 포트폴리오 전략 등으로 확장하여 불확실성 하에서의 성능과 제약 만족을 동시에 추구하는 접근을 구성합니다.

관련 프로젝트

5건

연구 흐름

초기에는 제약 산업 제어 문제에서 강화학습의 적용 한계를 다루기 위해, 제약을 엄격히 만족시키는 가치기반 학습 구조를 제안했습니다. 이후 실제 운영 환경으로 확장하면서, 복잡한 동적 시스템의 라우팅 의사결정에 대해 딥러닝 기반의 시간 근사와 경로 평가 모델을 통합했습니다. 최근에는 포트폴리오 전략 최적화처럼 제어 목표가 다양한 영역으로 범위를 넓히고, 플랫폼 서비스 운영과 교통 신호 운영, 마이크로그리드 실증 과제에서 불확실성 하 운영 의사결정의 실용화를 병행하고 있습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

제약 만족형 제어 정책 생성
불확실성 기반 운영 계획 자동화
마이크로그리드 제어 알고리즘
동적 라우팅 최적화
OHT 물류 운영 효율화
교통 신호 운영 최적화
실시간 환경 인지형 의사결정
플랫폼 서비스 수요 대응 전략
강건 강화학습 기반 운영
동적 디지털 트윈 연계 최적화