기본 정보
연구 분야
프로젝트
논문
구성원
읽는 시간 · 1분 20초

불확실성 하 시스템 운영을 위한 강화학습 기반 최적 의사결정 연구

Reinforcement learning for optimal decision-making under uncertainty in system operations

연구 내용

제약을 엄격히 만족하면서 불확실성에 대응하는 강화학습과 딥러닝 기반 제어·경로·운영 전략을 개발하여 시스템 성능을 개선하는 연구

본 연구는 제약이 존재하는 실제 산업 시스템에서 강화학습이 안전하게 정책을 학습하도록 하는 방법을 다룹니다. 가치기반 업데이트를 기반으로 제약 위반 상태를 피하면서도 연속 제어 공간에서의 의사결정이 가능하도록 설계합니다. 또한 복잡한 환경에서의 경로 선택 문제에는 딥러닝 기반의 이동시간 근사 모델을 결합하여 실시간 교통 혼잡을 반영합니다. 시스템 운영 과제에서는 마이크로그리드 제어, OHT 라우팅, 포트폴리오 전략 등으로 확장하여 불확실성 하에서의 성능과 제약 만족을 동시에 추구하는 접근을 구성합니다.

관련 연구 성과

관련 논문

3

관련 특허

0

관련 프로젝트

5

연구 흐름

초기에는 제약 산업 제어 문제에서 강화학습의 적용 한계를 다루기 위해, 제약을 엄격히 만족시키는 가치기반 학습 구조를 제안했습니다. 이후 실제 운영 환경으로 확장하면서, 복잡한 동적 시스템의 라우팅 의사결정에 대해 딥러닝 기반의 시간 근사와 경로 평가 모델을 통합했습니다. 최근에는 포트폴리오 전략 최적화처럼 제어 목표가 다양한 영역으로 범위를 넓히고, 플랫폼 서비스 운영과 교통 신호 운영, 마이크로그리드 실증 과제에서 불확실성 하 운영 의사결정의 실용화를 병행하고 있습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

  • 제약 만족형 제어 정책 생성
  • 불확실성 기반 운영 계획 자동화
  • 마이크로그리드 제어 알고리즘
  • 동적 라우팅 최적화
  • OHT 물류 운영 효율화
  • 교통 신호 운영 최적화
  • 실시간 환경 인지형 의사결정
  • 플랫폼 서비스 수요 대응 전략
  • 강건 강화학습 기반 운영
  • 동적 디지털 트윈 연계 최적화

관련 논문

구분

제목

1

DIP-QL: A Novel Reinforcement Learning Method for Constrained Industrial Systems

2

Dynamic OHT Routing Using Travel Time Approximation Based on Deep Neural Network

3

Twin-system recurrent reinforcement learning for optimizing portfolio strategy

관련 프로젝트

구분

제목

1

다중 참여 주문형 플랫폼 서비스의 효율 운영을 위한 불확실성하에서의 의사결정 연구

2

다중 참여 주문형 플랫폼 서비스의 효율 운영을 위한 불확실성하에서의 의사결정 연구

3

자율주행차 전환 시대의 스마트 신호체계 운영 기초 연구실

4

신재생에너지기반 마을단위 마이크로그리드 실증 기술개발 - 생활·문화공동체형

5

신재생에너지기반 마을단위 마이크로그리드 실증 기술개발 - ②생활·문화공동체형

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.