자원 관리 시스템이 계속 확대됨에 따라, 자원 배분 시스템도 점진적으로 확장될 것으로 예상된다. 수요 반응 시스템은 변동이 있는 기간 동안 기업의 소비 비용을 생산자가 절감할 수 있게 하여 전력(공급) 계통과의 균형을 도모하고, 남는 자원을 재판매하여 수익을 창출하도록 한다. 자원 배분 보상 메커니즘에 기반한 강화학습 알고리즘인 Q-learning은 스마트 팩토리 가전의 운용 일정을 수립하기 위한 최적의 의사결정을 내리기 위해 사용된다. 본 논문에서는 Quad Q Network 알고리즘을 활용한 기업 수요 반응을 위한 효과적인 자원 관리 시스템을 제안한다. 제안된 알고리즘은 Deep Q Network 알고리즘에 기반하여 공급-수요 입력을 제어 논리에 직접 통합하고, 보상 메커니즘으로 퍼지 추론을 사용한다. 또한 제안된 Q Network 알고리즘의 손실 값을 줄이기 위해 Compare Optimizer 방법을 사용하며, Quad Q Network은 더 적은 에포크로도 높은 정확도를 유지한다. 제안된 알고리즘은 Google과 Apple로부터 획득한 시가총액 데이터에 적용되었다. 아울러 Quad Q Network에서 사용한 Compare Optimizer가 Double Q 값의 이중 연산을 통해 최소 손실 값을 도출함을 검증하였다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.