심층 강화 학습(DRL)은 처리량 최대화가 중요한 반도체 클러스터 공정 도구를 포함하여 다중 로봇 스케줄링에 널리 적용되어 왔다. 이러한 도구는 엄격한 제약 하에서 작동하며, 효율적인 운용을 위해 정밀한 조정이 요구된다. 그러나 이와 같은 복잡한 환경에서 다수의 로봇을 관리하는 일은 여전히 어렵다. 본 연구에서는 동적 액션 마스킹을 통해 로봇의 행동을 순차적으로 생성하는 자기회귀(autoregressive) DRL 프레임워크를 제안한다. 이 방법은 대규모의 이산 행동 공간에서 문맥을 인식하는 의사결정을 가능하게 한다. 에이전트는 단계별 진행, 작업 완료, 이동 거리 감소를 촉진하는 보상 함수로 안내되며, 자원의 효율적 활용을 장려한다. 제안하는 접근법은 대표적인 도구 구성 전반에서 우수한 성능을 보였고, 복잡한 스케줄링 과제에서 정책 분해(policy decomposition)의 가치를 강조한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.