강화학습 기반 멀티로봇 스케줄링을 통한 생산공정 효율화 연구

Reinforcement Learning-Based Multi-Robot Scheduling for Production Efficiency Research

연구 내용

반도체 클러스터 툴 환경에서 멀티로봇의 순차 의사결정을 강화학습으로 생성하여 처리량 중심 운영 효율을 높이는 연구입니다.

다수 로봇이 제약이 많은 생산 환경에서 동시에 동작할 때, 전체 처리량과 이동 거리 효율을 고려한 스케줄링 의사결정 방법을 연구합니다. Autoregressive DRL 구조로 로봇의 행동을 순차적으로 생성하고, 동적 action masking을 통해 불가능한 선택을 배제하여 대규모 이산 행동공간에서도 컨텍스트 기반 결정을 수행하도록 설계합니다. 목표 달성의 진행도를 보상함수에 반영하여 단계별 작업 완료와 불필요한 이동을 줄이도록 학습하며, 툴 구성의 대표 사례에서 정책 성능을 비교하는 방식으로 검증합니다. 복잡 스케줄링에서 정책 분해의 유용성을 제시합니다.

관련 프로젝트

0건

연구 흐름

초기에는 멀티로봇 스케줄링에서 대규모 이산 선택 문제와 제약 위반 문제를 동시에 다루기 위한 강화학습 구성 방식을 검토했습니다. 이후 2025년 연구에서 행동을 순차 생성하는 Autoregressive DRL 프레임워크와 dynamic action masking을 결합해, 복잡한 클러스터 툴 환경에서 컨텍스트 기반 의사결정을 수행하도록 설계했습니다. 최근에는 처리량을 목표로 하는 보상 설계와 정책 분해 관점의 효율화를 함께 다루며, 대규모 스케줄링 태스크로 확장 가능한 구조를 확인하는 방향으로 진행하고 있습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

멀티로봇 작업 스케줄러
반도체 공정 클러스터 운영 최적화
동적 제약 기반 의사결정 모듈
실시간 스케줄링 엔진
정책 기반 자율 운영 시스템
생산 처리량 향상 분석
대규모 이산 행동공간 학습
시스템 엔지니어링 설계 도구
운영 효율 평가 프레임
제약 위반 방지 스케줄링 로직