조합최적화 기반 강화학습 및 다중에이전트 제어

Reinforcement Learning for Combinatorial Optimization and Multi-Agent Control

연구 내용

조합최적화 및 라우팅·작업할당·커버리지 문제를 대상으로 강화학습과 멀티에이전트 모델을 결합해 효율적 해법을 학습하는 연구

조합최적화 문제에 대해 강화학습을 중심으로, 해공간 탐색을 체계화하는 학습 프레임워크를 구축하는 연구를 수행합니다. 차량 경로 문제와 같이 제약이 포함된 결정 문제에서는 프로파일 임베딩과 주의 기반 인코더, 멀티에이전트 협업 구조를 설계합니다. 또한 커버리지 경로계획과 작업할당에서는 우선순위·지연과 같은 목표를 반영해 행동을 구성하고, 인간 선호를 반영한 정책 미세조정과 같이 보상 설계의 취약점을 완화하는 방향으로 연구를 확장합니다. 이 과정에서 학술용 벤치마크와 구현 자동화를 함께 다룹니다.

관련 프로젝트

5건

연구 흐름

초기에는 조합최적화 전반에 적용 가능한 강화학습 벤치마크를 정리하고, 다양한 환경과 베이스라인을 모듈형으로 제공하는 방향으로 연구를 수행했습니다. 이후 다중에이전트 환경에서의 정책 정렬, 차량 라우팅과 같은 구조적 결정 문제에 대한 주의 기반 학습 솔버를 개발했습니다. 2024년부터는 조합최적화 기초모델을 구축하고, 배송 라우팅 엔진 등 응용 문제로 확장하는 흐름이 강화되었습니다. 2026년에는 우선순위가 있는 커버리지 경로계획과 LLM 기반 진화로 직관적 휴리스틱을 자동 설계하는 방법까지 포함하여 실용 해법 학습의 범위를 넓혔습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

차량 라우팅 최적화
배송 작업 스케줄링 엔진
다중 로봇 커버리지 계획
항만·물류 자율 이동체 운영
USV 군집 충돌 회피 정책
인간 피드백 기반 정책 미세조정
대규모 조합최적화 벤치마크 플랫폼
IoT 디바이스 협업 제어 로직
LLM 기반 휴리스틱 자동 설계
제약조건 반영 학습 솔버 개발