조합최적화(Combinatorial optimization, CO)는 물류와 스케줄링부터 하드웨어 설계 및 자원 배분에 이르기까지 여러 현실 세계의 응용에 근간이 되는 분야이다. 최근 심층 강화학습(Reinforcement Learning, RL)은 CO 문제를 해결하는 데 있어 상당한 이점을 보여 주었으며, 이는 도메인 전문성에 대한 의존도를 낮추고 계산 효율을 향상시키는 데 기여한다. 그러나 통합된 벤치마킹 프레임워크의 부재로 인해 평가가 일관되지 않고, 재현성이 제한되며, 공학적 작업 부담이 증가하여 신규 연구자들의 도입에 장벽이 되고 있다. 이러한 과제를 해결하기 위해 본 연구는 RL4CO를 제안한다. RL4CO는 27개의 CO 문제 환경에 대한 심층 라이브러리 커버리지를 포함하고 23개의 최신(state-of-the-art) 기준 모델(baseline)을 제공하는, 통합적이고 대규모의 벤치마크이다. 효율적인 소프트웨어 라이브러리와 구현 모범 사례에 기반하여, RL4CO는 모듈화된 구현과 다양한 환경, 정책(policy) 아키텍처, RL 알고리즘 및 유틸리티의 유연한 설정을 특징으로 하며, 방대한 문서화를 제공한다. RL4CO는 무거운 공학적 작업에서 과학을 분리함으로써 연구 전 과정을 촉진하여, 기존의 성공을 토대로 하면서도 연구자들이 자신의 설계를 탐색하고 개발할 수 있도록 돕는다. 마지막으로, 새로운 통찰과 향후 연구를 고무하기 위한 광범위한 벤치마크 연구를 제공한다. RL4CO는 이미 학계의 다수 연구자들을 끌어들이고 있으며 https://github.com/ai4co/rl4co 에서 오픈 소스로 공개되어 있다. © 2025 Association for Computing Machinery. All rights reserved.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.