기본 정보
연구 분야
프로젝트
논문
구성원
preprint|
인용수 0
·2025
Deep Reinforcement Learning for Dynamic Origin-Destination Matrix Estimation in Microscopic Traffic Simulations Considering Credit Assignment
Donggyu Min, Seongjin Choi, Dong‐Kyu Kim
arXiv (Cornell University)
초록

본 논문은 미시적 교통 시뮬레이션의 효과적 적용에 필수적인 보정(calibration) 과정인 동적 기원-목적지 행렬 추정(dynamic origin-destination matrix estimation, DODE)에 초점을 둔다. 미시적 시뮬레이션에서 DODE 문제의 근본적인 어려움은 개별 차량 동역학의 복잡한 시간적 동특성과 내재된 불확실성에서 비롯된다. 이로 인해 특정 시점에 어떤 차량이 어떤 링크를 통과하는지 정확히 규명하기가 매우 어려워지며, 결과적으로 기원-목적지(OD) 행렬과 그에 따른 링크 유량의 기여 사이에 복잡하고 종종 모호한 관계가 발생한다. 이러한 현상은 본 연구가 다루는 핵심 과제인 신용 배분(credit assignment) 문제에 해당한다. 우리는 DODE 문제를 마르코프 결정 과정(Markov Decision Process, MDP)으로 정식화하고, 모델 비의존(model-free) 딥 강화학습(deep reinforcement learning, DRL)을 적용하는 새로운 프레임워크를 제안한다. 제안된 프레임워크에서 에이전트는 시뮬레이션 환경과의 직접적인 상호작용을 통해 전략을 갱신하면서, 순차적으로 OD 행렬을 생성하는 최적의 정책을 학습한다. 본 접근법은 Nguyen-Dupuis 네트워크에 대한 장난감(toy) 실험과, Santa Clara와 San Jose를 포괄하는 실제 고속도로 서브네트워크를 활용한 사례 연구를 통해 평가되었다. 실험 결과, 제안 방법은 성능이 가장 우수한 기존의 기준(baseline)과 비교하여 평균 제곱 오차(mean squared error, MSE)를 20% 이상 감소시키는 것으로 나타났다. DODE를 순차적 의사결정 문제로 재구성함으로써, 본 접근법은 학습된 정책을 통해 신용 배분 문제를 해결하고 기존 방법의 한계를 극복함과 동시에 미시적 교통 시뮬레이션 보정을 위한 새로운 프레임워크를 제안한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
Reinforcement learningProcess (computing)CalibrationMarkov decision processMatrix (chemical analysis)Markov processLink (geometry)
타입
preprint
IF / 인용수
- / 0
게재 연도
2025

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.