Navigating the non-compliance effects on system optimal route guidance using reinforcement learning | 김동규 교수 연구실 | 서울대학교 건설환경도시공학부

김동규 교수 연구실

서비스 플랜

연구실 검색

프로젝트 공고

정부 과제 추천

AI 기반 기업 서칭

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 8

·2024

Navigating the non-compliance effects on system optimal route guidance using reinforcement learning

Hyunsoo Yun, Eui-Jin Kim, Seung Woo Ham, Dong‐Kyu Kim

IF 7.9Transportation Research Part C Emerging Technologies

초록

본 연구에서는 교통관리센터(TMC)가 미래의 자율주행차(AV)들을 최적 경로로 유도하여 네트워크를 시스템 최적(SO) 원리에 부합시키고자 하는 상황을 고려한다. 그러나 이를 달성하기 위해서는 공동 의사결정 과정이 필요하며, 이용자들은 개인적 이익을 위해 TMC의 경로 안내에 비순응적일 수 있다. 본 논문은 혼합 균형(mixed equilibrium)의 새로운 개념을 도입하기 위해 미시적 시뮬레이션을 활용한 미래 교통 네트워크를 모델링한다. 이와 같은 틀에서 AV는 TMC의 SO 경로 안내를 따르며, 이용자들은 자신의 판단에 따라 이 자율성에 순응하거나 수동으로 재정의(override)하는 선택을 동적으로 할 수 있다. 우리는 먼저 모든 이용자가 완전 순응하는 시나리오를 초기 모형으로 설정하고, TMC에 해당하는 중앙집중형 Q-network를 강화학습(RL)으로 학습하여 전체 시스템 통행시간(TSTT)을 최소화하고 이용자에게 최적 경로를 제공한다. 이후 문제 설정을 다중 에이전트 강화학습(MARL) 시나리오로 확장하여, 이용자들이 자신의 의사결정에 따라 TMC의 안내를 준수하거나 벗어날 수 있도록 한다. 신경 가상 자가대국(neural fictitious self-play, NFSP)을 통해 비순응의 정도가 전체 시스템에 미치는 영향을 조사하기 위해 조절(modulating) 하이퍼파라미터를 적용한다. 그 결과, 본 연구의 RL 접근법은 동적 시스템 최적 배정(dynamic system optimal assignment) 문제를 해결하는 데 상당한 잠재력이 있음을 시사한다. 특히 TMC의 경로 안내는 일정 수준의 비순응을 통합하면서도 SO의 본질을 유지한다. 그러나 지배적인 이용자 중심 의사결정은 시스템 비효율을 초래하는 동시에 이용자 간의 격차를 만들 수 있음을 또한 보여준다. 본 연구의 틀은 AV가 우세한 미래를 위한 혁신적인 도구로서, 네트워크 성능에 대한 현실적인 관점을 제공함으로써 효과적인 교통관리 전략의 수립을 돕는다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Reinforcement learningComputer scienceHyperparameterMarkov decision processGuidance systemProcess (computing)Operations researchArtificial intelligenceHuman–computer interactionSimulation

타입

article

IF / 인용수

7.9 / 8

원문

https://doi.org/10.1016/j.trc.2024.104721

게재 연도

2024

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)