Human Implicit Preference-Based Policy Fine-tuning for Multi-Agent Reinforcement Learning in USV Swarm | 박진규 교수 연구실 | 한국과학기술원 산업및시스템공학과

|박진규 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

Article|

인용수 1

·2025

Human Implicit Preference-Based Policy Fine-tuning for Multi-Agent Reinforcement Learning in USV Swarm

Hyeon-Jun Kim, Kanghoon Lee, Junho Park, Jiachen Li, Jinkyoo Park

초록

다중 에이전트 강화학습(Multi-Agent Reinforcement Learning, MARL)은 수색 및 구조, 감시, 선박 보호에 활용되는 무인 수상정(USV) 스웜과 같이, 에이전트들 간의 협력과 경쟁이 공존하는 복잡한 문제를 해결하는 데 유망한 기법으로 주목받고 있다. 그러나 보상 함수에 전문가의 직관을 인코딩하기가 어렵기 때문에, 사용자 선호에 맞추어 시스템의 행동을 정렬하는 일은 쉽지 않다. 이에 본 연구에서는 에이전트-수준 피드백(Agent-Level Feedback) 시스템을 통해 피드백을 개별 에이전트 내(intra-agent), 에이전트 간(inter-agent), 팀 내(intra-team) 유형으로 분류함으로써, 학점배정(credit-assignment) 문제를 해결하는 MARL을 위한 인간 피드백을 이용한 강화학습(Reinforcement Learning with Human Feedback, RLHF) 접근법을 제안한다. 직접적인 인간 피드백의 어려움을 극복하기 위해, 우리는 대규모 언어 모델(Large Language Model, LLM) 평가자를 사용하여 지역 제약(region constraints), 충돌 회피(collision avoidance), 임무 할당(task allocation)과 같은 피드백 시나리오로 우리의 접근법을 검증한다. 제안 방법은 공정성(fairness)과 성능 일관성(performance consistency)을 유지하면서, 다중 에이전트 시스템에서의 핵심 과제들을 해결하고 USV 스웜 정책을 효과적으로 정교화한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Reinforcement learningIntuitionSwarm behaviourKey (lock)Task (project management)Collision avoidance

타입

Article

IF / 인용수

- / 1

원문

https://doi.org/10.1109/iros60139.2025.11246039

게재 연도

2025