Web-Shepherd: Advancing PRMs for Reinforcing Web Agents | 여진영 교수 연구실 | 연세대학교 인공지능학과

|여진영 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

Preprint|

인용수 1

·2025

Web-Shepherd: Advancing PRMs for Reinforcing Web Agents

Chae, Hyungjoo, Sunghwan Kim, Junhee Cho, Seungone Kim, Seungjun Moon, Gyeom Hwangbo, Dongha Lim, Minjin Kim, Hwang, Yeonjun, Minju Gwak, Dong-Wook Choi, Minseok Kang, Gwanhoon Im, Cho, ByeongUng, Kim, Hyojun, Jun Han, Kwon, Taeyoon, Minju Kim, Beong-woo Kwak, Dong-Jin Kang, Jinyoung Yeo

ArXiv.org

초록

웹 네비게이션은 다수의 반복적인 일상 과업을 자동화할 수 있는 독특한 분야이지만, 기존의 전형적인 멀티모달 대규모 언어 모델(MLLM) 과업을 넘어서는 장기(장시간) 순차적 의사결정을 요구한다는 점에서 어렵다. 그럼에도 불구하고, 웹 네비게이션에 활용할 수 있는 훈련 및 테스트 시점 모두에서 사용할 수 있는 특화 보상 모델은 지금까지 부재하였다. 속도와 비용 효율성의 중요성에도 불구하고, 선행 연구들은 보상 모델로 MLLM을 사용해 왔으며, 이는 실제 환경에서의 배포에 상당한 제약을 야기한다. 이를 해결하기 위해 본 연구에서는 단계 수준에서 웹 네비게이션 궤적을 평가할 수 있는 최초의 프로세스 보상 모델(PRM)인 Web-Shepherd를 제안한다. 이를 위해 먼저 WebPRM Collection을 구축하는데, 이는 다양한 도메인과 난이도 수준에 걸쳐 체크리스트가 주석으로 포함된 40K 규모의 단계 수준 선호 쌍으로 구성된 대규모 데이터셋이다. 다음으로, PRM을 평가하기 위한 최초의 메타-평가 벤치마크인 WebRewardBench도 함께 소개한다. 실험에서 우리는 Web-Shepherd가 WebRewardBench에서 GPT-4o를 사용할 때보다 약 30점 더 높은 정확도를 달성함을 관찰하였다. 또한 정책으로 GPT-4o-mini를 사용하고 검증자로 Web-Shepherd를 사용하는 방식으로 WebArena-lite에서 테스트했을 때, GPT-4o-mini를 검증자로 사용하는 경우 대비 성능이 10.9점 더 향상되었으며 비용은 10배 적었다. 본 모델, 데이터셋 및 코드는 LINK에서 공개되어 있다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Benchmark (surveying)Process (computing)Construct (python library)Domain (mathematical analysis)Code (set theory)Web application

타입

Preprint

IF / 인용수

- / 1

원문

http://arxiv.org/abs/2505.15277

게재 연도

2025