웹·멀티에이전트에서의 리워드 모델 평가 및 프로세스 검증 연구

Reward Modeling and Evaluation for Web and Multi-Agent Systems

연구 내용

웹 에이전트의 장기 경로를 단계 수준으로 평가하는 PRM과 평가용 벤치마크를 구축하고, 프라이버시 제약 하 멀티에이전트 협업을 체계적으로 분석하는 연구

본 연구는 에이전트가 수행하는 과정(process)을 점검하는 리워드 모델의 평가와 배치 문제를 다룹니다. 웹 내비게이션처럼 장기·순차 의사결정에서는 단계 수준의 선호 신호가 필요하므로, 대규모 step-level preference pair와 체크리스트를 포함한 컬렉션을 구축하여 PRM을 훈련합니다. 또한 PRM의 메타 평가를 위한 벤치마크를 제안해 보상 과최적화(reward overoptimization) 관점에서 성능 저하 요인을 점검합니다. 더 나아가 프라이버시 제약 하 멀티에이전트 협업의 성능 저하 메커니즘을 분석하여 좌표 불일치와 프라이버시 유발 환각을 설명하는 틀을 제공합니다.

관련 프로젝트

0건

연구 흐름

웹 에이전트에서 리워드 모델을 실사용 가능한 형태로 만들기 위해, 단계 수준의 궤적 선호를 정의하고 대규모 WebPRM Collection을 구성하는 방식으로 출발했습니다. 이후에는 PRM을 비교·검증할 수 있는 WebRewardBench 같은 메타 평가 벤치마크를 도입해 평가 체계를 정립했습니다. 한편 리워드 모델의 평가가 실제 활용에서 어떤 실패 양상으로 이어지는지 확인하기 위해 reward overoptimization 관점의 분석을 확장했습니다. 최근에는 PAC-BENCH를 통해 프라이버시 제약이 협업 성능과 오류 유형에 미치는 영향을 체계적으로 분석하며, 기존 에이전트 능력만으로는 해결되지 않는 조정 메커니즘의 필요성을 도출했습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

웹 내비게이션 검증기
프로세스 리워드 모델(PRM) 학습 데이터
PRM 메타 평가 벤치마크
리워드 과최적화 진단 도구
프라이버시 제약 협업 평가
조정 실패 원인 분석 프레임워크
에이전트 배치용 평가 파이프라인
저비용 verifier-정책 통합
단계 수준 궤적 선호 설계
안전·컴플라이언스 시험용 벤치마크