Modular and Multi-Path-Aware Offline Benchmarking for Mobile GUI Agents | 신인식 교수 연구실 | 한국과학기술원 전산학부

신인식 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

Preprint|

인용수 0

·2025

Modular and Multi-Path-Aware Offline Benchmarking for Mobile GUI Agents

Youngmin Im, Byeongung Jo, Jaeyoung Wi, S.G. Baek, Tae Hoon Min, Lee, Joo Hyung, Sangeun Oh, Insik Shin, Sunjae Lee

ArXiv.org

초록

모바일 GUI 에이전트는 사용자를 대신하여 모바일 애플리케이션과 상호작용할 수 있는 AI 에이전트로서, 인간-컴퓨터 상호작용을 변화시킬 잠재력을 지닌다. 그러나 GUI 에이전트에 대한 현재의 평가는 두 가지 근본적인 한계에 직면해 있다. 첫째, 단일 경로의 오프라인 벤치마크 또는 온라인 실시간 벤치마크에 의존한다. 정적인 단일 경로에 대해 주석이 달린 데이터셋을 사용하는 오프라인 벤치마크는 유효한 대안적 행동을 부당하게 불리하게 평가하는 반면, 온라인 벤치마크는 실시간 평가의 동적이고 예측 불가능한 특성으로 인해 확장성과 재현성이 저조하다. 둘째, 기존 벤치마크는 에이전트를 단일한 블랙박스로 취급하여 개별 구성요소의 기여를 간과함으로써, 흔히 부당한 비교를 초래하거나 핵심 성능 병목을 가리는 결과로 이어진다. 이러한 한계를 해결하기 위해, 우리는 MobiBench를 제시한다. MobiBench는 모바일 GUI 에이전트를 위한 최초의 모듈형이면서 다중 경로를 인식하는 오프라인 벤치마킹 프레임워크로서, 오프라인 환경에서 완전히 수행되는 고정밀·고확장성·고재현성 평가를 가능하게 한다. 우리의 실험 결과, MobiBench는 신중하게 공학적으로 설계된 온라인 벤치마크와 동등한 수준으로 인간 평가자와 94.72%의 일치도를 달성하면서도, 정적인 오프라인 벤치마크가 갖는 확장성과 재현성을 유지함을 보여준다. 또한 포괄적인 모듈 수준 분석을 통해, 모바일 GUI 에이전트에서 사용되는 다양한 기법에 대한 체계적 평가, 모델 스케일 전반에서의 최적 모듈 구성, 현재 LFMs의 내재적 한계, 그리고 더 유능하고 비용 효율적인 모바일 에이전트를 설계하기 위한 실행 가능한 지침을 포함한 여러 핵심 통찰을 도출하였다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

BenchmarkingScalabilityModular designKey (lock)Mobile devicePath (computing)

타입

Preprint

IF / 인용수

- / 0

원문

http://arxiv.org/abs/2512.12634

게재 연도

2025

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)