Vision-Language-Action(VLA) 모델은 다양한 로봇 작업 전반에서 견고한 성능을 보였다. 그러나 높은 메모리 및 계산 요구량은 종종 실시간 배치를 제한한다. 기존의 모델 압축 기법은 파라미터 규모를 줄이지만, 대개 3차원 공간 추론과 장면 레이아웃 이해에서 성능 저하를 초래한다. 본 연구는 RetoVLA라는 아키텍처를 제안하며, 경량 모델에서도 Register Tokens를 통해 학습되는 파라미터를 재활용함으로써 공간 인식을 유지하도록 설계하였다. 이러한 토큰은 Vision Transformer에서 주의(attention) 인공물(artifact)을 완화하기 위해 원래 도입되었으나, 일반적으로 사용 후에는 버려진다. 우리는 전역 공간 맥락(global spatial context)을 조밀하게 표현하는 특성에 착안하여 이를 재목적화한다. RetoVLA는 전용 공간 맥락 주입(spatial context injection) 경로를 통해 이러한 재활용 토큰을 행동 계획(action-planning) 모듈에 직접 통합한다. 제안된 설계는 총 파라미터 수를 증가시키지 않으면서 전역 맥락의 회복을 가능하게 한다. 7자유도(7-DOF) 조작기를 사용한 실제 환경 실험에서 기준 모델 대비 평균 성공률이 17.1%p 향상되었다. 본 결과는 내부 register 토큰을 활용하는 것이 효율적이면서 공간을 인식하는 로봇 에이전트를 개발하는 데 매우 효과적인 메커니즘임을 보여준다. 비디오 데모는 다음에서 확인할 수 있다: https://youtu.be/2CseBR-snZg
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.