시각적 그라운딩(visual grounding)은 자유 형식 텍스트 설명에 해당하는 이미지 영역을 국소화하는 것을 목표로 한다. 최근 대규모 비전-언어 모델(Large Vision-Language Models, LVLMs)의 강력한 멀티모달 능력은 시각적 그라운딩의 성능을 크게 향상시켰지만, 바운딩 박스 또는 세그멘테이션 마스크를 명시적으로 생성하기 위해서는 필연적으로 미세조정(fine-tuning)과 추가 모델 구성요소가 요구된다. 그러나 우리는 고정(frozen)된 LVLM에서 소수의 어텐션 헤드(attention heads)가 강력한 시각적 그라운딩 능력을 보인다는 사실을 발견했다. 우리는 텍스트 의미와 관련된 객체의 위치를 일관되게 포착하는 이러한 헤드를 ‘국소화 헤드(localization heads)’라고 부른다. 국소화 헤드를 사용하여, 국소화 헤드의 텍스트-투-이미지 텍스트-투-이미지 어텐션 맵(text-to-image attention maps)을 활용해 목표 객체를 식별하는, 간단하면서도 효과적인 학습-불필요(training-free) 시각적 그라운딩 프레임워크를 제안한다. 놀랍게도, 미세조정이 필요한 기존 LVLM 기반 시각적 그라운딩 방법과 비교해 경쟁력 있는 국소화 성능을 달성하는 데 필요한 어텐션 헤드는 수천 개 중 단 3개면 충분하다. 이러한 결과는 LVLM이 텍스트-이미지 관계에 대한 심층적 이해를 바탕으로 객체를 본질적으로 그라운딩할 수 있으며, 관련 이미지 영역에 암묵적으로 집중하여 유의미한 텍스트 출력을 생성한다는 점을 시사한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.