Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding | 황성재 교수 연구실 | 연세대학교 인공지능학과

황성재 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 3

·2025

Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding

Seil Kang, Jin-Yeong Kim, Junhyeok Kim, Seong Jae Hwang

초록

시각적 그라운딩(visual grounding)은 자유 형식 텍스트 설명에 해당하는 이미지 영역을 국소화하는 것을 목표로 한다. 최근 대규모 비전-언어 모델(Large Vision-Language Models, LVLMs)의 강력한 멀티모달 능력은 시각적 그라운딩의 성능을 크게 향상시켰지만, 바운딩 박스 또는 세그멘테이션 마스크를 명시적으로 생성하기 위해서는 필연적으로 미세조정(fine-tuning)과 추가 모델 구성요소가 요구된다. 그러나 우리는 고정(frozen)된 LVLM에서 소수의 어텐션 헤드(attention heads)가 강력한 시각적 그라운딩 능력을 보인다는 사실을 발견했다. 우리는 텍스트 의미와 관련된 객체의 위치를 일관되게 포착하는 이러한 헤드를 ‘국소화 헤드(localization heads)’라고 부른다. 국소화 헤드를 사용하여, 국소화 헤드의 텍스트-투-이미지 텍스트-투-이미지 어텐션 맵(text-to-image attention maps)을 활용해 목표 객체를 식별하는, 간단하면서도 효과적인 학습-불필요(training-free) 시각적 그라운딩 프레임워크를 제안한다. 놀랍게도, 미세조정이 필요한 기존 LVLM 기반 시각적 그라운딩 방법과 비교해 경쟁력 있는 국소화 성능을 달성하는 데 필요한 어텐션 헤드는 수천 개 중 단 3개면 충분하다. 이러한 결과는 LVLM이 텍스트-이미지 관계에 대한 심층적 이해를 바탕으로 객체를 본질적으로 그라운딩할 수 있으며, 관련 이미지 영역에 암묵적으로 집중하여 유의미한 텍스트 출력을 생성한다는 점을 시사한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

GroundComputer scienceVisual languageHuman–computer interactionComputer visionArtificial intelligenceEngineeringVisual artsElectrical engineeringArt

타입

article

IF / 인용수

- / 3

원문

https://doi.org/10.1109/cvpr52734.2025.00872

게재 연도

2025

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)