See What You Are Told: Visual Attention Sink in Large Multimodal Models | 황성재 교수 연구실 | 연세대학교 인공지능학과

황성재 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

preprint|

인용수 0

·2025

See What You Are Told: Visual Attention Sink in Large Multimodal Models

Seil Kang, Jin-Yeong Kim, Junhyeok Kim, Seong Jae Hwang

ArXiv.org

초록

대규모 멀티모달 모델(LMM)은 트랜스포머 디코더에서 텍스트 토큰과 시각 토큰 간의 어텐션 메커니즘을 활용함으로써 이미지를 ‘본다’. 이상적으로는 이러한 모델이 텍스트 토큰과 관련된 핵심 시각 정보를 주의 깊게 살펴야 한다. 그러나 최근의 연구 결과는, LMM이 해당 텍스트에 대응하지 않더라도 특정 시각 토큰에 일관되게 높은 어텐션 가중치를 부여하는 비상한 경향을 보인다는 점을 시사한다. 본 연구에서는 이러한 무관한 시각 토큰의 출현 배후에 있는 성질을 규명하고, 그것들의 특성을 분석한다. 우리의 결과는 이러한 현상이 특정 은닉 상태 차원들의 대규모 활성화에서 기인하며, 이는 언어 모델에서 관찰되는 attention sink와 유사함을 보여준다. 따라서 우리는 이 현상을 시각 어텐션 싱크(visual attention sink)라 명명한다. 특히, 분석 결과 무관한 시각 싱크 토큰을 제거하더라도 해당 토큰들이 높은 어텐션 가중치를 받음에도 불구하고 모델 성능에는 영향이 없음을 확인하였다. 이에 따라 우리는 이러한 토큰에 배분된 어텐션을 잉여 자원으로 재활용하여, 이미지에 대한 집중도를 높이기 위해 어텐션 예산을 재분배한다. 이를 위해 우리는 이미지 중심의 head에서 어텐션을 재분배하는 방법인 Visual Attention Redistribution (VAR)을 제안하며, 이는 선천적으로 시각 정보를 향해 집중하는 것으로 우리가 식별한 head에 적용된다. VAR은 추가적인 학습이나 모델 또는 추론 단계 없이도 다양한 LMM에 손쉽게 적용되어, 일반적인 비전-언어 작업, 시각적 환각(visual hallucination) 작업, 그리고 시각 중심(vision-centric) 작업을 포함한 광범위한 과제에서 성능을 향상시킬 수 있다. 실험 결과는 VAR이 내부 어텐션 메커니즘을 조정함으로써 LMM이 시각 정보를 보다 효과적으로 처리할 수 있음을 보여주며, 이는 LMM의 멀티모달 능력을 강화하기 위한 새로운 방향을 제시한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

InferenceVisual attentionFocus (optics)Language modelVisualizationGaze-contingency paradigmProcess (computing)Transformer

타입

preprint

IF / 인용수

- / 0

원문

http://arxiv.org/abs/2503.03321

게재 연도

2025

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)