Improving Visual Prompt Tuning for Self-supervised Vision Transformers | 이정범 교수 연구실 | 고려대학교 컴퓨터학과

|이정범 교수 연구실

홈

연구 영역

기본 정보

논문·특허

구성원

Preprint|

인용수 7

·2023

Improving Visual Prompt Tuning for Self-supervised Vision Transformers

Seungryong Yoo, Eunji Kim, Dahuin Jung, Jungbeom Lee, Sungroh Yoon

arXiv (Cornell University)

초록

시각 프롬프트 튜닝(Visual Prompt Tuning, VPT)은 사전학습된 비전 트랜스포머(Vision Transformers, ViT)를 하위 과제에 맞게 조정하는 데 효과적인 튜닝 방법이다. VPT는 동결된 사전학습 ViT를 이끄는 추가 학습 가능한 토큰인 프롬프트를 활용한다. VPT는 지도 학습 비전 트랜스포머에서의 적용 가능성을 보여주었으나, 종종 자기지도 학습 모델에서는 성능이 저하된다. 경험적 관찰을 통해, VPT의 효과는 프롬프트 토큰이 상호작용하는 ViT 블록에 크게 좌우된다는 점을 추론하였다. 구체적으로, VPT는 프롬프트 토큰을 첫 번째 블록이 아니라 더 뒤의 블록에 삽입할 때, MAE 및 MoCo v3에 대한 이미지 분류 과제에서 성능이 향상된다. 이러한 관찰은 프롬프트 토큰 삽입을 위한 블록의 최적 위치가 존재함을 시사한다. 그러나 다양한 미래 시나리오에서 각 자기지도 학습 ViT에 대해 프롬프트의 최적 블록을 식별하는 과정은 비용이 많이 든다. 이 문제를 완화하기 위해, 각 ViT 블록마다 프롬프트 토큰에 대한 개입(intervention)을 조정하는 게이트를 학습하는 간단하면서도 효과적인 방법을 제안한다. 본 방법에서는 과제 적응을 위해 조향(steering)이 필요한 블록에 의해 프롬프트 토큰이 선택적으로 영향을 받는다. 우리의 방법은 FGVC 및 VTAB 이미지 분류와 ADE20K 의미론적 분할에서 VPT 변형들보다 우수한 성능을 보인다. 코드는 https://github.com/ryongithub/GatedPromptTuning 에서 제공된다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Computer scienceTransformerSegmentationArtificial intelligenceMachine learningCode (set theory)Block (permutation group theory)Pattern recognition (psychology)Set (abstract data type)Mathematics

타입

Preprint

IF / 인용수

- / 7

원문

http://arxiv.org/abs/2306.05067

게재 연도

2023