Toward Interactive Regional Understanding in Vision-Large Language Models
Jungbeom Lee, Sanghyuk Chun, Sangdoo Yun
정범 리, 상혁 천, 상두 윤. Computational Linguistics 학회 북미 지부(Association for Computational Linguistics: North American Chapter) 2024년 학술대회 논문집: 인문 언어 기술(Human Language Technologies) (제1권: 장편 논문). 2024.
Improving Visual Prompt Tuning for Self-supervised Vision Transformers
Seungryong Yoo, Eunji Kim, Dahuin Jung, Jungbeom Lee, Sungroh Yoon
arXiv (Cornell University)
시각 프롬프트 튜닝(Visual Prompt Tuning, VPT)은 사전학습된 비전 트랜스포머(Vision Transformers, ViT)를 하위 과제에 맞게 조정하는 데 효과적인 튜닝 방법이다. VPT는 동결된 사전학습 ViT를 이끄는 추가 학습 가능한 토큰인 프롬프트를 활용한다. VPT는 지도 학습 비전 트랜스포머에서의 적용 가능성을 보여주었으나, 종종 자기지도 학습 모델에서는 성능이 저하된다. 경험적 관찰을 통해, VPT의 효과는 프롬프트 토큰이 상호작용하는 ViT 블록에 크게 좌우된다는 점을 추론하였다. 구체적으로, VPT는 프롬프트 토큰을 첫 번째 블록이 아니라 더 뒤의 블록에 삽입할 때, MAE 및 MoCo v3에 대한 이미지 분류 과제에서 성능이 향상된다. 이러한 관찰은 프롬프트 토큰 삽입을 위한 블록의 최적 위치가 존재함을 시사한다. 그러나 다양한 미래 시나리오에서 각 자기지도 학습 ViT에 대해 프롬프트의 최적 블록을 식별하는 과정은 비용이 많이 든다. 이 문제를 완화하기 위해, 각 ViT 블록마다 프롬프트 토큰에 대한 개입(intervention)을 조정하는 게이트를 학습하는 간단하면서도 효과적인 방법을 제안한다. 본 방법에서는 과제 적응을 위해 조향(steering)이 필요한 블록에 의해 프롬프트 토큰이 선택적으로 영향을 받는다. 우리의 방법은 FGVC 및 VTAB 이미지 분류와 ADE20K 의미론적 분할에서 VPT 변형들보다 우수한 성능을 보인다. 코드는 https://github.com/ryongithub/GatedPromptTuning 에서 제공된다.
지시(지시어) 이미지 분할(referring image segmentation)은 자연어 표현으로 지시된 이미지에서 객체의 위치를 국소화하는 것을 목표로 한다. 대부분의 선행 연구는 분할 라벨을 포함한 대규모 데이터셋으로 지시 이미지 분할을 학습하지만, 이는 비용이 많이 든다. 본 연구에서는 손쉽게 이용 가능한 이미지-텍스트 쌍만을 사용하는, 약지도(weakly supervised) 학습 기반 지시 이미지 분할 방법을 제안한다. 먼저 이미지-텍스트 매칭을 위한 시각-언어 모델을 학습하고, Grad-CAM을 통해 시각적 중요도(saliency) 맵을 추출하여 각 단어에 대응되는 이미지 영역을 식별한다. 그러나 Grad-CAM에는 두 가지 주요 문제가 있음을 발견하였다. 첫째, 단어 간의 핵심 의미 관계를 고려하지 못한다. 우리는 단어 간의 관계를 intra-chunk 및 inter-chunk 일관성을 통해 모델링함으로써 이 문제를 해결한다. 둘째, Grad-CAM은 지시된 객체의 작은 영역만을 식별하여 재현율(recall)이 낮다. 따라서 우리는 Transformer의 self-attention과 비지도 객체 형태 prior를 이용하여 국소화 맵을 정제한다. 세 가지 인기 벤치마크(RefCOCO, RefCOCO+, G-Ref)에서, 본 방법은 최근의 비교 가능한 기법들보다 유의미하게 우수한 성능을 보인다. 또한 본 방법이 다양한 수준의 감독(supervision)에 적용 가능하며, 최근 방법들보다 더 나은 성능을 얻을 수 있음을 보여준다.
Anti-Adversarially Manipulated Attributions for Weakly Supervised Semantic Segmentation and Object Localization
Jungbeom Lee, Eunji Kim, Jisoo Mok, Sungroh Yoon
arXiv (Cornell University)
클래스 레이블로부터 픽셀 수준의 정확한 위치를 획득하는 과정은 약지도 의미 분할 및 객체 위치 추정에서 핵심적인 절차이다. 학습된 분류기에서 생성된 어트리뷰션 맵은 픽셀 수준의 위치 지정을 제공하기 위해 널리 사용되지만, 그 초점은 대체로 표적 객체의 작은 판별적 영역으로 제한되는 경향이 있다. AdvCAM은 최종 softmax 또는 sigmoid 층 이전에 분류기가 산출하는 분류 점수를 증가시키도록 입력 이미지를 조작한 어트리뷰션 맵이다. 이러한 조작은 안티-어드버서리얼(anti-adversarial) 방식으로 구현되어, 원본 이미지는 적대적 공격(adversarial attack)에서 사용된 방향과는 반대 방향의 픽셀 그라디언트(pixel gradients)를 따라 교란된다. 이 과정은 비판별적이지만 클래스와 관련된 특징을 강화하며, 이는 기존 어트리뷰션 맵들이 충분히 기여하지 못했던 영역이므로 결과적으로 AdvCAM은 표적 객체의 더 많은 영역을 식별하게 한다. 또한 우리는 표적 객체와 무관한 영역의 잘못된 어트리뷰션을 억제하고, 표적 객체의 작은 영역에 어트리뷰션이 과도하게 집중되는 현상을 방지하는 새로운 정규화 절차를 제안한다. 우리의 방법은 PASCAL VOC 2012 및 MS COCO 2014 데이터셋에서 약지도 및 준지도 의미 분할에 대해 새로운 최신 성능을 달성한다. 약지도 객체 위치 추정에서는 CUB-200-2011 및 ImageNet-1K 데이터셋에서 새로운 최신 성능을 달성한다.
약지도 학습 기반 의미 분할(WSSS) 방법은 종종 분류기로부터 얻은 픽셀 수준 локализ이션 맵(pixel-level localization maps)에 기반하여 구성된다. 그러나 클래스 라벨만으로 학습할 경우, 분류기는 전경과 배경 단서 사이의 허위 상관(spurious correlation)(예: train과 rail)으로 인해 본질적으로 WSSS의 성능을 근본적으로 제한받는다. 이러한 문제를 해결하기 위해 추가적인 감독을 사용하는 선행 연구들이 있었다. 본 연구는 전경과 배경을 구분하기 위한 새로운 정보의 원천으로, 분포 밖(Out-of-Distribution, OoD) 데이터 또는 전경 객체 클래스가 없는 이미지에 주목한다. 특히 우리는 분류기가 오탐(false-positive) 예측을 할 가능성이 높은 하드 OoD(hard OoDs)를 활용한다. 이러한 샘플은 일반적으로 배경에 핵심적인 시각적 특징(예: rail)을 포함하며, 분류기는 이를 종종 전경(예: train)으로 혼동한다. 따라서 이러한 단서들은 분류기가 허위의 배경 단서를 올바르게 억제하도록 돕는다. 이와 같은 하드 OoD를 획득하는 데에는 방대한 주석 작업이 필요하지 않으며, 클래스 라벨을 수집하기 위한 원래의 노력에 더해 소수의 추가적인 이미지 수준 라벨링 비용만이 소요된다. 우리는 하드 OoD를 활용하기 위한 방법인 W-OoD를 제안한다. W-OoD는 Pascal VOC 2012에서 최신(state-of-the-art) 성능을 달성한다.
Perception Prioritized Training of Diffusion Models
Jooyoung Choi, Jungbeom Lee, Chaehun Shin, Sungwon Kim, Hyunwoo Kim, Sungroh Yoon
2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
확산 모델은 서로 다른 수준의 노이즈로 손상된 잡음 데이터를, 해당하는 손실 항들의 가중합(즉, 노이징 스코어 매칭 손실)을 최적화함으로써 복원하는 법을 학습한다. 본 논문에서는 특정 노이즈 수준으로 손상된 데이터를 복원하는 것이, 모델이 풍부한 시각적 개념을 학습하기 위한 적절한 전처리 과제(pretext task)가 됨을 보인다. 우리는 학습 중에 다른 노이즈 수준보다 이러한 노이즈 수준을 우선하도록, 목적 함수의 가중치 배합을 재설계함으로써 제안한다. 가중치 배합에 대한 우리의 단순한 재설계는 데이터셋, 아키텍처, 샘플링 전략과 무관하게 확산 모델의 성능을 유의미하게 향상시킴을 보인다.
2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
약지도 의미 분할(WSSS) 방법은 종종 분류기에서 얻은 픽셀 수준의 위치 정보 지도(pixel-level localization maps)를 기반으로 구축된다. 그러나 클래스 라벨만으로 학습할 경우 분류기는 전경과 배경 단서 사이의 우연적 상관(spurious correlation) (예: train과 rail)으로 인해 본질적으로 WSSS의 성능이 제한된다. 이러한 문제를 해결하기 위해 추가적인 감독을 도입하려는 선행 연구들이 있었다. 본 연구는 전경과 배경을 구분하기 위한 새로운 정보의 원천으로, 즉 전경 객체 클래스가 없는 이미지로 이루어진 Out-of-Distribution(OoD) 데이터 또는 OoD 데이터를 제안한다. 특히, 분류기가 오탐( false-positive ) 예측을 할 가능성이 큰 하드(hard) OoD를 활용한다. 이러한 표본은 일반적으로 배경(예: rail)에 핵심 시각적 특징을 포함하며, 분류기들은 이를 전경(예: train)으로 오인하는 경우가 많다. 따라서 이러한 단서들은 분류기가 우연적 배경 단서를 올바르게 억제하도록 돕는다. 이와 같은 하드 OoD의 확보는 광범위한 주석(annotation) 노력이 필요하지 않으며, 클래스 라벨을 수집하기 위한 기존 노력에 더해 소수의 추가적인 이미지 수준 라벨링 비용만이 소요된다. 본 연구는 하드 OoD를 활용하기 위한 방법인 W-OoD를 제안한다. W-OoD는 Pascal VOC 2012에서 최첨단 성능을 달성한다. 코드는 다음에서 제공된다: https://github.com/naver-ai/w-ood.
Bridging the Gap between Classification and Localization for Weakly Supervised Object Localization
Eunji Kim, Siwon Kim, Jungbeom Lee, Hyunwoo Kim, Sungroh Yoon
arXiv (Cornell University)
약지도 객체 위치추정(weakly supervised object localization)은 이미지 수준 라벨(image-level labels)과 같은 약한 감독만으로 주어진 이미지에서 목표 객체 영역을 찾는 것을 목표로 한다. 대부분의 기존 방법은 위치화 맵(localization map)을 생성하기 위해 클래스 활성화 맵(class activation map, CAM)을 사용한다. 그러나 CAM은 목표 객체의 전체 영역이 아니라, 목표 객체를 가장 구별해 주는 일부(discriminative parts)만을 식별한다. 본 연구에서는 입력 특징(input feature)과 클래스 특이적 가중치(class-specific weight) 사이의 방향(directions)이 일치하지 않는 점과 관련하여, 분류(classification)와 위치추정(localization) 간의 간극(gap)을 규명한다. 우리는 이러한 방향 불일치가 덜 구별적이지만 목표 객체에 속하는 영역에서 CAM의 활성화를 억제함을 보인다. 이 간극을 해소하기 위해, 우리는 특징 방향을 클래스 특이적 가중치와 정렬(align)시키는 방법을 제안한다. 제안된 방법은 CUB-200-2011 및 ImageNet-1K 벤치마크에서 최첨단(state-of-the-art) 수준의 위치추정 성능을 달성한다.
Perception Prioritized Training of Diffusion Models
Jooyoung Choi, Jungbeom Lee, Chaehun Shin, Sungwon Kim, Hyunwoo Kim, Sungroh Yoon
arXiv (Cornell University)
확산 모델은, 서로 다른 수준의 노이즈로 손상된 잡음 데이터를 해당 손실 항들의 가중합을 최적화함으로써(즉, denoising score matching loss) 복원하는 방법을 학습한다. 본 논문에서는 특정 노이즈 수준으로 손상된 데이터를 복원하는 일이, 모델이 풍부한 시각 개념을 학습하기 위한 적절한 전위 과제(pretext task)를 제공함을 보인다. 우리는 학습 중 다른 노이즈 수준들보다 이러한 노이즈 수준을 우선시하도록, 목적 함수의 가중치 설계를 재구성함으로써 이를 제안한다. 제안하는 가중치 스킴의 단순한 재설계는 데이터셋, 아키텍처 및 샘플링 전략과 무관하게 확산 모델의 성능을 유의미하게 향상시킴을 보인다.
Anti-Adversarially Manipulated Attributions for Weakly Supervised Semantic Segmentation and Object Localization
Jungbeom Lee, Eunji Kim, Jisoo Mok, Sungroh Yoon
IF 23.6 (2022)
IEEE Transactions on Pattern Analysis and Machine Intelligence
클래스 레이블로부터 픽셀 수준의 정확한 위치를 얻는 것은 약지도(weakly supervised) 의미론적 분할 및 객체 위치 추정에서 핵심적인 과정이다. 학습된 분류기로부터 생성된 어트리뷰션 맵(attribution maps)은 픽셀 수준 위치화를 제공하기 위해 널리 사용되지만, 그 초점은 대상 객체의 작은 식별적(discriminative) 영역에 제한되는 경향이 있다. AdvCAM은 최종 softmax 또는 sigmoid 층 이전에 분류기가 산출하는 분류 점수를 증가시키도록 한 이미지를 조작한 어트리뷰션 맵이다. 이러한 조작은 반(anti-)대항적 방식으로 구현되는데, 원래 이미지는 적대적 공격에서 사용된 방향과 반대 방향으로 픽셀 그라디언트(pixel gradients)를 따라 교란된다. 이 과정은 이전 어트리뷰션 맵들이 충분히 기여하지 못했던, 비식별적이지만 클래스와 관련된 특징을 강화하여, 결과적으로 AdvCAM이 대상 객체의 더 많은 영역을 식별하게 한다. 또한 우리는 대상 객체와 무관한 영역의 잘못된 어트리뷰션을 억제하고, 대상 객체의 작은 영역에 어트리뷰션이 과도하게 집중되는 현상을 방지하는 새로운 정규화 절차를 도입한다. 우리의 방법은 PASCAL VOC 2012와 MS COCO 2014 데이터셋에서 약지도 및 준지도(semi-supervised) 의미론적 분할에서 새로운 최신(state-of-the-art) 성능을 달성한다. 약지도 객체 위치 추정에서는 CUB-200-2011 및 ImageNet-1K 데이터셋에서 새로운 최신 성능을 달성한다.