김은솔 교수 연구실
기본 정보
연구 분야
프로젝트
논문
구성원
preprint|
인용수 3
·2022
MSTR: Multi-Scale Transformer for End-to-End Human-Object Interaction Detection
Bumsoo Kim, Jonghwan Mun, Kyoung-Woon On, Minchul Shin, Junhyun Lee, Eun‐Sol Kim
arXiv (Cornell University)
초록

인간-사물 상호작용(Human-Object Interaction, HOI) 탐지는 이미지로부터 일련의 삼중항(triplets)을 식별하는 작업이다. 최근 연구에서는 HOI 탐지에서의 많은 수작업 구성 요소(hand-designed components) 필요성을 종단 간(end-to-end) 학습을 통해 성공적으로 제거하는 트랜스포머 인코더-디코더 아키텍처를 제안하였다. 그러나 이들은 단일 스케일의 특징 해상도에 한정되어, 인간, 사물 및 이들의 상호작용이 서로 매우 다른 스케일과 거리로 존재하는 장면에서 최적이 아닌 성능을 보인다. 이러한 문제를 해결하기 위해, 우리는 HOI 탐지를 위한 멀티-스케일 TRansformer(Multi-Scale TRansformer, MSTR)를 제안하며, 이를 위해 Dual-Entity attention 및 Entity-conditioned Context attention이라는 두 가지 새롭고 HOI 인지적인 변형 가능 주의 모듈(HOI-aware deformable attention modules)을 도입한다. 기존의 변형 가능 주의는 HOI 탐지 성능 측면에서 막대한 비용을 요구하는 반면, 본 연구에서 제안하는 MSTR의 주의 모듈은 상호작용을 식별하는 데 필수적인 샘플링 지점에 효과적으로 주의를 기울이는 방법을 학습한다. 실험에서 우리는 두 개의 HOI 탐지 벤치마크에서 새로운 최첨단 성능을 달성하였다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
TransformerComputer scienceEncoderArtificial intelligenceObject detectionEnd-to-end principleComputer visionPattern recognition (psychology)EngineeringVoltage
타입
preprint
IF / 인용수
- / 3
게재 연도
2022

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.