Solution for SMART-101 Challenge of CVPR Multi-modal Algorithmic Reasoning Task 2024 | 김은솔 교수 연구실 | 한양대학교 컴퓨터소프트웨어학부

김은솔 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

preprint|

인용수 1

·2024

Solution for SMART-101 Challenge of CVPR Multi-modal Algorithmic Reasoning Task 2024

Jinwoo Ahn, Jun-Hyeok Park, Min-Jun Kim, K. Kim, So-Yeong Sohn, Yunji Lee, Du-Seong Chang, Yu‐Jung Heo, Eun‐Sol Kim

arXiv (Cornell University)

초록

본 논문에서는 Multimodal Algorithmic Reasoning Task: SMART-101 CVPR 2024 Challenge에 대한 HYU MLLAB KT Team의 해법을 제시한다. 본 SMART-101 챌린지는 기존의 일반적인 시각 질의응답 문제를 넘어, 6-8세 연령대의 아동을 위해 설계된 복잡한 비지오-언어(viiso-linguistic) 퍼즐을 다룸으로써 인간 수준의 멀티모달 이해를 달성하는 것을 목표로 한다. 이 문제를 해결하기 위해 두 가지 핵심 아이디어를 제안한다. 첫째, 대규모 언어 모델(LLM)의 추론 능력을 활용하기 위해, 주어진 시각적 단서(이미지)를 텍스트 양식에 정합(grounding)한다. 이를 위해 우리는 이미지의 맥락을 자세히 서술하는 고도로 상세한 텍스트 캡션을 생성하고, 해당 캡션을 LLM의 입력으로 사용한다. 둘째, 퍼즐 이미지의 특성상 종종 다양한 기하학적 시각 패턴을 포함하므로, 캡션 생성 과정에서 이러한 패턴이 누락되지 않도록 객체 탐지 알고리즘을 활용한다. 서로 다른 크기의 객체를 탐지할 수 있는 SAM 알고리즘을 사용하여 이러한 기하학적 패턴의 시각적 특징을 포착하고, 그 정보를 LLM의 입력으로 활용하였다. 퍼즐 분할(puzzle split) 구성 하에서, 테스트 세트에서 선택 정답률 Oacc 29.5, 챌린지 세트에서 가중 선택 정답률(WOSA) 27.1을 달성하였다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Task (project management)ModalComputer scienceArtificial intelligenceHuman–computer interactionSystems engineeringEngineeringChemistry

타입

preprint

IF / 인용수

- / 1

원문

http://arxiv.org/abs/2406.05963

게재 연도

2024

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)