본 논문에서는 Multimodal Algorithmic Reasoning Task: SMART-101 CVPR 2024 Challenge에 대한 HYU MLLAB KT Team의 해법을 제시한다. 본 SMART-101 챌린지는 기존의 일반적인 시각 질의응답 문제를 넘어, 6-8세 연령대의 아동을 위해 설계된 복잡한 비지오-언어(viiso-linguistic) 퍼즐을 다룸으로써 인간 수준의 멀티모달 이해를 달성하는 것을 목표로 한다. 이 문제를 해결하기 위해 두 가지 핵심 아이디어를 제안한다. 첫째, 대규모 언어 모델(LLM)의 추론 능력을 활용하기 위해, 주어진 시각적 단서(이미지)를 텍스트 양식에 정합(grounding)한다. 이를 위해 우리는 이미지의 맥락을 자세히 서술하는 고도로 상세한 텍스트 캡션을 생성하고, 해당 캡션을 LLM의 입력으로 사용한다. 둘째, 퍼즐 이미지의 특성상 종종 다양한 기하학적 시각 패턴을 포함하므로, 캡션 생성 과정에서 이러한 패턴이 누락되지 않도록 객체 탐지 알고리즘을 활용한다. 서로 다른 크기의 객체를 탐지할 수 있는 SAM 알고리즘을 사용하여 이러한 기하학적 패턴의 시각적 특징을 포착하고, 그 정보를 LLM의 입력으로 활용하였다. 퍼즐 분할(puzzle split) 구성 하에서, 테스트 세트에서 선택 정답률 Oacc 29.5, 챌린지 세트에서 가중 선택 정답률(WOSA) 27.1을 달성하였다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.