김은솔 교수 연구실
기본 정보
연구 분야
프로젝트
논문
구성원
article|
인용수 1
·2024
Structure-Aware Multimodal Sequential Learning for Visual Dialog
Youngjin Kim, Min-Jun Kim, Kyunghwan An, Jinwoo Ahn, Jaeseok Kim, Yu‐Jung Heo, Du-Seong Chang, Eun‐Sol Kim
Proceedings of the AAAI Conference on Artificial Intelligence
초록

웹에서 방대한 양의 이미지 및 자연어 데이터를 수집할 수 있게 되면서 대규모 언어 모델(Large-scale Language Models, LLMs)의 비약적인 발전이 이루어졌다. 이러한 진전은 인간과의 대화에서 유창한 대화를 수행할 수 있는 챗봇과 대화 시스템의 출현으로 이어졌다. 인간과 에이전트 간의 상호작용을 가능하게 하는 장치의 다양성이 확장되고 텍스트 기반 대화 시스템의 성능이 향상됨에 따라, 최근에는 비주얼 다이얼로그(visual dialog)에 관한 연구가 제안되었다. 그러나 비주얼 다이얼로그는 이미지와 문장으로 구성된 쌍의 순차를 이해해야 하므로, 웹으로부터 대규모 모델 학습에 충분한 데이터를 수집하기가 어렵다. 본 논문에서는 각 양식(modality)별로 설계된 기존 대규모 모델을 활용하는 새로운 멀티모달 학습 방법을 제안하여, 소규모 비주얼 다이얼로그 데이터셋으로 비주얼 다이얼로그를 위한 모델 학습을 가능하게 한다. 제안 접근법의 핵심 아이디어는 다음과 같다. 1) 비주얼 다이얼로그 진행 과정에서의 이력 또는 문맥을 시공간 그래프(spatiotemporal graphs) 형태로 저장하고, 2) 양식별 모델과 그래프 사이에 소형 모듈레이션 블록(small modulation blocks)을 도입하여 의미적 공간을 정렬하는 것이다. 구현을 위해, 사전학습된 모델로부터 발화 생성에 필요한 관련 이미지 및 텍스트 지식을 검색하는 구조 인식형 크로스-어텐션(structure-aware cross-attention) 방법을 새롭게 제안한다. 실험 결과, 가장 도전적인 데이터셋인 COMET을 포함하여 세 개의 비주얼 다이얼로그 데이터셋에서 새로운 최신(state-of-the-art) 성능을 달성하였다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
Dialog boxComputer scienceArtificial intelligenceHuman–computer interactionNatural language processingWorld Wide Web
타입
article
IF / 인용수
- / 1
게재 연도
2024

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.