Multimodal Complex Reasoning with Commonsense and Knowledge Graphs
연구 내용
외부 지식그래프 생성과 그래프 변환기 학습을 통해 시각-언어 상식 추론을 강화하고, 멀티모달 대화에서 시공간 문맥을 정렬하는 연구
본 분야는 시각 입력과 자연언어 요구 사이의 관계를 복합적으로 이해하기 위해 외부 지식 체계를 지식그래프로 연결합니다. ConceptNet 등에서 관련 개념을 검색해 지식 그래프를 구성하고, 그래프 변환기를 통해 객체와 개념을 동일한 입력 단위로 학습합니다. 또한 멀티모달 시퀀스 학습에서는 시공간 그래프로 대화 이력을 표현하고, 사전학습된 모달리티별 모델 사이에 small modulation blocks를 삽입해 의미 공간 정렬을 수행합니다. 모델은 질문 의존 구조와 텍스트 임베딩을 함께 활용하여 문제 해결 과정의 관계를 추론하도록 설계합니다.
관련 연구 성과
관련 논문
3편
관련 특허
0건
관련 프로젝트
4건
연구 흐름
초기에는 시각-언어 과제에서 텍스트 근거화와 장면 맥락 추출을 결합해 복합 추론 문제를 해결하는 접근을 적용했습니다. 이후 ConceptNet 기반 지식 그래프 생성 및 그래프 변환기 학습 알고리즘을 통해 외부 지식을 학습 파이프라인에 포함하는 방향으로 확장했습니다. 동시에 시각 대화에서는 이미지-문장 시퀀스를 시공간 그래프로 구성하고, 모달리티 정렬을 위한 구조 기반 cross-attention을 설계해 소규모 데이터에서도 학습이 가능하도록 개선했습니다. 최근에는 시각 퍼즐 기반 멀티모달 알고리즘적 추론에서 캡션 생성과 객체 검출을 결합해 LLM grounding을 강화하는 연구로 이어졌습니다.
활용 가능성
활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.
관련 논문
구분
제목
Structure-Aware Multimodal Sequential Learning for Visual Dialog
A New Graph Transformer Algorithm for Leveraging External Knowledge Graph
Solution for SMART-101 Challenge of CVPR Multi-modal Algorithmic Reasoning Task 2024
관련 프로젝트
구분
제목
스스로 불확실성을 자각하며 질문하면서 성장하는 에이전트 기술 개발
일상생활에서 필요한 상식을 기반으로 새로운 사실을 추론하며 이해하는 인공지능 기술 개발
일상생활에서 필요한 상식을 기반으로 새로운 사실을 추론하며 이해하는 인공지능 기술 개발
일상생활에서 필요한 상식을 기반으로 새로운 사실을 추론하며 이해하는 인공지능 기술 개발