-자연어 중심의 대조학습 기반 시각, 청각 임베딩 고도화 연구
-시각, 청각, 텍스트를 결합한 멀티모달 대화형 시스템 구축
-멀티모달 멀티 태스크 학습 알고리즘을 통한 시스템 응답 생성 고도화 연구
-시스템 발화의 생성과정을 검증하는 자연어 설명문 생성 기반 멀티모달 XAI 연구
-적대적 공격 방법을 이용한 XAI 고도화
본 연구의 최종 목표는 설명가능한 멀티모달 대화형 인공지능 시스템 개발이며 인간과 매우 유사한 방식으로 대화가 가능한 AI 시스템이다. 제안 시스템은 크게 2개 파트로 구성된다. 첫 번째는 시스템이 시각, 청각, 언어 등 다중 형식의 정보들을 이해하여 인간과 유사한 수준으로 교감할 수 있는 멀티모달 대화형 시스템이며, 두 번째는 시스템 결과 검증을 통해 신...
복합지능
멀티모달 대화형 인공지능
인간과 소통하는 인공지능
멀티모달 멀티태스크 학습
설명가능한 인공지능
적대
4
주관|
2021년 5월-2022년 5월
|48,064,000원
자기지도 학습을 사용한 자연어 의미 유도 기반 멀티모달 인식 연구
본 과제에 제안하는 멀티모달 인식 연구는 멀티모달 입력 데이터에 대한 복합적인 심층 이해가 가능한 방법론에 대한 것이다. 인간은 실제로 시각과 청각을 통해 외부 자극을 가장 먼저 수용/처리하며, 이는 인간 고유의 언어 지능을 동반하여 추상화된 형태로 인지한다. 그래서 본 연구에서는 이러한 인간의 다중 감각 인지 과정을 모델링한 멀티모달 인식 방법론을 제안하며, 전체 과정은 다음과 같이 2단계로 진행된다.
[1단계] 고도화된 언어 모델을 활용한 자연어 의미 유도 기반 단일 모달리티 임베딩 고도화 연구
- affine transformation을 이용한 자연어 의미 유도 기반 시각 및 청각 임베딩 고도화:
자연어 의미 유도 기반 임베딩 학습 방법은 자연어 의미 정보가 affine transformation을 통해 시각 및 청각에서의 언어적 정보에 반영할 수 있다. 또한 본 제안 방법은 시각과 청각 데이터에 포함된 비언어적 특징에 대한 정보를 유지한다. 이를 통해 고도의 시각 및 청각 임베딩 학습이 가능하다.
[2단계] 자기지도 학습을 이용한 cross-modal attention 기반 멀티모달 정보 통합 및 고도화 연구
- 자기지도 학습을 통한 cross-modal attention 기반 멀티모달 통합 연구:
고도화된 단일 모달리티의 임베딩 정보들을 통합된 멀티모달 임베딩으로 생성하기 위한 단계이다. cross-modal attention 구조는 모달리티 정보의 가중치를 반영하여 멀티모달 정보 통합을 가능하게 한다. 통합된 멀티모달 임베딩은 자연어 중심의 대조학습 기반 자기지도 학습 방법을 통해 학습을 진행한다.
- 멀티모달 태스크에 대한 결과분석을 통한 멀티모달 인식 성능 고도화:
다양한 멀티모달 태스크를 활용하여 모달리티 간 attention 가중치 분석 등을 통한 결과 해석 및 개선 방안을 연구한다.
본 연구의 최종 목표는 텍스트와 이미지 정보를 결합한 멀티모달 기계번역 모델 개발이다. 제안하는 방법은 텍스트 정보에만 의존하던 기존의 기계번역 방법론들의 한계점을 극복하기 위하여 이미지 정보로부터 번역에 필요한 정보를 최대한 활용하고 보다 정확한 번역 결과를 위하여 구문구조 정보를 결합한다. 제안 모델은 한국어에 최초로 시도되며 기존 모델보다 향상된 성능을 기대한다.
본 연구에서 제안하는 멀티모달 기계번역 모델은 크게 3가지로 구성되어 있다. 우선, 이미지에서 번역에 필요한 정보를 생성하기 위한 DNN기반의 멀티 레이블 이미지 분류기가 있다. 이 분류기의 목적은 이미지로부터 피쳐정보와 이미지의 객체정보를 나타내는 레이블을 얻는 것에 있다. 그런데, 본 연구에서 사용하는 이미지는 레이블을 포함하고 있지 않다. 그래서 이미지 캡션의 키워드를 이미지의 레이블로 결정하는 Weak Labeling 방법을 제안한다. 멀티 레이블 이미지 분류기는 Weak Label을 이용하여 사전학습한다. 다음은 이미지와 텍스트 정보를 결합하는 인코더이다. 인코더는 Recurrent Neural Network(RNN)으로 되어 있다. 텍스트는 Bidirectional LSTM을 사용하여 인코딩되며, 이미지로부터 멀티 레이블 이미지 분류기를 통해 생성된 2가지 정보들과 함께 결합한다. 마지막은 어텐션(Attention) 기반의 의존구문구조를 이용한 디코더이다. 디코더는 기존의 Sequential Decoding 방식과 달리 문장의 의존구문구조를 생성하는 알고리즘을 학습시켜 문법적으로 더 정확한 번역 결과를 생성한다. 그리고, 본 연구는 Universal Word Representation 학습 알고리즘 개발과 역-번역을 이용한 학습 데이터 확장을 통해 더 발전된 번역 결과를 얻을 수 있다.
다음은 연차별 연구 목표 및 내용이다.
- 1차년도
-- 한국어/영어 이미지 캡션 코퍼스 제작(20,000개 이미지(100,000문장) 데이터 구축)
-- Weak Label을 이용한 멀티레이블 이미지 분류기 개발
-- 멀티모달 정보들을 활용할 수 있는 프레임워크 개발
- 2차년도
-- DNN기반의 의존 파서 개발
-- 의존 파싱 기반의 디코더 연구
-- Universal Word Representation 연구
- 3차년도
-- 멀티모달 정보와 의존구문구조를 이용한 멀티모달 기계번역 모델 연구
-- 역-번역을 이용한 학습 데이터 자동 생성 연구
-- 문장 클러스터링 연구