프로젝트 소개
본 과제는 기계가 시각·청각·언어 등 다중모드 정보를 학습할 때, 외부 지식베이스(백과사전형)를 활용해 부족한 데이터를 보완하는 딥러닝 연구임.
연구 목표는 (1) 다중모드 데이터의 중복·상보 관계를 표현하는 멀티모달 융합 표현, (2) 의미적 관계를 추론하는 지식베이스 추출·정제, (3) Ealry fusion·Late fusion·차원 축소·경량화·(중간) supervision 기반 전이 학습, (4) Video captioning 추론 응용 개발을 통해 성능을 실증하는 데 있음. 기대 효과는 지식 추론과 딥러닝 결합을 통한 멀티모달 학습의 새 방향 제시 및 장애인 정보 접근에 기여함, 공개 소스코드·데이터의 사회 취약계층 ICT 활용 기반 제공됨.