프로젝트 소개
본 과제는 시각·청각·언어 등 다중모드 정보를 함께 학습하는 딥러닝 모델에, 백과사전 같은 외부 지식베이스를 더해 학습 효율과 추론 성능을 높이는 기술 연구임.
연구 목표는 요약문_연구목표 기반으로 다중모드 융합 표현, 지식베이스 추출·정제, Ealry fusion·Late fusion을 통한 전이, 고차원 융합 차원 축소·경량화·(중간) supervision을 포함한 학습 알고리즘 확립에 있음. 핵심 연구 내용은 데이터 모드 이질성 극복과 정보 유실 최소화, 의미 관계 학습 통합이며, 기대 효과는 Video captioning 같은 응용에서 실증 성능 향상과 소스코드·데이터 공개를 통한 사회 취약계층 지원 기반 마련임