Multimodal Understanding Combining Computer Vision and Natural Language Processing
연구 내용
비전 신호와 언어를 공동으로 학습해 질의에 근거한 의미를 정합적으로 도출하는 연구
컴퓨터비전과 자연언어처리는 이미지·영상의 시각 증거와 문장의 의미를 연결해 공동 추론을 수행하는 데 목적이 있습니다. 비전 임베딩과 언어 임베딩을 정렬하는 학습 체계를 구성하고, cross-attention 기반 결합 구조를 통해 질의와 이미지 간 대응을 정밀하게 반영합니다. 또한 정답이 이미지 내 위치나 속성과 연동되어야 하는 작업을 중심으로 grounding 관점의 목표 함수를 설계합니다. 결과적으로 시각적 근거를 기반으로 자연어 답변이나 설명을 구성할 수 있는 멀티모달 모델을 구현합니다.
관련 연구 성과
관련 논문
0편
관련 특허
0건
관련 프로젝트
0건
연구 흐름
초기 연구는 시각 특징과 언어 특징을 분리 학습한 뒤, 공통 표현 공간에서 정렬을 이루는 방식으로 진행합니다. 이후 이미지-문장 쌍 데이터를 활용해 질의 기반 작업에 맞는 결합 모듈을 설계하고, 시각 근거가 언어 출력에 반영되도록 학습 구성을 조정합니다. 다음 단계에서는 멀티스텝 추론을 요구하는 질의 유형을 확장하고, grounding 및 정합성 평가를 통해 오류 패턴을 줄이는 방향으로 연구를 수행합니다. 최근에는 표현 정렬의 안정성을 높이고 다양한 시각 입력에 대해 언어 결과가 일관되게 생성되도록 모델을 개선합니다.
활용 가능성
활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.