시각-언어 의미 정렬과 대조 표현 학습 연구

Vision–Language Semantic Alignment and Contrastive Representation Learning

연구 내용

비디오 캡션·지시 표현 이해·의미 대응 정렬에서 시각과 언어 간 의미 정합을 대조 학습과 모듈형 구조로 강화하고, 특징 공간 분포를 정규화해 견고성을 높이는 연구

시각-언어 또는 시각-시각 의미 정렬 문제를 다루며, 대조 특징 학습과 특징 공간 설계를 결합합니다. 비디오 캡션에서는 비디오 표현과 언어 의미를 엔터티·동사·술어·문장 수준의 모듈로 사전 정렬한 뒤 캡션 생성으로 연결하고, 장면 그래프 기반 강화학습 모듈로 문장 유사도를 측정합니다. 또한 의미 대응 정렬에서는 대조 표현을 통해 일치성을 학습하고, 동의어 지시 표현 이해에서는 동일 대상을 설명하는 표현 변이성을 특징 수준에서 고려하도록 설계합니다. 아울러 Gaussian mixture 분포를 향해 특징 공간을 형성해 분류 및 인식의 견고성을 개선합니다.

관련 프로젝트

0건

연구 흐름

2022년에는 의미 정렬을 중심으로 대조 표현 학습을 확장했습니다. semantic correspondence를 위한 대조 표현을 학습하고, 동의어 referring expression comprehension에서는 동일 객체를 설명하는 표현 변이를 반영하는 학습 프레임워크를 구성했습니다. 동시에 Gaussian mixture를 이용한 특징 공간 분포 정렬과 손실 설계를 통해 분류 성능과 적대적 예시에 대한 견고성을 함께 평가했습니다. 2023년에는 이를 비디오 캡션으로 확장하여 다중 의미 수준의 모듈형 네트워크와 장면 그래프 기반 강화학습 모듈로 시각-언어 정합을 강화하는 방향으로 발전했습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

비디오 캡션 생성
지시 표현 이해
의미 대응 정렬
시각-언어 멀티그라눌 정합
대조 학습 기반 표현 학습
동의어 기반 학습 설계
특징 공간 분포 정규화
인식 견고성 향상
전이학습 평가 체계
장면 그래프 기반 보상 설계