비전-언어 정렬과 일관성 생성 모델을 위한 멀티모달 학습 연구

Multimodal learning for video-text alignment and consistent generation

연구 내용

문장과 영상의 시간적 정렬에서 무관한 배경 컨텍스트에 흔들리지 않도록 학습 데이터를 설계하고, 텍스트-이미지 생성의 동일성과 스타일 일관성을 유지하는 연구

영상-언어 정렬과 생성형 비전에서 핵심 요구는 입력 간 의미 대응을 유지하면서 주변 컨텍스트 변화에 대한 강인성을 확보하는 것입니다. 연구실은 비디오 텍포럴 그라운딩에서 query-agnostic 혼합으로 생기는 false negative를 줄이기 위해 Query-aware Context Diversification으로 대체 클립을 구성하고, 시간 경계의 표현에 대해 Context-invariant Boundary Discrimination 손실로 의미 일관성을 강화합니다. 아키텍처는 windowed self-attention과 bidirectional cross-attention을 결합한 계층형 Transformer Encoder로 다중 스케일 시공간 정보를 수집합니다. 생성 측에서는 training-free 일관성 텍스트-이미지 생성에서 identity prompt replacement와 attention guidance로 동일성과 스타일 일관성을 동시에 제약합니다. 또한 occupancy world model에서 cascaded VQ 표현과 time mixer로 공간·시간 계층 구조를 최적화하며, 스타일 변환 특허에서는 텍스트 인코더와 이미지 인코더를 결합해 스타일 변환 네트워크 학습을 수행합니다.

관련 프로젝트

4건

연구 흐름

2023년에는 텍스트 기반 객체 중심 스타일 변환과 스타일 변경 네트워크 학습 방법을 특허화하며 텍스트-이미지 조건 정합의 기반을 확보했습니다. 이후 2024년과 2025년에는 로봇 내비게이션 및 Physical AI 관련 과제를 통해 시각 정보와 멀티모달 모델을 동적 환경 이해로 확장하는 방향으로 연구가 진행되었습니다. 2026년에는 비디오 텍포럴 그라운딩에서 컨텍스트 민감성을 줄이기 위한 데이터-손실-아키텍처 조합을 제시했고, training-free 일관성 T2I로 동일성과 스타일 일관성을 유지하는 연구를 수행했습니다. 동시에 occupancy world model과 diffusion policy 알고리즘 리뷰까지 포함해 생성·예측 축을 함께 정리하는 흐름을 보였습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

무관한 배경 컨텍스트에 강인한 비디오-언어 시간 정렬
일관성 있는 멀티 프롬프트 텍스트-이미지 생성
텍스트 조건 기반 객체 중심 스타일 변환
시각언어 모델 기반 동적 환경 내비게이션
물리 법칙 준수 비디오 생성용 데이터 생성 모델
occupancy world model 기반 미래 환경 예측
다중 프레임 시공간 표현을 활용한 계획 보조
false negative를 줄이는 그라운딩 학습 전략
training-free 생성 파이프라인 구성
온디바이스 로봇 운용을 위한 멀티모달 추론