Multimodal learning for video-text alignment and consistent generation
연구 내용
문장과 영상의 시간적 정렬에서 무관한 배경 컨텍스트에 흔들리지 않도록 학습 데이터를 설계하고, 텍스트-이미지 생성의 동일성과 스타일 일관성을 유지하는 연구
영상-언어 정렬과 생성형 비전에서 핵심 요구는 입력 간 의미 대응을 유지하면서 주변 컨텍스트 변화에 대한 강인성을 확보하는 것입니다. 연구실은 비디오 텍포럴 그라운딩에서 query-agnostic 혼합으로 생기는 false negative를 줄이기 위해 Query-aware Context Diversification으로 대체 클립을 구성하고, 시간 경계의 표현에 대해 Context-invariant Boundary Discrimination 손실로 의미 일관성을 강화합니다. 아키텍처는 windowed self-attention과 bidirectional cross-attention을 결합한 계층형 Transformer Encoder로 다중 스케일 시공간 정보를 수집합니다. 생성 측에서는 training-free 일관성 텍스트-이미지 생성에서 identity prompt replacement와 attention guidance로 동일성과 스타일 일관성을 동시에 제약합니다. 또한 occupancy world model에서 cascaded VQ 표현과 time mixer로 공간·시간 계층 구조를 최적화하며, 스타일 변환 특허에서는 텍스트 인코더와 이미지 인코더를 결합해 스타일 변환 네트워크 학습을 수행합니다.
관련 연구 성과
관련 논문
5편
관련 특허
2건
관련 프로젝트
4건
연구 흐름
2023년에는 텍스트 기반 객체 중심 스타일 변환과 스타일 변경 네트워크 학습 방법을 특허화하며 텍스트-이미지 조건 정합의 기반을 확보했습니다. 이후 2024년과 2025년에는 로봇 내비게이션 및 Physical AI 관련 과제를 통해 시각 정보와 멀티모달 모델을 동적 환경 이해로 확장하는 방향으로 연구가 진행되었습니다. 2026년에는 비디오 텍포럴 그라운딩에서 컨텍스트 민감성을 줄이기 위한 데이터-손실-아키텍처 조합을 제시했고, training-free 일관성 T2I로 동일성과 스타일 일관성을 유지하는 연구를 수행했습니다. 동시에 occupancy world model과 diffusion policy 알고리즘 리뷰까지 포함해 생성·예측 축을 함께 정리하는 흐름을 보였습니다.
활용 가능성
활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.
관련 논문
구분
제목
CVA: Context-aware Video-text Alignment for Video Temporal Grounding
CVA: Context-aware Video-text Alignment for Video Temporal Grounding
Infinite-Story: A Training-Free Consistent Text-to-Image Generation
CascadeOcc: Rethinking 3D Occupancy World Models With Cascaded VQ Representations
A Review of Online Diffusion Policy RL Algorithms for Scalable Robotic Control
관련 특허
구분
제목
텍스트 기반의 객체 중심 스타일 변환을 위한 컴퓨터 프로그램
스타일 변환 방법 및 컴퓨터 프로그램
관련 프로젝트
구분
제목
비학습 공간에서의 동적 환경 이해를 위한 시각언어모델(VLM) 기반 시각정보 활용 내비게이션 기술 개발
(N-HRHR)사고의 연쇄를 활용한 물리 법칙 준수 비디오 생성 모델 연구
Physical AI 분야의 거대 생성모델 기술 선도를 위한 LG AI STAR 인재양성 사업
Physical AI 분야의 거대 생성모델 기술 선도를 위한 LG AI STAR 인재양성 사업