텍스트로부터 비디오 생성을 위한 그리드 확산 모델 장치 및 방법
GRID DIFFUSION MODELS DEVICE AND METHOD FOR TEXT-TO-VIDEO GENERATION
특허 요약
텍스트로부터 비디오 생성을 위한 그리드 확산 모델 방법 및 장치가 개시된다. 본 발명의 일실시예에 따른, 텍스트로부터 비디오 생성을 위한 그리드 확산 모델 방법은, 텍스트에 상응하여 키 그리드 이미지를 생성하는 단계; 및 자기회귀 그리드 이미지 보간(Autoregressive Grid Image Interpolation)을 수행하는 보간 모델을 통해, 상기 키 그리드 이미지로부터, 비디오를 구성하는 보간 그리드 이미지를 작성하는 단계를 포함 할 수 있다.
청구항
번호청구항
1

복수의 그리드 이미지(f1, … ft-1, ft)로부터, 기준 시점(t5) 이전의 4개의 그리드 이미지(f1f4)를, 이전 그리드 이미지로서 선별하는 단계;상기 기준 시점(t5) 이후의 4개의 그리드 이미지(f5f8) 중에서, 임의 2개의 그리드 이미지를 블랭크(blank)하고 나머지의 그리드 이미지를 포함하여, 마스크된 그리드 이미지를 제작하는 단계;상기 이전 그리드 이미지에 근거하여, 상기 마스크된 그리드 이미지 내 블랭크를 채우도록, 보간 모델을 훈련하는 단계;텍스트에 상응하여 키 그리드 이미지를 생성하는 단계; 및자기회귀 그리드 이미지 보간(Autoregressive Grid Image Interpolation)을 수행하는 상기 보간 모델을 통해, 상기 키 그리드 이미지로부터, 비디오를 구성하는 보간 그리드 이미지를 작성하는 단계를 포함하는, 텍스트로부터 비디오 생성을 위한 그리드 확산 모델 방법.

2

제1항에 있어서,상기 키 그리드 이미지를 생성하는 단계는,상기 텍스트로서 프롬프트(prompt)를 입력받는 단계;키 그리드 이미지 생성 모델로부터, 상기 프롬프트에 의해 특정되는 m개(상기 m은 4 이상의 자연수)의 내부 프레임을 출력 받는 단계; 및상기 m개의 내부 프레임을 시간 순으로 정렬하여 상기 키 그리드 이미지를 생성하는 단계를 포함하고,상기 키 그리드 이미지 생성 모델은,비디오 차원(Video Dimension)의 비디오 프레임으로부터, 이미지 차원(Image Dimension)의 내부 프레임을 선택 함으로써, 차원 축소(Dimension Reduction) 하는,를 포함하는, 텍스트로부터 비디오 생성을 위한 그리드 확산 모델 방법.

3

삭제

4

제1항에 있어서,상기 보간 그리드 이미지를 작성하는 단계는,상기 키 그리드 이미지에 포함되는 내부 프레임을 이용하여 제1 마스크 그리드 이미지를 작성한 후, 상기 보간 모델 중 1-Step 보간 모델에서 학습 시킴으로써 1-Step 보간 그리드 이미지를 작성하는 단계; 및상기 1-Step 보간 그리드 이미지에 포함되는 제1 이미지 프레임을 이용하여 n개(상기 n은 3 이상의 자연수)의 제2 마스크 그리드 이미지를 작성한 후, 상기 보간 모델 중 2-Step 보간 모델에서 학습 시킴으로써 2-Step 보간 그리드 이미지를 작성하는 단계를 포함하는, 텍스트로부터 비디오 생성을 위한 그리드 확산 모델 방법.

5

제4항에 있어서,상기 1-Step 보간 그리드 이미지를 작성하는 단계는,상기 키 그리드 이미지에 포함되는 내부 프레임을 1 및 4 사분면에 배치하고, 블랭크를 2 및 3 사분면에 배치하는, 상기 제1 마스크 그리드 이미지를 작성하는 단계; 및상기 1-Step 보간 모델에 의해, 상기 제1 마스크 그리드 이미지의 2 및 3 사분면에 배치된 블랭크가 채워지도록 보간하여, 상기 1-Step 보간 그리드 이미지를 작성하는 단계를 포함하는, 텍스트로부터 비디오 생성을 위한 그리드 확산 모델 방법.

6

제5항에 있어서,상기 2-Step 보간 그리드 이미지를 작성하는 단계는,상기 제1 이미지 프레임 각각을 1 및 4 사분면에 배치하고, 블랭크를 2 및 3 사분면에 배치하는 조합을 고려하여, 상기 n개의 제2 마스크 그리드 이미지를 작성하는 단계; 및상기 2-Step 보간 모델에 의해, 상기 n개의 제2 마스크 그리드 이미지의 2 및 3 사분면에 배치된 블랭크가 채워지도록 보간하여, 상기 2-Step 보간 그리드 이미지를 작성하는 단계를 포함하는, 텍스트로부터 비디오 생성을 위한 그리드 확산 모델 방법.

7

제6항에 있어서,상기 1-Step 보간 그리드 이미지에 포함되는 제1 이미지 프레임 간의 시간격은,상기 키 그리드 이미지에 포함되는 내부 프레임 간의 시간격 보다 작고, 또한 상기 2-Step 보간 그리드 이미지에 포함되는 제2 이미지 프레임 간의 시간격 보다 큰,텍스트로부터 비디오 생성을 위한 그리드 확산 모델 방법.

8

제4항에 있어서,상기 그리드 확산 모델 방법은,상기 2-Step 보간 그리드 이미지에 포함되는 제2 이미지 프레임을, 시계열적으로 연결하여 생성형 비디오를 출력하는 단계를 더 포함하는, 텍스트로부터 비디오 생성을 위한 그리드 확산 모델 방법.

9

복수의 그리드 이미지(f1, … ft-1, ft)로부터, 기준 시점(t5) 이전의 4개의 그리드 이미지(f1f4)를, 이전 그리드 이미지로서 선별하고, 상기 기준 시점(t5) 이후의 4개의 그리드 이미지(f5f8) 중에서, 임의 2개의 그리드 이미지를 블랭크(blank)하고 나머지의 그리드 이미지를 포함하여, 마스크된 그리드 이미지를 제작하며, 상기 이전 그리드 이미지에 근거하여, 상기 마스크된 그리드 이미지 내 블랭크를 채우도록, 보간 모델을 훈련하는 모델훈련부;텍스트에 상응하여 키 그리드 이미지를 생성하는 생성부; 및자기회귀 그리드 이미지 보간(Autoregressive Grid Image Interpolation)을 수행하는 상기 보간 모델을 통해, 상기 키 그리드 이미지로부터, 비디오를 구성하는 보간 그리드 이미지를 작성하는 처리부를 포함하는, 텍스트로부터 비디오 생성을 위한 그리드 확산 모델 장치.

10

제9항에 있어서,상기 생성부는,상기 텍스트로서 프롬프트(prompt)를 입력받고,키 그리드 이미지 생성 모델로부터, 상기 프롬프트에 의해 특정되는 m개(상기 m은 4 이상의 자연수)의 내부 프레임을 출력 받으며,상기 m개의 내부 프레임을 시간 순으로 정렬하여 상기 키 그리드 이미지를 생성하고,상기 키 그리드 이미지 생성 모델은,비디오 차원(Video Dimension)의 비디오 프레임으로부터, 이미지 차원(Image Dimension)의 내부 프레임을 선택 함으로써, 차원 축소(Dimension Reduction) 하는,를 포함하는, 텍스트로부터 비디오 생성을 위한 그리드 확산 모델 장치.

11

삭제

12

제9항에 있어서,상기 처리부는,상기 키 그리드 이미지에 포함되는 내부 프레임을 이용하여 제1 마스크 그리드 이미지를 작성한 후, 상기 보간 모델 중 1-Step 보간 모델에서 학습 시킴으로써 1-Step 보간 그리드 이미지를 작성하고,상기 1-Step 보간 그리드 이미지에 포함되는 제1 이미지 프레임을 이용하여 n개(상기 n은 3 이상의 자연수)의 제2 마스크 그리드 이미지를 작성한 후, 상기 보간 모델 중 2-Step 보간 모델에서 학습 시킴으로써 2-Step 보간 그리드 이미지를 작성하는,텍스트로부터 비디오 생성을 위한 그리드 확산 모델 장치.

13

제12항에 있어서,상기 처리부는,상기 키 그리드 이미지에 포함되는 내부 프레임을 1 및 4 사분면에 배치하고, 블랭크를 2 및 3 사분면에 배치하는, 상기 제1 마스크 그리드 이미지를 작성하고,상기 1-Step 보간 모델에 의해, 상기 제1 마스크 그리드 이미지의 2 및 3 사분면에 배치된 블랭크가 채워지도록 보간하여, 상기 1-Step 보간 그리드 이미지를 작성하는,텍스트로부터 비디오 생성을 위한 그리드 확산 모델 장치.

14

제13항에 있어서,상기 처리부는,상기 제1 이미지 프레임 각각을 1 및 4 사분면에 배치하고, 블랭크를 2 및 3 사분면에 배치하는 조합을 고려하여, 상기 n개의 제2 마스크 그리드 이미지를 작성하고,상기 2-Step 보간 모델에 의해, 상기 n개의 제2 마스크 그리드 이미지의 2 및 3 사분면에 배치된 블랭크가 채워지도록 보간하여, 상기 2-Step 보간 그리드 이미지를 작성하는,텍스트로부터 비디오 생성을 위한 그리드 확산 모델 장치.

15

제14항에 있어서,상기 1-Step 보간 그리드 이미지에 포함되는 제1 이미지 프레임 간의 시간격은,상기 키 그리드 이미지에 포함되는 내부 프레임 간의 시간격 보다 작고, 또한 상기 2-Step 보간 그리드 이미지에 포함되는 제2 이미지 프레임 간의 시간격 보다 큰,텍스트로부터 비디오 생성을 위한 그리드 확산 모델 장치.

16

제12항에 있어서,상기 처리부는,상기 2-Step 보간 그리드 이미지에 포함되는 제2 이미지 프레임을, 시계열적으로 연결하여 생성형 비디오를 출력하는 단계를 더 포함하는, 텍스트로부터 비디오 생성을 위한 그리드 확산 모델 장치.

17

제1항, 제2항, 제4항 내지 제8항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.