비디오 생성 모델을 이용하여 스토리 기반으로 비디오를 생성하는 방법 및 장치
METHOD AND APPARATUS FOR GENERATING STORY-BASED VIDEO USING A VIDEO GENERATION MODEL
특허 요약
일 실시예에 따른 비디오 생성 모델을 이용하여 스토리 기반으로 비디오를 생성하는 방법 및 장치는 이미지 생성 모델에 기본 이미지와 하나 이상의 스토리 텍스트를 입력(input)함으로써, 입력 이미지들을 생성하는 단계, 2차원 비디오 생성 모델에 상기 생성된 입력 이미지들을 입력함으로써, 각 청크(chunk)에 전체적인 비디오 정보를 보존하는 인터(inter) 항목, 이전 청크에서 생성한 비디오 정보를 보존하는 인트라(intra) 항목 및 해당 청크에서 생성하는 연속성 비디오의 연속된 프레임 중 직전 프레임 정보를 나타내는 콘스(cons) 항목을 포함하는 청크 단위의 초기 연속성 비디오를 생성하는 단계 및 3차원 비디오 생성 모델에 상기 생성된 초기 연속성 비디오를 입력함으로써, 추가적인 모션이 더해져 정제된 수정 연속성 비디오를 생성하는 단계를 포함하고, 상기 청크 단위의 초기 연속성 비디오는, 상기 인터 항목, 상기 인트라 항목, 및 상기 콘스 항목의 퓨전 비율(fusion ratio)이 청크의 생성된 순서에 따라 점진적으로 변경되는 것에 기초하여 생성될 수 있다.
청구항
번호청구항
1

프로세서에 의해 비디오를 생성하는 방법에 있어서,이미지 생성 모델에 기본 이미지와 하나 이상의 스토리 텍스트를 입력(input)함으로써, 입력 이미지들을 생성하는 단계;2차원 비디오 생성 모델에 상기 생성된 입력 이미지들을 입력함으로써, 각 청크(chunk)에 전체적인 비디오 정보를 보존하는 인터(inter) 항목, 이전 청크에서 생성한 비디오 정보를 보존하는 인트라(intra) 항목 및 해당 청크에서 생성하는 연속성 비디오의 연속된 프레임 중 직전 프레임 정보를 나타내는 콘스(cons) 항목을 포함하는 청크 단위의 초기 연속성 비디오를 생성하는 단계; 및3차원 비디오 생성 모델에 상기 생성된 초기 연속성 비디오를 입력함으로써, 추가적인 모션이 더해져 정제된 수정 연속성 비디오를 생성하는 단계를 포함하고,상기 청크 단위의 초기 연속성 비디오는,상기 인터 항목, 상기 인트라 항목, 및 상기 콘스 항목의 퓨전 비율(fusion ratio)이 청크의 생성된 순서에 따라 점진적으로 변경되는 것에 기초하여 생성되는,방법.

2

제1항에 있어서,상기 청크 단위의 초기 연속성 비디오를 생성하는 단계는,상기 생성된 입력 이미지들로부터 청크 순서에 따른 상기 인터 항목 및 상기 인트라 항목에 대한 이미지 정보를 추출하는 단계;상기 인터 항목, 상기 인트라 항목 및 상기 콘스 항목에 대한 어텐션(attention) 가중치를 계산하는 단계;미리 설정된 상기 인터 항목, 상기 인트라 항목 및 상기 콘스 항목에 대한 퓨전(fusion) 비율을 조정하는 단계;상기 어텐션 가중치와 퓨전 비율에 기초하여 상기 인터 항목, 상기 인트라 항목 및 상기 콘스 항목에 대한 히든(hidden) 값을 산출하는 단계;상기 인터 항목, 인트라 항목 및 콘스 항목에 대한 히든 값에 기초하여 히든 상태를 결정하는 단계;상기 결정된 히든 상태에 기초하여 새로운 이미지를 생성하는 단계; 및상기 새로운 이미지를 인트라 이미지로 교체하는 단계를 포함하는 방법.

3

제2항에 있어서,상기 어텐션 가중치를 계산하는 단계는,상기 인터 항목의 인터 이미지 정보에 기초하여 쿼리(query), 키(key), 값(value)에 기반한 인터 어텐션(attention) 가중치를 계산하는 단계;상기 인트라 항목의 인트라 이미지 정보에 기초하여 쿼리, 키, 값에 기반한 인트라 어텐션 가중치를 계산하는 단계; 및상기 콘스 항목의 직전 프레임 정보에 기초하여 쿼리, 키, 값에 기반한 콘스 어텐션 가중치를 계산하는 단계를 포함하는 방법.

4

제2항에 있어서,상기 퓨전 비율을 조정하는 단계는,시간에 따라 상기 콘스 항목에 대한 퓨전 비율을 조정하는 단계; 및상기 콘스 항목에 대한 퓨전 비율에 기초하여 상기 인트라 항목과 상기 인터 항목에 대한 퓨전 비율을 조정하는 단계를 포함하는 방법.

5

제1항에 있어서,상기 입력 이미지들을 생성하는 단계는,상기 이미지 생성 모델을 통해 기본 이미지와 제1 스토리 텍스트에 현재 이미지 프레임을 생성하는 단계;상기 현재 이미지 프레임과 상기 제1 스토리 텍스트에 기초하여 다음 이미지 프레임을 생성하는 단계; 및상기 다음 이미지 프레임을 상기 현재 이미지 프레임으로 업데이트하여 각 스토리 텍스트 별로 미리 결정된 개수의 이미지 프레임들을 생성하여 상기 입력 이미지들을 구성하는 단계를 포함하는 방법.

6

제1항에 있어서,상기 수정 연속성 비디오를 생성하는 단계는,상기 3차원 비디오 생성 모델의 디퓨전(diffusion) 모델을 이용하여 상기 생성된 초기 연속성 비디오에 노이즈를 더하는 단계; 및확률적 미분 방정식을 이용하여 디노이징(denoising)함에 따라 상기 노이즈가 더해진 초기 연속성 비디오를 정제하는 단계를 포함하는 방법.

7

제1항에 있어서,상기 인터 항목은 상기 연속성의 비디오의 첫번째 프레임에 대한 정보를 포함하고,상기 인트라 항목은 이전 청크의 마지막 프레임에 대한 정보를 포함하는,방법.

8

제1항에 있어서,상기 비디오 정보는,비디오의 테마, 장소, 배경 및 등장인물 중 하나 이상을 포함하는,방법.

9

제1항에 있어서,상기 스토리 텍스트는 하나의 청크에 대한 스토리 텍스트가 이어지는 다음 청크에 대한 스토리 텍스트와 일부 중복되는,방법.

10

이미지 생성 모델에 기본 이미지와 하나 이상의 스토리 텍스트를 입력함으로써, 입력 이미지들을 생성하고, 2차원 비디오 생성 모델에 상기 생성된 입력 이미지들을 입력함으로써, 각 청크에 전체적인 비디오 정보를 보존하는 인터 항목, 이전 청크에서 생성한 비디오 정보를 보존하는 인트라 항목 및 해당 청크에서 생성하는 연속성 비디오의 연속된 프레임 중 직전 프레임 정보를 나타내는 콘스 항목을 포함하는 청크 단위의 초기 연속성 비디오를 생성하며, 3차원 비디오 생성 모델에 상기 생성된 초기 연속성 비디오를 입력함으로써, 추가적인 모션이 더해져 정제된 수정 연속성 비디오를 생성하는 프로세서를 포함하고,상기 청크 단위의 초기 연속성 비디오는,상기 인터 항목, 상기 인트라 항목, 및 상기 콘스 항목의 퓨전 비율이 청크의 생성된 순서에 따라 점진적으로 변경되는 것에 기초하여 생성되는,장치.

11

제10항에 있어서,상기 프로세서는,상기 청크 단위의 초기 연속성 비디오를 생성함에 있어서, 상기 2차원 비디오 생성 모델을 이용하여 상기 생성된 입력 이미지들로부터 청크 순서에 따른 상기 인터 항목 및 상기 인트라 항목에 대한 이미지 정보를 추출하고, 상기 인터 항목, 상기 인트라 항목 및 상기 콘스 항목에 대한 어텐션 가중치를 계산하고, 미리 설정된 상기 인터 항목, 상기 인트라 항목 및 상기 콘스 항목에 대한 퓨전 비율을 조정하고, 상기 어텐션 가중치와 퓨전 비율에 기초하여 상기 인터 항목, 상기 인트라 항목 및 상기 콘스 항목에 대한 히든 값을 산출하고, 상기 인터 항목, 인트라 항목 및 콘스 항목에 대한 히든 값에 기초하여 히든 상태를 결정하고, 상기 결정된 히든 상태에 기초하여 새로운 이미지를 생성하며, 상기 새로운 이미지를 인트라 이미지로 교체하는,장치.

12

제11항에 있어서,상기 프로세서는,상기 어텐션 가중치를 계산함에 있어서, 상기 인터 항목의 인터 이미지 정보에 기초하여 쿼리, 키, 값에 기반한 인터 어텐션 가중치를 계산하고, 상기 인트라 항목의 인트라 이미지 정보에 기초하여 쿼리, 키, 값에 기반한 인트라 어텐션 가중치를 계산하며, 상기 콘스 항목의 직전 프레임 정보에 기초하여 쿼리, 키, 값에 기반한 콘스 어텐션 가중치를 계산하는,장치.

13

제11항에 있어서,상기 프로세서는,상기 퓨전 비율을 조정함에 있어서, 시간에 따라 상기 콘스 항목에 대한 퓨전 비율을 조정하며, 상기 콘스 항목에 대한 퓨전 비율에 기초하여 상기 인트라 항목과 상기 인터 항목에 대한 퓨전 비율을 조정하는,장치.

14

제10항에 있어서,상기 프로세서는,상기 입력 이미지들을 생성함에 있어서, 상기 이미지 생성 모델을 통해 기본 이미지와 제1 스토리 텍스트에 현재 이미지 프레임을 생성하고, 상기 현재 이미지 프레임과 상기 제1 스토리 텍스트에 기초하여 다음 이미지 프레임을 생성하며, 상기 다음 이미지 프레임을 상기 현재 이미지 프레임으로 업데이트하여 각 스토리 텍스트 별로 미리 결정된 개수의 이미지 프레임들을 생성하여 상기 입력 이미지들을 구성하는,장치.

15

제10항에 있어서,상기 프로세서는,상기 수정 연속성 비디오를 생성함에 있어서, 상기 3차원 비디오 생성 모델의 디퓨전 모델을 이용하여 상기 생성된 초기 연속성 비디오에 노이즈를 더하고, 상기 노이즈가 더해진 초기 연속성 비디오를 확률적 미분 방정식을 이용하여 디노이징함에 따라 정제하는,장치.

16

제10항에 있어서,상기 인터 항목은 상기 연속성의 비디오의 첫번째 프레임에 대한 정보를 포함하고,상기 인트라 항목은 이전 청크의 마지막 프레임에 대한 정보를 포함하는,장치.

17

제10항에 있어서,상기 비디오 정보는,비디오의 테마, 장소, 배경 및 등장인물 중 하나 이상을 포함하는,장치.

18

제10항에 있어서,상기 스토리 텍스트는 하나의 청크에 대한 스토리 텍스트가 이어지는 다음 청크에 대한 스토리 텍스트와 일부 중복되는,장치.