키포인트 기반의 비디오 생성 방법 및 장치
Method and Apparatus for Generating Video Based on Keypoints
특허 요약
본 실시예들은 하나의 이미지에 존재하는 객체가 움직이도록 키포인트 검출 모델, 모션 생성 모델, 및 이미지 변환 모델을 학습하여 비디오를 생성하며, 이미지 내의 객체의 자연스러운 움직임을 생성할 수 있는 비디오 생성 방법 및 장치를 제공한다.
청구항
번호청구항
18

제11항에 있어서,상기 키포인트 기반의 모션 생성 모델은 슈도 레이블과 함께 학습되며,상기 키포인트 기반의 모션 생성 모델은 실제 이미지 시퀀스로부터 상기 키포인트 검출 모델을 통해 추출한 실제 키포인트 시퀀스를 상기 슈도 레이블로 설정하고,상기 키포인트 기반의 모션 생성 모델과 상호 작용하는 키포인트 시퀀스 판별기를 통해 초기 키포인트로부터 생성한 키포인트 시퀀스 및 상기 실제 키포인트 시퀀스를 비교하여 구별하는 것을 특징으로 하는 비디오 생성 장치.

1

컴퓨팅 디바이스에 의한 비디오 생성 방법에 있어서,하나의 이미지로부터 키포인트 검출 모델을 통해 객체에 대한 키포인트를 추출하는 단계;키포인트 기반의 모션 생성 모델을 통해 상기 키포인트가 변화된 키포인트 시퀀스를 생성하는 단계; 및상기 하나의 이미지와 상기 키포인트 시퀀스를 이용하여 키포인트 기반의 이미지 변환 모델을 통해 비디오를 생성하는 단계를 포함하며,상기 키포인트 검출 모델을 통해 기준 이미지(Reference Image)로부터 기준 키포인트를 추출하고, 상기 키포인트 검출 모델을 통해 대상 이미지(Target Image)로부터 대상 키포인트를 추출하고, 상기 키포인트 기반의 이미지 변환 모델은 상기 기준 키포인트 및 상기 대상 키포인트 간의 차이를 기반으로 상기 기준 이미지로부터 합성 이미지(Synthesized Image)를 생성하는 것을 특징으로 하는 비디오 생성 방법.

2

제1항에 있어서,상기 키포인트 검출 모델은 상기 키포인트 기반의 이미지 변환 모델과 함께 학습되는 것을 특징으로 하는 비디오 생성 방법.

3

삭제

4

제1항에 있어서,상기 키포인트 기반의 이미지 변환 모델은 상기 기준 이미지의 객체의 새로운 외형(Appearance)과 배경 마스크를 이용하여 상기 생성된 합성 이미지의 동적 영역을 처리한 변형 이미지(Translated Image)를 생성하는 것을 특징으로 하는 비디오 생성 방법.

5

제4항에 있어서,상기 키포인트 기반의 이미지 변환 모델은 상기 기준 이미지 및 상기 합성 이미지를 혼합(Blend)하여 상기 변형 이미지(Translated Image)를 생성하는 것을 특징으로 하는 비디오 생성 방법.

6

제4항에 있어서,상기 키포인트 기반의 이미지 변환 모델은 (i) 상기 기준 이미지에 상기 합성 이미지에 대한 배경 마스크를 적용한 제1 마스크 적용 이미지 및 (ii) 상기 합성 이미지에 상기 배경 마스크를 전환한 마스크를 적용한 제2 마스크 적용 이미지를 혼합(Blend)하여 상기 변형 이미지(Translated Image)를 생성하는 것을 특징으로 하는 비디오 생성 방법.

7

제4항에 있어서,상기 키포인트 기반의 이미지 변환 모델과 상호 작용하는 이미지 판별기를 통해 상기 대상 이미지 및 상기 변형 이미지를 비교하여 구별하는 것을 특징으로 하는 비디오 생성 방법.

8

제1항에 있어서,상기 키포인트 기반의 모션 생성 모델은 슈도 레이블과 함께 학습되며,상기 키포인트 기반의 모션 생성 모델은 실제 이미지 시퀀스로부터 상기 키포인트 검출 모델을 통해 추출한 실제 키포인트 시퀀스를 상기 슈도 레이블로 설정하고,상기 키포인트 기반의 모션 생성 모델과 상호 작용하는 키포인트 시퀀스 판별기를 통해 초기 키포인트로부터 생성한 키포인트 시퀀스 및 상기 실제 키포인트 시퀀스를 비교하여 구별하는 것을 특징으로 하는 비디오 생성 방법.

9

제8항에 있어서,상기 키포인트 기반의 모션 생성 모델은 인코더와 디코더로 구성된 오토 인코더이며, 상기 인코더의 입력 레이어가 은닉 레이어에 매핑되고, 상기 은닉 레이어가 상기 디코더의 출력 레이어에 매핑되며, 상기 은닉 레이어에 노이즈가 추가되며,상기 인코더에 상기 슈도 레이블, 상기 초기 키포인트 및 액션 클래스가 입력되고, 상기 디코더에 상기 초기 키포인트 및 액션 클래스가 입력되는 것을 특징으로 하는 비디오 생성 방법.

10

제9항에 있어서,상기 인코더 및 상기 디코더에 은닉 노드가 방향을 가진 엣지로 연결된 순환 구조를 갖고 시계열 데이터를 처리하는 모델이 적용되는 것을 특징으로 하는 비디오 생성 방법.

11

하나의 이미지로부터 객체에 대한 키포인트를 추출하는 키포인트 검출 모델;상기 키포인트가 변화된 키포인트 시퀀스를 생성하는 키포인트 기반의 모션 생성 모델; 및상기 하나의 이미지와 상기 키포인트 시퀀스를 이용하여 비디오를 생성하는 키포인트 기반의 이미지 변환 모델을 포함하며,상기 키포인트 검출 모델을 통해 기준 이미지(Reference Image)로부터 기준 키포인트를 추출하고, 상기 키포인트 검출 모델을 통해 대상 이미지(Target Image)로부터 대상 키포인트를 추출하고, 상기 키포인트 기반의 이미지 변환 모델은 상기 기준 키포인트 및 상기 대상 키포인트 간의 차이를 기반으로 상기 기준 이미지로부터 합성 이미지(Synthesized Image)를 생성하는 것을 특징으로 하는 비디오 생성 장치.

12

제11항에 있어서,상기 키포인트 검출 모델은 상기 키포인트 기반의 이미지 변환 모델과 함께 학습되는 것을 특징으로 하는 비디오 생성 장치.

13

삭제

14

제11항에 있어서,상기 키포인트 기반의 이미지 변환 모델은 상기 기준 이미지의 객체의 새로운 외형(Appearance)과 배경 마스크를 이용하여 상기 생성된 합성 이미지의 동적 영역을 처리한 변형 이미지(Translated Image)를 생성하는 것을 특징으로 하는 비디오 생성 장치.

15

제14항에 있어서,상기 키포인트 기반의 이미지 변환 모델은 상기 기준 이미지 및 상기 합성 이미지를 혼합(Blend)하여 상기 변형 이미지(Translated Image)를 생성하는 것을 특징으로 하는 비디오 생성 장치.

16

제14항에 있어서,상기 키포인트 기반의 이미지 변환 모델은 (i) 상기 기준 이미지에 상기 합성 이미지에 대한 배경 마스크를 적용한 제1 마스크 적용 이미지 및 (ii) 상기 합성 이미지에 상기 배경 마스크를 전환한 마스크를 적용한 제2 마스크 적용 이미지를 혼합(Blend)하여 상기 변형 이미지(Translated Image)를 생성하는 것을 특징으로 하는 비디오 생성 장치.

17

제14항에 있어서,상기 키포인트 기반의 이미지 변환 모델과 상호 작용하는 이미지 판별기를 통해 상기 대상 이미지 및 상기 변형 이미지를 비교하여 구별하는 것을 특징으로 하는 비디오 생성 장치.

19

제18항에 있어서,상기 키포인트 기반의 모션 생성 모델은 인코더와 디코더로 구성된 오토 인코더이며, 상기 인코더의 입력 레이어가 은닉 레이어에 매핑되고, 상기 은닉 레이어가 상기 디코더의 출력 레이어에 매핑되며, 상기 은닉 레이어에 노이즈가 추가되며,상기 인코더에 상기 슈도 레이블, 상기 초기 키포인트 및 액션 클래스가 입력되고, 상기 디코더에 상기 초기 키포인트 및 액션 클래스가 입력되는 것을 특징으로 하는 비디오 생성 장치.

20

제19항에 있어서,상기 인코더 및 상기 디코더에 은닉 노드가 방향을 가진 엣지로 연결된 순환 구조를 갖고 시계열 데이터를 처리하는 모델이 적용되는 것을 특징으로 하는 비디오 생성 장치.