RnDcircle

번호	청구항
1	발화 영상 생성 모델을 이용하여 발화 영상을 생성하는 방법에 있어서,텍스트 및 사람의 얼굴을 포함하는 이미지를 획득하는 단계;상기 텍스트를 기초로 하여 최종 텍스트 피쳐를 획득하는 단계;상기 최종 텍스트 피쳐를 기초로 하여 입술 모션 피쳐(lip motion feature)를 획득하는 단계;상기 이미지를 기초로 하여 시각적 피쳐(visual feature)를 획득하는 단계;상기 시각적 피쳐를 기초로 하여, 얼굴 모션 피쳐(face motion feature) 및 상기 시각적 피쳐에서 상기 얼굴 모션 피쳐가 제거된 고유 피쳐(identity feature)를 획득하는 단계; 및상기 입술 모션 피쳐, 상기 얼굴 모션 피쳐 및 상기 고유 피쳐에 기초하여 생성된 스타일 피쳐(style feature)를 상기 발화 영상 생성 모델에 입력하여 상기 발화 영상을 생성하는 단계;를 포함하는, 방법.
2	제 1 항에 있어서,상기 최종 텍스트 피쳐를 획득하는 단계는,상기 텍스트를 기초로 하여 음소 단위로 변환된 텍스트를 획득하는 단계;상기 변환된 텍스트를 기초로 하여 기본 텍스트 피쳐를 획득하는 단계; 및상기 기본 텍스트 피쳐를 기초로 하여 상기 최종 텍스트 피쳐를 획득하는 단계;를 포함하는, 방법.
3	삭제
4	제 1 항에 있어서,상기 얼굴 모션 피쳐 및 상기 고유 피쳐를 획득하는 단계는,상기 시각적 피쳐에 노이즈를 적용한 후 제거하여, 압축 얼굴 모션 피쳐를 획득하는 단계; 및상기 압축 얼굴 모션 피쳐를 기초로 하여, 상기 얼굴 모션 피쳐를 획득하는 단계;를 포함하는, 방법.
5	제 1 항에 있어서,상기 스타일 피쳐는,제 1 서브 스타일 피쳐 및 제 2 서브 스타일 피쳐를 포함하고,상기 발화 영상을 생성하는 단계는,상기 고유 피쳐 및 상기 입술 모션 피쳐를 기초로 하여, 상기 제 1 서브 스타일 피쳐를 획득하는 단계;상기 고유 피쳐 및 상기 얼굴 모션 피쳐를 기초로 하여, 상기 제 2 서브 스타일 피쳐를 획득하는 단계; 및상기 제 1 서브 스타일 피쳐 및 상기 제 2 서브 스타일 피쳐를 상기 발화 영상 생성 모델에 입력하여 상기 발화 영상을 생성하는 단계;를 포함하는, 방법.
6	발화 영상 생성 모델을 학습시키는 방법에 있어서,텍스트 및 사람의 얼굴을 포함하는 이미지를 획득하는 단계;상기 텍스트를 기초로 하여 최종 텍스트 피쳐를 획득하는 단계;상기 최종 텍스트 피쳐를 기초로 하여 입술 모션 피쳐를 획득하는 단계;상기 이미지를 기초로 하여 시각적 피쳐를 획득하는 단계;상기 시각적 피쳐를 기초로 하여, 상기 시각적 피쳐에서 얼굴 모션 피쳐가 제거된 고유 피쳐를 획득하는 단계;정답 발화 영상을 기초로 하여, 정답 얼굴 모션 피쳐를 획득하는 단계; 및상기 발화 영상 생성 모델의 입력 데이터로써 상기 입술 모션 피쳐, 상기 정답 얼굴 모션 피쳐 및 상기 고유 피쳐에 기초하여 생성된 스타일 피쳐를 이용하고, 출력 데이터로써 상기 정답 발화 영상을 이용함으로써, 상기 발화 영상 생성 모델을 학습시키는 단계;를 포함하는, 방법.
7	제 6 항에 있어서,상기 최종 텍스트 피쳐를 획득하는 단계는,상기 텍스트를 기초로 하여 음소 단위로 변환된 텍스트를 획득하는 단계;상기 변환된 텍스트를 기초로 하여 기본 텍스트 피쳐를 획득하는 단계; 및상기 기본 텍스트 피쳐를 기초로 하여 상기 최종 텍스트 피쳐를 획득하는 단계;를 포함하는, 방법.
8	삭제
9	제 6 항에 있어서,상기 정답 얼굴 모션 피쳐를 획득하는 단계는,상기 정답 발화 영상으로부터 드라이빙 피쳐를 획득하는 단계; 및상기 드라이빙 피쳐를 기초로 하여 상기 정답 얼굴 모션 피쳐를 획득하는 단계;를 포함하는 방법.
10	제 6 항에 있어서,상기 방법은,상기 시각적 피쳐를 기초로 하여 얼굴 모션 피쳐를 획득하는 단계;상기 학습된 발화 영상 생성 모델에 대한 입력 데이터로써, 상기 입술 모션 피쳐, 상기 얼굴 모션 피쳐 및 상기 고유 피쳐에 기초하여 생성된 스타일 피쳐를 입력하는 단계; 및상기 발화 영상 생성 모델의 출력 데이터로써 발화 영상을 생성하는 단계;를 더 포함하는, 방법.
11	제 10 항에 있어서,상기 발화 영상 생성 모델을 학습시키는 단계는,상기 정답 발화 영상 및 상기 생성된 발화 영상의 차이값을 산출하는 단계;상기 정답 발화 영상 및 상기 생성된 발화 영상 각각의 피쳐맵의 개수를 산출하는 단계;상기 차이값 및 상기 피쳐맵의 개수를 이용하는 재구성 손실(reconstruction loss)을 설정하는 단계; 및상기 재구성 손실을 이용하여 상기 발화 영상 생성 모델을 학습시키는 단계;를 포함하는 방법.
12	제 10 항에 있어서,상기 발화 영상 생성 모델을 학습시키는 단계는,상기 정답 얼굴 모션 피쳐 및 상기 얼굴 모션 피쳐의 차이값을 산출하는 단계;상기 차이값을 이용하는 인코더 손실(encoder loss)을 설정하는 단계; 및상기 인코더 손실을 이용하여 상기 발화 영상 생성 모델을 학습시키는 단계;를 포함하는 방법.
13	제 10 항에 있어서, 상기 발화 영상 생성 모델을 학습시키는 단계는,상기 생성된 발화 영상이 상기 정답 발화 영상과 동일하다고 결정될 확률을 산출하는 단계;상기 산출된 확률을 이용하는 생성적 적대 손실(generative adversarial loss)을 설정하는 단계; 및상기 생성적 적대 손실을 이용하여 상기 발화 영상 생성 모델을 학습시키는 단계;를 포함하는, 방법.
14	제 10 항에 있어서,상기 발화 영상 생성 모델을 학습시키는 단계는,상기 생성된 발화 영상을 기초로 하여 생성 고유 피쳐를 획득하는 단계;상기 고유 피쳐 및 상기 생성 고유 피쳐를 이용하는 유사도 손실(similarity loss)을 설정하는 단계; 및상기 유사도 손실을 이용하여 상기 발화 영상 생성 모델을 학습시키는 단계;를 포함하는, 방법.
15	제 10 항에 있어서,상기 발화 영상 생성 모델을 학습시키는 단계는,상기 최종 텍스트 피쳐를 기초로 하여 분음파형도를 획득하는 단계;상기 생성된 발화 영상을 기초로 하여 제 1 싱크 피쳐를 획득하는 단계;상기 분음파형도를 기초로 하여 제 2 싱크 피쳐를 획득하는 단계; 및 상기 제 1 싱크 피쳐 및 상기 제 2 싱크 피쳐를 이용하여 싱크 손실(sync loss)을 설정하는 단계; 및상기 싱크 손실을 이용하여 상기 발화 영상 생성 모델을 학습시키는 단계;를 포함하는, 방법.
16	제 10 항에 있어서,상기 발화 영상 생성 모델을 학습시키는 단계는,상기 얼굴 모션 피쳐에 임의의 노이즈를 적용하여 제 1 노이즈 피쳐를 산출하는 단계;상기 정답 얼굴 모션 피쳐에 상기 임의의 노이즈를 적용하여 제 2 노이즈 피쳐를 산출하는 단계;상기 제 1 노이즈 피쳐 및 상기 제 2 노이즈 피쳐를 비교하여, 노이즈 손실(noise loss)을 설정하는 단계; 및상기 노이즈 손실을 이용하여 상기 발화 영상 생성 모델을 학습시키는 단계;를 포함하는, 방법.
17	제 10 항에 있어서,상기 발화 영상 생성 모델을 학습시키는 단계는,상기 최종 텍스트 피쳐를 기초로 하여 오디오 피쳐(audio feature)를 획득하는 단계;상기 오디오 피쳐 및 상기 고유 피쳐를 기초로 하여 임의 얼굴 모션 피쳐를 획득하는 단계;상기 임의 얼굴 모션 피쳐 및 상기 정답 얼굴 모션 피쳐를 비교하여 프라이어 손실(prior loss)을 설정하는 단계; 및상기 프라이어 손실을 이용하여 상기 발화 영상 생성 모델을 학습시키는 단계;를 포함하는, 방법.
18	제 16 항에 있어서,상기 발화 영상 생성 모델을 학습시키는 단계는,상기 최종 텍스트 피쳐를 이용하는 구간 손실(duration loss)을 설정하는 단계;상기 최종 텍스트 피쳐를 기초로 하여 오디오 피쳐를 획득하는 단계;상기 오디오 피쳐 및 상기 고유 피쳐를 기초로 하여 임의 얼굴 모션 피쳐를 획득하는 단계;상기 임의 얼굴 모션 피쳐 및 상기 정답 얼굴 모션 피쳐를 비교하여 프라이어 손실을 설정하는 단계; 상기 구간 손실, 상기 프라이어 손실 및 상기 노이즈 손실을 종합한 발화 손실(TTS loss)을 설정하는 단계; 및상기 발화 손실을 이용하여 상기 발화 영상 생성 모델을 학습시키는 단계;를 포함하는 방법.
19	적어도 하나의 메모리; 및적어도 하나의 프로세서;를 포함하고,상기 적어도 하나의 프로세서는,텍스트 및 사람의 얼굴을 포함하는 이미지를 획득하고, 상기 텍스트를 기초로 하여 최종 텍스트 피쳐를 획득하고, 상기 최종 텍스트 피쳐를 기초로 하여 입술 모션 피쳐를 획득하고, 상기 이미지를 기초로 하여 시각적 피쳐를 획득하고, 상기 시각적 피쳐를 기초로 하여, 얼굴 모션 피쳐 및 상기 시각적 피쳐에서 상기 얼굴 모션 피쳐가 제거된 고유 피쳐를 획득하고, 상기 입술 모션 피쳐, 상기 얼굴 모션 피쳐 및 상기 고유 피쳐에 기초하여 생성된 스타일 피쳐를 발화 영상 생성 모델에 입력하여 발화 영상을 생성하는, 컴퓨팅 장치.
20	적어도 하나의 메모리; 및적어도 하나의 프로세서;를 포함하고,상기 적어도 하나의 프로세서는,텍스트 및 사람의 얼굴을 포함하는 이미지를 획득하고, 상기 텍스트를 기초로 하여 최종 텍스트 피쳐를 획득하고, 상기 최종 텍스트 피쳐를 기초로 하여 입술 모션 피쳐를 획득하고, 상기 이미지를 기초로 하여 시각적 피쳐를 획득하고, 상기 시각적 피쳐를 기초로 하여, 상기 시각적 피쳐에서 얼굴 모션 피쳐가 제거된 고유 피쳐를 획득하고, 정답 발화 영상을 기초로 하여, 정답 얼굴 모션 피쳐를 획득하고, 발화 영상 생성 모델의 입력 데이터로써 상기 입술 모션 피쳐, 상기 정답 얼굴 모션 피쳐 및 상기 고유 피쳐에 기초하여 생성된 스타일 피쳐를 이용하고, 출력 데이터로써 상기 정답 발화 영상을 이용함으로써, 상기 발화 영상 생성 모델을 학습시키는, 컴퓨팅 장치.
21	제 1 항 또는 제 6 항에 따른 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.