| 번호 | 청구항 |
|---|---|
| 1 | 이미지 생성 장치가, 오디오 데이터를 읽어들여 오디오 변환기에 입력하고, 상기 오디오 변환기를 통해 상기 오디오 데이터에 대응하는 캡션 데이터 및 오디오 어텐션 데이터를 출력하는 단계; 상기 이미지 생성 장치가, 상기 캡션 데이터를 명사 추출기에 입력하여 문장 어텐션 데이터를 출력하는 단계; 상기 이미지 생성 장치가, 상기 캡션 데이터와 상기 오디오 어텐션 데이터를 인코딩하여 인코딩된 데이터를 생성하고, 상기 인코딩된 데이터와 상기 문장 어텐션 데이터를 결합시켜 특징 벡터를 생성하는 단계; 상기 이미지 생성 장치가, 상기 캡션 데이터를 텍스트 임베딩하여 임베딩 데이터를 생성하고, 상기 임베딩 데이터와 상기 특징 벡터를 곱한 입력 벡터를 산출하는 단계; 및상기 이미지 생성 장치가, 상기 입력 벡터를 이미지 생성 모델에 입력하여 상기 오디오 데이터에 대응하는 이미지를 생성하고, 생성한 이미지를 출력하는 단계;를 포함하고, 상기 이미지를 출력하는 단계는, 상기 이미지와 상기 캡션 데이터를 비교하여 비교값에 대응하는 제1 결과값을 산출하고, 상기 이미지와 상기 오디오 데이터를 비교하여 비교값에 대응하는 제2 결과값을 산출하며, 상기 제1 결과값과 상기 제2 결과값에 기초한 최종 결과값을 고려하여 상기 입력 벡터를 다시 생성하고 다시 생성한 입력 벡터에 대응하는 이미지를 다시 생성하는, 오디오 데이터에 대응하는 이미지를 생성하는 방법. |
| 2 | 삭제 |
| 3 | 제1항에 있어서, 상기 오디오 변환기는, 미리 저장된 오디오 데이터들과, 상기 오디오 데이터들에 대한 캡션 데이터들의 학습 데이터로 학습된 모델로, 오디오 데이터를 입력으로 하고 캡션 데이터를 출력으로 하는 것인, 오디오 데이터에 대응하는 이미지를 생성하는 방법. |
| 4 | 제1항에 있어서, 상기 명사 추출기는, 캡션 데이터에서 명사에 해당하는 단어를 출력하도록 학습된 모델로, 캡션 데이터를 입력으로 하고 상기 캡션 데이터에 포함된 각 단어에 대한 명사될 확률값을 출력하는 것인, 오디오 데이터에 대응하는 이미지를 생성하는 방법. |
| 5 | 제1항에 있어서, 상기 인코딩된 데이터는, 상기 캡션 데이터에 포함된 각 단어에 대해서 각 단어의 위치 정보를 추가하여 인코딩 처리한 데이터인, 오디오 데이터에 대응하는 이미지를 생성하는 방법. |
| 6 | 제1항에 있어서, 상기 이미지 생성 모델은, 미리 저장된 텍스트 데이터들과, 상기 텍스트 데이터들에 대한 이미지들의 학습 데이터로 학습된 모델로, 텍스트 데이터를 입력으로 하고 텍스트 데이터에 대응하는 이미지를 출력으로 하는 것인, 오디오 데이터에 대응하는 이미지를 생성하는 방법. |
| 7 | 프로세서와 컴퓨터 판독 가능한 메모리를 포함하고, 상기 프로세서가 상기 메모리에 저장된 명령어들을 판독하여 오디오 데이터를 읽어들여 오디오 변환기에 입력하고, 상기 오디오 변환기를 통해 상기 오디오 데이터에 대응하는 캡션 데이터 및 오디오 어텐션 데이터를 출력하고, 상기 캡션 데이터를 명사 추출기에 입력하여 문장 어텐션 데이터를 출력하며, 상기 캡션 데이터와 상기 오디오 어텐션 데이터를 인코딩하여 인코딩된 데이터를 생성하고, 상기 인코딩된 데이터와 상기 문장 어텐션 데이터를 결합시켜 특징 벡터를 생성하고, 상기 캡션 데이터를 텍스트 임베딩하여 임베딩 데이터를 생성하고, 상기 임베딩 데이터와 상기 특징 벡터를 곱한 입력 벡터를 산출하며, 상기 입력 벡터를 이미지 생성 모델에 입력하여 상기 오디오 데이터에 대응하는 이미지를 생성하고, 생성한 이미지를 출력하고, 상기 이미지와 상기 캡션 데이터를 비교하여 비교값에 대응하는 제1 결과값을 산출하고, 상기 이미지와 상기 오디오 데이터를 비교하여 비교값에 대응하는 제2 결과값을 산출하며, 상기 제1 결과값과 상기 제2 결과값에 기초한 최종 결과값을 고려하여 상기 입력 벡터를 다시 생성하고 다시 생성한 입력 벡터에 대응하는 이미지를 다시 생성하는, 이미지 생성 장치. |
| 8 | 삭제 |
| 9 | 제7항에 있어서, 상기 오디오 변환기는, 미리 저장된 오디오 데이터들과, 상기 오디오 데이터들에 대한 캡션 데이터들의 학습 데이터로 학습된 모델로, 오디오 데이터를 입력으로 하고 캡션 데이터를 출력으로 하는 것인, 이미지 생성 장치. |
| 10 | 제7항에 있어서, 상기 명사 추출기는, 캡션 데이터에서 명사에 해당하는 단어를 출력하도록 학습된 모델로, 캡션 데이터를 입력으로 하고 상기 캡션 데이터에 포함된 각 단어에 대한 명사될 확률값을 출력하는 것인, 이미지 생성 장치. |
| 11 | 제7항에 있어서, 상기 인코딩된 데이터는, 상기 캡션 데이터에 포함된 각 단어에 대해서 각 단어의 위치 정보를 추가하여 인코딩 처리한 데이터인, 이미지 생성 장치. |
| 12 | 제7항에 있어서, 상기 이미지 생성 모델은, 미리 저장된 텍스트 데이터들과, 상기 텍스트 데이터들에 대한 이미지들의 학습 데이터로 학습된 모델로, 텍스트 데이터를 입력으로 하고 텍스트 데이터에 대응하는 이미지를 출력으로 하는 것인, 이미지 생성 장치. |
| 13 | 컴퓨터를 이용하여 제1항, 제3항 내지 제6항 중 한 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램. |