| 번호 | 청구항 |
|---|---|
| 1 | 멀티 모달 임베딩 장치에 의해 수행되는 멀티 모달 임베딩 방법에 있어서,a) 이미지 및 텍스트를 포함하는 임베딩 대상 입력들을 수신하고, 상기 입력들에 대한 이미지 특징 임베딩 및 텍스트 특징 임베딩을 생성하는 단계;b) 기설정된 알고리즘을 이용하여 상기 이미지 특징 임베딩 및 상기 텍스트 특징 임베딩을 융합하여 퓨전 특징 임베딩을 생성하는 단계; 및c) 학습용 특징 임베딩들을 학습 데이터 세트로 하여 입력되는 특징 임베딩에 대한 서브골을 출력하도록 훈련된 인공지능모델을 이용하여, 상기 퓨전 특징 임베딩에 대한 서브골을 생성하는 단계를 포함하고,상기 퓨전 특징 임베딩은 이미지 퓨전 특징 임베딩, 텍스트 퓨전 특징 임베딩 및 최종 퓨전 특징 임베딩을 포함하고,상기 b) 단계는,상기 이미지 특징 임베딩 및 상기 텍스트 특징 임베딩 각각에 제1 어텐션 웨이트 행렬 및 제2 어텐션 웨이트 행렬을 곱하여 상기 이미지 특징 임베딩에 대한 쿼리 및 상기 텍스트 특징 임베딩에 대한 키를 생성하는 단계;상기 이미지 특징 임베딩 및 상기 텍스트 특징 임베딩 각각에 제3 어텐션 웨이트 행렬 및 제4 어텐션 웨이트 행렬을 곱하여 제1 값 및 제2 값을 생성하는 단계;상기 쿼리 및 상기 키에 기초하여 어텐션 점수를 산출하고, 상기 어텐션 점수에 상기 제1 값 및 상기 제2 값을 각각 곱하여 제1 결과값 및 제2 결과값을 산출하는 단계;상기 제1 결과값 및 상기 제2 결과값 각각에 제5 어텐션 웨이트 행렬 및 제6 어텐션 웨이트 행렬을 곱하여 이미지 최종 특징 임베딩 및 텍스트 최종 특징 임베딩을 산출하는 단계;상기 이미지 최종 특징 임베딩과 상기 텍스트 특징 임베딩에 기초하여 상기 텍스트 퓨전 특징 임베딩을 산출하고, 상기 텍스트 최종 특징 임베딩과 상기 이미지 특징 임베딩에 기초하여 상기 이미지 퓨전 특징 임베딩을 산출하는 단계; 및상기 이미지 퓨전 특징 임베딩 및 상기 텍스트 퓨전 특징 임베딩을 결합하여 상기 최종 퓨전 특징 임베딩을 생성하는 단계를 포함하는, 멀티 모달 임베딩 방법. |
| 2 | 제1항에 있어서,상기 임베딩 대상 입력들은 현재 시야에 대한 이미지, 적어도 하나 이상의 이전 시야에 대한 이미지, 이전에 수행한 서브골 목록 및 자연어 명령 중 적어도 하나를 포함하는 것인, 멀티 모달 임베딩 방법. |
| 3 | 제2항에 있어서,상기 이미지 특징 임베딩은 상기 현재 시야에 대한 이미지를 분석하여 RGB 이미지 및 경계박스 이미지를 추출하고, 상기 RGB 이미지 및 상기 경계박스 이미지에 기초하여 생성되는 현재 시야 특징 임베딩 및 상기 적어도 하나 이상의 이전 시야에 대한 이미지를 분석하여 RGB 이미지 및 경계박스 이미지를 추출하고, 상기 RGB 이미지 및 상기 경계박스 이미지에 기초하여 생성되는 이전 시야 특징 임베딩을 포함하는 것인, 멀티 모달 임베딩 방법. |
| 4 | 제2항에 있어서,상기 텍스트 특징 임베딩은,상기 서브골 목록을 기설정된 인코더에 입력하여 생성되는 서브골 특징 임베딩 및 상기 자연어 명령을 상기 기설정된 인코더에 입력하여 생성되는 자연어 명령 특징 임베딩을 포함하는 것인, 멀티 모달 임베딩 방법. |
| 5 | 삭제 |
| 6 | 제1항에 있어서,상기 서브골은 수행할 행동, 대상 물체 및 대상 장소 중 적어도 하나에 대한 정보를 포함하는 것인, 멀티 모달 임베딩 방법. |
| 7 | 단말과 통신 연결되는 통신 모듈;적어도 하나의 프로세서; 및상기 프로세서와 전기적으로 연결되고, 상기 프로세서에서 수행되는 적어도 하나의 코드(code)가 저장되는 메모리를 포함하고,상기 메모리는 상기 프로세서를 통해 실행될 때 상기 프로세서가,상기 통신 모듈을 이용하여 상기 단말로부터 이미지 및 텍스트를 포함하는 임베딩 대상 입력들을 수신하고, 상기 입력들에 대한 이미지 특징 임베딩 및 텍스트 특징 임베딩을 생성하고, 기설정된 알고리즘을 이용하여 상기 이미지 특징 임베딩 및 상기 텍스트 특징 임베딩을 융합하여 퓨전 특징 임베딩을 생성하며, 학습용 특징 임베딩들을 학습 데이터 세트로 하여 입력되는 특징 임베딩에 대한 서브골을 출력하도록 훈련된 인공지능모델을 이용하여, 상기 퓨전 특징 임베딩에 대한 서브골을 생성하도록 야기하는 코드를 저장하되,상기 퓨전 특징 임베딩은 이미지 퓨전 특징 임베딩, 텍스트 퓨전 특징 임베딩 및 최종 퓨전 특징 임베딩을 포함하고,상기 메모리는 상기 프로세서로 하여금,상기 이미지 특징 임베딩 및 상기 텍스트 특징 임베딩 각각에 제1 어텐션 웨이트 행렬 및 제2 어텐션 웨이트 행렬을 곱하여 상기 이미지 특징 임베딩에 대한 쿼리 및 상기 텍스트 특징 임베딩에 대한 키를 생성하고, 상기 이미지 특징 임베딩 및 상기 텍스트 특징 임베딩 각각에 제3 어텐션 웨이트 행렬 및 제4 어텐션 웨이트 행렬을 곱하여 제1 값 및 제2 값을 생성하고, 상기 쿼리 및 상기 키에 기초하여 어텐션 점수를 산출하고, 상기 어텐션 점수에 상기 제1 값 및 상기 제2 값을 각각 곱하여 제1 결과값 및 제2 결과값을 산출하고, 상기 제1 결과값 및 상기 제2 결과값 각각에 제5 어텐션 웨이트 행렬 및 제6 어텐션 웨이트 행렬을 곱하여 이미지 최종 특징 임베딩 및 텍스트 최종 특징 임베딩을 산출하고, 상기 이미지 최종 특징 임베딩과 상기 텍스트 특징 임베딩에 기초하여 상기 텍스트 퓨전 특징 임베딩을 산출하고, 상기 텍스트 최종 특징 임베딩과 상기 이미지 특징 임베딩에 기초하여 상기 이미지 퓨전 특징 임베딩을 산출하며, 상기 이미지 퓨전 특징 임베딩 및 상기 텍스트 퓨전 특징 임베딩을 결합하여 상기 최종 퓨전 특징 임베딩을 생성하도록 야기하는 코드를 더 저장하는, 멀티 모달 임베딩 장치. |
| 8 | 제7항에 있어서,상기 임베딩 대상 입력들은 현재 시야에 대한 이미지, 적어도 하나 이상의 이전 시야에 대한 이미지, 이전에 수행한 서브골 목록 및 자연어 명령 중 적어도 하나를 포함하는 것인, 멀티 모달 임베딩 장치. |
| 9 | 제8항에 있어서,상기 이미지 특징 임베딩은,상기 현재 시야에 대한 이미지를 분석하여 RGB 이미지 및 경계박스 이미지를 추출하고, 상기 RGB 이미지 및 상기 경계박스 이미지에 기초하여 생성되는 현재 시야 특징 임베딩 및 상기 적어도 하나 이상의 이전 시야에 대한 이미지를 분석하여 RGB 이미지 및 경계박스 이미지를 추출하고, 상기 RGB 이미지 및 상기 경계박스 이미지에 기초하여 생성되는 이전 시야 특징 임베딩을 포함하는 것인, 멀티 모달 임베딩 장치. |
| 10 | 제8항에 있어서,상기 텍스트 특징 임베딩은,상기 서브골 목록을 기설정된 인코더에 입력하여 생성되는 서브골 특징 임베딩 및 상기 자연어 명령을 상기 기설정된 인코더에 입력하여 생성되는 자연어 명령 특징 임베딩을 포함하는 것인, 멀티 모달 임베딩 장치. |
| 11 | 삭제 |
| 12 | 제7항에 있어서,상기 서브골은 수행할 행동, 대상 물체 및 대상 장소 중 적어도 하나에 대한 정보를 포함하는 것인, 멀티 모달 임베딩 장치. |