| 번호 | 청구항 |
|---|---|
| 1 | 대화형 물체 파지 장치에 있어서,복수의 물체가 포함된 이미지를 획득하는 카메라;대화형 물체 파지 방법을 수행하기 위한 프로그램이 저장된 메모리;상기 프로그램을 실행하는 프로세서; 및상기 프로세서의 제어에 따라 구동하는 로봇암을 포함하고,상기 프로세서는, 상기 프로그램의 실행에 의해,상기 이미지 및 사용자에 의해 입력된 자연어의 명령을 기 학습된 시각 접지(Visual Grounding) 모델에 입력하여 상기 복수의 물체 중 상기 명령의 의도에 매칭되는 후보군을 추출하고,상기 후보군 중 무작위로 추출된 적어도 하나의 후보 물체를 기 학습된 질문 생성 모델에 입력하여 상기 사용자에게 상기 후보 물체의 특징을 설명하거나 상기 후보 물체의 분별을 요청하는 자연어의 질문을 적어도 한번 생성하고,상기 시각 접지 모델 및 기 학습된 답변 해석 모델을 이용하여 상기 후보군 중 상기 질문의 응답으로 상기 사용자에 의해 입력된 자연어의 답변과 매칭되는 목표 물체를 추론하고,상기 목표 물체를 파지하도록 상기 로봇암을 제어하되,상기 명령은 어떠한 물체나 물체의 종류를 특정하지 않고 사용자의 현재 의도를 나타내는 스크립트로 구성된 것인, 대화형 물체 파지 장치. |
| 2 | 제 1항에 있어서,상기 모델들은 기 수집된 복수의 데이터세트를 기초로 학습된 것으로서,상기 데이터세트는, 임의의 물체들이 포함된 입력 이미지, 상기 입력 이미지에 대하여 수집된 대화 기록 및 상기 대화 기록을 기초로 레이블링(labeling)된 후보군의 경계박스 좌표를 포함하되,상기 대화 기록은 기 설정된 의도를 나타내는 명령, 상기 기 설정된 의도에 따르는 목표 물체를 추론하기 위한 일련의 질문과 답변의 쌍을 포함하는 것인, 대화형 물체 파지 장치. |
| 3 | 제 2항에 있어서,상기 시각 접지 모델은,특정 데이터세트의 입력 이미지 및 대화 기록이 입력되면, 동일 데이터세트를 이루는 후보군의 경계박스 좌표를 출력할 확률이 최대로 되도록 학습되는 것인, 대화형 물체 파지 장치. |
| 4 | 제 2항에 있어서,상기 질문 생성 모델은,특정 데이터세트의 입력 이미지, 대화 기록 및 후보군 중 어느 하나의 후보 물체의 경계박스 좌표가 입력되면, 상기 후보 물체의 경계박스 좌표에 대해 기 레이블링된 질문을 출력할 확률이 최대로 되도록 학습되는 것인, 대화형 물체 파지 장치. |
| 5 | 제 2항에 있어서,상기 답변 해석 모델은,특정 데이터세트의 입력 이미지, 대화 기록에 포함된 명령의 의도에 따르는 목표 물체의 경계박스 좌표 및 대화 기록에 포함된 어느 하나의 질문이 입력되면, 입력된 질문과 쌍을 이루는 답변을 출력할 확률이 최대로 되도록 학습되는 것인, 대화형 물체 파지 장치. |
| 6 | 제 1항에 있어서,상기 프로세서는,상기 이미지, 상기 질문 및 상기 답변을 상기 시각 접지 모델에 입력함에 따라 상기 후보군을 구성하는 물체 별로 상기 목표 물체로 추론될 제1확률을 출력하고,상기 이미지, 상기 후보 물체의 경계박스 좌표 및 상기 질문을 상기 답변 해석 모델에 입력함에 따라 상기 후보군을 구성하는 물체 별로 상기 답변으로 매칭될 제2확률을 출력하고,상기 제1확률 및 제2확률을 종합한 확률이 가장 높은 물체를 상기 목표 물체로 추론하는, 대화형 물체 파지 장치. |
| 7 | 제 1항에 있어서,상기 프로세서는,상기 질문 생성 모델에 의해 t번 질문이 생성되는 경우, t번째 생성된 질문의 응답으로 상기 사용자에 의해 입력된 답변에 따라 상기 시각 접지 모델 및 상기 답변 해석 모델에 의해 추론된 물체를 상기 목표 물체로 결정하는, 대화형 물체 파지 장치. |
| 8 | 제 1항에 있어서,상기 프로세서는,상기 목표 물체의 경계박스 좌표를 기초로 현실의 공간 상에서 상기 목표 물체의 위치를 나타내는 포인트들의 3차원 좌표들을 획득하고, 상기 3차원 좌표들을 평균한 좌표로 이동하여 상기 목표 물체를 파지하도록 상기 로봇암을 제어하는, 대화형 물체 파지 장치. |
| 9 | 대화형 물체 파지 장치에 의해 수행되는, 대화형 물체 파지 방법에 있어서,카메라를 통해 획득한 복수의 물체가 포함된 이미지 및 사용자에 의해 입력된 자연어의 명령을 기 학습된 시각 접지 모델에 입력하여 상기 복수의 물체 중 상기 명령의 의도에 매칭되는 후보군을 추출하는 단계;상기 후보군 중 무작위로 추출된 적어도 하나의 후보 물체를 기 학습된 질문 생성 모델에 입력하여 상기 사용자에게 상기 후보 물체의 특징을 설명하거나 상기 후보 물체의 분별을 요청하는 자연어의 질문을 적어도 한번 생성하는 단계;상기 시각 접지 모델 및 기 학습된 답변 해석 모델을 이용하여 상기 후보군 중 상기 질문의 응답으로 상기 사용자에 의해 입력된 자연어의 답변과 매칭되는 목표 물체를 추론하는 단계; 및로봇암을 이용하여 상기 목표 물체를 파지하는 단계를 포함하되,상기 명령은 어떠한 물체나 물체의 종류를 특정하지 않고 사용자의 현재 의도를 나타내는 스크립트로 구성된 것인, 대화형 물체 파지 방법. |
| 10 | 제 9항에 있어서,상기 모델들은 기 수집된 복수의 데이터세트를 기초로 학습된 것으로서,상기 데이터세트는, 임의의 물체들이 포함된 입력 이미지, 상기 입력 이미지에 대하여 수집된 대화 기록 및 상기 대화 기록을 기초로 레이블링(labeling)된 후보군의 경계박스 좌표를 포함하되,상기 대화 기록은 기 설정된 의도를 나타내는 명령, 상기 기 설정된 의도에 따르는 목표 물체를 추론하기 위한 일련의 질문과 답변의 쌍을 포함하는 것인, 대화형 물체 파지 방법. |
| 11 | 제 10항에 있어서,상기 시각 접지 모델은,특정 데이터세트의 입력 이미지 및 대화 기록이 입력되면, 동일 데이터세트를 이루는 후보군의 경계박스 좌표를 출력할 확률이 최대로 되도록 학습되는 것인, 대화형 물체 파지 방법. |
| 12 | 제 10항에 있어서,상기 질문 생성 모델은,특정 데이터세트의 입력 이미지, 대화 기록 및 후보군 중 어느 하나의 후보 물체의 경계박스 좌표가 입력되면, 상기 후보 물체의 경계박스 좌표에 대해 기 레이블링된 질문을 출력할 확률이 최대로 되도록 학습되는 것인, 대화형 물체 파지 방법. |
| 13 | 제 10항에 있어서,상기 답변 해석 모델은,특정 데이터세트의 입력 이미지, 대화 기록에 포함된 명령의 의도에 따르는 목표 물체의 경계박스 좌표 및 대화 기록에 포함된 어느 하나의 질문이 입력되면, 입력된 질문과 쌍을 이루는 답변을 출력할 확률이 최대로 되도록 학습되는 것인, 대화형 물체 파지 방법. |
| 14 | 제 9항에 있어서,상기 목표 물체를 추론하는 단계는,상기 이미지, 상기 질문 및 상기 답변을 상기 시각 접지 모델에 입력함에 따라 상기 후보군을 구성하는 물체 별로 상기 목표 물체로 추론될 제1확률을 출력하는 단계;상기 이미지, 상기 후보 물체의 경계박스 좌표 및 상기 질문을 상기 답변 해석 모델에 입력함에 따라 상기 후보군을 구성하는 물체 별로 상기 답변으로 매칭될 제2확률을 출력하는 단계; 및상기 제1확률 및 제2확률을 종합한 확률이 가장 높은 물체를 상기 목표 물체로 추론하는 단계를 포함하는, 대화형 물체 파지 방법. |
| 15 | 제 9항에 있어서,상기 목표 물체를 추론하는 단계는,상기 질문 생성 모델에 의해 t번 질문이 생성되는 경우, t번째 생성된 질문의 응답으로 상기 사용자에 의해 입력된 답변에 따라 상기 시각 접지 모델 및 상기 답변 해석 모델에 의해 추론된 물체를 상기 목표 물체로 결정하는 단계를 포함하는, 대화형 물체 파지 방법. |
| 16 | 제 9항에 있어서,상기 목표 물체를 파지하는 단계는,상기 목표 물체의 경계박스 좌표를 기초로 현실의 공간 상에서 상기 목표 물체의 위치를 나타내는 포인트들의 3차원 좌표들을 획득하고, 상기 3차원 좌표들을 평균한 좌표로 이동하여 상기 목표 물체를 파지하도록 상기 로봇암을 제어하는 단계를 포함하는, 대화형 물체 파지 방법. |