| 번호 | 청구항 |
|---|---|
| 1 | 이미지를 입력받아 이미지 내에서 객체 인식을 할 후보 영역(Region of Interest, ROI)을 직사각형 형태로 정해진 개수만큼 추출하고, 각 영역의 특징 벡터를 추출하는 이미지 특징 추출부;질문 문장을 입력받아 질문 문장의 특징 벡터를 추출하는 질문 문장 특징 추출부;상기 이미지의 특징 벡터와 상기 질문의 특징 벡터를 통합시켜 제1통합 벡터를 생성하는 제1통합 벡터 생성부;상기 제1통합 벡터를 입력받아 설명 문장을 생성하는 설명 문장 생성부;상기 설명 문장의 특징 벡터를 추출하고, 이를 상기 제1통합 벡터와 통합시켜 제2통합 벡터를 생성하는 제2통합 벡터 생성부; 및제2통합 벡터를 입력받아 질문에 대한 응답을 예측하는 응답 예측 분류부;를 포함하는 것을 특징으로 하는,시각적 질의응답 장치. |
| 2 | 제1항에 있어서,상기 이미지 특징 추출부는,Faster R-CNN 모델을 이용하여, 입력된 이미지 내에서 객체 인식을 할 후보 영역을 직사각형 형태로 정해진 개수만큼 추출하고, 각 영역의 특징 벡터를 추출하는 것을 특징으로 하는,시각적 질의응답 장치. |
| 3 | 제1항에 있어서,상기 질문 문장 특징 추출부는,워드 임베딩과 RNN 모델을 이용하여, 입력받은 질문 문장의 특징 벡터를 추출하는 것을 특징으로 하는,시각적 질의응답 장치. |
| 4 | 제1항에 있어서,상기 제1통합 벡터 생성부는,상기 질문의 특징 벡터를 이용하여 이미지 각 영역에 대한 주의 가중치 값을 계산하여 질문의 특징 벡터와 이미지의 특징 벡터를 연결시키고, 이를 질문의 특징 벡터와 통합시켜 제1통합 벡터를 생성하는 것을 특징으로 하는,시각적 질의응답 장치. |
| 5 | 제1항에 있어서,상기 설명 문장 생성부는,LSTM(Long Short Term Memory) 구조의 RNN 모델을 이용하여, 상기 제1통합 벡터로부터 자연어 형태의 설명 문장을 생성하는 것을 특징으로 하는,시각적 질의응답 장치. |
| 6 | 제1항에 있어서,제2통합 벡터 생성부는,RNN 모델을 이용하여, 상기 설명 문장의 특징 벡터를 추출하는 것을 특징으로 하는,시각적 질의응답 장치. |
| 7 | 제1항에 있어서,상기 응답 예측 분류부는,상기 제2통합 벡터와 상기 제1통합 벡터를 기반으로 질문에 대한 응답을 예측하는 것을 특징으로 하는,시각적 질의응답 장치. |
| 8 | 제1항에 있어서,상기 시각적 질의응답 장치는,모든 데이터에 대해서는 상기 응답 예측 분류부에서의 손실을 이용하여 설명 문장 생성부까지 그라디언트 계산 및 학습을 진행하고,설명 문장 정답이 존재하는 데이터에 대해서는 상기 설명 문장 생성부 후단에 문장 생성을 위한 NLL(Negative Log-Likelihood))을 추가하여 그라디언트 학습을 진행하는 것을 특징으로 하는,시각적 질의응답 장치. |
| 9 | 프로세서에 의해 수행되는 시각적 질의응답 방법에 있어서,입력받은 이미지 내에서 객체 인식을 할 후보 영역(Region of Interest, ROI)을 직사각형 형태로 정해진 개수만큼 추출하고, 각 영역의 특징 벡터를 추출하는 이미지 특징 추출 단계;입력받은 질문 문장의 특징 벡터를 추출하는 질문 문장 특징 추출 단계;상기 이미지의 특징 벡터와 상기 질문의 특징 벡터를 통합시켜 제1통합 벡터를 생성하는 제1통합 벡터 생성 단계;상기 제1통합 벡터를 기반으로 설명 문장을 생성하는 설명 문장 생성 단계;상기 설명 문장의 특징 벡터를 추출하고, 이를 상기 제1통합 벡터와 통합시켜 제2통합 벡터를 생성하는 제2통합 벡터 생성 단계; 및상기 제2통합 벡터를 기반으로 질문에 대한 응답을 예측하는 응답 예측 단계;를 포함하는 것을 특징으로 하는,시각적 질의응답 방법. |
| 10 | 제9항에 있어서,상기 제1통합 벡터 생성 단계는,질문의 특징 벡터를 이용하여 이미지 각 영역에 대한 주의 가중치 값을 계산하여 질문의 특징 벡터와 이미지의 특징 벡터를 연결시키고, 이를 질문의 특징 벡터와 통합시켜 제1통합 벡터를 생성하는 단계인 것을 특징으로 하는,시각적 질의응답 방법. |
| 11 | 제9항에 있어서,제2통합 벡터 생성 단계는,상기 설명 문장 생성 단계에서 생성된 설명 문장에서 특징 벡터를 추출한 후, 이를 상기 제1통합 벡터 생성 단계에서 생성된 상기 제1통합 벡터와 통합시켜 제2통합 벡터를 생성하는 단계인 것을 특징으로 하는,시각적 질의응답 방법. |
| 12 | 제9항에 있어서,상기 응답 예측 단계는,상기 제2통합 벡터와 상기 제1통합 벡터를 기반으로 질문에 대한 응답을 예측하는 단계인 것을 특징으로 하는,시각적 질의응답 방법. |
| 13 | 제 9항 내지 제 12항 중 어느 하나의 항에 따른 시각적 질의응답 방법을 수행하기 위한, 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체. |