| 번호 | 청구항 |
|---|---|
| 1 | 복수의 오브젝트들을 포함하는 이미지를 수신하는 단계;상기 복수의 오브젝트들 중에서 특정 오브젝트에 대하여 설명하는 텍스트를 수신하는 단계;상기 이미지로부터 글로벌 이미지 피처와 로컬 이미지 피처를 각각 추출하고, 상기 글로벌 이미지 피처와 로컬 이미지 피처를 합산하여 글로벌-로컬 이미지 피처를 생성하는 단계;상기 텍스로부터 텍스트 인코더를 이용하여 글로벌 텍스트 피처와 로컬 텍스트 피처를 각각 추출하고, 상기 글로벌 텍스트 피처와 로컬 텍스트 피처를 합산하여 글로벌-로컬 텍스트 피처를 생성하는 단계; 및상기 글로벌-로컬 이미지 피처와 글로벌-로컬 텍스트 피처의 유사성을 이용하여, 상기 이미지에서 상기 특정 오브젝트에 대한 마스크를 예측하는 단계를 포함하는 참조 이미지 세그멘테이션 방법. |
| 2 | 제1항에 있어서,상기 글로벌 이미지 피처는,마스크 제너레이터를 이용해서 상기 이미지에서 인스턴스 마스크들을 추출하고, 인코더를 통하여 상기 이미지에서 이미지 피처를 추출하며, 상기 이미지 피처에 상기 인스턴스 마스크들을 마스킹하여 생성되는 것을 특징으로 하는 참조 이미지 세그멘테이션 방법. |
| 3 | 제1항에 있어서,상기 로컬 이미지 피처는,상기 이미지에서 타겟 부분의 주변을 마스킹하여 마스킹된 이미지를 생성하고, 상기 마스킹된 이미지를 이미지 인코더에 전송하여 상기 타겟 부분의 클래스 정보를 가지도록 생성되는 것을 특징으로 하는 참조 이미지 세그멘테이션 방법. |
| 4 | 제3항에 있어서,상기 마스킹된 이미지는 복수의 이미지로 클롭핑되어 상기 이미지 인코더로 전송되는 것을 특징으로 하는 참조 이미지 세그멘테이션 방법. |
| 5 | 제3항에 있어서,상기 텍스트 인코더와 상기 이미지 인코더는 기 학습된 인공지능 모델의 인코더를 이용하여 구축되는 것을 특징으로 하는 참조 이미지 세그멘테이션 방법. |
| 6 | 제1항에 있어서,상기 텍스트는 상기 특정 오브젝트에 해당하는 단어와, 상기 특정 오브젝트를 수식하는 단어를 포함하는 문장으로 이루어지는 것을 특징으로 참조 이미지 세그멘테이션 방법. |
| 7 | 제6항에 있어서,상기 단어와 문장을 상기 텍스트 인코더에 각각 전송하여, 상기 글로벌 텍스트 피처와 로컬 텍스트 피처를 각각 추출하는 것을 특징으로 하는 참조 이미지 세그멘테이션 방법. |
| 8 | 제7항에 있어서,상기 단어는 상기 문장에서 추출되어 상기 텍스트 인코더로 전송되는 것을 특징으로 하는 참조 이미지 세그멘테이션 방법. |
| 9 | 이미지 및 텍스트를 수신하는 수신부; 및상기 이미지에서 상기 텍스트에서 설명하는 특정 오브젝트에 대한 마스크를 예측하는 제어부를 포함하고,상기 제어부는,상기 이미지로부터 글로벌 이미지 피처와 로컬 이미지 피처를 각각 추출하고, 상기 글로벌 이미지 피처와 로컬 이미지 피처를 합산하여 글로벌-로컬 이미지 피처를 생성하고,상기 텍스로부터 텍스트 인코더를 이용하여 글로벌 텍스트 피처와 로컬 텍스트 피처를 각각 추출하고, 상기 글로벌 텍스트 피처와 로컬 텍스트 피처를 합산하여 글로벌-로컬 텍스트 피처를 생성하고,상기 글로벌-로컬 이미지 피처와 글로벌-로컬 텍스트 피처의 유사성을 이용하여, 상기 이미지에서 상기 특정 오브젝트에 대한 상기 마스크를 예측하는 것을 특징으로 하는 참조 이미지 세그멘테이션 장치. |
| 10 | 전자기기에서 하나 이상의 프로세스에 의하여 실행되며, 컴퓨터로 판독될 수 있는 기록매체에 저장 가능한 프로그램으로서, 상기 프로그램은,복수의 오브젝트들을 포함하는 이미지를 수신하는 단계;상기 복수의 오브젝트들 중에서 특정 오브젝트에 대하여 설명하는 텍스트를 수신하는 단계;상기 이미지로부터 글로벌 이미지 피처와 로컬 이미지 피처를 각각 추출하고, 상기 글로벌 이미지 피처와 로컬 이미지 피처를 합산하여 글로벌-로컬 이미지 피처를 생성하는 단계;상기 텍스로부터 텍스트 인코더를 이용하여 글로벌 텍스트 피처와 로컬 텍스트 피처를 각각 추출하고, 상기 글로벌 텍스트 피처와 로컬 텍스트 피처를 합산하여 글로벌-로컬 텍스트 피처를 생성하는 단계; 및상기 글로벌-로컬 이미지 피처와 글로벌-로컬 텍스트 피처의 유사성을 이용하여, 상기 이미지에서 상기 특정 오브젝트에 대한 마스크를 예측하는 단계;를 수행하는 특징으로 하는 컴퓨터로 판독될 수 있는 기록매체에 저장 가능한 프로그램. |