| 번호 | 청구항 |
|---|---|
| 1 | 적어도 하나의 컴퓨팅 장치, 및 적어도 하나의 컴퓨팅 장치에 의해 실행 시 입력 이미지로부터 휴먼 파싱 정보를 포함하는 출력 이미지를 제공하는 인공지능 네트워크를 구현하게 하는 명령을 저장하는 적어도 하나의 기록장치를 포함하는 컴퓨팅 시스템으로서, 상기 인공지능 네트워크는,입력 이미지에 대한 순차적인 다운 샘플링을 통해 복수의 특징 맵을 추출하는 인코더;추출된 복수의 특징 맵 중 어느 하나에 대한 풀링(pooling) 연산을 기초로 신규 특징 맵을 획득하는 풀링 모듈; 및인핸서(enhancer)를 포함하고,상기 인핸서는,레이어로 연결된 복수의 CSEM(Channel and Spatial Enhancing Module)을 포함하고,상기 복수의 CSEM 각각은,상기 복수의 특징 맵 중 어느 하나에 대응하는 제1 입력과, 상기 풀링 모듈 또는 이전 레이어의 CSEM으로부터 제공되는 신규 특징 맵에 대응하는 제2 입력을 이용하여, 의미론적 정보 및 공간적 세부 정보를 보강(enhancement)한 신규 특징 맵을 출력하도록 구성되는,컴퓨팅 시스템. |
| 13 | 제8항에 있어서,상기 풀링 모듈은,입력된 특징 맵에 대한 풀링 연산을 수행하는 풀링 블록; 및상기 풀링 블록의 풀링 연산 결과와, 상기 입력된 특징 맵을 이용하여, 의미론적 정보 및 공간적 세부 정보를 보강한 신규 특징 맵을 생성하는 CSEM을 포함하는,적어도 하나의 비일시적 컴퓨터 저장 매체. |
| 2 | 제1항에 있어서, 상기 복수의 CSEM 각각은,상기 제1 입력 및 제2 입력 간의 의미론적 차이(semantic difference)를 감소시키기 위한 연산들을 수행하는 CEM(Channel Enhancing Module);상기 CEM으로부터 출력된 제1 입력과 제2 입력 간의 정렬을 위한 연산들을 수행하는 FAM(Feature Alignment Module); 및상기 FAM에 의해 정렬된 제1 입력 및 제2 입력 간의 공간적 차이를 감소시키고, 제1 입력과 제2 입력을 결합함으로써 의미론적 정보 및 공간적 세부 정보를 보강한 신규 특징 맵을 생성하는 연산들을 수행하는 SEM(Spatial Enhancing Module)을 포함하는,컴퓨팅 시스템. |
| 3 | 제2항에 있어서, 상기 CEM은,상기 제1 입력 및 상기 제2 입력 각각의 전역 평균 풀링(global average pooling)을 통해, 상기 제1 입력에 대응하는 제1 채널 디스크립터 및 상기 제2 입력에 대응하는 제2 채널 디스크립터를 생성하고,상기 제1 채널 디스크립터 및 제2 채널 디스크립터 각각의 정규화된 텐서 간의 차이를 산출함으로써 상기 의미론적 차이를 획득하고,상기 획득된 의미론적 차이로부터 획득된 가중치에 기초하여, 상기 제1 입력과 상기 제2 입력 간의 의미론적 갭을 감소시키는 연산들을 수행하는,컴퓨팅 시스템. |
| 4 | 제2항에 있어서, 상기 FAM은,상기 CEM으로부터 제공된 제1 입력의 해상도가 상기 제2 입력의 해상도와 동일해지도록 업샘플링하고,업샘플링된 제1 입력과 상기 제2 입력 간의 공간적 오정렬(spatial misalignment)을 나타내는 오프셋 필드들을 획득하고,획득된 오프셋 필드들 각각을 상기 제1 입력과 제2 입력 중 대응하는 입력에 적용함으로써, 공간 정렬된 제1 입력과 제2 입력을 획득하는,컴퓨팅 시스템. |
| 5 | 제2항에 있어서, 상기 SEM은,상기 FAM으로부터 제공된 제1 입력과 제2 입력 간의 요소별 차연산에 기초하여 공간적 차이를 나타내는 가중치를 획득하고,획득된 가중치에 기초하여, 상기 제1 입력과 상기 제2 입력 간의 공간적 갭을 감소시키기 위한 연산을 수행하고,공간적 갭이 감소된 제1 입력과 제2 입력을 합산하여 신규 특징 맵을 생성하는,컴퓨팅 시스템. |
| 6 | 제1항에 있어서,상기 풀링 모듈은,입력된 특징 맵에 대한 풀링 연산을 수행하는 풀링 블록; 및상기 풀링 블록의 풀링 연산 결과와, 상기 입력된 특징 맵을 이용하여, 의미론적 정보 및 공간적 세부 정보를 보강한 신규 특징 맵을 생성하는 CSEM을 포함하는,컴퓨팅 시스템. |
| 7 | 제1항에 있어서,상기 인공지능 네트워크는,상기 복수의 CSEM 중 마지막 레이어로부터 제공되는 신규 특징 맵으로부터 휴먼 파싱 정보를 예측하는 예측기를 더 포함하는,컴퓨팅 시스템. |
| 8 | 적어도 하나의 컴퓨팅 장치에 의해 실행 시, 입력 이미지로부터 휴먼 파싱 정보를 포함하는 출력 이미지를 제공하는 인공지능 네트워크를 구현하게 하는 명령을 저장하는 적어도 하나의 비일시적 컴퓨터 저장 매체로서, 상기 인공지능 네트워크는,입력 이미지에 대한 순차적인 다운 샘플링을 통해 복수의 특징 맵을 추출하는 인코더;추출된 복수의 특징 맵 중 어느 하나에 대한 풀링(pooling) 연산을 기초로 신규 특징 맵을 획득하는 풀링 모듈; 및인핸서(enhancer)를 포함하고,상기 인핸서는,레이어로 연결된 복수의 CSEM(Channel and Spatial Enhancing Module)을 포함하고,상기 복수의 CSEM 각각은,상기 복수의 특징 맵 중 어느 하나에 대응하는 제1 입력과, 상기 풀링 모듈 또는 이전 레이어의 CSEM으로부터 제공되는 신규 특징 맵에 대응하는 제2 입력을 이용하여, 의미론적 정보 및 공간적 세부 정보를 보강(enhancement)한 신규 특징 맵을 출력하는,적어도 하나의 비일시적 컴퓨터 저장 매체. |
| 9 | 제8항에 있어서, 상기 복수의 CSEM 각각은,상기 제1 입력 및 제2 입력 간의 의미론적 차이(semantic difference)를 감소시키기 위한 연산들을 수행하는 CEM(Channel Enhancing Module);상기 CEM으로부터 출력된 제1 입력과 제2 입력 간의 정렬을 위한 연산들을 수행하는 FAM(Feature Alignment Module); 및상기 FAM에 의해 정렬된 제1 입력 및 제2 입력 간의 공간적 차이를 감소시키고, 제1 입력과 제2 입력을 결합함으로써 의미론적 정보 및 공간적 세부 정보를 보강한 신규 특징 맵을 생성하는 연산들을 수행하는 SEM(Spatial Enhancing Module)을 포함하는,적어도 하나의 비일시적 컴퓨터 저장 매체. |
| 10 | 제9항에 있어서, 상기 CEM은,상기 제1 입력 및 상기 제2 입력 각각의 전역 평균 풀링(global average pooling)을 통해, 상기 제1 입력에 대응하는 제1 채널 디스크립터 및 상기 제2 입력에 대응하는 제2 채널 디스크립터를 생성하고,상기 제1 채널 디스크립터 및 제2 채널 디스크립터 각각의 정규화된 텐서 간의 차이를 산출함으로써 상기 의미론적 차이를 획득하고,상기 획득된 의미론적 차이로부터 획득된 가중치에 기초하여, 상기 제1 입력과 상기 제2 입력 간의 의미론적 갭을 감소시키는 연산들을 수행하는,적어도 하나의 비일시적 컴퓨터 저장 매체. |
| 11 | 제9항에 있어서, 상기 FAM은,상기 CEM으로부터 제공된 제1 입력의 해상도가 상기 제2 입력의 해상도와 동일해지도록 업샘플링하고,업샘플링된 제1 입력과 상기 제2 입력 간의 공간적 오정렬(spatial misalignment)을 나타내는 오프셋 필드들을 획득하고,획득된 오프셋 필드들 각각을 상기 제1 입력과 제2 입력 중 대응하는 입력에 적용함으로써, 공간 정렬된 제1 입력과 제2 입력을 획득하는,적어도 하나의 비일시적 컴퓨터 저장 매체. |
| 12 | 제9항에 있어서, 상기 SEM은,상기 FAM으로부터 제공된 제1 입력과 제2 입력 간의 요소별 차연산에 기초하여 공간적 차이를 나타내는 가중치를 획득하고,획득된 가중치에 기초하여, 상기 제1 입력과 상기 제2 입력 간의 공간적 갭을 감소시키기 위한 연산을 수행하고,공간적 갭이 감소된 제1 입력과 제2 입력을 합산하여 신규 특징 맵을 생성하는,적어도 하나의 비일시적 컴퓨터 저장 매체. |
| 14 | 제8항에 있어서,상기 인공지능 네트워크는,상기 복수의 CSEM 중 마지막 레이어로부터 제공되는 신규 특징 맵으로부터 휴먼 파싱 정보를 예측하는 예측기를 더 포함하는,적어도 하나의 비일시적 컴퓨터 저장 매체. |