| 번호 | 청구항 |
|---|---|
| 1 | 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램으로서, 상기 컴퓨터 프로그램은 하나 이상의 프로세서에서 실행되는 경우 이미지의 깊이 추정을 위한 이하의 방법들을 수행하도록 하며, 상기 방법은, 컨벌루션 네트워크에서 이미지 데이터에 대한 하나 이상의 패치를 포함하는 피처 맵을 추출하는 단계; 선형 투영 네트워크에서 상기 피처 맵의 하나 이상의 패치의 순서를 결정하여 패치 배열을 생성하는 단계;트랜스포머 모듈에서 상기 패치 배열에 대한 인코더 피처를 생성하는 단계;어텐션 연결 모듈에서 상기 트랜스포머 모듈의 연산 결과인 상기 인코더 피처를 연산하여 채널 어텐션 정보 및 포지션 어텐션 정보를 생성하는 단계; 및디코더 모듈에서 상기 인코더 피처, 상기 채널 어텐션 정보 및 포지션 어텐션 정보에 적어도 부분적으로 기초하여 깊이 추정 맵을 생성하는 단계;를 포함하는, 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램. |
| 2 | 제 1 항에 있어서, 상기 이미지 데이터는 단안 카메라 이미지이며, 깊이 정보를 포함하지 않는, 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램. |
| 3 | 제 1 항에 있어서, 상기 피처 맵의 각각의 패치는 16*16 픽셀의 패치로 구성되는, 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램. |
| 4 | 제 1 항에 있어서, 상기 선형 투영 네트워크에서 상기 피처 맵의 하나 이상의 패치의 순서를 결정하여 패치 배열을 생성하는 단계는, 상기 패치의 순서를 결정하기 위한 토큰에 기초하여 수행되며, 상기 선형 투영 네트워크는 학습 가능한 신경망인, 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램. |
| 5 | 제 1 항에 있어서, 상기 트랜스포머 모듈은, 하나 이상의 트랜스포머 네트워크를 포함하며, 상기 인코더 피처는 각각의 트랜스포머 네트워크의 출력이고, 제 1 트랜스포머 네트워크의 출력은 제 2 트랜스포머 네트워크에 입력되는, 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램. |
| 6 | 제 5 항에 있어서, 상기 트랜스포머 모듈의 마지막 트랜스포머 네트워크의 출력은 잔차 블록(residual block)을 통해 상기 디코더 모듈에 전달되는, 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램. |
| 7 | 제 5 항에 있어서, 상기 트랜스포머 네트워크는, 각각 노말라이제이션 레이어(Normalization layer), 멀티 헤드 셀프 어텐션 레이어(Multi-head attention layer) 및 멀티 레이어 퍼셉트론 레이어(Multi-layer perceptron layer)를 포함하는, 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램. |
| 8 | 제 7 항에 있어서, 상기 멀티 헤드 셀프 어텐션 레이어는 하나 이상의 셀프 어텐션 블록을 포함하는, 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램. |
| 9 | 제 8 항에 있어서, 상기 셀프 어텐션 블록은, 쿼리, 키, 벨류의 벡터 표현에 대한 소프트맥스 함수의 연산을 출력하는, 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램. |
| 10 | 제 7 항에 있어서, 상기 트랜스포머 네트워크는, 상기 멀티 헤드 셀프 어텐션 레이어의 연산 결과에 대하여, 상기 연산 결과와 상기 연산 결과에 멀티 레이어 퍼셉트론 레이어를 적용한 출력을 합하여 최종 연산 결과를 출력하는, 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램. |
| 11 | 제 1 항에 있어서, 상기 채널 어텐션 정보는 상기 이미지 데이터의 로컬 디테일에 관한 정보를 포함하며, 그리고 상기 포지션 어텐션 정보는 상기 이미지 데이터의 공간 정보를 포함하는, 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램. |
| 12 | 제 1 항에 있어서, 상기 포지션 어텐션 정보는, 쿼리와 키의 전치 행렬에 대한 소프트맥스 연산과 벨류에 대한 곱연산으로 정의되는, 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램. |
| 13 | 제 1 항에 있어서, 상기 채널 어텐션 정보는, 상기 인코더 피처 및 상기 인코더 피처의 전치 행렬의 곱에 대한 소프트맥스 연산으로 정의되는, 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램. |
| 14 | 제 1 항에 있어서, 상기 디코더 모듈은, 트랜스 포머 모듈의 하나 이상의 트랜스포머 네트워크에 대응되는 하나 이상의 디코더 네트워크를 포함하는, 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램. |
| 15 | 제 14 항에 있어서, 상기 디코더 네트워크는, 이전 디코더 네트워크의 출력, 상기 채널 어텐션 정보, 상기 포지션 어텐션 정보 및 상기 트랜스포머 모듈의 대응되는 트랜스포머 네트워크의 인코더 피처를 입력 받아 출력을 생성하는, 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램. |
| 16 | 제 15 항에 있어서, 상기 디코더 네트워크는,이전 디코더 네트워크의 출력이 없는 경우, 이전 디코더 네트워크의 출력 대신 상기 트랜스 포머 모듈의 마지막 트랜스포머 네트워크의 출력에 대한 잔차 블록의 출력을 입력 받는, 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램. |
| 17 | 컴퓨터 장치의 하나 이상의 프로세서에서 수행되는 이미지의 깊이 추정을 위한 방법으로서, 컨벌루션 네트워크에서 이미지 데이터에 대한 하나 이상의 패치를 포함하는 피처 맵을 추출하는 단계;선형 투영 네트워크에서 상기 피처 맵의 하나 이상의 패치의 순서를 결정하여 패치 배열을 생성하는 단계;트랜스포머 모듈에서 상기 패치 배열에 대한 인코더 피처를 생성하는 단계;어텐션 연결 모듈에서 상기 트랜스포머 모듈의 연산 결과인 상기 인코더 피처를 연산하여 채널 어텐션 정보 및 포지션 어텐션 정보를 생성하는 단계; 및디코더 모듈에서 상기 인코더 피처, 상기 채널 어텐션 정보 및 포지션 어텐션 정보에 적어도 부분적으로 기초하여 깊이 추정 맵을 생성하는 단계;를 포함하는, 방법. |
| 18 | 컴퓨터 장치로서, 메모리 및 하나 이상의 프로세서; 를 포함하며, 상기 하나 이상의 프로세서는, 컨벌루션 네트워크에서 이미지 데이터에 대한 하나 이상의 패치를 포함하는 피처 맵을 추출하고, 선형 투영 네트워크에서 상기 피처 맵의 하나 이상의 패치의 순서를 결정하여 패치 배열을 생성하고, 트랜스포머 모듈에서 상기 패치 배열에 대한 인코더 피처를 생성하고,어텐션 연결 모듈에서 상기 트랜스포머 모듈의 연산 결과인 상기 인코더 피처를 연산하여 채널 어텐션 정보 및 포지션 어텐션 정보를 생성하고, 그리고디코더 모듈에서 상기 인코더 피처, 상기 채널 어텐션 정보 및 포지션 어텐션 정보에 적어도 부분적으로 기초하여 깊이 추정 맵을 생성하는, 컴퓨터 장치. |