3차원 객체 탐지 방법 및 그 장치
METHOD AND APPARATUS FOR 3D OBJECT DETECTION
특허 요약
아래의 개시는 객체 탐지 방법 및 장치에 관한 것으로, 이미지 백본(Image Backbone)을 이용하여, 카메라로부터 수신한 이미지들로부터 2차원 이미지 특징들을 추출하고, 도메인 일반화를 수행하는 뷰 트랜스포머를 이용하여, 2차원 이미지 특징들로부터 깊이 예측 정보가 반영된 3차원 특징 맵을 추출하고, BEV 인코더를 이용하여, 3차원 특징 맵에서 BEV 특징을 추출하고, 디텍션 헤드를 이용하여, BEV 특징에서 객체의 위치와 분류를 예측하는 동작을 포함할 수 있다.
청구항
번호청구항
1

이미지 백본(Image Backbone)을 이용하여, 카메라로부터 수신한 이미지들로부터 2차원 이미지 특징들을 추출하는 동작;도메인 일반화를 수행하는 뷰 트랜스포머를 이용하여, 상기 2차원 이미지 특징들로부터 깊이 예측 정보가 반영된 3차원 특징 맵을 추출하는 동작;BEV 인코더를 이용하여, 상기 3차원 특징 맵에서 BEV 특징을 추출하는 동작; 및디텍션 헤드를 이용하여, 상기 BEV 특징에서 객체의 위치와 분류를 예측하는 동작을 포함하는, 3차원 객체 탐지 방법.

2

제1항에 있어서,상기 3차원 특징 맵을 추출하는 동작은상기 2차원 이미지 특징들로부터 깊이를 예측하는 뎁스넷(DepthNet)을 이용하여 깊이를 예측하고, 상기 뎁스넷의 출력과 상기 2차원 이미지 특징들을 외적한 결과를 BEV Pool에 입력하여 3차원 특징 맵을 추출하는 동작;을 포함하는, 3차원 객체 탐지 방법.

3

제1항에 있어서,상기 뷰 트랜스포머는상기 카메라의 내/외부 파라미터 차이로 발생하는 깊이 및 위치 예측 오차를 최소화하는 상대 깊이 정규화 방법을 수행하는 , 3차원 객체 탐지 방법.

4

제3항에 있어서,상기 상대 깊이 정규화 방법은상기 카메라 및 상기 파라미터로부터 인접 카메라 간 기하하적 변환이 가능한 변형 행렬을 계산하는 방법인, 3차원 객체 탐지 방법.

5

제4항에 있어서,상기 상대 깊이 정규화 방법은상기 깊이 예측과 상기 변형 행렬을 이용하여, 해당하는 이미지 특징을 인접 이미지 특징으로 투영 후 상대 깊이를 획득하고, 깊이 손실 함수에 기초하여, 상대 깊이 손실을 최소화하는 방법인, 3차원 객체 탐지 방법.

6

제1항에 있어서,상기 뷰 트랜스포머는광학적 매칭 방법에 기초하여, 해당하는 이미지와 인접하는 이미지와의 정렬을 최적화하기 위하여 깊이 예측을 활용하는 광학적 매칭 방법을 수행하는, 3차원 객체 탐지 방법.

7

제1항에 있어서,상기 이미지 백본, 뷰 트랜스포머, 상기 BEV 인코더 및 상기 디텍션 헤드 중 적어도 하나는 도메인 적응 어댑터를 포함하는, 3차원 객체 탐지 방법.

8

제7항에 있어서,상기 어댑터는오퍼레이션 블록에 병렬로 부가되어 파라미터에대해 파인 튜닝이 수행되는, 3차원 객체 탐지 방법.

9

제7항에 있어서,상기 어댑터는상기 뷰 트랜스포머, 상기 BEV 인코더 및 상기 디텍션 헤드에 입력되는 특징들을 입력 받아 연산 후 합해지는 스킵 커넥션(skip connection)을 수행하여, 그래디언트가 업데이트되는, 3차원 객체 탐지 방법.

10

제1항에 있어서,디커플링 기반 이미지 깊이 추정의 일반화 방법을 수행하여, 상기 3차원 특징 맵을 증강하는 동작을 더 포함하는, 3차원 객체 탐지 방법.

11

인스트럭션들을 저장하는 메모리; 및하나 이상의 프로세서을 포함하고,상기 인스트럭션들은 상기 하나 이상의 프로세서에 의해 실행될 때, 전자 장치로 하여금,이미지 백본(Image Backbone)을 이용하여, 카메라로부터 수신한 이미지들로부터 2차원 이미지 특징들을 추출하고,뷰 트랜스포머를 이용하여, 상기 2차원 이미지 특징들로부터 깊이 예측 정보가 반영된 3차원 특징 맵을 추출하고,BEV 인코더를 이용하여, 상기 3차원 특징 맵에서 BEV 특징을 추출하고,디텍션 헤드를 이용하여, 상기 BEV 특징에서 객체의 위치와 분류를 예측하도록 하는, 전자 장치.

12

제11항에 있어서,상기 인스트럭션들은 상기 하나 이상의 프로세서에 의해 실행될 때, 전자 장치로 하여금,상기 2차원 이미지 특징들로부터 깊이를 예측하는 뎁스넷(DepthNet)을 이용하여 깊이를 예측하고, 상기 뎁스넷의 출력과 상기 2차원 이미지 특징들을 외적한 결과를 BEV Pool에 입력하여 3차원 특징 맵을 추출하도록 하는, 전자 장치.

13

제11항에 있어서,상기 뷰 트랜스포머는상기 카메라의 내/외부 파라미터 차이로 발생하는 깊이 및 위치 예측 오차를 최소화하는 상대 깊이 정규화 방법을 수행하는, 전자 장치.

14

제13항에 있어서,상기 상대 깊이 정규화 방법은상기 카메라 및 상기 파라미터로부터 인접 카메라 간 기하하적 변환이 가능한 변형 행렬을 계산하는 방법인, 전자 장치.

15

제14항에 있어서,상기 상대 깊이 정규화 방법은상기 깊이 예측과 상기 변형 행렬을 이용하여, 해당하는 이미지 특징을 인접 이미지 특징으로 투영 후 상대 깊이를 획득하고, 깊이 손실 함수에 기초하여, 상대 깊이 손실을 최소화하는 방법인, 전자 장치.

16

제11항에 있어서,상기 뷰 트랜스포머는광학적 매칭 방법에 기초하여, 해당하는 이미지와 인접하는 이미지와의 정렬을 최적화하기 위하여 깊이 예측을 활용하는 광학적 매칭 방법을 수행하는, 전자 장치.

17

제11항에 있어서,상기 이미지 백본, 뷰 트랜스포머, 상기 BEV 인코더 및 상기 디텍션 헤드 중 적어도 하나는 도메인 적응 어댑터를 포함하는, 전자 장치.

18

제17항에 있어서,상기 어댑터는오퍼레이션 블록에 병렬로 부가되어 파라미터에대해 파인 튜닝이 수행되는, 전자 장치.

19

제17항에 있어서,상기 어댑터는상기 뷰 트랜스포머, 상기 BEV 인코더 및 상기 디텍션 헤드에 입력되는 특징들을 입력 받아 연산 후 합해지는 스킵 커넥션(skip connection)을 수행하여, 그래디언트가 업데이트되는, 전자 장치.

20

제11항에 있어서,상기 인스트럭션들은 상기 하나 이상의 프로세서에 의해 실행될 때, 전자 장치로 하여금,디커플링 기반 이미지 깊이 추정의 일반화 방법을 수행하여, 상기 3차원 특징 맵을 증강하도록 하는, 전자 장치.