| 번호 | 청구항 |
|---|---|
| 1 | 인공지능을 이용하여 전자 장치에 의해 수행되는 방법에 있어서,입력 데이터를 수신하는 단계; 및사전 학습된 제1 인공지능 네트워크 모델을 통해 상기 입력 데이터를 입력 자료로 하여 상기 입력 데이터에 대한 객체 정보를 출력하는 단계를 포함하고,상기 사전 학습된 제1 인공지능 네트워크 모델은:이미지 데이터를 입력으로 하여 상기 제1 인공지능 네트워크 모델에서 출력된 출력 값이 상기 이미지 데이터를 입력으로 하여 학습된 제2 인공지능 네트워크 모델의 출력 값에 대하여 지식 증류 방식으로 사전 학습되는 방법. |
| 2 | 제1항에 있어서,상기 제2 인공지능 네트워크 모델이 상기 이미지 데이터를 입력으로 하여 출력 값을 생성하는 단계는:상기 이미지 데이터를 수신하는 단계; 상기 이미지 데이터를 기반으로 제1 포인트 뷰(point view: PV) 이미지 피쳐, 제1 깊이 정보 및 제1 레이더 측정값을 생성하는 단계;상기 생성된 제1 PV 이미지 피쳐, 제1 깊이 정보, 제1 레이더 측정 값을 기반으로 제1 결합된 컨텍스트를 생성하는 단계;상기 제1 결합된 컨텍스트에 대하여 버드 아이 뷰(bird's-eye view: BEV) 풀링(pooling)을 수행하여 제1 BEV 피쳐를 생성하는 단계;상기 제1 BEV 피쳐를 기반으로 멀티 모달 디포머블 크로스 어텐션(multi-modal deformable cross attention)을 수행하여 제1 결합된 피쳐를 생성하는 단계;상기 제1 결합된 피쳐를 오토 인코더의 인코더를 이용하여 제1 인코더 표현을 생성하는 단계; 및상기 제1 인코더 표현을 상기 오토 인코더의 디코더를 이용하여 제1 디코더 피쳐를 생성하는 단계를 포함하는 방법. |
| 3 | 제2항에 있어서,상기 제1 인공지능 네트워크 모델이 상기 이미지 데이터를 입력으로 하여 출력 값을 생성하는 단계는:상기 이미지 데이터를 수신하는 단계; 상기 이미지 데이터를 기반으로 제2 포인트 뷰 이미지 피쳐, 제2 깊이 정보, 및 제2 레이더 측정값을 생성하는 단계;상기 생성된 제2 PV 이미지 피쳐, 제2 깊이 정보, 및 제2 레이더 측정 값을 기반으로 제2 결합된 컨텍스트를 생성하는 단계;상기 제2 결합된 컨텍스트에 대하여 BEV 풀링을 수행하여 제2 BEV 피쳐를 생성하는 단계;상기 제2 BEV 피쳐를 상기 오토 인코더의 인코더를 이용하여 제2 인코더 표현을 생성하는 단계; 및상기 제2 인코더 표현을 상기 오토 인코더의 상기 디코더를 이용하여 제2 디코더 피쳐를 생성하는 단계를 포함하는 방법. |
| 4 | 제3항에 있어서,상기 제1 인공지능 네트워크 모델은:상기 제1 인코더 표현 및 상기 제2 인코더 표현 간의 제1 손실을 기반으로 지식 증류 방식을 통해 학습되는 방법. |
| 5 | 제3항에 있어서,상기 제1 인공지능 네트워크 모델은:상기 제1 디코더 피쳐 및 상기 제2 디코더 피쳐 간의 제2 손실을 기반으로 지식 증류 방식을 통해 학습되는 방법. |
| 6 | 제3항에 있어서,상기 제1 인공지능 네트워크 모델은:상기 제1 결합된 컨텍스트 및 상기 제2 결합된 컨텍스트 간의 제3 손실을 기반으로 지식 증류 방식을 통해 학습되는 방법. |
| 7 | 제4항 내지 제6항에 있어서,상기 제1 손실, 상기 제2 손실, 및 상기 제3 손실은 평균 제곱 오차(mean squared error: MSE) 손실을 포함하는 방법. |
| 8 | 제1항에 있어서,상기 이미지 데이터 및 상기 입력 데이터는 서라운드 이미지 데이터를 포함하고,상기 객체 정보는 상기 서라운드 이미지 데이터에 포함된 객체의 크기, 위치, 또는 방향에 대한 정보를 포함하는 방법. |
| 9 | 전자 장치에 있어서,메모리;모뎀; 및상기 모뎀 및 상기 메모리에 연결되는 적어도 하나의 제1 프로세서를 포함하고,상기 적어도 하나의 제1 프로세서는:입력 데이터를 수신하고,사전 학습된 제1 인공지능 네트워크 모델을 통해 상기 입력 데이터를 입력 자료로 하여 상기 입력 데이터에 대한 객체 정보를 출력하도록 구성되고,상기 사전 학습된 제1 인공지능 네트워크 모델은:이미지 데이터를 입력으로 하여 상기 제1 인공지능 네트워크 모델에서 출력된 출력 값이 상기 이미지 데이터를 입력으로 하여 학습된 제2 인공지능 네트워크 모델의 출력 값에 대하여 지식 증류 방식으로 사전 학습되는 전자 장치. |
| 10 | 제9항에 있어서,상기 제2 인공지능 네트워크 모델은 적어도 하나의 제2 프로세서를 포함하고,상기 적어도 하나의 제2 프로세서는 상기 이미지 데이터를 입력으로 하여 학습된 제2 인공지능 네트워크 모델의 출력 값을 생성하도록 구성되고,상기 제2 인공지능 네트워크 모델이 상기 이미지 데이터를 입력으로 하여 출력 값을 생성하는 단계는:상기 이미지 데이터를 수신하는 단계; 상기 이미지 데이터를 기반으로 제1 포인트 뷰(point view: PV) 이미지 피쳐, 제1 깊이 정보 및 제1 레이더 측정값을 생성하는 단계;상기 생성된 제1 PV 이미지 피쳐, 제1 깊이 정보, 제1 레이더 측정 값을 기반으로 제1 결합된 컨텍스트를 생성하는 단계;상기 제1 결합된 컨텍스트에 대하여 버드 아이 뷰(bird's-eye view: BEV) 풀링(pooling)을 수행하여 제1 BEV 피쳐를 생성하는 단계;상기 제1 BEV 피쳐를 기반으로 멀티 모달 디포머블 크로스 어텐션(multi-modal deformable cross attention)을 수행하여 제1 결합된 피쳐를 생성하는 단계;상기 제1 결합된 피쳐를 오토 인코더의 인코더를 이용하여 제1 인코더 표현을 생성하는 단계; 및상기 제1 인코더 표현을 상기 오토 인코더의 디코더를 이용하여 제1 디코더 피쳐를 생성하는 단계를 포함하는 전자 장치. |
| 11 | 제10항에 있어서,상기 적어도 하나의 제1 프로세서는 상기 이미지 데이터를 입력으로 하여 상기 제1 인공지능 네트워크 모델에서 출력된 출력 값을 생성하도록 구성되고,상기 제1 인공지능 네트워크 모델이 상기 이미지 데이터를 입력으로 하여 출력 값을 생성하는 단계는:상기 이미지 데이터를 수신하는 단계; 상기 이미지 데이터를 기반으로 제2 포인트 뷰 이미지 피쳐, 제2 깊이 정보, 및 제2 레이더 측정값을 생성하는 단계;상기 생성된 제2 PV 이미지 피쳐, 제2 깊이 정보, 및 제2 레이더 측정 값을 기반으로 제2 결합된 컨텍스트를 생성하는 단계;상기 제2 결합된 컨텍스트에 대하여 BEV 풀링을 수행하여 제2 BEV 피쳐를 생성하는 단계;상기 제2 BEV 피쳐를 상기 오토 인코더의 인코더를 이용하여 제2 인코더 표현을 생성하는 단계; 및상기 제2 인코더 표현을 상기 오토 인코더의 상기 디코더를 이용하여 제2 디코더 피쳐를 생성하는 단계를 포함하는 전자 장치. |
| 12 | 제11항에 있어서,상기 제1 인공지능 네트워크 모델은:상기 제1 인코더 표현 및 상기 제2 인코더 표현 간의 제1 손실을 기반으로 지식 증류 방식을 통해 학습되는 전자 장치. |
| 13 | 제11항에 있어서,상기 제1 인공지능 네트워크 모델은:상기 제1 디코더 피쳐 및 상기 제2 디코더 피쳐 간의 제2 손실을 기반으로 지식 증류 방식을 통해 학습되는 전자 장치. |
| 14 | 제11항에 있어서,상기 제1 인공지능 네트워크 모델은:상기 제1 결합된 컨텍스트 및 상기 제2 결합된 컨텍스트 간의 제3 손실을 기반으로 지식 증류 방식을 통해 학습되는 전자 장치. |
| 15 | 프로세서(processor)에 의해 실행 가능한 인공지능 알고리즘을 통해 객체 검출을 수행하기 위한 매체에 저장된 프로그램으로서,입력 데이터를 수신하는 단계; 및사전 학습된 제1 인공지능 네트워크 모델을 통해 상기 입력 데이터를 입력 자료로 하여 상기 입력 데이터에 대한 객체 정보를 출력하는 단계를 포함하고,상기 사전 학습된 제1 인공지능 네트워크 모델은:이미지 데이터를 입력으로 하여 상기 제1 인공지능 네트워크 모델에서 출력된 출력 값이 상기 이미지 데이터를 입력으로 하여 학습된 제2 인공지능 네트워크 모델의 출력 값에 대하여 지식 증류 방식으로 사전 학습되는 프로그램. |