심층 강화학습을 활용한 미사일 유도 방법 및 장치, 및 상기 방법을 실행시키기 위하여 기록매체에 저장된 컴퓨터 프로그램
Method and apparatus for guiding the missile based on deep reinforcement learning, and computer program for the method
특허 요약
본 발명은 심층 강화학습을 활용한 미사일 유도 방법 및 장치, 및 상기 방법을 실행시키기 위하여 기록매체에 저장된 컴퓨터 프로그램을 위하여, 컴퓨팅 장치에 의해 수행되는 미사일 유도 방법에 있어서, 유도탄 및 탄도탄의 교전 기구학 환경을 마르코프 결정 과정(MDP)으로 모델링하는 단계, 학습된 인공 신경망을 이용하여 상기 마르코프 결정 과정의 복수의 파라미터에 대한 상기 유도탄 및 탄도탄의 관측값을 기초로 상기 유도탄에 대한 제어 명령을 생성하는 단계, 및 상기 제어 명령을 기초로 상기 유도탄을 유도하는 단계를 포함하는, 미사일 유도 방법을 제공한다.
청구항
번호청구항
1

컴퓨팅 장치에 의해 수행되는 미사일 유도 방법에 있어서,유도탄 및 탄도탄의 교전 기구학 환경을 마르코프 결정 과정(MDP)으로 모델링하는 단계;학습된 인공 신경망을 이용하여 상기 마르코프 결정 과정의 복수의 파라미터에 대한 상기 유도탄 및 탄도탄의 관측값을 기초로 상기 유도탄에 대한 제어 명령을 생성하는 단계; 및상기 제어 명령을 기초로 상기 유도탄을 유도하는 단계;를 포함하는, 미사일 유도 방법.

2

제1 항에 있어서,강화학습 알고리즘을 이용하여 상기 인공 신경망을 학습시키는 단계를 더 포함하고,상기 인공 신경망을 학습시키는 단계는, 상기 유도탄 및 탄도탄의 관측값을 획득하는 단계; 상기 인공 신경망이 생성한 상기 제어 명령을 획득하는 단계; 및 강화학습 알고리즘을 이용하여 상기 유도탄 및 탄도탄의 관측값, 및 상기 제어 명령을 기초로 상기 인공 신경망을 강화학습시키는 단계를 포함하는, 미사일 유도 방법.

3

제1 항에 있어서,상기 모델링하는 단계는, 상기 유도탄 및 상기 탄도탄의 2차원 또는 3차원 교전 기구학 환경을 마르코프 결정 과정(MDP)으로 모델링하는 단계를 포함하는, 미사일 유도 방법.

4

제1 항에 있어서,상기 제어 명령을 생성하는 단계는, 상기 유도탄 및 탄도탄의 관측값을 기초로 상기 유도탄에 대한 액션값을 생성하는 단계; 및상기 액션값에 2차원 환산계수 또는 3차원 환산계수를 곱하여 최종 가속도 명령을 생성하는 단계를 포함하는, 미사일 유도 방법.

5

제4 항에 있어서,상기 2차원 환산계수는 20g의 값을 갖고, 상기 3차원 환산계수는 40g의 값을 갖는, 미사일 유도 방법.

6

제4 항에 있어서,상기 관측값 및 상기 액션값은 각각 미리 정해진 범위의 값으로 정규화된 값을 갖는, 미사일 유도 방법.

7

제6 항에 있어서,상기 관측값은 - 내지 +의 범위를 갖고, 상기 액션값은 -1 내지 +1의 범위를 갖는, 미사일 유도 방법.

8

컴퓨팅 장치를 이용하여 제1 항 내지 제7 항 중 어느 한 항의 방법을 실행시키기 위하여 기록매체에 저장된 컴퓨터 프로그램.

9

프로세서;를 포함하고,상기 프로세서는, 유도탄 및 탄도탄의 교전 기구학 환경을 마르코프 결정 과정(MDP)으로 모델링하고, 학습된 인공 신경망을 이용하여 상기 마르코프 결정 과정의 복수의 파라미터에 대한 상기 유도탄 및 탄도탄의 관측값을 기초로 상기 유도탄에 대한 제어 명령을 생성하고, 상기 제어 명령을 기초로 상기 유도탄을 유도하는, 미사일 유도 장치.

10

제9 항에 있어서,상기 프로세서는, 상기 유도탄 및 탄도탄의 관측값을 획득하고, 상기 인공 신경망이 생성한 상기 제어 명령을 획득하고, 강화학습 알고리즘을 이용하여 상기 유도탄 및 탄도탄의 관측값, 및 상기 제어 명령을 기초로 상기 인공 신경망을 강화학습시키는, 미사일 유도 장치.

11

제9 항에 있어서,상기 프로세서는, 상기 유도탄 및 상기 탄도탄의 2차원 또는 3차원 교전 기구학 환경을 마르코프 결정 과정(MDP)으로 모델링하는, 미사일 유도 장치.

12

제9 항에 있어서,상기 프로세서는, 상기 유도탄 및 탄도탄의 관측값을 기초로 상기 유도탄에 대한 액션값을 생성하고, 상기 액션값에 2차원 환산계수 또는 3차원 환산계수를 곱하여 최종 가속도 명령을 생성하는, 미사일 유도 장치.

13

제12 항에 있어서,상기 2차원 환산계수는 20g의 값을 갖고, 상기 3차원 환산계수는 40g의 값을 갖는, 미사일 유도 장치.

14

제12 항에 있어서,상기 관측값 및 상기 액션값은 각각 미리 정해진 범위의 값으로 정규화된 값을 갖는, 미사일 유도 장치.

15

제14 항에 있어서,상기 관측값은 -내지 +의 범위를 갖고, 상기 액션값은 -1 내지 +1의 범위를 갖는, 미사일 유도 장치.