목표 지향 강화학습을 위한 전자 장치
Electronic device for goal-based reinforcement learning
특허 요약
본 발명은 전자 장치를 개시한다. 상기 전자 장치는, 프로세서 및 상기 프로세서에 작동적으로(operatively) 연결된 메모리를 포함하고, 상기 메모리는, 실행되었을 때 상기 프로세서로 하여금 탐색 대상 공간의 넓이에 대응되고 복수의 노드를 포함하는 격자 그래프를 식별하고, 상기 복수의 노드에 포함되는 시작 노드 및 목표 노드를 식별하고, 상기 시작 노드로부터 상기 목표 노드에 이르는 제1 경로를 식별하고, 상기 제1 경로에 대한 시뮬레이션 결과를 식별하고, 상기 시뮬레이션 결과가 실패인 것에 기반하여, 상기 격자 그래프를 수정한 수정 격자 그래프를 식별하는 인스트럭션들(instructions)을 저장하고, 상기 격자 그래프는, 상기 제1 경로에 포함되는 실패 노드를 포함한다.
청구항
번호청구항
7

제1 항에 있어서, 상기 인스트럭션들은, 상기 프로세서가,상기 시뮬레이션 결과가 실패인 것에 기반하여, 상기 수정 격자 그래프를 기초로 상기 시작 노드로부터 상기 목표 노드에 이르는 제2 경로를 식별하고,상기 제2 경로에 대한 시뮬레이션 결과를 식별하도록 하는전자 장치.

1

목표 지향 강화학습을 위한 전자 장치에 있어서,프로세서; 및상기 프로세서에 작동적으로(operatively) 연결된 메모리를 포함하고,상기 메모리는, 실행되었을 때 상기 프로세서로 하여금:탐색 대상 공간의 넓이에 대응되고 복수의 노드를 포함하는 격자 그래프를 식별하고,상기 복수의 노드에 포함되는 시작 노드 및 목표 노드를 식별하고,상기 시작 노드로부터 상기 목표 노드에 이르는 제1 경로를 식별하고,상기 제1 경로에 대한 시뮬레이션 결과를 식별하고,상기 시뮬레이션 결과가 실패인 것에 기반하여, 상기 격자 그래프를 수정한 수정 격자 그래프를 식별하는 인스트럭션들(instructions)을 저장하고,상기 격자 그래프는, 상기 제1 경로에 포함되는 실패 노드를 포함하는 전자 장치.

2

제1 항에 있어서, 상기 인스트럭션들은, 상기 프로세서가,상기 시뮬레이션 결과가 실패인 것에 기반하여, 상기 제1 경로에 포함된 복수의 노드 중, 상기 시작 노드의 다음 순서인 노드를 상기 실패 노드로 식별하고, 상기 격자 그래프에서 상기 실패 노드를 제거하여 상기 수정 격자 그래프를 식별하도록 하는전자 장치.

3

제1 항에 있어서, 상기 인스트럭션들은, 상기 프로세서가,상기 시뮬레이션 결과가 실패인 것에 기반하여, 상기 제1 경로에 포함된 복수의 노드 중, 상기 시작 노드와 상기 시작 노드의 다음 순서인 제1 노드를 잇는 제1 에지를 식별하고,상기 제1 에지의 가중치를 조정하여 상기 수정 격자 그래프를 식별하도록 하는전자 장치.

4

제1 항에 있어서, 상기 인스트럭션들은, 상기 프로세서가,상기 실패 노드로 인해 상기 시작 노드로부터 상기 목표 노드에 이를 수 없는 것을 기초로, 상기 실패 노드로 식별된 상기 적어도 하나의 노드를 포함하는 상기 격자 그래프의 일부 영역의 격자의 조밀도를 조정하여 제1 조밀도 수정 격자 그래프를 식별하고,상기 제1 조밀도 수정 격자 그래프를 기초로, 상기 시작 노드로부터 상기 목표 노드에 이르는 다른 경로를 더 식별하도록 하는전자 장치.

5

제4 항에 있어서,상기 인스트럭션들은, 상기 프로세서가,상기 조밀도를 임계치까지 높인 것을 기초로, 상기 시작 노드와 상기 목표 노드 사이에 제1 구조가 존재함을 식별하도록 하는전자 장치.

6

제1 항에 있어서, 상기 인스트럭션들은, 상기 프로세서가,상기 시뮬레이션 결과가 성공인 것에 기반하여, 상기 제1 경로를 상기 시작 노드 및 상기 목표 노드에 대한 성공 경로로 식별하도록 하는전자 장치.

8

제7 항에 있어서, 상기 인스트럭션들은, 상기 프로세서가,상기 제2 경로에 대한 상기 시뮬레이션 결과가 성공인 것에 기반하여, 상기 제2 경로를 상기 시작 노드 및 상기 목표 노드에 대한 성공 경로로 식별하도록 하는전자 장치.

9

제8 항에 있어서, 상기 인스트럭션들은, 상기 프로세서가,상기 제1 경로, 상기 실패 노드 및 상기 성공 경로를 포함하는 학습 데이터를 식별하고,상기 학습 데이터를 이용하여 경로 생성에 관한 딥러닝 모델이 학습되도록 하는전자 장치.

10

제1 항에 있어서, 상기 인스트럭션들은, 상기 프로세서가,상기 탐색 대상 공간에 대한 지도가 제공되지 않은 상태에서 상기 시작 노드로부터 상기 목표 노드에 이르는 경로를 탐색하도록 하는전자 장치.

11

제1 항에 있어서, 상기 인스트럭션들은, 상기 프로세서가,상기 탐색 대상 공간 또는 상기 탐색 대상 공간에서, 이동 수단이 상기 제1 경로를 따라 이동하는 상기 제1 경로에 대한 시뮬레이션이 수행된, 상기 시뮬레이션 결과를 식별하고,상기 이동 수단이 상기 제1 경로를 따라 상기 시작 노드에서 상기 목표 노드에 이르지 못한 것을 기초로, 상기 시뮬레이션 결과를 실패인 것으로 식별하도록 하는전자 장치.

12

목표 지향 강화학습을 위한 전자 장치에 있어서,프로세서; 및상기 프로세서에 작동적으로(operatively) 연결된 메모리를 포함하고,상기 메모리는, 실행되었을 때 상기 프로세서로 하여금:탐색 대상 공간의 넓이에 대응되고 복수의 노드를 포함하는 격자 그래프를 식별하고,상기 복수의 노드에 포함되는 시작 노드 및 목표 노드를 식별하고,상기 시작 노드로부터 상기 목표 노드에 이르는 적어도 하나의 경로를 식별하고,상기 적어도 하나의 경로 각각에 대한 시뮬레이션 결과를 식별하고,상기 적어도 하나의 경로 각각에 대한 상기 시뮬레이션 결과가 실패인 것에 기반하여, 상기 적어도 하나의 경로에 포함된 적어도 하나의 노드를 실패 노드로 식별하고,상기 실패 노드로 인해 상기 시작 노드로부터 상기 목표 노드에 이를 수 없는 것을 기초로, 상기 실패 노드로 식별된 상기 적어도 하나의 노드를 포함하는 일부 영역의 격자의 조밀도를 조정하여 제1 조밀도 수정 격자 그래프를 식별하고,상기 제1 조밀도 수정 격자 그래프를 기초로, 상기 시작 노드로부터 상기 목표 노드에 이르는 다른 경로를 더 식별하도록 하는 인스트럭션들(instructions)을 저장하는전자 장치.

13

제12 항에 있어서, 상기 인스트럭션들은, 상기 프로세서가,상기 시뮬레이션 결과가 실패인 것에 기반하여, 상기 적어도 하나의 경로 중 제1 경로에 포함된 복수의 노드 중, 상기 시작 노드의 다음 순서인 노드를 상기 실패 노드로 식별하고, 상기 격자 그래프에서 상기 실패 노드를 제거하여 상기 수정 격자 그래프를 식별하도록 하고,상기 수정 격자 그래프를 기초로, 상기 제1 조밀도 수정 격자 그래프를 식별하도록 하는전자 장치.

14

제12 항에 있어서, 상기 인스트럭션들은, 상기 프로세서가,상기 시뮬레이션 결과가 실패인 것에 기반하여, 상기 적어도 하나의 경로 중 제1 경로에 포함된 복수의 노드 중, 상기 시작 노드와 상기 시작 노드의 다음 순서인 제1 노드를 잇는 제1 에지를 식별하고,상기 제1 에지의 가중치를 조정하여 상기 수정 격자 그래프를 식별하도록 하고,상기 수정 격자 그래프를 기초로, 상기 제1 조밀도 수정 격자 그래프를 식별하도록 하는전자 장치.

15

제12 항에 있어서, 상기 인스트럭션들은, 상기 프로세서가,상기 시뮬레이션 결과가 성공인 것에 기반하여, 상기 제1 경로를 상기 시작 노드 및 상기 목표 노드에 대한 성공 경로로 식별하도록 하는전자 장치.

16

제12 항에 있어서, 상기 인스트럭션들은, 상기 프로세서가,상기 적어도 하나의 경로, 상기 실패 노드 및 상기 다른 경로 중 상기 시작 노드로부터 상기 목표 노드에 이르는 성공 경로를 포함하는 학습 데이터를 식별하고,상기 학습 데이터를 이용하여 경로 생성에 관한 딥러닝 모델이 학습되도록 하는전자 장치.

17

제12 항에 있어서, 상기 인스트럭션들은, 상기 프로세서가,상기 조밀도를 임계치까지 높인 것을 기초로, 상기 시작 노드와 상기 목표 노드 사이에 제1 구조가 존재함을 식별하도록 하는전자 장치.

18

제12 항에 있어서, 상기 인스트럭션들은, 상기 프로세서가,상기 탐색 대상 공간에 대한 지도가 제공되지 않은 상태에서 상기 시작 노드로부터 상기 목표 노드에 이르는 경로를 탐색하도록 하는전자 장치.