다중 목적 파레토 정책 집합 생성장치 및 생성방법
DEVICE AND METHOD FOR GENERATING Multi-Purpose Pareto Policy Set
특허 요약
다중 목적 파레토 정책 집합 생성장치 및 생성방법에 관한 것으로, 일 실시예에 따른 파레토 정책 집합 생성방법은 샘플 데이터셋을 수신받는 단계, 상기 샘플 데이터셋으로부터 모방정책 및 상기 모방정책의 보상함수를 생성하는 단계, 상기 모방정책 인근의 미리 결정된 위치에 타겟정책을 설정하는 단계, 상기 모방정책의 보상함수와 상기 타겟정책의 보상함수 사이의 거리에 기초하여 상기 타겟정책을 미세조정하는 단계 및 상기 모방정책 및 상기 미세조정된 타겟정책을 포함하는 파레토 정책 집합을 생성하는 단계를 포함할 수 있다.
청구항
번호청구항
4

제1항에 있어서,상기 모방정책은 제1모방정책 및 제2모방정책을 포함하고,상기 모방정책의 보상함수는 제1모방정책의 보상함수 및 제2모방정책의 보상함수를 포함하고,상기 타겟정책을 미세조정하는 단계는,상기 제2모방정책의 보상함수와 상기 타겟정책의 보상함수 사이의 거리에 기초하여 상기 타겟정책을 미세조정하는 것을 특징으로 하는파레토 정책 집합 생성방법.

5

제1항에 있어서,상기 모방정책은 제1모방정책 및 제2모방정책을 포함하고,상기 모방정책의 보상함수는 제1모방정책의 보상함수 및 제2모방정책의 보상함수를 포함하고,상기 타겟정책을 미세조정하는 단계는,상기 제1모방정책의 보상함수와 상기 제2모방정책의 사이의 거리에 기초하여 상기 타겟정책을 미세조정하는 것을 특징으로 하는파레토 정책 집합 생성방법.

6

제1항에 있어서,상기 타겟정책을 미세조정하는 단계는,상기 모방정책의 보상함수와 상기 타겟정책의 보상함수 사이의 거리 및 상기 모방정책의 보상함수 간의 거리에 기초하여 정규화항을 생성하고, 생성된 정규화항을 포함하는 보상함수 정규화식을 최대화하도록 학습하여 상기 타겟정책을 미세조정하는 것을 특징으로 하는파레토 정책 집합 생성방법.

7

제1항에 있어서,상기 타겟정책을 설정하는 단계는,상기 미리 결정된 위치는 상기 모방정책 사이에 연장된 미리 결정된 파레토 전선상에 위치하는 것을 특징으로 하는파레토 정책 집합 생성방법.

8

제1항에 있어서,상기 미세조정된 타겟정책의 보상함수 간의 거리가 미리 결정된 거리를 초과하는 경우, 상기 미세조정된 타겟정책을 상기 모방정책으로 업데이트하는 단계;를 더 포함하는 파레토 정책 집합 생성방법.

9

제1항에 있어서,상기 파레토 정책 집합을 생성하는 단계는,상기 미세조정된 타겟정책의 보상함수 간의 거리가 미리 결정된 거리 이하인 경우, 상기 파레토 정책 집합을 생성하는 것을 특징으로 하는 파레토 정책 집합 생성방법.

10

제1항에 있어서,상기 모방정책 및 상기 모방정책의 보상함수를 생성하는 단계 및 상기 타겟정책을 미세조정하는 단계는,역강화학습에 기초하여 수행되는 것을 특징으로 하는파레토 정책 집합 생성방법.

11

샘플 데이터셋을 수신받는 입출력 인터페이스; 및상기 샘플 데이터셋에 기초하여 파레토 정책 집합을 생성하는 프로세서;를 포함하고,상기 프로세서는 상기 샘플 데이터셋으로부터 모방정책 및 상기 모방정책의 보상함수를 생성하여, 상기 모방정책 인근의 미리 결정된 위치에 타겟정책을 설정하고, 상기 모방정책의 보상함수와 상기 타겟정책의 보상함수 사이의 거리에 기초하여 상기 타겟정책을 미세조정하고, 상기 모방정책 및 상기 미세조정된 타겟정책을 포함하는 파레토 정책 집합을 생성하는 것을 특징으로 하는파레토 정책 집합 생성장치.

12

제11항에 있어서,상기 프로세서는,상기 모방정책은 제1모방정책 및 제2모방정책을 포함하고,상기 모방정책의 보상함수는 제1모방정책의 보상함수 및 제2모방정책의 보상함수를 포함하고,상기 타겟정책을 미세조정하는 것은,상기 제1모방정책의 보상함수와 상기 타겟정책의 보상함수 사이의 거리에 기초하여 상기 타겟정책을 미세조정하는 것을 특징으로 하는파레토 정책 집합 생성장치.

13

제11항에 있어서,상기 프로세서는,상기 모방정책은 제1모방정책 및 제2모방정책을 포함하고,상기 모방정책의 보상함수는 제1모방정책의 보상함수 및 제2모방정책의 보상함수를 포함하고,상기 타겟정책을 미세조정하는 것은,상기 제2모방정책의 보상함수와 상기 타겟정책의 보상함수 사이의 거리에 기초하여 상기 타겟정책을 미세조정하는 것을 특징으로 하는파레토 정책 집합 생성장치.

14

제11항에 있어서,상기 프로세서는,상기 모방정책은 제1모방정책 및 제2모방정책을 포함하고,상기 모방정책의 보상함수는 제1모방정책의 보상함수 및 제2모방정책의 보상함수를 포함하고,상기 타겟정책을 미세조정하는 것은,상기 제1모방정책의 보상함수와 상기 제2모방정책의 사이의 거리에 기초하여 상기 타겟정책을 미세조정하는 것을 특징으로 하는파레토 정책 집합 생성장치.

15

제11항에 있어서,상기 프로세서는,상기 모방정책의 보상함수와 상기 타겟정책의 보상함수 사이의 거리 및 상기 모방정책의 보상함수 간의 거리에 기초하여 정규화항을 생성하고, 생성된 정규화항을 포함하는 보상함수 정규화식을 최대화하도록 학습하여 상기 타겟정책을 미세조정하는 것을 특징으로 하는파레토 정책 집합 생성장치.

16

제11항에 있어서,상기 프로세서는,상기 미리 결정된 위치는 상기 모방정책 사이에 연장된 미리 결정된 파레토 전선상에 위치하는 것을 특징으로 하는파레토 정책 집합 생성장치.

17

제11항에 있어서,상기 프로세서는,상기 미세조정된 타겟정책의 보상함수 간의 거리가 미리 결정된 거리를 초과하는 경우, 상기 미세조정된 타겟정책을 상기 모방정책으로 업데이트하는 것을 특징으로 하는파레토 정책 집합 생성장치.

18

제11항에 있어서,상기 프로세서는,파레토 정책 집합을 생성 시 상기 미세조정된 타겟정책의 보상함수 간의 거리가 미리 결정된 거리 이하인 경우, 상기 파레토 정책 집합을 생성하는 것을 특징으로 하는파레토 정책 집합 생성장치.

19

제11항에 있어서,상기 프로세서는,상기 모방정책 및 상기 모방정책의 보상함수를 생성하고 상기 타겟정책을 미세조정하는 경우, 역강화학습에 기초하여 수행되는 것을 특징으로 하는파레토 정책 집합 생성장치.

20

샘플 데이터셋을 수신받는 입출력 인터페이스; 및상기 샘플 데이터셋에 기초하여 파레토 정책 집합을 생성하는 프로세서;를 포함하고,상기 프로세서는 상기 샘플 데이터셋으로부터 모방정책 및 상기 모방정책의 보상함수를 생성하여, 상기 모방정책 인근의 미리 결정된 위치에 타겟정책을 설정하고, 상기 모방정책의 보상함수와 상기 타겟정책의 보상함수 사이의 거리에 기초하여 상기 타겟정책을 미세조정하고, 상기 모방정책 및 상기 미세조정된 타겟정책을 포함하는 파레토 정책 집합을 생성하는 것을 특징으로 하는파레토 정책 집합을 생성하는 중앙서버.

1

샘플 데이터셋을 수신받는 단계;상기 샘플 데이터셋으로부터 모방정책 및 상기 모방정책의 보상함수를 생성하는 단계;상기 모방정책 인근의 미리 결정된 위치에 타겟정책을 설정하는 단계;상기 모방정책의 보상함수와 상기 타겟정책의 보상함수 사이의 거리에 기초하여 상기 타겟정책을 미세조정하는 단계; 및상기 모방정책 및 상기 미세조정된 타겟정책을 포함하는 파레토 정책 집합을 생성하는 단계;을 포함하는 파레토 정책 집합 생성방법.

2

제1항에 있어서,상기 모방정책 및 상기 모방정책의 보상함수를 생성하는 단계는,상기 2개의 샘플 데이터셋 각각으로부터 상기 모방정책 2개 및 상기 모방정책의 보상함수를 2개를 생성하고,상기 타겟정책을 설정하는 단계는,상기 타갯정책 2개를 생성하는 것을 특징으로 하는파레토 정책 집합 생성방법.

3

제1항에 있어서,상기 모방정책은 제1모방정책 및 제2모방정책을 포함하고,상기 모방정책의 보상함수는 제1모방정책의 보상함수 및 제2모방정책의 보상함수를 포함하고,상기 타겟정책을 미세조정하는 단계는,상기 제1모방정책의 보상함수와 상기 타겟정책의 보상함수 사이의 거리에 기초하여 상기 타겟정책을 미세조정하는 것을 특징으로 하는파레토 정책 집합 생성방법.