유아 영감의 단계적 보상 전환을 적용한 강화학습 방법 및 이를 수행하는 강화학습 수행 장치
REINFORCEMENT LEARNING METHOD APPLYING TODDLER-INSPIRED SEQUENTIAL REWARD TRANSITION AND REINFORCEMENT LEARNING PERFORMING APPARATUS
특허 요약
본 명세서에 개시되는 실시예들은 강화학습 방법 및 강화학습 수행 장치에 관한 것으로, 일 실시예에 따른 강화학습 방법은 강화학습 수행 장치에 의해 수행되고, 강화학습의 대상이 되는 에이전트를 획득하는 단계 및 제1 보상으로 상기 에이전트의 강화학습을 진행하고, 소정 시점 이후 상기 제1 보상과 다른 밀도를 갖는 제2 보상으로 보상을 전환하여 상기 에이전트의 강화학습을 진행하는 단계를 포함한다.
청구항
번호청구항
1

강화학습 수행 장치에 의해 수행되는 강화학습 방법에 있어서,강화학습의 대상이 되는 에이전트 및 환경에 관한 정보를 획득하는 단계; 및제1 보상함수에 의해 결정되는 제1 보상으로 상기 에이전트의 강화학습을 진행하고, 소정 시점 이후 상기 제1 보상함수와는 다른 제2 보상함수에 의해 결정되고, 상기 제1 보상과 다른 밀도를 갖는 제2 보상으로 보상을 전환하여 상기 에이전트의 강화학습을 진행하는 단계를 포함하는, 강화학습 방법.

2

제1항에 있어서, 상기 제1 보상 및 제2 보상 중 어느 하나는 상기 에이전트의 목표의 도달 여부에 따라 제공되는 희소 보상이고, 다른 하나는 상기 에이전트의 목표에 도달 여부 및 목표와의 근접도에 따라 제공되는 고밀도 보상인, 강화학습 방법.

3

제2항에 있어서,상기 강화학습을 진행하는 단계는, 상기 희소 보상을 상기 제1보상으로 하여 강화학습을 진행하고, 소정 시점에 상기 고밀도 보상을 상기 제2 보상으로 전환하여 강화학습을 수행하는 단계를 포함하는, 강화학습 방법.

4

제2항에 있어서, 상기 강화학습을 진행하는 단계는,상기 에이전트의 현재 상태와 목표 사이의 L2 거리를 기초로 산출되는 밀도 보상 함수에 의해 상기 고밀도 보상을 결정하는 단계를 포함하는, 강화학습 방법.

5

강화학습 수행 장치에 있어서, 에이전트 생성 및 강화학습에 필요한 프로그램을 저장하는 메모리; 및강화학습의 대상이 되는 에이전트 및 환경에 관한 정보를 획득하고, 제1 보상함수에 의해 결정되는 제1 보상으로 상기 에이전트의 강화학습을 진행하고 소정 시점 이후 상기 제1 보상함수와는 다른 제2 보상함수에 의해 결정되고, 상기 제1 보상과 다른 밀도를 갖는 제2 보상으로 보상을 전환하여 상기 에이전트의 강화학습을 진행하는 제어부를 포함하는, 강화학습 수행 장치.

6

제5항에 있어서, 상기 제어부는,상기 에이전트의 목표의 도달 여부에 따라 제공되는 희소 보상 및 상기 에이전트의 목표에 도달 여부 및 목표와의 근접도에 따라 제공되는 고밀도 보상 중 어느 하나를 상기 제1 보상으로 결정하여 상기 강화학습을 수행하고, 소정 시점 이후 다른 하나를 상기 제2 보상으로 결정하여 상기 강화학습을 수행하는, 강화학습 수행 장치.

7

제6항에 있어서,상기 제어부는,상기 희소 보상을 상기 제1보상으로 하여 강화학습을 진행하고, 소정 시점에 상기 고밀도 보상을 상기 제2 보상으로 전환하여 강화학습을 수행하는, 강화학습 수행 장치.

8

제6항에 있어서, 상기 제어부는,상기 에이전트의 현재 상태와 목표 사이의 L2 거리를 기초로 산출되는 밀도 보상 함수를 이용하여 상기 고밀도 보상을 산출하는, 강화학습 수행 장치.

9

강화학습 수행 장치에 의해 수행되며, 제1항에 기재된 방법을 수행하는 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.

10

제1항에 기재된 방법을 수행하는 컴퓨터 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.