RnDcircle

번호	청구항
1	데이터 세트를 로드하는 로더 모듈;임의의 강화학습에 이용되도록 정의되는 복수의 행동 명령들이 마련되어, 상기 데이터 세트에 대한 강화학습에 이용되는 행동 명령을 특정하는 액션 모듈; 및상기 데이터 세트에서 상기 행동 명령이 적용되는 객체 및, 상기 행동 명령에 대응하여 보존되는 배경을 각각 정의하여 상기 강화학습 환경을 구현하는 환경 모듈을 포함하는, 강화학습 환경 구현 시스템.
2	제1 항에 있어서, 상기 로더 모듈은,상기 데이터 세트를 로드하여 상기 데이터 세트에 포함된 복수의 데이터들 중 어느 하나를 특정하고, 상기 특정된 데이터에 대한 상태를 정의하는, 강화학습 환경 구현 시스템.
3	제2 항에 있어서, 상기 특정된 어느 하나의 데이터는,미리 정해진 순서에 따라 연결된 한 쌍의 이미지인, 강화학습 환경 구현 시스템.
4	제1 항에 있어서, 상기 행동 명령은,상기 객체에 대한 색상 지정, 색상 채우기, 객체 이동, 객체 회전, 객체 반전, 객체 복사, 객체 붙여넣기, 격자 초기화, 격자 리사이즈, 격자 잘라내기 중 적어도 하나를 포함하는, 강화학습 환경 구현 시스템.
5	제1 항에 있어서, 상기 액션 모듈은,상기 데이터 세트를 기반으로 특정된 데이터에 대하여, 상기 강화학습을 수행하기 위한 상기 행동 명령 및, 상기 행동 명령이 적용되는 위치 데이터를 특정하는, 강화학습 환경 구현 시스템.
6	제5 항에 있어서, 상기 환경 모듈은,상기 데이터에 대하여, 상기 특정된 위치 데이터를 기반으로 상기 행동 명령이 적용되는 상기 객체를 특정하고, 상기 데이터에서 상기 객체를 제외한 영역을 상기 배경으로 특정하는, 강화학습 환경 구현 시스템.
7	제1 항에 있어서, 상기 환경 모듈은,상기 데이터 세트를 기반으로 특정된 데이터에 대하여 복수의 행동 명령들이 순차적으로 적용되는 경우, 최초의 행동 명령에 대응하여 특정된 배경이, 상기 최초의 행동 명령과 다른 하나 이상의 행동 명령에 대응하여 상속시키는, 강화학습 환경 구현 시스템.
8	제1 항에 있어서,상기 특정된 배경을 저장하고, 상기 배경에서, 상기 특정된 행동 명령에 따라, 상기 특정된 객체를 제어하여 상기 데이터 세트에 대한 새로운 상태를 생성하는 제어부를 더 포함하는, 강화학습 환경 구현 시스템.
9	강화학습 환경 구현 시스템을 이용한 강화학습 환경 구현 방법에 있어서,데이터 세트를 로드하는 단계;임의의 강화학습에 이용되도록 정의되는 복수의 행동 명령들 중, 상기 데이터 세트에 대한 강화학습에 이용되는 행동 명령을 특정하는 단계; 및상기 데이터 세트에서 상기 행동 명령이 적용되는 객체 및, 상기 행동 명령에 대응하여 보존되는 배경을 각각 정의하여 상기 강화학습 환경을 구현하는 단계를 포함하는, 강화학습 환경 구현 방법.
10	전자기기에서 하나 이상의 프로세스에 의하여 실행되며, 컴퓨터로 판독될 수 있는 기록매체에 저장된 프로그램으로서,상기 프로그램은,데이터 세트를 로드하는 단계;임의의 강화학습에 이용되도록 정의되는 복수의 행동 명령들 중, 상기 데이터 세트에 대한 강화학습에 이용되는 행동 명령을 특정하는 단계; 및상기 데이터 세트에서 상기 행동 명령이 적용되는 객체 및, 상기 행동 명령에 대응하여 보존되는 배경을 각각 정의하여 상기 강화학습 환경을 구현하는 단계를 수행하도록 하는 명령어들을 포함하는 것을 특징으로 하는 컴퓨터로 판독될 수 있는 기록매체에 저장된 프로그램.