파라메트릭 보상 강화학습을 활용한 네트워크 관리에서의 동적 서브모듈 학습 방법 및 시스템
Method and System for Training Dynamic Sub-Modules for Network Management based on Reinforcement Learning with Parametric Reward
특허 요약
파라메트릭 보상 강화학습을 활용한 네트워크 관리에서의 동적 서브모듈 학습 방법에 있어서, 오케스트레이터가 보상함수 매개변수를 샘플링하는 단계와, 오케스트레이터가 샘플링한 보상함수 매개변수를 서브모듈에 제공하는 단계와, 서브모듈이 오케스트레이터로부터 보상함수 매개변수를 수신하여 보상함수 매개변수를 학습모델에 입력하는 단계 및 서브모듈이 학습모델을 통해 보상함수를 최적화하도록 학습하는 단계를 포함한다.
청구항
번호청구항
1

파라메트릭 보상 강화학습을 활용한 네트워크 관리에서의 동적 서브모듈 학습 방법에 있어서,오케스트레이터가 보상함수 매개변수를 샘플링하는 단계;오케스트레이터가 샘플링한 보상함수 매개변수를 서브모듈에 제공하는 단계;서브모듈이 오케스트레이터로부터 보상함수 매개변수를 수신하여 보상함수 매개변수를 학습모델에 입력하는 단계; 및서브모듈이 학습모델을 통해 보상함수를 최적화하도록 학습하는 단계를 포함하고,상기 서브모듈은 SFC 서브모듈, Auto-Scaling 서브모듈, VNF 배치 서브모듈, 전력관리 서브모듈 중 적어도 하나이고,상기 서브모듈이 Auto-Scaling 서브모듈이면,보상함수는 아래 식에 의해서 계산되는 파라메트릭 보상 강화학습을 활용한 네트워크 관리에서의 동적 서브모듈 학습 방법.(α는 서브모듈 매개변수)

2

제1항에 있어서,상기 오케스트레이터는 쉘로우 네트워크(shallow network)를 이용하여 보상함수 매개변수를 서브모듈에 제공하는 것을 특징으로 하는 파라메트릭 보상 강화학습을 활용한 네트워크 관리에서의 동적 서브모듈 학습 방법.

3

제1항에 있어서,상기 서브모듈은 보상함수 매개변수에 의해 동적으로 행동양식을 변경하는 동적 서브모듈을 학습하는 것을 특징으로 하는 파라메트릭 보상 강화학습을 활용한 네트워크 관리에서의 동적 서브모듈 학습 방법.

4

삭제

5

삭제

6

제1항에 있어서,상기 서브모듈이 SFC 서브모듈이면,보상함수는 아래 식에 의해서 계산되는 파라메트릭 보상 강화학습을 활용한 네트워크 관리에서의 동적 서브모듈 학습 방법.(β는 서브모듈 매개변수)

7

제1항에 있어서,상기 서브모듈이 전력관리 서브모듈이면,보상함수는 아래 식에 의해서 계산되는 파라메트릭 보상 강화학습을 활용한 네트워크 관리에서의 동적 서브모듈 학습 방법.(γ는 서브모듈 매개변수)

8

보상함수 매개변수를 샘플링하고, 샘플링한 보상함수 매개변수를 서브모듈에 제공하는 오케스트레이터; 및오케스트레이터로부터 보상함수 매개변수를 수신하고, 수신한 보상함수 매개변수를 학습모델에 입력하고, 학습모델을 통해 보상함수를 최적화하도록 학습하는 서브모듈로 구성되고,상기 오케스트레이터는 쉘로우 네트워크(shallow network)를 이용하여 보상함수 매개변수를 서브모듈에 제공하고,상기 서브모듈은 보상함수 매개변수에 의해 동적으로 행동양식을 변경하는 동적 서브모듈을 학습하고,상기 서브모듈은 SFC 서브모듈, Auto-Scaling 서브모듈, VNF 배치 서브모듈, 전력관리 서브모듈 중 적어도 하나이고,상기 서브모듈이 Auto-Scaling 서브모듈이면,보상함수는 아래 식에 의해서 계산되는 파라메트릭 보상 강화학습을 활용한 네트워크 관리에서의 동적 서브모듈 학습 시스템.(α는 서브모듈 매개변수)