RnDcircle

번호	청구항
1	강화학습 기반의 스케일링 액션을 이용하는 VNF 배치 업데이트 방법에 있어서,강화학습 환경이 ILP에 의해 결정된 VNF 배치를 교란하는 단계;강화학습 에이전트가 강화학습 환경으로부터 교란된 VNF 배치를 포함하는 상태데이터를 수신하는 단계;강화학습 에이전트가 강화학습 정책에 따라 모든 노드와 모든 VNF 타입에 대해 스케일링을 수행하는 단계; 및강화학습 에이전트가 스케일링 수행 결과를 포함하는 행동데이터를 강화학습 환경에 송신하는 단계를 포함하는 것을 특징으로 하는 강화학습 기반의 스케일링 액션을 이용하는 VNF 배치 업데이트 방법.
2	제1항에 있어서,상기 강화학습 환경이 강화학습 에이전트로부터 수신한 행동데이터에 의해 스케일된 VNF 배치에 따라 생성된 SFC 경로를 포함하는 보상데이터를 생성하는 단계; 및강화학습 환경이 생성된 보상데이터를 강화학습 에이전트에 송신하는 단계를 더 포함하는 것을 특징으로 하는 강화학습 기반의 스케일링 액션을 이용하는 VNF 배치 업데이트 방법.
3	제1항에 있어서,강화학습 에이전트가 강화학습 정책에 따라 모든 노드와 모든 VNF 타입에 대해 스케일링을 수행하는 단계는,인코더모듈이 GNN 기반의 인코더를 사용하여 네트워크 토폴로지, VNF 배치, 사용자 요청의 벡터값들을 계산하는 단계; 및인코더모듈이 인코딩된 벡터값들의 평균을 계산하여 한 개의 벡터 값으로 종합하는 단계를 포함하는 것을 특징으로 하는 강화학습 기반의 스케일링 액션을 이용하는 VNF 배치 업데이트 방법.
4	제3항에 있어서,종합한 벡터값을 이용하여 디코터모듈이 해당 노드의 모든 VNF 타입들에 대해 스케일링 액션에 해당하는 확률 값을 출력하는 단계; 및디코더모듈이 해당 확률 값을 기반으로 샘플링하여 스케일링 액션을 결정하는 단계를 포함하는 것을 특징으로 하는 강화학습 기반의 스케일링 액션을 이용하는 VNF 배치 업데이트 방법.
5	강화학습 기반의 스케일링 액션을 이용하는 VNF 배치 업데이트 시스템에 있어서,ILP에 의해 결정된 VNF 배치를 교란하고, 스케일된 VNF 배치에 따라 생성된 SFC 경로를 포함하는 보상데이터를 생성하고, 생성된 보상데이터를 강화학습 에이전트에 송신하는 강화학습 환경; 및상기 강화학습 환경으로부터 교란된 VNF 배치를 포함하는 상태데이터를 수신하고, 강화학습 정책에 따라 모든 노드와 모든 VNF 타입에 대해서 스케일링을 수행하며, 스케일링 수행 결과를 포함하는 행동데이터를 강화학습 환경에 송신하는 강화학습 에이전트를 포함하는 것을 특징으로 하는 강화학습 기반의 스케일링 액션을 이용하는 VNF 배치 시스템.