【技術實現步驟摘要】
本專利技術涉及一種基于強化學習的星地協同網絡切片資源分配方法,屬于及無線通信。
技術介紹
1、網絡切片技術作為5g關鍵技術之一,能夠靈活部署和管理網絡資源,在一體化的物理網絡基礎上搭建多個不同需求的通信子網絡。網絡切片的控制編排大多采用智能算法,關注地面網絡資源、設備的分配方法,地面通信網絡資源豐富、吞吐量大,但服務覆蓋范圍有限且容易受到自然災害的影響,而近年來正在快速發展的低軌衛星星座能夠通過衛星網絡覆蓋廣域地區,衛星通信網絡覆蓋范圍廣,但傳輸時延隨衛星高度增加而增長,結合各通信方式的優點,星地融合網絡能夠適應通信領域的新需求與新發展快速增長,行業創新思維正努力打破傳統限制,為下一代通信網絡鑄造堅實基礎。
2、目前的網絡切片技術大多基于地面通信網絡,在地面基礎通信設施建設不完善的地區,仍然無法為該地區的用戶提供超高傳輸數據速率、低延時與高可靠的通信服務。
3、為了解決當前面臨的問題,公開號為“cn?116582855?b”的專利技術專利公開了一種一種基于深度強化學習的5g-tsn融合網絡切片管理方法及系統其方案具體如下:“以優化無線側基站的時頻資源使用效益為目標,采用預設的深度強化學習算法,基于基站側的可用時頻資源數,對各類型的切片請求進行準入控制及切片資源的分配;采用本專利技術的技術方案,可以在保證服務質量需求的情況下,進行多類型切片的資源管理,實現基站無線資源效益的最大化?!币陨犀F有技術能夠保證服務質量需求的情況下,實現了基站無線資源效益最大化。但是,該現有技術存在的問題是不能夠有效利用星地融合資源
技術實現思路
1、為了解決上述現有技術中存在的問題,本專利技術提出了一種基于強化學習的星地協同網絡切片資源分配方法,重點關注衛星通信的地面系統接入網核心,接入網對所接入的業務提供承載能力,實現業務的透明傳送,地面信關站將本地網絡數據中心與低軌衛星網絡連接起來,實現無線接入網與核心網的信息互通,用戶端通過地面信關站與通信衛星進行交互,通常用戶向地面信關站傳輸的數據流量較小而回程下行數據量較大。
2、本專利技術的技術方案如下:
3、本專利技術提供一種基于強化學習的星地協同網絡切片資源分配方法,包括如下步驟:
4、通過地面信關站將低軌衛星網絡與本地網絡數據中心進行連接,用戶端通過地面信關站與低軌衛星進行交互;
5、獲取用戶端提出的業務請求,根據業務請求獲取不同類型業務的資源需求特點,創建匹配業務類型的專屬切片;
6、將地面信關站節點對各業務請求進行資源分配的過程作為馬爾可夫決策過程,建立單地面信關站多切片資源分配過程模型;
7、針對各專屬切片的資源請求,構建考慮地面信關站總體頻譜資源利用率和用戶需求滿意度的系統總效用函數;以系統總效用函數的計算結果作為單地面信關站多切片資源分配過程模型的獎勵值;
8、構建深度強化學習模型,以單地面信關站多切片資源分配過程模型的狀態信息作為輸入,預測的資源分配策略作為輸出,并以最大化獎勵值為目標對深度強化學習模型進行訓練;
9、通過訓練好的深度強化學習模型預測當前狀態信息下的資源分配策略,基于該資源分配策略進行網絡切片資源分配。
10、作為優選,所述建立單地面信關站多切片資源分配過程模型的過程具體包括:
11、利用馬爾科夫過程<s,a,p,r>表示切片請求的準入決策過程;其中,s為狀態信息,a為動作空間,p為狀態轉移概率,r為獎勵函數;
12、其中,狀態信息包括單個時間周期內切片上的優先級、數據包請求數量、用戶數量;所述動作空間是智能體在當前周期內向環境做出的動作集合a={a1,a2,a3},其中an為該周期內分配給單個切片的帶寬,且滿足約束條件a1+a2+a3=w,w為地面信關站的可用頻譜資源;所述狀態轉移概率為采取動作后轉移到下一時間狀態的概率;所述獎勵函數的具體構建過程為:
13、在一個時間周期內,地面信關站的可用頻譜資源為w,切片集合為sep,n個網絡切片sn∈sep,地面信關站根據每個切片的用戶請求的數據包量dpn和優先級為每個切片分配帶寬wn;所述切片上的數據傳輸速率vn如下所示:
14、vn=wnlog2(1+snrn)
15、其中,snrn為用戶與地面信關站之間的信噪比;
16、地面信關站的總體頻譜資源利用率ru為:
17、
18、設置任一切片sn上單個數據包d的最終傳輸到達的最大時延為lmaxn,所需的最小數據傳輸率為rminn;在任一時間周期內,任一切片sn傳遞單個數據包到用戶的總時延為tn;若滿足以下條件則認為數據包的傳輸是成功的,具體條件如下所示:
19、tn≤lmaxn
20、vn≥rminn
21、任一切片sn中成功傳輸的數據包數量為具體公式如下:
22、
23、其中,單個數據包傳輸成功記d=1,若傳輸不成功記d=0;地面信關站從任一切片sn中傳遞的總數據包集合為
24、任一切片sn上的用戶需求滿意度satn為成功傳輸給用戶的數據包數量與數據包傳輸總量的比值:
25、
26、將每個切片滿意度進行加權和,各個切片的權重為αn,整個系統的用戶需求滿意度如下所示:
27、
28、系統總效用函數,具體如下所示:
29、e=βru+sat
30、其中,β為頻譜資源利用率的加權系數,并根據優先級設置;
31、以系統總效用函數作為獎勵函數r。
32、作為優選,所述以單地面信關站多切片資源分配過程模型的狀態信息作為輸入,預測的資源分配策略作為輸出,并以最大化獎勵值為目標對深度強化學習模型進行訓練的過程具體包括:
33、所述深度強化學習模型采用advantage?actor-critic算法,包括actor網絡和critic網絡;其中,actor網絡和critic網絡分別包括策略網絡和值函數網絡;
34、初始化actor網絡和critic網絡及參數,在每個切片配置時間周期t里,設置從i到t的時隙,初始化一個長度為t的空緩沖區;在第i個時隙中,獲取網絡切片請求狀態si;所述請求狀態si的狀態信息包括請求的優先級、數據包數量和用戶數量;將狀態信息放入緩沖區,在一個周期t內緩沖區的信息會構成狀態空間;
35、將當前狀態空間作為輸入;策略網絡計算動作的概率分布,根據概率分布選取執行動作,當前配置時間周期是否準入切片請求,準入后為不同優先級的切片分配效益最大化的地面信關站資源,其中低延遲切片的優先級最高,高速率切片其次,大連接網絡切片優先級最弱,為其分配不同時間周期內的剩余可用資源;值函數網絡根據當前狀態計算狀態價值,通過執行的動作獲取的價值與預期動作價值間的差值,并加上環境反饋的獎勵函數值,獲得該動作選取的優本文檔來自技高網...
【技術保護點】
1.一種基于強化學習的星地協同網絡切片資源分配方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的一種基于強化學習的星地協同網絡切片資源分配方法,其特征在于,所述建立單地面信關站多切片資源分配過程模型的過程具體包括:
3.根據權利要求1所述的一種基于強化學習的星地協同網絡切片資源分配方法,其特征在于,所述以單地面信關站多切片資源分配過程模型的狀態信息作為輸入,預測的資源分配策略作為輸出,并以最大化獎勵值為目標對深度強化學習模型進行訓練的過程具體包括:
4.根據權利要求3所述的一種基于強化學習的星地協同網絡切片資源分配方法,其特征在于,所述網絡狀態更新具體為:
5.一種基于強化學習的星地協同網絡切片資源分配系統,其特征在于,包括:
6.根據權利要求5所述的一種基于強化學習的星地協同網絡切片資源分配系統,其特征在于,所述建立單地面信關站多切片資源分配過程模型的過程具體包括:
7.根據權利要求5所述的一種基于強化學習的星地協同網絡切片資源分配系統,其特征在于,所述以單地面信關站多切片資源分配過程模型的狀態信息
8.根據權利要求7所述的一種基于強化學習的星地協同網絡切片資源分配系統,其特征在于,所述網絡狀態更新具體為:
9.一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現如權利要求1至4任一項所述的一種基于強化學習的星地協同網絡切片資源分配方法。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至4任一項所述的一種基于強化學習的星地協同網絡切片資源分配方法。
...【技術特征摘要】
1.一種基于強化學習的星地協同網絡切片資源分配方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的一種基于強化學習的星地協同網絡切片資源分配方法,其特征在于,所述建立單地面信關站多切片資源分配過程模型的過程具體包括:
3.根據權利要求1所述的一種基于強化學習的星地協同網絡切片資源分配方法,其特征在于,所述以單地面信關站多切片資源分配過程模型的狀態信息作為輸入,預測的資源分配策略作為輸出,并以最大化獎勵值為目標對深度強化學習模型進行訓練的過程具體包括:
4.根據權利要求3所述的一種基于強化學習的星地協同網絡切片資源分配方法,其特征在于,所述網絡狀態更新具體為:
5.一種基于強化學習的星地協同網絡切片資源分配系統,其特征在于,包括:
6.根據權利要求5所述的一種基于強化學習的星地協同網絡切片資源分配系統,其特征在于,所述建立單地面信關站多...
【專利技術屬性】
技術研發人員:朱廈,趙建偉,倪少峰,張春光,趙亞飛,張雨曼,龍強,
申請(專利權)人:國網思極位置服務有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。