一種基于改進(jìn)SAC的多域聯(lián)合抗干擾決策方法技術(shù)

技術(shù)編號：44261010 閱讀：13 留言：0更新日期：2025-02-14 22:06

本發(fā)明專利技術(shù)請求保護(hù)一種基于改進(jìn)SAC的多域聯(lián)合抗干擾決策方法，屬于無線通信技術(shù)領(lǐng)域。本方法包括：構(gòu)建由一對通信用戶和干擾機組成的無線通信系統(tǒng)；將通信參數(shù)決策過程建模為馬爾可夫決策過程；初始化智能體參數(shù)和系統(tǒng)參數(shù)；智能體根據(jù)環(huán)境狀態(tài)生成抗干擾動作，將該動作發(fā)送給發(fā)送機；發(fā)送機執(zhí)行抗干擾動作，接收機將反饋信息發(fā)送給智能體；將樣本(s<subgt;t</subgt;,a<subgt;t</subgt;,r<subgt;t</subgt;,s<subgt;t+1</subgt;)存儲到經(jīng)驗回放池，更新環(huán)境狀態(tài)；智能體從經(jīng)驗回放池中抽取樣本更新價值網(wǎng)絡(luò)；更新策略網(wǎng)絡(luò)、目標(biāo)網(wǎng)絡(luò)和熵的正則化系數(shù)；重復(fù)上述交互、更新步驟，直到達(dá)到要求。本發(fā)明專利技術(shù)所提方法能夠在未知干擾樣式的情況下實現(xiàn)抗干擾決策，提升了通信系統(tǒng)的抗干擾能力和自適應(yīng)能力，提高了通信雙方的通信成功率。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】

本專利技術(shù)屬于無線通信，涉及一種基于改進(jìn)sac的多域聯(lián)合抗干擾決策方法。

技術(shù)介紹

1、隨著信息化技術(shù)的不斷發(fā)展和無線設(shè)備的迅速普及，無線通信在日常生活中發(fā)揮著日益重要的作用。無線通信技術(shù)迅猛發(fā)展的同時，所面臨的無線電磁環(huán)境也愈發(fā)復(fù)雜。無線通信由于其本身所具有的開放特性，在信息的傳輸過程中很容易受到外部干擾的攻擊，導(dǎo)致通信質(zhì)量下降甚至無法正常通信。傳統(tǒng)的跳頻、擴頻技術(shù)由于采取固定的抗干擾策略，難以抵抗越來越智能化的惡意干擾攻擊，所達(dá)到的抗干擾性能難以滿足抗干擾通信要求。

2、隨著以機器學(xué)習(xí)為核心的人工智能技術(shù)的迅速發(fā)展，機器學(xué)習(xí)算法在通信領(lǐng)域的應(yīng)用越來越廣泛。特別是強化學(xué)習(xí)算法，因其能夠在未知環(huán)境中通過與環(huán)境不斷交互，學(xué)習(xí)最優(yōu)策略，進(jìn)行實時動態(tài)決策的特點，目前被廣泛應(yīng)用于抗干擾決策領(lǐng)域。現(xiàn)有的抗干擾決策研究大多考慮從時域、頻域、功率域和空域出發(fā)，構(gòu)建單域或兩域聯(lián)合的抗干擾決策模型，使用相關(guān)強化學(xué)習(xí)算法智能決策通信參數(shù)達(dá)到抗干擾效果，實現(xiàn)通信收發(fā)雙方持續(xù)正常通信的目的。考慮單域抗干擾決策模型時，系統(tǒng)模型構(gòu)造簡單，但當(dāng)干擾方的干擾功率較大或干擾頻帶較寬時，通信方無法有效抵御干擾。此外，考慮多域聯(lián)合決策問題時，由于決策維度增加導(dǎo)致決策空間變大，算法出現(xiàn)決策速度變慢和決策穩(wěn)定性變差的問題。

技術(shù)實現(xiàn)思路

1、針對以上技術(shù)問題，本專利技術(shù)提出一種基于改進(jìn)sac的多域聯(lián)合抗干擾決策方法。針對無線通信環(huán)境中的惡意干擾，本專利技術(shù)考慮通信用戶從頻率域、功率域、調(diào)制域和編碼碼率域多域聯(lián)合

2、1.一種基于改進(jìn)sac的多域聯(lián)合抗干擾決策方法，其特征在于：該方法包括以下步驟：

3、s1：構(gòu)建由一對通信用戶和干擾機組成的無線通信系統(tǒng)，通信用戶和干擾機以時隙為最小通信單元進(jìn)行數(shù)據(jù)傳輸，干擾機在每時隙選擇信道和干擾功率干擾通信用戶的正常通信，通信用戶在每時隙與干擾機交互，決策下一時隙通信參數(shù)對抗干擾；

4、s2：將無線通信系統(tǒng)中通信用戶與干擾機交互決策通信參數(shù)的過程建模為一個馬爾可夫決策過程；

5、s3：構(gòu)建基于改進(jìn)sac的多域聯(lián)合抗干擾決策方法的網(wǎng)絡(luò)結(jié)構(gòu)，初始化網(wǎng)絡(luò)參數(shù)和系統(tǒng)參數(shù)，初始化環(huán)境狀態(tài)；

6、s4：位于發(fā)送端的智能體將所接收到的環(huán)境狀態(tài)輸入策略網(wǎng)絡(luò)，生成抗干擾動作，將抗干擾動作發(fā)送給發(fā)送機；

7、s5：發(fā)送機執(zhí)行所接收的抗干擾動作，接收機通過頻譜感知獲取干擾信息，根據(jù)獎勵函數(shù)生成獎勵值，獲取下一時隙的環(huán)境狀態(tài)，將包括干擾信息和獎勵值在內(nèi)的反饋信息發(fā)送給智能體；

8、s6：智能體將當(dāng)前時隙環(huán)境狀態(tài)、動作、獎勵、下一時隙環(huán)境狀態(tài)存儲到經(jīng)驗回放池中，更新環(huán)境狀態(tài)；

9、s7：當(dāng)經(jīng)驗回放池中元素個數(shù)達(dá)到指定要求后，智能體在跟環(huán)境交互的同時，更新網(wǎng)絡(luò)參數(shù)，使用優(yōu)先經(jīng)驗回放機制從經(jīng)驗回放池中抽取一定數(shù)量的樣本進(jìn)行價值網(wǎng)絡(luò)參數(shù)更新；

10、s8：當(dāng)價值網(wǎng)絡(luò)參數(shù)更新次數(shù)達(dá)到要求后，更新策略網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)，更新熵的正則化系數(shù)；

11、s9：重復(fù)執(zhí)行步驟s4到步驟s8，直到達(dá)到指定要求。

12、2.根據(jù)權(quán)利要求1所述方法，其特征在于，在步驟s1中，在一個時隙內(nèi)，干擾機所產(chǎn)生的干擾不會發(fā)生變化；在一個通信時隙內(nèi)，發(fā)送機根據(jù)所接收的抗干擾動作，通過數(shù)據(jù)鏈路進(jìn)行信息傳輸；接收機通過頻譜感知獲取干擾信道和干擾功率信息，通過反饋鏈路將所感知到的干擾信息、信干噪比、獎勵反饋給智能體；智能體根據(jù)所接收到的反饋信息和感知到的環(huán)境信息進(jìn)行學(xué)習(xí)，輸出下一時隙通信方的通信參數(shù)；接收端的信干噪比計算公式表示為：

13、

14、其中，σ2表示噪聲功率，hu表示發(fā)送機到接收機的信道增益，hj表示干擾機到接收機的信道增益；δ(x)是一個指示函數(shù)，和表示通信用戶在k+1時隙所選擇的通信信道和通信功率，和表示干擾機在k+1時隙所選擇的干擾信道和干擾功率。

15、3.根據(jù)權(quán)利要求1所述方法，其特征在于，步驟s2中，所構(gòu)建的馬爾可夫決策過程由四元組組成，具體元素定義如下：

16、表示狀態(tài)空間，其中和vk分別表示k時隙通信方所選擇的通信信道、發(fā)射功率和傳輸速率，和分別表示k時隙干擾機所選擇的干擾信道和干擾功率；

17、表示動作空間，其中ak表示通信方在k時隙所選擇的動作，和vk+1分別表示通信方在k+1時隙所選擇的通信信道、通信功率和傳輸速率；

18、狀態(tài)轉(zhuǎn)移概率p定義為表示智能體在當(dāng)前所處狀態(tài)下選擇動作轉(zhuǎn)移到下一狀態(tài)的概率；

19、r表示獎勵，獎勵函數(shù)設(shè)置如下：

20、

21、其中，θ(x)是一個指示函數(shù)，cu是功率傳輸代價，cf是換頻代價，vmax表示發(fā)送機所能選擇的最大信息傳輸速率，pu_max表示發(fā)送機所能選擇的最大通信功率；sinrth表示當(dāng)通信方按某種調(diào)制方式和編碼碼率進(jìn)行數(shù)據(jù)傳輸時，接收端正常解調(diào)所需要達(dá)到的信干噪比門限值。

22、4.根據(jù)權(quán)利要求1所述方法，其特征在于，在步驟s3中，所初始化的六個網(wǎng)絡(luò)參數(shù)分別是：策略網(wǎng)絡(luò)πθ網(wǎng)絡(luò)參數(shù)θ、目標(biāo)策略網(wǎng)絡(luò)網(wǎng)絡(luò)參數(shù)兩個價值網(wǎng)絡(luò)網(wǎng)絡(luò)參數(shù)α1和α2、兩個目標(biāo)價值網(wǎng)絡(luò)網(wǎng)絡(luò)參數(shù)和初始化的系統(tǒng)參數(shù)包括訓(xùn)練回合數(shù)、訓(xùn)練總時隙數(shù)、經(jīng)驗回放池容量、采樣樣本數(shù)、策略網(wǎng)絡(luò)學(xué)習(xí)率和價值網(wǎng)絡(luò)學(xué)習(xí)率等；初始化環(huán)境狀態(tài)。

23、5.根據(jù)權(quán)利要求1所述方法，其特征在于，步驟s7中，價值網(wǎng)絡(luò)參數(shù)更新方法如下：

24、將從經(jīng)驗回放池中抽取的樣本(si,ai,ri,si+1)中的下一時隙狀態(tài)si+1輸入目標(biāo)策略網(wǎng)絡(luò)得到動作ai′+1分布，計算目標(biāo)：

25、

26、其中ri表示時隙i所獲得獎勵；γ表示折扣因子；表示根據(jù)目標(biāo)價值網(wǎng)絡(luò)所得到的動作價值，從兩個目標(biāo)價值網(wǎng)絡(luò)中選擇輸出動作價值更小的一個作為目標(biāo)q值，以緩解q值高估問題；α是熵的正則化系數(shù)，表示目標(biāo)策略網(wǎng)絡(luò)輸出的動作概率；

27、由價值網(wǎng)絡(luò)得到動作價值計算兩個價值網(wǎng)絡(luò)損失函數(shù)更新價值網(wǎng)絡(luò)參數(shù)以最小化損失函數(shù)。

28、6.根據(jù)權(quán)利要求1所述方法，其特征在于，步驟s8中，策略網(wǎng)絡(luò)參數(shù)、目標(biāo)網(wǎng)絡(luò)參數(shù)和熵的正則化系數(shù)更新方法為：

29、由策略網(wǎng)絡(luò)根據(jù)狀態(tài)得到動作概率分布πθ(ai|si)，根據(jù)動作熵值和動作價值計算策略網(wǎng)絡(luò)損失函數(shù)更新策略網(wǎng)絡(luò)以最小化損失函數(shù)，根據(jù)更新熵的正則化系數(shù)α，軟更新目標(biāo)價值網(wǎng)絡(luò)參數(shù)和目標(biāo)策略網(wǎng)絡(luò)參數(shù)。

30、有益效果

31、一種基于改進(jìn)sac的多域聯(lián)合抗干擾決策方法，與傳統(tǒng)從時域、頻域和功率域出發(fā)考慮單域或兩域聯(lián)合決策的方法不同，本專利技術(shù)考慮聯(lián)合頻率域、功率域、調(diào)制域和編碼碼率域本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點】

1.一種基于改進(jìn)SAC的多域聯(lián)合抗干擾決策方法，其特征在于，該方法包括下列步驟：

2.根據(jù)權(quán)利要求1所述方法，其特征在于，步驟S1中，在一個時隙內(nèi)，干擾機所產(chǎn)生的干擾不會發(fā)生變化；在一個通信時隙內(nèi)，發(fā)送機根據(jù)所接收的抗干擾動作，通過數(shù)據(jù)鏈路進(jìn)行信息傳輸；接收機通過頻譜感知獲取干擾信道和干擾功率信息，通過反饋鏈路將所感知到的干擾信息、信干噪比、獎勵反饋給智能體；智能體根據(jù)所接收到的反饋信息和感知到的環(huán)境信息進(jìn)行學(xué)習(xí)，輸出下一時隙通信方的通信參數(shù)；接收端的信干噪比計算公式表示為：

3.根據(jù)權(quán)利要求1所述方法，其特征在于，步驟S2中，所構(gòu)建的馬爾可夫決策過程由四元組組成，具體元素定義如下：

4.根據(jù)權(quán)利要求1所述方法，其特征在于，步驟S3中，所初始化的六個網(wǎng)絡(luò)參數(shù)分別是：策略網(wǎng)絡(luò)πθ網(wǎng)絡(luò)參數(shù)θ、目標(biāo)策略網(wǎng)絡(luò)網(wǎng)絡(luò)參數(shù)兩個價值網(wǎng)絡(luò)網(wǎng)絡(luò)參數(shù)α1和α2、兩個目標(biāo)價值網(wǎng)絡(luò)網(wǎng)絡(luò)參數(shù)和初始化的系統(tǒng)參數(shù)包括訓(xùn)練回合數(shù)、訓(xùn)練總時隙數(shù)、經(jīng)驗回放池容量、采樣樣本數(shù)、策略網(wǎng)絡(luò)學(xué)習(xí)率和價值網(wǎng)絡(luò)學(xué)習(xí)率等；初始化環(huán)境狀態(tài)。

5.根據(jù)權(quán)利要求1所述方法，其特征在于，步驟

6.根據(jù)權(quán)利要求1所述方法，其特征在于，步驟S8中，策略網(wǎng)絡(luò)參數(shù)、目標(biāo)網(wǎng)絡(luò)參數(shù)和熵的正則化系數(shù)更新方法為：

...

【技術(shù)特征摘要】

1.一種基于改進(jìn)sac的多域聯(lián)合抗干擾決策方法，其特征在于，該方法包括下列步驟：

2.根據(jù)權(quán)利要求1所述方法，其特征在于，步驟s1中，在一個時隙內(nèi)，干擾機所產(chǎn)生的干擾不會發(fā)生變化；在一個通信時隙內(nèi)，發(fā)送機根據(jù)所接收的抗干擾動作，通過數(shù)據(jù)鏈路進(jìn)行信息傳輸；接收機通過頻譜感知獲取干擾信道和干擾功率信息，通過反饋鏈路將所感知到的干擾信息、信干噪比、獎勵反饋給智能體；智能體根據(jù)所接收到的反饋信息和感知到的環(huán)境信息進(jìn)行學(xué)習(xí)，輸出下一時隙通信方的通信參數(shù)；接收端的信干噪比計算公式表示為：

3.根據(jù)權(quán)利要求1所述方法，其特征在于，步驟s2中，所構(gòu)建的馬爾可夫...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：裴二榮，張俊，何佑澤，黎偉，王朋飛，劉志強，
申請(專利權(quán))人：重慶郵電大學(xué)，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)