• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當(dāng)前位置: 首頁 > 專利查詢>重慶郵電大學(xué)專利>正文

    一種基于改進(jìn)SAC的多域聯(lián)合抗干擾決策方法技術(shù)

    技術(shù)編號:44261010 閱讀:13 留言:0更新日期:2025-02-14 22:06
    本發(fā)明專利技術(shù)請求保護(hù)一種基于改進(jìn)SAC的多域聯(lián)合抗干擾決策方法,屬于無線通信技術(shù)領(lǐng)域。本方法包括:構(gòu)建由一對通信用戶和干擾機組成的無線通信系統(tǒng);將通信參數(shù)決策過程建模為馬爾可夫決策過程;初始化智能體參數(shù)和系統(tǒng)參數(shù);智能體根據(jù)環(huán)境狀態(tài)生成抗干擾動作,將該動作發(fā)送給發(fā)送機;發(fā)送機執(zhí)行抗干擾動作,接收機將反饋信息發(fā)送給智能體;將樣本(s<subgt;t</subgt;,a<subgt;t</subgt;,r<subgt;t</subgt;,s<subgt;t+1</subgt;)存儲到經(jīng)驗回放池,更新環(huán)境狀態(tài);智能體從經(jīng)驗回放池中抽取樣本更新價值網(wǎng)絡(luò);更新策略網(wǎng)絡(luò)、目標(biāo)網(wǎng)絡(luò)和熵的正則化系數(shù);重復(fù)上述交互、更新步驟,直到達(dá)到要求。本發(fā)明專利技術(shù)所提方法能夠在未知干擾樣式的情況下實現(xiàn)抗干擾決策,提升了通信系統(tǒng)的抗干擾能力和自適應(yīng)能力,提高了通信雙方的通信成功率。

    【技術(shù)實現(xiàn)步驟摘要】

    本專利技術(shù)屬于無線通信,涉及一種基于改進(jìn)sac的多域聯(lián)合抗干擾決策方法。


    技術(shù)介紹

    1、隨著信息化技術(shù)的不斷發(fā)展和無線設(shè)備的迅速普及,無線通信在日常生活中發(fā)揮著日益重要的作用。無線通信技術(shù)迅猛發(fā)展的同時,所面臨的無線電磁環(huán)境也愈發(fā)復(fù)雜。無線通信由于其本身所具有的開放特性,在信息的傳輸過程中很容易受到外部干擾的攻擊,導(dǎo)致通信質(zhì)量下降甚至無法正常通信。傳統(tǒng)的跳頻、擴頻技術(shù)由于采取固定的抗干擾策略,難以抵抗越來越智能化的惡意干擾攻擊,所達(dá)到的抗干擾性能難以滿足抗干擾通信要求。

    2、隨著以機器學(xué)習(xí)為核心的人工智能技術(shù)的迅速發(fā)展,機器學(xué)習(xí)算法在通信領(lǐng)域的應(yīng)用越來越廣泛。特別是強化學(xué)習(xí)算法,因其能夠在未知環(huán)境中通過與環(huán)境不斷交互,學(xué)習(xí)最優(yōu)策略,進(jìn)行實時動態(tài)決策的特點,目前被廣泛應(yīng)用于抗干擾決策領(lǐng)域。現(xiàn)有的抗干擾決策研究大多考慮從時域、頻域、功率域和空域出發(fā),構(gòu)建單域或兩域聯(lián)合的抗干擾決策模型,使用相關(guān)強化學(xué)習(xí)算法智能決策通信參數(shù)達(dá)到抗干擾效果,實現(xiàn)通信收發(fā)雙方持續(xù)正常通信的目的。考慮單域抗干擾決策模型時,系統(tǒng)模型構(gòu)造簡單,但當(dāng)干擾方的干擾功率較大或干擾頻帶較寬時,通信方無法有效抵御干擾。此外,考慮多域聯(lián)合決策問題時,由于決策維度增加導(dǎo)致決策空間變大,算法出現(xiàn)決策速度變慢和決策穩(wěn)定性變差的問題。


    技術(shù)實現(xiàn)思路

    1、針對以上技術(shù)問題,本專利技術(shù)提出一種基于改進(jìn)sac的多域聯(lián)合抗干擾決策方法。針對無線通信環(huán)境中的惡意干擾,本專利技術(shù)考慮通信用戶從頻率域、功率域、調(diào)制域和編碼碼率域多域聯(lián)合對抗干擾,使用改進(jìn)的sac(soft?actor?critic)算法解決多域聯(lián)合決策時算法出現(xiàn)的決策速度變慢和決策穩(wěn)定性變差的問題,所提算法能在未知干擾樣式的情況下通過與環(huán)境交互實現(xiàn)智能抗干擾決策,提升了通信系統(tǒng)的抗干擾性能和自適應(yīng)能力,提高了通信雙方的通信成功率。

    2、1.一種基于改進(jìn)sac的多域聯(lián)合抗干擾決策方法,其特征在于:該方法包括以下步驟:

    3、s1:構(gòu)建由一對通信用戶和干擾機組成的無線通信系統(tǒng),通信用戶和干擾機以時隙為最小通信單元進(jìn)行數(shù)據(jù)傳輸,干擾機在每時隙選擇信道和干擾功率干擾通信用戶的正常通信,通信用戶在每時隙與干擾機交互,決策下一時隙通信參數(shù)對抗干擾;

    4、s2:將無線通信系統(tǒng)中通信用戶與干擾機交互決策通信參數(shù)的過程建模為一個馬爾可夫決策過程;

    5、s3:構(gòu)建基于改進(jìn)sac的多域聯(lián)合抗干擾決策方法的網(wǎng)絡(luò)結(jié)構(gòu),初始化網(wǎng)絡(luò)參數(shù)和系統(tǒng)參數(shù),初始化環(huán)境狀態(tài);

    6、s4:位于發(fā)送端的智能體將所接收到的環(huán)境狀態(tài)輸入策略網(wǎng)絡(luò),生成抗干擾動作,將抗干擾動作發(fā)送給發(fā)送機;

    7、s5:發(fā)送機執(zhí)行所接收的抗干擾動作,接收機通過頻譜感知獲取干擾信息,根據(jù)獎勵函數(shù)生成獎勵值,獲取下一時隙的環(huán)境狀態(tài),將包括干擾信息和獎勵值在內(nèi)的反饋信息發(fā)送給智能體;

    8、s6:智能體將當(dāng)前時隙環(huán)境狀態(tài)、動作、獎勵、下一時隙環(huán)境狀態(tài)存儲到經(jīng)驗回放池中,更新環(huán)境狀態(tài);

    9、s7:當(dāng)經(jīng)驗回放池中元素個數(shù)達(dá)到指定要求后,智能體在跟環(huán)境交互的同時,更新網(wǎng)絡(luò)參數(shù),使用優(yōu)先經(jīng)驗回放機制從經(jīng)驗回放池中抽取一定數(shù)量的樣本進(jìn)行價值網(wǎng)絡(luò)參數(shù)更新;

    10、s8:當(dāng)價值網(wǎng)絡(luò)參數(shù)更新次數(shù)達(dá)到要求后,更新策略網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò),更新熵的正則化系數(shù);

    11、s9:重復(fù)執(zhí)行步驟s4到步驟s8,直到達(dá)到指定要求。

    12、2.根據(jù)權(quán)利要求1所述方法,其特征在于,在步驟s1中,在一個時隙內(nèi),干擾機所產(chǎn)生的干擾不會發(fā)生變化;在一個通信時隙內(nèi),發(fā)送機根據(jù)所接收的抗干擾動作,通過數(shù)據(jù)鏈路進(jìn)行信息傳輸;接收機通過頻譜感知獲取干擾信道和干擾功率信息,通過反饋鏈路將所感知到的干擾信息、信干噪比、獎勵反饋給智能體;智能體根據(jù)所接收到的反饋信息和感知到的環(huán)境信息進(jìn)行學(xué)習(xí),輸出下一時隙通信方的通信參數(shù);接收端的信干噪比計算公式表示為:

    13、

    14、其中,σ2表示噪聲功率,hu表示發(fā)送機到接收機的信道增益,hj表示干擾機到接收機的信道增益;δ(x)是一個指示函數(shù),和表示通信用戶在k+1時隙所選擇的通信信道和通信功率,和表示干擾機在k+1時隙所選擇的干擾信道和干擾功率。

    15、3.根據(jù)權(quán)利要求1所述方法,其特征在于,步驟s2中,所構(gòu)建的馬爾可夫決策過程由四元組組成,具體元素定義如下:

    16、表示狀態(tài)空間,其中和vk分別表示k時隙通信方所選擇的通信信道、發(fā)射功率和傳輸速率,和分別表示k時隙干擾機所選擇的干擾信道和干擾功率;

    17、表示動作空間,其中ak表示通信方在k時隙所選擇的動作,和vk+1分別表示通信方在k+1時隙所選擇的通信信道、通信功率和傳輸速率;

    18、狀態(tài)轉(zhuǎn)移概率p定義為表示智能體在當(dāng)前所處狀態(tài)下選擇動作轉(zhuǎn)移到下一狀態(tài)的概率;

    19、r表示獎勵,獎勵函數(shù)設(shè)置如下:

    20、

    21、其中,θ(x)是一個指示函數(shù),cu是功率傳輸代價,cf是換頻代價,vmax表示發(fā)送機所能選擇的最大信息傳輸速率,pu_max表示發(fā)送機所能選擇的最大通信功率;sinrth表示當(dāng)通信方按某種調(diào)制方式和編碼碼率進(jìn)行數(shù)據(jù)傳輸時,接收端正常解調(diào)所需要達(dá)到的信干噪比門限值。

    22、4.根據(jù)權(quán)利要求1所述方法,其特征在于,在步驟s3中,所初始化的六個網(wǎng)絡(luò)參數(shù)分別是:策略網(wǎng)絡(luò)πθ網(wǎng)絡(luò)參數(shù)θ、目標(biāo)策略網(wǎng)絡(luò)網(wǎng)絡(luò)參數(shù)兩個價值網(wǎng)絡(luò)網(wǎng)絡(luò)參數(shù)α1和α2、兩個目標(biāo)價值網(wǎng)絡(luò)網(wǎng)絡(luò)參數(shù)和初始化的系統(tǒng)參數(shù)包括訓(xùn)練回合數(shù)、訓(xùn)練總時隙數(shù)、經(jīng)驗回放池容量、采樣樣本數(shù)、策略網(wǎng)絡(luò)學(xué)習(xí)率和價值網(wǎng)絡(luò)學(xué)習(xí)率等;初始化環(huán)境狀態(tài)。

    23、5.根據(jù)權(quán)利要求1所述方法,其特征在于,步驟s7中,價值網(wǎng)絡(luò)參數(shù)更新方法如下:

    24、將從經(jīng)驗回放池中抽取的樣本(si,ai,ri,si+1)中的下一時隙狀態(tài)si+1輸入目標(biāo)策略網(wǎng)絡(luò)得到動作ai′+1分布,計算目標(biāo):

    25、

    26、其中ri表示時隙i所獲得獎勵;γ表示折扣因子;表示根據(jù)目標(biāo)價值網(wǎng)絡(luò)所得到的動作價值,從兩個目標(biāo)價值網(wǎng)絡(luò)中選擇輸出動作價值更小的一個作為目標(biāo)q值,以緩解q值高估問題;α是熵的正則化系數(shù),表示目標(biāo)策略網(wǎng)絡(luò)輸出的動作概率;

    27、由價值網(wǎng)絡(luò)得到動作價值計算兩個價值網(wǎng)絡(luò)損失函數(shù)更新價值網(wǎng)絡(luò)參數(shù)以最小化損失函數(shù)。

    28、6.根據(jù)權(quán)利要求1所述方法,其特征在于,步驟s8中,策略網(wǎng)絡(luò)參數(shù)、目標(biāo)網(wǎng)絡(luò)參數(shù)和熵的正則化系數(shù)更新方法為:

    29、由策略網(wǎng)絡(luò)根據(jù)狀態(tài)得到動作概率分布πθ(ai|si),根據(jù)動作熵值和動作價值計算策略網(wǎng)絡(luò)損失函數(shù)更新策略網(wǎng)絡(luò)以最小化損失函數(shù),根據(jù)更新熵的正則化系數(shù)α,軟更新目標(biāo)價值網(wǎng)絡(luò)參數(shù)和目標(biāo)策略網(wǎng)絡(luò)參數(shù)。

    30、有益效果

    31、一種基于改進(jìn)sac的多域聯(lián)合抗干擾決策方法,與傳統(tǒng)從時域、頻域和功率域出發(fā)考慮單域或兩域聯(lián)合決策的方法不同,本專利技術(shù)考慮聯(lián)合頻率域、功率域、調(diào)制域和編碼碼率域本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點】

    1.一種基于改進(jìn)SAC的多域聯(lián)合抗干擾決策方法,其特征在于,該方法包括下列步驟:

    2.根據(jù)權(quán)利要求1所述方法,其特征在于,步驟S1中,在一個時隙內(nèi),干擾機所產(chǎn)生的干擾不會發(fā)生變化;在一個通信時隙內(nèi),發(fā)送機根據(jù)所接收的抗干擾動作,通過數(shù)據(jù)鏈路進(jìn)行信息傳輸;接收機通過頻譜感知獲取干擾信道和干擾功率信息,通過反饋鏈路將所感知到的干擾信息、信干噪比、獎勵反饋給智能體;智能體根據(jù)所接收到的反饋信息和感知到的環(huán)境信息進(jìn)行學(xué)習(xí),輸出下一時隙通信方的通信參數(shù);接收端的信干噪比計算公式表示為:

    3.根據(jù)權(quán)利要求1所述方法,其特征在于,步驟S2中,所構(gòu)建的馬爾可夫決策過程由四元組組成,具體元素定義如下:

    4.根據(jù)權(quán)利要求1所述方法,其特征在于,步驟S3中,所初始化的六個網(wǎng)絡(luò)參數(shù)分別是:策略網(wǎng)絡(luò)πθ網(wǎng)絡(luò)參數(shù)θ、目標(biāo)策略網(wǎng)絡(luò)網(wǎng)絡(luò)參數(shù)兩個價值網(wǎng)絡(luò)網(wǎng)絡(luò)參數(shù)α1和α2、兩個目標(biāo)價值網(wǎng)絡(luò)網(wǎng)絡(luò)參數(shù)和初始化的系統(tǒng)參數(shù)包括訓(xùn)練回合數(shù)、訓(xùn)練總時隙數(shù)、經(jīng)驗回放池容量、采樣樣本數(shù)、策略網(wǎng)絡(luò)學(xué)習(xí)率和價值網(wǎng)絡(luò)學(xué)習(xí)率等;初始化環(huán)境狀態(tài)。

    5.根據(jù)權(quán)利要求1所述方法,其特征在于,步驟S7中,價值網(wǎng)絡(luò)參數(shù)更新方法如下:

    6.根據(jù)權(quán)利要求1所述方法,其特征在于,步驟S8中,策略網(wǎng)絡(luò)參數(shù)、目標(biāo)網(wǎng)絡(luò)參數(shù)和熵的正則化系數(shù)更新方法為:

    ...

    【技術(shù)特征摘要】

    1.一種基于改進(jìn)sac的多域聯(lián)合抗干擾決策方法,其特征在于,該方法包括下列步驟:

    2.根據(jù)權(quán)利要求1所述方法,其特征在于,步驟s1中,在一個時隙內(nèi),干擾機所產(chǎn)生的干擾不會發(fā)生變化;在一個通信時隙內(nèi),發(fā)送機根據(jù)所接收的抗干擾動作,通過數(shù)據(jù)鏈路進(jìn)行信息傳輸;接收機通過頻譜感知獲取干擾信道和干擾功率信息,通過反饋鏈路將所感知到的干擾信息、信干噪比、獎勵反饋給智能體;智能體根據(jù)所接收到的反饋信息和感知到的環(huán)境信息進(jìn)行學(xué)習(xí),輸出下一時隙通信方的通信參數(shù);接收端的信干噪比計算公式表示為:

    3.根據(jù)權(quán)利要求1所述方法,其特征在于,步驟s2中,所構(gòu)建的馬爾可夫...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:裴二榮張俊何佑澤黎偉王朋飛劉志強
    申請(專利權(quán))人:重慶郵電大學(xué)
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 久久美利坚合众国AV无码| 久久久亚洲精品无码| 无码137片内射在线影院| 亚洲一区爱区精品无码| 无码内射中文字幕岛国片| 中文字幕av无码无卡免费| 永久免费av无码网站大全| 国产在线精品无码二区| 午夜无码熟熟妇丰满人妻| 永久免费av无码网站yy| 人妻少妇精品无码专区漫画 | a级毛片无码免费真人久久| 中文无码成人免费视频在线观看| 18精品久久久无码午夜福利| 无码人妻精品一区二区三区9厂| 亚洲AV无码国产精品麻豆天美| 国产AV无码专区亚洲AV麻豆丫| 中文字幕无码乱人伦| 亚洲AV成人无码久久WWW| 无码免费一区二区三区免费播放| 国产成人无码精品久久久露脸| 精品日韩亚洲AV无码 | 无码人妻少妇色欲AV一区二区| 无码天堂va亚洲va在线va| 亚洲成无码人在线观看| 亚洲av永久无码精品网站 | 东京热HEYZO无码专区| 麻豆AV无码精品一区二区| 无码av免费一区二区三区试看| 乱人伦人妻中文字幕无码久久网| 亚洲另类无码专区丝袜| 久久亚洲精品无码aⅴ大香| 久久无码专区国产精品s| 中文一国产一无码一日韩| 中文字幕无码AV波多野吉衣| 亚洲区日韩区无码区| 粉嫩高中生无码视频在线观看| 精品无码久久久久久久动漫 | 日韩精品无码永久免费网站| 亚洲国产精品无码久久98| 亚洲av中文无码乱人伦在线观看 |