【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)屬于無線通信,涉及一種基于改進(jìn)sac的多域聯(lián)合抗干擾決策方法。
技術(shù)介紹
1、隨著信息化技術(shù)的不斷發(fā)展和無線設(shè)備的迅速普及,無線通信在日常生活中發(fā)揮著日益重要的作用。無線通信技術(shù)迅猛發(fā)展的同時,所面臨的無線電磁環(huán)境也愈發(fā)復(fù)雜。無線通信由于其本身所具有的開放特性,在信息的傳輸過程中很容易受到外部干擾的攻擊,導(dǎo)致通信質(zhì)量下降甚至無法正常通信。傳統(tǒng)的跳頻、擴頻技術(shù)由于采取固定的抗干擾策略,難以抵抗越來越智能化的惡意干擾攻擊,所達(dá)到的抗干擾性能難以滿足抗干擾通信要求。
2、隨著以機器學(xué)習(xí)為核心的人工智能技術(shù)的迅速發(fā)展,機器學(xué)習(xí)算法在通信領(lǐng)域的應(yīng)用越來越廣泛。特別是強化學(xué)習(xí)算法,因其能夠在未知環(huán)境中通過與環(huán)境不斷交互,學(xué)習(xí)最優(yōu)策略,進(jìn)行實時動態(tài)決策的特點,目前被廣泛應(yīng)用于抗干擾決策領(lǐng)域。現(xiàn)有的抗干擾決策研究大多考慮從時域、頻域、功率域和空域出發(fā),構(gòu)建單域或兩域聯(lián)合的抗干擾決策模型,使用相關(guān)強化學(xué)習(xí)算法智能決策通信參數(shù)達(dá)到抗干擾效果,實現(xiàn)通信收發(fā)雙方持續(xù)正常通信的目的。考慮單域抗干擾決策模型時,系統(tǒng)模型構(gòu)造簡單,但當(dāng)干擾方的干擾功率較大或干擾頻帶較寬時,通信方無法有效抵御干擾。此外,考慮多域聯(lián)合決策問題時,由于決策維度增加導(dǎo)致決策空間變大,算法出現(xiàn)決策速度變慢和決策穩(wěn)定性變差的問題。
技術(shù)實現(xiàn)思路
1、針對以上技術(shù)問題,本專利技術(shù)提出一種基于改進(jìn)sac的多域聯(lián)合抗干擾決策方法。針對無線通信環(huán)境中的惡意干擾,本專利技術(shù)考慮通信用戶從頻率域、功率域、調(diào)制域和編碼碼率域多域聯(lián)合
2、1.一種基于改進(jìn)sac的多域聯(lián)合抗干擾決策方法,其特征在于:該方法包括以下步驟:
3、s1:構(gòu)建由一對通信用戶和干擾機組成的無線通信系統(tǒng),通信用戶和干擾機以時隙為最小通信單元進(jìn)行數(shù)據(jù)傳輸,干擾機在每時隙選擇信道和干擾功率干擾通信用戶的正常通信,通信用戶在每時隙與干擾機交互,決策下一時隙通信參數(shù)對抗干擾;
4、s2:將無線通信系統(tǒng)中通信用戶與干擾機交互決策通信參數(shù)的過程建模為一個馬爾可夫決策過程;
5、s3:構(gòu)建基于改進(jìn)sac的多域聯(lián)合抗干擾決策方法的網(wǎng)絡(luò)結(jié)構(gòu),初始化網(wǎng)絡(luò)參數(shù)和系統(tǒng)參數(shù),初始化環(huán)境狀態(tài);
6、s4:位于發(fā)送端的智能體將所接收到的環(huán)境狀態(tài)輸入策略網(wǎng)絡(luò),生成抗干擾動作,將抗干擾動作發(fā)送給發(fā)送機;
7、s5:發(fā)送機執(zhí)行所接收的抗干擾動作,接收機通過頻譜感知獲取干擾信息,根據(jù)獎勵函數(shù)生成獎勵值,獲取下一時隙的環(huán)境狀態(tài),將包括干擾信息和獎勵值在內(nèi)的反饋信息發(fā)送給智能體;
8、s6:智能體將當(dāng)前時隙環(huán)境狀態(tài)、動作、獎勵、下一時隙環(huán)境狀態(tài)存儲到經(jīng)驗回放池中,更新環(huán)境狀態(tài);
9、s7:當(dāng)經(jīng)驗回放池中元素個數(shù)達(dá)到指定要求后,智能體在跟環(huán)境交互的同時,更新網(wǎng)絡(luò)參數(shù),使用優(yōu)先經(jīng)驗回放機制從經(jīng)驗回放池中抽取一定數(shù)量的樣本進(jìn)行價值網(wǎng)絡(luò)參數(shù)更新;
10、s8:當(dāng)價值網(wǎng)絡(luò)參數(shù)更新次數(shù)達(dá)到要求后,更新策略網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò),更新熵的正則化系數(shù);
11、s9:重復(fù)執(zhí)行步驟s4到步驟s8,直到達(dá)到指定要求。
12、2.根據(jù)權(quán)利要求1所述方法,其特征在于,在步驟s1中,在一個時隙內(nèi),干擾機所產(chǎn)生的干擾不會發(fā)生變化;在一個通信時隙內(nèi),發(fā)送機根據(jù)所接收的抗干擾動作,通過數(shù)據(jù)鏈路進(jìn)行信息傳輸;接收機通過頻譜感知獲取干擾信道和干擾功率信息,通過反饋鏈路將所感知到的干擾信息、信干噪比、獎勵反饋給智能體;智能體根據(jù)所接收到的反饋信息和感知到的環(huán)境信息進(jìn)行學(xué)習(xí),輸出下一時隙通信方的通信參數(shù);接收端的信干噪比計算公式表示為:
13、
14、其中,σ2表示噪聲功率,hu表示發(fā)送機到接收機的信道增益,hj表示干擾機到接收機的信道增益;δ(x)是一個指示函數(shù),和表示通信用戶在k+1時隙所選擇的通信信道和通信功率,和表示干擾機在k+1時隙所選擇的干擾信道和干擾功率。
15、3.根據(jù)權(quán)利要求1所述方法,其特征在于,步驟s2中,所構(gòu)建的馬爾可夫決策過程由四元組組成,具體元素定義如下:
16、表示狀態(tài)空間,其中和vk分別表示k時隙通信方所選擇的通信信道、發(fā)射功率和傳輸速率,和分別表示k時隙干擾機所選擇的干擾信道和干擾功率;
17、表示動作空間,其中ak表示通信方在k時隙所選擇的動作,和vk+1分別表示通信方在k+1時隙所選擇的通信信道、通信功率和傳輸速率;
18、狀態(tài)轉(zhuǎn)移概率p定義為表示智能體在當(dāng)前所處狀態(tài)下選擇動作轉(zhuǎn)移到下一狀態(tài)的概率;
19、r表示獎勵,獎勵函數(shù)設(shè)置如下:
20、
21、其中,θ(x)是一個指示函數(shù),cu是功率傳輸代價,cf是換頻代價,vmax表示發(fā)送機所能選擇的最大信息傳輸速率,pu_max表示發(fā)送機所能選擇的最大通信功率;sinrth表示當(dāng)通信方按某種調(diào)制方式和編碼碼率進(jìn)行數(shù)據(jù)傳輸時,接收端正常解調(diào)所需要達(dá)到的信干噪比門限值。
22、4.根據(jù)權(quán)利要求1所述方法,其特征在于,在步驟s3中,所初始化的六個網(wǎng)絡(luò)參數(shù)分別是:策略網(wǎng)絡(luò)πθ網(wǎng)絡(luò)參數(shù)θ、目標(biāo)策略網(wǎng)絡(luò)網(wǎng)絡(luò)參數(shù)兩個價值網(wǎng)絡(luò)網(wǎng)絡(luò)參數(shù)α1和α2、兩個目標(biāo)價值網(wǎng)絡(luò)網(wǎng)絡(luò)參數(shù)和初始化的系統(tǒng)參數(shù)包括訓(xùn)練回合數(shù)、訓(xùn)練總時隙數(shù)、經(jīng)驗回放池容量、采樣樣本數(shù)、策略網(wǎng)絡(luò)學(xué)習(xí)率和價值網(wǎng)絡(luò)學(xué)習(xí)率等;初始化環(huán)境狀態(tài)。
23、5.根據(jù)權(quán)利要求1所述方法,其特征在于,步驟s7中,價值網(wǎng)絡(luò)參數(shù)更新方法如下:
24、將從經(jīng)驗回放池中抽取的樣本(si,ai,ri,si+1)中的下一時隙狀態(tài)si+1輸入目標(biāo)策略網(wǎng)絡(luò)得到動作ai′+1分布,計算目標(biāo):
25、
26、其中ri表示時隙i所獲得獎勵;γ表示折扣因子;表示根據(jù)目標(biāo)價值網(wǎng)絡(luò)所得到的動作價值,從兩個目標(biāo)價值網(wǎng)絡(luò)中選擇輸出動作價值更小的一個作為目標(biāo)q值,以緩解q值高估問題;α是熵的正則化系數(shù),表示目標(biāo)策略網(wǎng)絡(luò)輸出的動作概率;
27、由價值網(wǎng)絡(luò)得到動作價值計算兩個價值網(wǎng)絡(luò)損失函數(shù)更新價值網(wǎng)絡(luò)參數(shù)以最小化損失函數(shù)。
28、6.根據(jù)權(quán)利要求1所述方法,其特征在于,步驟s8中,策略網(wǎng)絡(luò)參數(shù)、目標(biāo)網(wǎng)絡(luò)參數(shù)和熵的正則化系數(shù)更新方法為:
29、由策略網(wǎng)絡(luò)根據(jù)狀態(tài)得到動作概率分布πθ(ai|si),根據(jù)動作熵值和動作價值計算策略網(wǎng)絡(luò)損失函數(shù)更新策略網(wǎng)絡(luò)以最小化損失函數(shù),根據(jù)更新熵的正則化系數(shù)α,軟更新目標(biāo)價值網(wǎng)絡(luò)參數(shù)和目標(biāo)策略網(wǎng)絡(luò)參數(shù)。
30、有益效果
31、一種基于改進(jìn)sac的多域聯(lián)合抗干擾決策方法,與傳統(tǒng)從時域、頻域和功率域出發(fā)考慮單域或兩域聯(lián)合決策的方法不同,本專利技術(shù)考慮聯(lián)合頻率域、功率域、調(diào)制域和編碼碼率域本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點】
1.一種基于改進(jìn)SAC的多域聯(lián)合抗干擾決策方法,其特征在于,該方法包括下列步驟:
2.根據(jù)權(quán)利要求1所述方法,其特征在于,步驟S1中,在一個時隙內(nèi),干擾機所產(chǎn)生的干擾不會發(fā)生變化;在一個通信時隙內(nèi),發(fā)送機根據(jù)所接收的抗干擾動作,通過數(shù)據(jù)鏈路進(jìn)行信息傳輸;接收機通過頻譜感知獲取干擾信道和干擾功率信息,通過反饋鏈路將所感知到的干擾信息、信干噪比、獎勵反饋給智能體;智能體根據(jù)所接收到的反饋信息和感知到的環(huán)境信息進(jìn)行學(xué)習(xí),輸出下一時隙通信方的通信參數(shù);接收端的信干噪比計算公式表示為:
3.根據(jù)權(quán)利要求1所述方法,其特征在于,步驟S2中,所構(gòu)建的馬爾可夫決策過程由四元組組成,具體元素定義如下:
4.根據(jù)權(quán)利要求1所述方法,其特征在于,步驟S3中,所初始化的六個網(wǎng)絡(luò)參數(shù)分別是:策略網(wǎng)絡(luò)πθ網(wǎng)絡(luò)參數(shù)θ、目標(biāo)策略網(wǎng)絡(luò)網(wǎng)絡(luò)參數(shù)兩個價值網(wǎng)絡(luò)網(wǎng)絡(luò)參數(shù)α1和α2、兩個目標(biāo)價值網(wǎng)絡(luò)網(wǎng)絡(luò)參數(shù)和初始化的系統(tǒng)參數(shù)包括訓(xùn)練回合數(shù)、訓(xùn)練總時隙數(shù)、經(jīng)驗回放池容量、采樣樣本數(shù)、策略網(wǎng)絡(luò)學(xué)習(xí)率和價值網(wǎng)絡(luò)學(xué)習(xí)率等;初始化環(huán)境狀態(tài)。
5.根據(jù)權(quán)利要求1所述方法,其特征在于,步驟
6.根據(jù)權(quán)利要求1所述方法,其特征在于,步驟S8中,策略網(wǎng)絡(luò)參數(shù)、目標(biāo)網(wǎng)絡(luò)參數(shù)和熵的正則化系數(shù)更新方法為:
...【技術(shù)特征摘要】
1.一種基于改進(jìn)sac的多域聯(lián)合抗干擾決策方法,其特征在于,該方法包括下列步驟:
2.根據(jù)權(quán)利要求1所述方法,其特征在于,步驟s1中,在一個時隙內(nèi),干擾機所產(chǎn)生的干擾不會發(fā)生變化;在一個通信時隙內(nèi),發(fā)送機根據(jù)所接收的抗干擾動作,通過數(shù)據(jù)鏈路進(jìn)行信息傳輸;接收機通過頻譜感知獲取干擾信道和干擾功率信息,通過反饋鏈路將所感知到的干擾信息、信干噪比、獎勵反饋給智能體;智能體根據(jù)所接收到的反饋信息和感知到的環(huán)境信息進(jìn)行學(xué)習(xí),輸出下一時隙通信方的通信參數(shù);接收端的信干噪比計算公式表示為:
3.根據(jù)權(quán)利要求1所述方法,其特征在于,步驟s2中,所構(gòu)建的馬爾可夫...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:裴二榮,張俊,何佑澤,黎偉,王朋飛,劉志強,
申請(專利權(quán))人:重慶郵電大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。