【技術實現步驟摘要】
本專利技術涉及網絡流量分析,尤其涉及一種混合采樣網絡流量樣本平衡方法。
技術介紹
1、隨著網絡技術的飛速發展,網絡流量的急劇增加帶來了復雜多樣的網絡攻擊行為,網絡安全問題日益嚴峻。為了提升網絡系統對各種異常行為的檢測能力,網絡流量分析成為了一個關鍵的研究方向。通過分析網絡流量的模式與特征,可以幫助識別潛在的安全威脅,并采取相應的防護措施。
2、在此背景下,機器學習技術在網絡流量分析中的應用日益廣泛,尤其是通過對網絡流量樣本的分類與異常檢測,能夠提升網絡安全防護的自動化與智能化水平。然而,網絡流量數據通常具有嚴重的不平衡性,即正常流量樣本遠多于異常流量樣本。這種數據不平衡性會顯著影響機器學習模型的性能,導致模型在訓練過程中對少數攻擊類流量的識別能力下降。因此,如何平衡網絡流量數據成為了一個亟待解決的問題。
3、入侵檢測系統是網絡安全防御的關鍵技術之一,旨在檢測并防御網絡中的惡意活動。傳統的入侵檢測系統主要基于誤用檢測和異常檢測。誤用檢測通過識別已知攻擊模式,能夠有效應對已知的威脅,但對未知的攻擊和新型威脅無能為力。異常檢測則通過建立正常流量行為的基線,檢測偏離基線的活動,可以發現未知攻擊,但容易產生較高的誤報率。
4、網絡流量數據傳輸量大且數據不平衡。攻擊樣本相較于良性樣本占比非常少。攻擊樣本與良性樣本一起訓練深度學習模型會導致少數類別的攻擊樣本特征信息被淹沒多數類別的良性樣本信息所淹沒,導致模型無法學習到少數攻擊樣本。現有過采樣方法通常通過簡單復制少數類樣本的方式來增加其比例。這種方法雖然在一
技術實現思路
1、本專利技術目的是針對上述問題,提供一種混合采樣網絡流量樣本平衡方法。
2、為了實現上述目的,本專利技術的技術方案是:
3、一種混合采樣網絡流量樣本平衡方法,包括:
4、s1、對cicids-2017數據集中的網絡流量進行數據預處理,將其劃分為訓練集和測試集;
5、s2、訓練集采用smote過采樣和enn欠采樣處理,并在smote過采樣后引入高斯噪聲處理,得到混合采樣樣本;
6、s3、對混合采樣樣本進行cnn訓練并將訓練結果通過測試集驗證,得出分類結果。
7、作為對上述技術方案的改進,所述步驟s2中,對訓練集是的攻擊流量進行smote過采樣,生成新的合成樣本;
8、公式為下式:
9、xnew=xi+λ·(xnieghber-xi)????????(1)
10、其中,xi是生成新樣本xnew起點,是從少數類樣本集中選取的一個樣本點;xneighbor是xi的k各最鄰近少數類樣本中隨機選取的鄰近樣本,作為xnew生成的另一個參考點;λ是范圍在[0,1]之間的隨機數,它決定xnew的位置在xi和xneighbor之間的比例;
11、然后加入的高斯噪聲以增加樣本的多樣性,避免生成的樣本過于集中在smote插值生成的點上,幫助模型更好地泛化,公式為下式2:
12、x'new=xnew+ε?(2)
13、其中,ε:n(0,1)是符合正態分布中的高斯噪聲,x'new即使過采樣得到的擴充樣本。
14、作為對上述技術方案的改進,所述步驟s2中,對訓練集進行enn欠采樣的方法是:對于每個樣本xi,使用下述歐氏距離公式3進行計算:
15、
16、其中,xi和xj是兩個樣本,xi,l和xj,l是它們的第l個特征,d是樣本的維度。找到該樣本的k個最近鄰樣本n(xi)={xi1,xi2,…,xik};
17、然后計算最鄰近樣本中的多類別計算公式如下式4:
18、
19、i(yij=y)是指示函數,當yij=y時,函數值為1,否則為0。
20、作為對上述技術方案的改進,計算在最近鄰樣本中,類別y出現的次數對于每個樣本xi,如果其k個最近鄰樣本中多數樣本的標簽與其標簽yi不同,則判定為噪聲或邊界樣本,將其移除。
21、對混合采樣樣本進行cnn訓練并將訓練結果通過測試集驗證,得出分類結果。
22、作為對上述技術方案的改進,所述步驟s3的測試集驗證是指對cnn訓練結果進行魯棒性評價,使用指示為準確率(accuracy,acc)、召回率(recall)和f1值(f1?score);
23、其中acc用于評價模型混合采樣前后模型的分類能力,表示為下述公式5:
24、
25、recall用于衡量模型在識別正類樣本方面的能力,表示為下述公式6:。
26、
27、f1同時考慮模型的精確性和召回能力時,提供一個更加平衡的評價指標。表示為下述公式7:
28、
29、作為對上述技術方案的改進,所述cnn卷積神經網絡使用adam優化器,relu激活函數,交叉熵損失進行梯度下降,batchsize為128,學習率設置為0.0001,訓練50個epochs。
30、本專利技術首先對cicids-2017數據集中的網絡流量進行數據預處理,并將其劃分為訓練集和測試集。為了應對數據不平衡問題,流程使用enn方法對多數類樣本進行欠采樣,刪除冗余和誤分類的樣本。同時,采用smote方法對少數類樣本進行過采樣,生成新的少數類樣本,以平衡數據集。為進一步提升生成樣本的多樣性,防止過擬合,還在smote生成的樣本中加入高斯噪聲。通過這種結合了smote和enn的混合采樣方法,得到的訓練集更加平衡,能夠更好地代表網絡流量的實際分布。接下來,使用卷積神經網絡(convolutional?neural?network,cnn)對經過混合采樣的訓練集進行訓練,最終通過測試集對模型進行驗證,得出分類結果。
31、與現有技術相比,本專利技術具有的優點和積極效果是:
32、1)解決過采樣方法的樣本重復問題:傳統過采樣方法中,直接復制少數類樣本容易導致模型過擬合,無法有效處理復雜的網絡流量數據。本專利技術通過使用合成少數類過采樣技術smote(synthetic?minority?over-sampling?technique,smote)生成新的少數類樣本,而非簡單地復制現有樣本,從而增加了少數類樣本的多樣性。為了進一步增強生成樣本的隨機性和代表性,本專利技術在smote生成的少數類樣本中加入高斯噪聲,增加數據的復雜性,使得生成的樣本更能反映真實網絡流量中的多樣特征,顯著降低過擬合的風險。
33、2)簡單的欠采樣方法通過隨機刪除多數類樣本,容易導致有用信息的丟失。本專利技術結合編輯最近鄰方法(edited?nearest?neighb本文檔來自技高網...
【技術保護點】
1.一種混合采樣網絡流量樣本平衡方法,其特征在于:包括如下步驟:
2.如權利要求1所述混合采樣網絡流量樣本平衡方法,其特征在于:所述步驟S2中,對訓練集是的攻擊流量進行SMOTE過采樣,生成新的合成樣本;
3.如權利要求1所述混合采樣網絡流量樣本平衡方法,其特征在于:所述步驟S2中,對訓練集進行ENN欠采樣的方法是:對于每個樣本xi,使用下述歐氏距離公式3進行計算:
4.如權利要求3所述混合采樣網絡流量樣本平衡方法,其特征在于:計算在最近鄰樣本中,類別y出現的次數對于每個樣本xi,如果其k個最近鄰樣本中多數樣本的標簽與其標簽yi不同,則判定為噪聲或邊界樣本,將其移除。
5.如權利要求1所述混合采樣網絡流量樣本平衡方法,其特征在于:作為對上述技術方案的改進,所述步驟S3的測試集驗證是指對CNN訓練結果進行魯棒性評價,使用指示為準確率ACC、召回率Recall和F1值;
6.如權利要求1所述混合采樣網絡流量樣本平衡方法,其特征在于:所述CNN訓練的卷積神經網絡使用Adam優化器,Relu激活函數,交叉熵損失進行梯度下降,Ba
...【技術特征摘要】
1.一種混合采樣網絡流量樣本平衡方法,其特征在于:包括如下步驟:
2.如權利要求1所述混合采樣網絡流量樣本平衡方法,其特征在于:所述步驟s2中,對訓練集是的攻擊流量進行smote過采樣,生成新的合成樣本;
3.如權利要求1所述混合采樣網絡流量樣本平衡方法,其特征在于:所述步驟s2中,對訓練集進行enn欠采樣的方法是:對于每個樣本xi,使用下述歐氏距離公式3進行計算:
4.如權利要求3所述混合采樣網絡流量樣本平衡方法,其特征在于:計算在最近鄰樣本中,類別y出現的次數對于每個樣本xi,如果其k個最...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。