【技術實現步驟摘要】
本專利技術涉及信息內容安全,特別涉及一種知識增強異質圖注意力的虛假信息檢測方法及系統。
技術介紹
1、由于社交媒體的短文本特性以及假信息表現形式上的多樣性,導致僅從帖文自身內容出發很難挖掘出能夠鑒別信息真假的有效線索,使得面向社交媒體的虛假信息檢測任務變得極具挑戰性。為了緩解社交媒體短文本特性帶來的語義稀疏問題,研究者們提出了基于內容語義增強的檢測方法,旨在解決低資源場景下的假信息早期檢測問題。其核心思想是:社交網絡帖文中包含的關鍵實體詞可以揭示核心主題,引入這些實體的背景知識可以豐富短文本的語義內容。因此,如何得到帖子文本內容的背景知識,并將這些知識融合到文本信息中成為了關鍵問題。
2、根據模型知識獲取策略的不同,大致可以分為兩大方向:基于預訓練語言模型的方法和基于知識驅動圖卷積的方法。基于預訓練語言模型增強內容語義理解的方法,其核心理念在于借助模型內部蘊含的知識結構,通過微調、提示學習等技術對帖子中潛在語言模式和語義線索進行挖掘,有效地增強了對假信息的檢測效果。這種方法僅適用于那些在模型預訓練與微調過程中已充分涉及相關背景知識的情形。基于知識驅動的圖卷積檢測方法,以圖結構的形式建模文本語義內在關聯以及外在知識關聯,深入挖掘帖子中關鍵信息元素(如人物、組織機構以及特定名詞等)的內在含義;在此基礎之上,通過多層圖卷積操作對高階鄰域信息進行深度聚合,增強文本的語義表征能力,提升模型的檢測性能。
3、這些方法雖在一定程度上改善了假信息的檢測性能,但對于文本復雜語義特征的精確刻畫上仍存在不足。首先,現有方法側重
技術實現思路
1、本專利技術旨在解決帖文短文本語義稀疏導致已有檢測方法對細粒度語義感知不足的問題,提出一種知識增強異質圖注意力的虛假信息檢測方法及系統,能夠從帖文的表現模式、實體語義等多維度挖掘高價值線索,提升模型檢測性能,一定程度上緩解了短文本特性帶來的語義稀疏問題和假信息表現形式多樣性帶來的挑戰。
2、為實現上述目的,所采取的技術方案是:
3、一種知識增強異質圖注意力的虛假信息檢測方法,包含以下步驟:
4、通過構建異質文本圖建模帖文內部不同語義單元之間依存關系以及外部背景知識的關聯;
5、設計基于雙層圖注意力機制的節點特征表示,捕捉不同類型節點鄰域對目標節點的語義貢獻度以及不同類型節點鄰域下節點的重要性;
6、采用多目標優化策略,通過自適應特征聚合自動化選取并聚合特征獲得帖文融合后的特征;
7、將融合后的特征向量表示輸入多層感知器,對帖文內容的真實性進行判斷。
8、根據本專利技術知識增強異質圖注意力的虛假信息檢測方法,進一步地,構建異質文本圖的過程包含生成多類型節點及節點的初始向量表示:首先對每一條帖文形成實體詞集合ste、模式詞集合stp和概念知識集合stk;利用預訓練模型bert進行初始化得到其中表示所有實體類型詞的初始特征表示,表示所有模式類型詞的初始特征表示,表示所有概念描述的初始特征表示;設表示圖中所有節點組成的初始節點特征表示矩陣,|v|=2n+l,n表示帖文中包含的實體的數量,l表示帖文中包含的模式詞的數量。
9、根據本專利技術知識增強異質圖注意力的虛假信息檢測方法,進一步地,構建異質文本圖的過程還包含基于語義依存和共現關聯雙重度量的策略構建節點間關聯關系:
10、設a表示異質文本圖的鄰接矩陣,對于任意類型的節點u,其對應不同類型的節點v的之間的鄰接關系表示如下:
11、
12、式中,sd<u,v>=1表示詞匯節點u和詞匯節點v之間存在語義依賴關系,互信息pmi大于0表示在詞匯節點u和詞匯節點v之間建立共現關聯邊,ke<u,v>=1表示節點u和節點v之間存在實體概念描述關系。
13、根據本專利技術知識增強異質圖注意力的虛假信息檢測方法,進一步地,雙層圖注意力機制包含類型級注意力和節點級注意力:
14、類型級注意力是為了捕獲不同類型節點鄰域對目標節點的語義貢獻度,節點v的類型級注意力權重計算公式為:
15、
16、式中,xv是當前節點的特征表示,xvt是節點v類型為t的鄰域表征,其用與節點v相鄰的所有類型為t的節點特征加和來表示;是類型級注意力機制中的可學習的參數向量;
17、節點級注意力是為了捕獲不同類型節點鄰域下節點的重要性,節點v的節點級注意力權重公式為:
18、
19、式中,xv′表示節點v的類型為t的鄰居節點v′的特征表示,νt表示節點級注意力機制中的可學習的參數向量。
20、根據本專利技術知識增強異質圖注意力的虛假信息檢測方法,進一步地,基于雙層圖注意力機制的節點特征表示包含:
21、異質文本圖中所有節點的表征通過聚合其不同類型的鄰域節點特征進行更新,形式化描述為:
22、
23、式中,表示通過第l層異質圖注意力操作后所有節點的嵌入表征,σ(·)為激活函數,為類型t的注意力矩陣,行表示圖中的所有節點,列表示類型為t的所有節點,其第v行第v′列的元素值表示節點v′對節點v的語義影響力;表示通過第l-1層圖卷積操作后所有類型為t的節點的嵌入表征;為第l-1層圖卷積時類型為t的變換矩陣。
24、根據本專利技術知識增強異質圖注意力的虛假信息檢測方法,進一步地,針對實體類型詞節點和模式類型詞節點,分別設計一個可學習的節點權重層,用于獲得知識增強的實體語義特征表征和帖文的模式特征表征
25、根據本專利技術知識增強異質圖注意力的虛假信息檢測方法,進一步地,通過自適應特征聚合自動化選取并聚合特征獲得帖文融合后的特征包含:
26、(1)特征效用評估
27、通過構建單特征效用評估任務,以獲得各特征的有效性評分;通過基于多層感知機的實體語義特征效用評估器mlpe(·),獲得實體語義特征的有效性評估得分se;通過基于多層感知機的模式特征效用評估器mlpp(·),獲得模本文檔來自技高網...
【技術保護點】
1.一種知識增強異質圖注意力的虛假信息檢測方法,其特征在于,包含以下步驟:
2.根據權利要求1所述的知識增強異質圖注意力的虛假信息檢測方法,其特征在于,構建異質文本圖的過程包含生成多類型節點及節點的初始向量表示:首先對每一條帖文形成實體詞集合Ste、模式詞集合Stp和概念知識集合Stk;利用預訓練模型BERT進行初始化得到其中表示所有實體類型詞的初始特征表示,表示所有模式類型詞的初始特征表示,表示所有概念描述的初始特征表示;設表示圖中所有節點組成的初始節點特征表示矩陣,V|=2n+l,n表示帖文中包含的實體的數量,l表示帖文中包含的模式詞的數量。
3.根據權利要求2所述的知識增強異質圖注意力的虛假信息檢測方法,其特征在于,構建異質文本圖的過程還包含基于語義依存和共現關聯雙重度量的策略構建節點間關聯關系:
4.根據權利要求1所述的知識增強異質圖注意力的虛假信息檢測方法,其特征在于,雙層圖注意力機制包含類型級注意力和節點級注意力:
5.根據權利要求4所述的知識增強異質圖注意力的虛假信息檢測方法,其特征在于,基于雙層圖注意力機制的節點特征
6.根據權利要求5所述的知識增強異質圖注意力的虛假信息檢測方法,其特征在于,針對實體類型詞節點和模式類型詞節點,分別設計一個可學習的節點權重層,用于獲得知識增強的實體語義特征表征和帖文的模式特征表征
7.根據權利要求6所述的知識增強異質圖注意力的虛假信息檢測方法,其特征在于,通過自適應特征聚合自動化選取并聚合特征獲得帖文融合后的特征包含:
8.根據權利要求1所述的知識增強異質圖注意力的虛假信息檢測方法,其特征在于,在模型訓練過程中,采用三個交叉熵損失函數分別量化模式特征預測、實體語義特征預測,以及兩種視角特征經自適應融合后的最終預測與實際標簽間的偏差;構建總損失函數由上述三個損失函數的加權求和得到。
9.一種知識增強異質圖注意力的虛假信息檢測系統,其特征在于,包含:
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該計算機程序被處理器執行時實現如權利要求1-8任一項所述方法的步驟。
...【技術特征摘要】
1.一種知識增強異質圖注意力的虛假信息檢測方法,其特征在于,包含以下步驟:
2.根據權利要求1所述的知識增強異質圖注意力的虛假信息檢測方法,其特征在于,構建異質文本圖的過程包含生成多類型節點及節點的初始向量表示:首先對每一條帖文形成實體詞集合ste、模式詞集合stp和概念知識集合stk;利用預訓練模型bert進行初始化得到其中表示所有實體類型詞的初始特征表示,表示所有模式類型詞的初始特征表示,表示所有概念描述的初始特征表示;設表示圖中所有節點組成的初始節點特征表示矩陣,v|=2n+l,n表示帖文中包含的實體的數量,l表示帖文中包含的模式詞的數量。
3.根據權利要求2所述的知識增強異質圖注意力的虛假信息檢測方法,其特征在于,構建異質文本圖的過程還包含基于語義依存和共現關聯雙重度量的策略構建節點間關聯關系:
4.根據權利要求1所述的知識增強異質圖注意力的虛假信息檢測方法,其特征在于,雙層圖注意力機制包含類型級注意力和節點級注意力:
5.根據權利要求4所述的知識增強異質圖注意力的虛假...
【專利技術屬性】
技術研發人員:陳靜,周剛,蘭明敬,盧記倉,李志博,但文皓,王世宇,李順航,王婧,
申請(專利權)人:中國人民解放軍網絡空間部隊信息工程大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。