The invention is applicable to the field of network technology, provides a method and device for mining communities based on statistical model, the method includes: adjacency matrix A reads the symbol of the network N, changes in the scope of setting up community number K [K
【技術實現步驟摘要】
基于統計模型的社區挖掘方法及系統
本專利技術屬于網絡
,尤其涉及一種基于統計模型的社區挖掘方法及系統。
技術介紹
與僅能表示個體間是否存在關系的無符號網絡相比,符號網絡能夠將單一的存在關系擴展為正、負關系。比如,社交網絡中的正鏈接表示友好、喜歡、信任等關系,負鏈接表示敵對、不喜歡、不信任等關系;政治網絡中的正鏈接表示政治同盟關系、負鏈接表示政治敵對關系等。這些增加的符號信息有助于更深入地了解網絡背后隱含的規律。社區作為復雜網絡中普遍存在的一類重要結構模式,對于理解網絡/系統的功能及發展演化具有重要的意義。對于社區發現問題,現有技術基于不同的原理提出了大量的社區發現算法。比如基于介數的算法、基于信息論的算法、基于模塊度的算法、基于模型的算法等。然而,這些社區發現算法都是基于無符號網絡提出的,更多地關注鏈接的密度而忽視了鏈接的符號,難以直接應用于帶有正、負鏈接的符號網絡。此外,現有技術還提出了專門用于符號網絡的社區發現算法。比如:基于frustration的算法,通過最小化符號網絡社區內負鏈接與社區間正鏈接的數量之和進行社區劃分;基于改進模塊度(modularity)的算法,對適用于無符號網絡的模塊度函數進行改進使之可以處理網絡鏈接的符號;基于多目標優化的算法,通過同時優化多個目標函數實現對符號網絡的社區發現,等等。然而,上述符號網絡社區發現算法都歸屬于優化算法或啟發算法,其檢測精度依賴于所設計的優化目標函數或啟發策略的質量,社區挖掘的準確度不高。
技術實現思路
鑒于此,本專利技術實施例提供了一種基于統計模型的社區挖掘方法及系統,以提高對符號網絡進行社區挖掘 ...
【技術保護點】
一種基于統計模型的社區挖掘方法,其特征在于,所述社區挖掘方法包括:讀取符號網絡N的鄰接矩陣A,設置社區數K的變化范圍為[K
【技術特征摘要】
1.一種基于統計模型的社區挖掘方法,其特征在于,所述社區挖掘方法包括:讀取符號網絡N的鄰接矩陣A,設置社區數K的變化范圍為[Kmin,Kmax],并初始化社區數K=Kmin,其中,所述符號網絡N的節點總數為n,Kmin和Kmax為n范圍內的整數;初始化每一個社區數K對應的統計模型NMK,將所述統計模型NMK與所述符號網絡N擬合,并計算所述統計模型NMK的選擇標準HK;比較所有統計模型NMK的選擇標準HK,選取選擇標準HK最大的統計模型NMK作為最優模型NMoptim;根據所述最優模型NMoptim確定所述符號網絡N中每個節點i所屬的社區,0<i≤n。2.如權利要求1所述的基于統計模型的社區挖掘方法,其特征在于,所述初始化每一個社區數K對應的統計模型NMK包括:對于變化范圍[Kmin,Kmax]內的每一個社區數K,構建與所述社區數K對應的統計模型NMK=(n,K,Z,π,Ω);初始化統計模型NMK中的第一參數π對應的近似分布參數η、第二參數Ω對應的近似分布參數ρ以及指示變量Z對應的近似分布參數τ;其中,第一參數π為K×K×3維向量,表示社區間連接概率,所述第一參數π中的每一個元素πlq包括三個分量,且滿足:0<l≤K,0<q≤K,分量πlq1表示第l個社區與第q個社區間節點存在一條正鏈接的概率,分量πlq2表示第l個社區與第q個社區間節點沒有鏈接的概率,分量πlq3表示第l個社區與第q個社區間節點存在一條負鏈接的概率;第二參數Ω為K維向量,表示節點屬于社區的概率,所述第二參數Ω中的每一個元素ωk滿足:0<k≤K;所述指示變量Z為n×K維向量,用于指示每個節點i所屬的社區;該指示變量Z的每一行中只有一個元素zik為1,其余元素zik為0,0<i≤n,0<k≤K。3.如權利要求2所述的基于統計模型的社區挖掘方法,其特征在于,所述將所述統計模型NMK與所述符號網絡N擬合,并計算所述統計模型NMK的選擇標準HK包括:A:將當前的統計模型NMK與所述符號網絡N擬合,按照預設計算公式更新所述指示變量Z對應的近似分布參數τ、第一參數π對應的近似分布參數η、第二參數Ω對應的近似分布參數ρ;B:根據更新后的所述指示變量Z對應的近似分布參數τ、第一參數π對應的近似分布參數η、第二參數Ω對應的近似分布參數ρ計算所述統計模型NMK的選擇標準HK,并計算所述選擇標準HK與上一次迭代計算得到的選擇標準HK之間的差值;C:比較所述差值與預設閾值,若所述差值小于所述預設閾值,則以本次更新的所述指示變量Z對應的近似分布參數τ、第一參數π對應的近似分布參數η、第二參數Ω對應的近似分布參數ρ作為所述統計模型NMK的最優參數;否則,返回步驟A進行下一次迭代計算。4.如權利要求3所述的基于統計模型的社區挖掘方法,其特征在于,所述選擇標準HK的計算公式為:其中,τik表示指示變量Z中元素zik對應的近似分布參數,ηlqh表示第一參數π中元素πlqh對應的近似分布參數,表示第一參數π中元素πlqh對應的先驗分布參數,ρ表示第二參數Ω中元素ωk對應的近似分布參數,表示第二參數Ω中元素ωk對應的先驗分布參數。5.如權利要求1至4任一項所述的基于統計模型的社區挖掘方法,其特征在于,所述根據所述最優模型NMoptim確定所述符號網絡N中每個節點i所屬的社區,0<i≤n包括:根據所述最優模型NMoptim的指示變量Z的近似分布參數τ,確定所述符號網絡N中每個節點i所屬的社區,0<i≤n;其中,所述節點i屬于近似分...
【專利技術屬性】
技術研發人員:趙學華,楊博,陳慧靈,劉學艷,
申請(專利權)人:深圳信息職業技術學院,
類型:發明
國別省市:廣東,44
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。