【技術實現步驟摘要】
本專利技術屬于數據處理,尤其涉及基于復雜網絡和同名消歧的科研人才合作社區發現方法。
技術介紹
1、科研人員合作社區是由合作關系緊密的科研人員組成的小群體,通過科研人員之間各種合作關系而構建的科研人員合作復雜網絡。科研人員合作社區的設計為相關的研究和開發工作尋找合作伙伴提供了更多渠道,也對不同科研機構中科研團隊的發現起到作用。然而,目前科研人員合作社區構建過程中數據挖掘還不夠全面,不能更好地起到輔助作用。
2、如專利zl202010340274.0中公開了一種科研人員合作社區的構建方法及裝置,科研人員合作社區的構建過程中根據科研人員進行構建,基于科研人員合作關系網絡及科研人員的影響力,生成科研人員合作社區;用以解決構建中計算量大、生成的社區圖譜可讀性差以及圖譜中合作社區的信息存在偏差影響用戶體驗的問題。但所構建的科研人員合作社區的使用過程中仍存在以下問題:
3、1、在合作關系發現時,只考慮了結構化數據,沒有考慮非結構化數據,導致很多合作關系的數據丟失,社區構建也就不全。
4、2、網絡節點的影響力評分模型中只考慮了科研成果數據,沒有考慮到各網絡節點在復雜網絡中的特征信息,導致影響力評分計算不夠客觀,從而使在數據篩選階段會過濾掉一些雖然影響力評分低,但是在網絡中起到重要作用的高影響力網絡節點。
5、3、通過影響力對網絡節點進行篩選,只留下了影響力高的網絡節點,而將影響力低的網絡節點去除;這樣的網絡節點篩選方式并不能展示網絡的全貌,會因為某些節點的缺失,導致一些合作鏈路中斷,從而使科研人員
6、4、在可視化方面只通過灰度展示了一個社區,并不能直觀的區分不同的合作社區,且沒有展示合作社區中網絡節點以及邊的相關特征信息。
7、5、沒有解決網絡中節點同名歧義問題,導致網絡中節點連接錯誤,發現的合作社區失真。
8、由此可見,上述現有技術在科研人員合作社區發現方面還有很大的進步空間。
9、因此,本專利技術提供了一種基于復雜網絡和同名消歧的科研人才合作社區發現方法,通過構建覆蓋多個方面的科研人員影響力模型,提高科研人員影響力的計算精度,進而提高發現科研人員合作關系的準確性。
技術實現思路
1、本專利技術的目的在于提供基于復雜網絡和同名消歧的科研人才合作社區發現方法,以解決上述
技術介紹
中提出的現有技術在科研人才合作社區構建過程中存在同名歧義導致網絡中節點連接錯誤,未考慮非結構化數據,只考慮科研成果數據作為影響力評分計算缺乏客觀,網絡節點篩選時缺失連接節點,不能直觀區分不同的合作社區等問題。
2、為實現上述目的,本專利技術采用以下技術方案實現:
3、基于復雜網絡和同名消歧的科研人才合作社區發現方法,包括如下步驟:
4、s1、獲取科研人員合作原始數據,所述科研人員合作原始數據包括各個科研人員的科研數據和非結構化文本數據;采用基于qwen的雙塔模型融合同一科研人員的所有原始數據,基于qwen的雙塔模型用于從多源合作數據中融合相同科研人員的數據,以及區分同名但是不同人的科研人員數據;再統計得到科研人員合作關系;
5、s2、基于科研人員合作原始數據獲取科研人員實體和科研人員合作關系,構建科研人員合作復雜網絡;
6、s3、基于科研人員合作原始數據和科研人員合作復雜網絡獲取科研人員的網絡特征指標、科研成果指標、項目與經費指標和社會與教育指標,構建科研人員綜合影響力模型;且通過科研人員綜合影響力模型計算科研人員的綜合影響力;
7、s4、基于科研人員合作復雜網絡和科研人員綜合影響力模型構建科研人員合作社區圖譜。
8、優選地,所述s1具體如下:
9、獲取各個科研人員的科研數據和非結構化文本數據,所述科研數據包括合作項目和科研成果,科研成果包括專利、論文、著作和標準;所述非結構化文本數據包括網頁新聞、社交媒體、個人主頁。
10、將同名的科研人員的原始數據輸入至基于qwen的雙塔模型,基于qwen的雙塔模型中塔a和塔b具有相同網絡結構的qwen模型,塔a和塔b分別對兩個原始數據進行處理且輸出向量,計算兩個輸出向量的相似度;若為同一科研人員則融合兩者的原始數據;
11、具體為:兩個同名科研人員的原始數據集p1和p2,將p1輸入塔a中,p2輸入塔b中,塔a和塔b具有相同網絡結構的qwen模型;在qwen模型中,p1和p2均通過分詞器編碼為輸入id序列,之后輸入到嵌入層,嵌入層輸出經過隱藏狀態處理,然后傳遞給多個解碼層,每個解碼層通過均方根誤差標準化進行正則化處理,最后通過線性處理損失函數計算塔a和塔b輸出向量的相似度;基于相似性計算結果,使用softmax函數輸出概率值,表示兩名同名科研人員是否為同一個科研人員,如果是同一個科研人員,則融合兩者的原始數據。
12、獲取各個科研人員之間對應的合作關系,進行各個科研人員之間合作次數的統計;具體為:
13、將網頁新聞、社交媒體和個人主頁中的非結構化文本數據輸入qwen模型中,從而獲取各個科研人員之間對應的合作關系;進行各個科研人員之間合作次數的統計,將統計的結果作為科研人員合作原始數據存入數據庫中;
14、通過分析專利、論文、著作和標準的發表科研人員,以及合作項目中的共同研發科研人員,從而獲取各個科研人員之間的合作關系;進行各個科研人員之間合作次數的統計,將統計的結果作為科研人員合作原始數據存入數據庫中。
15、進一步地,所述s1中先采用基于qwen的雙塔模型進行是否同一科研人員的判斷,確定各個科研人員的原始數據后再進行獲取各個科研人員之間的合作關系;或先直接根據所收集的科研人員的原始數據獲取各個科研人員之間的合作關系,再基于qwen的雙塔模型進行是否同一科研人員的判斷,對科研人員合作數據進一步融合處理。
16、優選地,所述s2具體如下:
17、以科研人員實體為節點,科研人員實體之間的合作關系為連線,構建表征科研人員合作關系的科研人員合作復雜網絡。
18、優選地,所述s3中科研人員綜合影響力模型的計算表達式如下:
19、
20、其中,pn表示第n個科研人員的綜合影響力;an、bn、cn、dn分別表示第n個科研人員的總項目與經費影響力、總科研成果影響力、在科研人員合作復雜網絡中的總網絡影響力、總社會與教育影響力;θn、βn、γn、δn對應表示an、bn、cn、dn的權重;
21、i表示an分量的總數,ani表示項目與經費指標中第i種指標的值,wni表示ani的權重;j表示bn分量的總數,bnj表示科研成果指標中第j種指標的值,unj表示bnj的權重;k表示cn分量的總數,cnk表示網絡特征指標中第k種指標的值,vnk表示cnk的權重;l表示dn分量的總數,dnl表示社會與教育指標中第l種指標的值,mnl表示dnl的權重。
22、優選地,所述s3具體包括如下步驟:
...【技術保護點】
1.基于復雜網絡和同名消歧的科研人才合作社區發現方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的基于復雜網絡和同名消歧的科研人才合作社區發現方法,其特征在于,所述S1具體如下:
3.根據權利要求2所述的基于復雜網絡和同名消歧的科研人才合作社區發現方法,其特征在于,所述S2具體如下:
4.根據權利要求1所述的基于復雜網絡和同名消歧的科研人才合作社區發現方法,其特征在于,所述S3中科研人員綜合影響力模型的計算表達式如下:
5.根據權利要求4所述的基于復雜網絡和同名消歧的科研人才合作社區發現方法,其特征在于,所述S3具體包括如下步驟:
6.根據權利要求5所述的基于復雜網絡和同名消歧的科研人才合作社區發現方法,其特征在于,所述S31具體如下:
7.根據權利要求1-6任一項所述的基于復雜網絡和同名消歧的科研人才合作社區發現方法,其特征在于,所述S4具體如下:
8.根據權利要求7所述的基于復雜網絡和同名消歧的科研人才合作社區發現方法,其特征在于,所述采用社區發現算法構建科研人員合作社區圖譜,具體如下
9.根據權利要求8所述的基于復雜網絡和同名消歧的科研人才合作社區發現方法,其特征在于,所述社區發現算法采用louvain算法。
10.根據權利要求9所述的基于復雜網絡和同名消歧的科研人才合作社區發現方法,其特征在于,所述科研人員合作社區圖譜構建完成后,通過Qwen模型為合作社區劃分的模塊標注科研主題標簽。
...【技術特征摘要】
1.基于復雜網絡和同名消歧的科研人才合作社區發現方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的基于復雜網絡和同名消歧的科研人才合作社區發現方法,其特征在于,所述s1具體如下:
3.根據權利要求2所述的基于復雜網絡和同名消歧的科研人才合作社區發現方法,其特征在于,所述s2具體如下:
4.根據權利要求1所述的基于復雜網絡和同名消歧的科研人才合作社區發現方法,其特征在于,所述s3中科研人員綜合影響力模型的計算表達式如下:
5.根據權利要求4所述的基于復雜網絡和同名消歧的科研人才合作社區發現方法,其特征在于,所述s3具體包括如下步驟:
6.根據權利要求5所述的基于復雜網絡和同名消歧的科研人才合...
【專利技術屬性】
技術研發人員:呂孝忠,吳其正,劉振羽,姜明星,姚雨,程智勇,王毓,劉運,張小偉,王小超,
申請(專利權)人:巢湖學院,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。