【技術實現步驟摘要】
本專利技術涉及文本關聯分析,具體涉及一種基于語義與業務特征融合的制度關聯推薦方法及系統。
技術介紹
1、隨著制度管理信息化的發展,企業在日常管理中積累了涉及多部門、崗位、專業等業務范圍的大量制度文件。如何對這些制度文件進行高效的關聯分析,挖掘制度條款間的關聯性和相關性內容,成為企業提高管理效率的重要需求。然而,現有的企業制度關聯分析存在自動化水平不足、跨業務制度內容難以有效整合導致潛在制度關系難以被全面識別等問題。
2、現有的文本關聯分析方法可以分為三類:基于主題詞的文本關聯分析方法、基于文本關聯度的文本關聯分析方法和基于關聯網絡的文本關聯分析方法。基于主題詞的文本關聯分析方法主要通過共詞分析、高頻詞提取、lda主題模型等算法實現。這類方法在處理大規模文本時能夠快速提取文本核心內容。然而,這類方法對詞匯多義性和上下文理解的能力有限,難以挖掘深層次的語義關聯?;谖谋娟P聯度的文本關聯分析方法主要包括tf-idf、余弦相似度、jaccard相似度以及使用預訓練模型(如bert、gpt)的深度學習模型。這類方法的優勢在于能夠通過對文本內容的向量化表示,較為準確地計算不同文本之間的關聯度,捕捉更復雜的語義關系。然而,其劣勢在于計算復雜度較高,過于依賴文本內容本身,忽略了文本與外部信息(如業務實體、上下文背景)之間的關系?;陉P聯網絡的文本關聯分析方法通常通過構建實體關系網絡或知識圖譜,將文本中的實體、關鍵詞等作為節點,通過邊的關系構建網絡進行分析。這類方法的優勢在于能夠從結構層次上理解文本的關聯關系,不僅考慮了文本內容,還結
技術實現思路
1、本專利技術的目的在于提供一種充分考慮制度文本語義信息與外部業務信息,并且盡可能地降低計算資源消耗的基于語義與業務特征融合的制度關聯推薦方法及系統,以解決上述
技術介紹
中存在的至少一項技術問題。
2、為了實現上述目的,本專利技術采取了如下技術方案:
3、第一方面,本專利技術提供一種基于語義與業務特征融合的制度關聯推薦方法,包括:
4、基于正則表達式對制度文件進行文本分割,并基于gte架構預訓練模型提取條款語義特征;
5、基于制度文件條款內容與外部業務信息關聯需求,構建制度關聯業務知識圖譜,并使用neo4j圖數據庫存儲圖譜數據;
6、創建條款-部門、條款-崗位、條款-專業三層制度業務知識網絡,基于node2vec算法計算各層網絡條款實體的圖結構特征;
7、對條款實體的語義特征和圖結構特征向量進行融合,基于余弦相似度方法建立制度關聯業務知識圖譜中條款實體間的關聯關系;
8、基于neo4j圖數據庫的cypher查詢語言實現制度條款關聯推薦。
9、作為本專利技術第一方面的進一步限定,基于正則表達式對制度文件進行文本分割,并基于gte架構預訓練模型提取條款語義特征,包括:對輸入的制度文件進行預處理,清除文本中的無關字符,文本清洗使用正則表達式模式;使用正則表達式模式將清洗后的文本按條款進行分割;匹配后的結果是元組列表,每個元組包括條款編號和對應的文本內容;對清洗后的每一條款文本,基于gte架構的預訓練模型生成其對應的語義特征向量。
10、作為本專利技術第一方面的進一步限定,基于制度文件條款內容與外部業務信息關聯需求,構建制度關聯業務知識圖譜并應用neo4j存儲圖譜數據,包括:面向制度條款與業務相關聯的需求,定義以下實體作為知識圖譜中的節點:“條款”:制度文件中的條款內容;“部門”:涉及條款的相關部門;“崗位”:條款中涉及的崗位信息;“專業”:條款中關聯的專業領域;定義以下兩種關系作為知識圖譜中的邊,來表達條款與業務實體之間的關聯以及條款實體之間的關聯:“隸屬關系”:條款與部門、崗位、專業之間的層級隸屬關系;“相關關系”:條款與條款之間的相關關系;定義以下屬性作為知識圖譜中的實體屬性:“文件”:條款實體對應的文件屬性;定義以下屬性作為知識圖譜中的關系屬性:“關聯度”:條款間相關關系對應的關聯度屬性;
11、構建制度關聯業務知識圖譜模式層相關三元組結構,包括<條款,部門_,部門>、<條款,崗位_,崗位>、<條款,專業_,專業>、<條款,文件屬性_,文件屬性值>;
12、利用預訓練的業務實體預測模型對條款文本進行處理,得到條款文本的業務實體集合;其中,業務實體預測模型的訓練包括:對條款文本進行人工標注,標注出其中的部門、崗位和專業實體;
13、對條款文本進行分詞,生成詞語序列;
14、使用詞嵌入方法將每個詞轉化為特征向量,得到詞特征序列輸入bilstm-crf模型進行處理,對每個詞的標簽進行預測,生成標簽序列;
15、將提取的制度文件各條款與提取出的相關業務實體進行映射,形成知識圖譜中的三元組結構;
16、為對各條款作系統的區分和標識,將各條款對應的制度文件名稱作為其文件屬性,形成實體屬性結構;
17、將每個條款及其對應的部門、崗位、專業隸屬關系都作為節點和邊存儲在neo4j圖數據庫中,完成制度關聯業務知識圖譜構建。
18、作為本專利技術第一方面的進一步限定,創建條款-部門、條款-崗位、條款-專業三層制度業務知識網絡,基于node2vec算法計算各層網絡條款實體的圖結構特征,包括:對于每一類業務實體,從neo4j圖數據庫中提取條款與該業務實體之間的關系;基于提取的關系數據,用networkx庫構建圖結構;使用node2vec算法在構建的圖網絡上計算圖結構中的條款節點特征,生成基于圖結構的條款節點特征向量;根據業務類型將每個條款的特征向量存儲在相應的數據結構中,形成特征矩陣。
19、作為本專利技術第一方面的進一步限定,對條款實體的語義特征和圖結構特征進行融合,基于余弦相似度方法建立制度關聯業務知識圖譜中條款實體間的關聯關系,具體包括:加載獲取的語義特征和圖結構特征,為了確保不同來源的特征向量能夠正確拼接,將語義特征向量和業務實體特征向量按照共同的條款id進行對齊,獲取所有特征的公共索引,對每個特征向量進行重新排序,使它們在索引上保持一致;對于融合后的特征,使用余弦相似度計算條款實體之間的關聯度;對于所有計算出的關聯度大于閾值的條款對,在neo4j圖數據庫中創建“關聯”關系,形成三元組結構與關系屬性結構。
20、作為本專利技術第一方面的進一步限定,基于neo4j圖本文檔來自技高網...
【技術保護點】
1.一種基于語義與業務特征融合的制度關聯推薦方法,其特征在于,包括:
2.根據權利要求1所述的基于語義與業務特征融合的制度關聯推薦方法,其特征在于,基于正則表達式對制度文件進行文本分割,并基于GTE架構預訓練模型提取條款語義特征,包括:對輸入的制度文件進行預處理,清除文本中的無關字符,文本清洗使用正則表達式模式;使用正則表達式模式將清洗后的文本按條款進行分割;匹配后的結果是元組列表,每個元組包括條款編號和對應的文本內容;對清洗后的每一條款文本,基于GTE架構的預訓練模型生成其對應的語義特征向量。
3.根據權利要求2所述的基于語義與業務特征融合的制度關聯推薦方法,其特征在于,基于制度文件條款內容與外部業務信息關聯需求,構建制度關聯業務知識圖譜并應用Neo4j存儲圖譜數據,包括:面向制度條款與業務相關聯的需求,定義以下實體作為知識圖譜中的節點:“條款”:制度文件中的條款內容;“部門”:涉及條款的相關部門;“崗位”:條款中涉及的崗位信息;“專業”:條款中關聯的專業領域;定義以下兩種關系作為知識圖譜中的邊,來表達條款與業務實體之間的關聯以及條款實體之間的關聯:“隸
4.根據權利要求3所述的基于語義與業務特征融合的制度關聯推薦方法,其特征在于,創建條款-部門、條款-崗位、條款-專業三層制度業務知識網絡,基于Node2Vec算法計算各層網絡條款實體的圖結構特征,包括:
5.根據權利要求4所述的基于語義與業務特征融合的制度關聯推薦方法,其特征在于,對條款實體的語義特征和圖結構特征進行融合,基于余弦相似度方法建立制度關聯業務知識圖譜中條款實體間的關聯關系,具體包括:加載獲取的語義特征和圖結構特征,為了確保不同來源的特征向量能夠正確拼接,將語義特征向量和業務實體特征向量按照共同的條款ID進行對齊,獲取所有特征的公共索引,對每個特征向量進行重新排序,使它們在索引上保持一致;對于融合后的特征,使用余弦相似度計算條款實體之間的關聯度;對于所有計算出的關聯度大于閾值的條款對,在Neo4j圖數據庫中創建“關聯”關系,形成三元組結構與關系屬性結構。
6.根據權利要求5所述的基于語義與業務特征融合的制度關聯推薦方法,其特征在于,基于Neo4j圖數據庫的Cypher查詢語言快速獲取與某條款關聯的其他條款,實現制度條款的智能推薦,包括:使用MATCH語句找到指定條款作為查詢起點節點c1,該節點標識為某文件中的特定條款節點;通過[r:關聯]關系,查找與目標條款節點存在“關聯”關系的其他條款節點c2;使用ORDER?BY?r.關聯度DESC對查詢結果按關聯度分值降序排列,以便優先顯示與目標條款關聯度較高的條款;通過LIMIT?n指定查詢結果的條款數量。
7.一種基于語義與業務特征融合的制度關聯推薦系統,其特征在于,包括:
8.一種非暫態計算機可讀存儲介質,其特征在于,所述非暫態計算機可讀存儲介質用于存儲計算機指令,所述計算機指令被處理器執行時,實現如權利要求1-6任一項所述的基于語義與業務特征融合的制度關聯推薦方法。
9.一種計算機設備,其特征在于,包括存儲器和處理器,所述處理器和所述存儲器相互通信,所述存儲器存儲有可被所述處理器執行的程序指令,所述處理器調用所述程序指令執行如權利要求1-6任一項所述的基于語義與業務特征融合的制度關聯推薦方法。
10.一種電子設備,其特征在于,包括:處理器、存儲器以及計算機程序;其中,處理器與存儲器連接,計算機程序被存儲在存儲器中,當電子設備運行時,所述處理器執行所述存儲器存儲的計算機程序,以使電子設備執行實現如權利要求1-6任一項所述的基于語義與業務特征融合的制度關聯推薦方法的指令。
...【技術特征摘要】
1.一種基于語義與業務特征融合的制度關聯推薦方法,其特征在于,包括:
2.根據權利要求1所述的基于語義與業務特征融合的制度關聯推薦方法,其特征在于,基于正則表達式對制度文件進行文本分割,并基于gte架構預訓練模型提取條款語義特征,包括:對輸入的制度文件進行預處理,清除文本中的無關字符,文本清洗使用正則表達式模式;使用正則表達式模式將清洗后的文本按條款進行分割;匹配后的結果是元組列表,每個元組包括條款編號和對應的文本內容;對清洗后的每一條款文本,基于gte架構的預訓練模型生成其對應的語義特征向量。
3.根據權利要求2所述的基于語義與業務特征融合的制度關聯推薦方法,其特征在于,基于制度文件條款內容與外部業務信息關聯需求,構建制度關聯業務知識圖譜并應用neo4j存儲圖譜數據,包括:面向制度條款與業務相關聯的需求,定義以下實體作為知識圖譜中的節點:“條款”:制度文件中的條款內容;“部門”:涉及條款的相關部門;“崗位”:條款中涉及的崗位信息;“專業”:條款中關聯的專業領域;定義以下兩種關系作為知識圖譜中的邊,來表達條款與業務實體之間的關聯以及條款實體之間的關聯:“隸屬關系”:條款與部門、崗位、專業之間的層級隸屬關系;“相關關系”:條款與條款之間的相關關系;定義以下屬性作為知識圖譜中的實體屬性:“文件”:條款實體對應的文件屬性;定義以下屬性作為知識圖譜中的關系屬性:“關聯度”:條款間相關關系對應的關聯度屬性;
4.根據權利要求3所述的基于語義與業務特征融合的制度關聯推薦方法,其特征在于,創建條款-部門、條款-崗位、條款-專業三層制度業務知識網絡,基于node2vec算法計算各層網絡條款實體的圖結構特征,包括:
5.根據權利要求4所述的基于語義與業務特征融合的制度關聯推薦方法,其特征在于,對條款實體的語義特征和圖結構特征進行融合,基于余弦相似度方法建立制度關聯業務知識圖譜中條款實體間的關聯關系,具體包括:加載獲取的語義特征和圖結構特...
【專利技術屬性】
技術研發人員:馬小平,嚴晗,趙汝豪,李晴,么舜禹,程曉卿,王永恒,
申請(專利權)人:北京交通大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。