• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種實體匹配的方法及裝置制造方法及圖紙

    技術編號:24252002 閱讀:76 留言:0更新日期:2020-05-22 23:48
    本發明專利技術提供了一種實體匹配的方法及裝置,其中,該實體匹配的方法通過獲取訓練文本信息,對所述訓練文本信息進行分詞,得到實體詞庫,然后依據所述實體詞庫中兩兩實體詞在所述訓練文本信息中同時出現的頻次,構建實體詞向量矩陣,從所述實體詞庫中獲取待匹配實體映射的目標實體詞,從所述詞向量矩陣中,獲取所述目標實體詞對應的行向量,獲取所述詞向量矩陣中除所述目標實體詞對應的列向量之外的其他詞向量對應的候選列向量,計算所述目標實體詞對應的行向量與所述候選列向量的余弦相似度,依據計算得到的余弦相似度確定與所述待匹配實體相匹配的實體。這樣,可以提高實體匹配的效率。

    A method and device of entity matching

    【技術實現步驟摘要】
    一種實體匹配的方法及裝置
    本專利技術涉及數據分析
    ,具體而言,涉及一種實體匹配的方法及裝置。
    技術介紹
    隨著社交媒體的不斷發展,社交媒體逐漸成為人們獲取信息資訊的主要方式,越來越多的人群選擇參考社交媒體平臺中的信息,制定目標方案,基于多種因素的影響,目標方案并不唯一,在第一目標方案無法實施時,如何高效的尋求相似的替代方案,成為當前迫切需要解決的問題。例如,與明星等實體相關的內容在社交媒體平臺中具有較高的討論熱度,在影視、綜藝節目選角或是品牌選擇代言人推廣時,在確定第一順位人選的同時,還需確定一些與第一順位人選相似的明星作為備選,以便當第一順位明星檔期不合時,還有多種可選方案,避免延誤后續方案的實施進程。目前,在確定與第一順位人選相似的備選時,通過獲取社交媒體平臺上粉絲群的個人信息,例如,性別,年齡,愛好等,將第一順位人選的粉絲群與其他明星的粉絲群進行匹配,獲取與第一順位人選的粉絲群重合度較大的粉絲群對應的明星作為備選,從而實現實體的匹配。這種實體匹配的方法,由于不同社交媒體平臺中用戶信息存儲格式不同,因此,在匹配過程中,難以分析跨平臺獲取的數據信息,例如,不同格式的信息無法匹配,造成匹配資源的浪費,或是匹配錯誤,使得匹配結果的可信度不高,導致實體匹配的效率較低。
    技術實現思路
    有鑒于此,本專利技術的目的在于提供實體匹配的方法及裝置,以提高實體匹配的效率。第一方面,本專利技術實施例提供了實體匹配的方法,所述方法包括:獲取訓練文本信息,對所述訓練文本信息進行分詞,得到實體詞庫;依據所述實體詞庫中兩兩實體詞在所述訓練文本信息中同時出現的頻次,構建實體詞向量矩陣;從所述實體詞庫中獲取待匹配實體映射的目標實體詞,從所述詞向量矩陣中,獲取所述目標實體詞對應的行向量;獲取所述詞向量矩陣中除所述目標實體詞對應的列向量之外的其他詞向量對應的候選列向量;計算所述目標實體詞對應的行向量與所述候選列向量的余弦相似度;依據計算得到的余弦相似度確定與所述待匹配實體相匹配的實體。結合第一方面,本專利技術實施例提供了第一方面的第一種可能的實施方式,其中,所述獲取訓練文本信息,對所述訓練文本信息進行分詞,得到實體詞庫,包括:從社交媒體平臺上爬取文本信息,得到所述訓練文本信息;對所述訓練文本信息進行分詞,基于分詞結果,合并所述分詞結果中的重復詞,得到所述實體詞庫。結合第一方面,本專利技術實施例提供了第一方面的第二種可能的實施方式,其中,所述依據所述實體詞庫中兩兩實體詞在所述訓練文本信息中同時出現的頻次,構建實體詞向量矩陣,包括:依據所述實體詞庫中包含的實體詞,構建實體詞行向量,每一實體詞對應一實體詞行向量,所述實體詞行向量的列數為統計的所述實體詞庫中包含的實體詞個數;針對每一所述實體詞行向量,統計該實體詞行向量對應的實體詞與所述實體詞庫中的實體詞在所述訓練文本信息中同時出現的頻次,填入該實體詞行向量對應的列。結合第一方面,本專利技術實施例提供了第一方面的第三種可能的實施方式,其中,所述從所述實體詞庫中獲取待匹配實體映射的目標實體詞,包括:對所述待匹配實體進行分詞,得到待匹配分詞結果,從所述實體詞庫中,獲取與所述待匹配分詞結果相匹配的目標實體詞。結合第一方面的第三種可能的實施方式,本專利技術實施例提供了第一方面的第四種可能的實施方式,其中,所述從所述實體詞庫中獲取待匹配實體映射的目標實體詞,還包括:若從所述實體詞庫中,獲取不到與所述待匹配分詞結果相匹配的目標實體詞,從社交媒體平臺上,爬取包含所述待匹配分詞結果的補充文本信息,對所述補充文本信息進行分詞;基于分詞結果,將不同于所述實體詞庫中的實體詞補充至所述實體詞庫中;基于補充的實體詞,對所述實體詞向量矩陣進行更新。結合第一方面,本專利技術實施例提供了第一方面的第五種可能的實施方式,其中,所述獲取所述目標實體詞對應的行向量,包括:判斷獲取的所述目標實體詞對應的行向量是否唯一;若否,通過矩陣運算法則,合并所述目標實體詞對應的行向量。結合第一方面,本專利技術實施例提供了第一方面的第六種可能的實施方式,其中,所述依據計算得到的余弦相似度確定與所述待匹配實體相匹配的實體,包括:判斷所述計算得到的余弦相似度是否超過預設的相似度閾值;若是,則確定所述計算得到的余弦相似度對應的候選列向量對應的實體與所述待匹配實體相匹配。第二方面,本專利技術實施例還提供了一種實體匹配的裝置,所述裝置包括:詞庫構建模塊,用于獲取訓練文本信息,對所述訓練文本信息進行分詞,得到實體詞庫;矩陣構建模塊,用于依據所述實體詞庫中兩兩實體詞在所述訓練文本信息中同時出現的頻次,構建實體詞向量矩陣;行向量獲取模塊,用于從所述實體詞庫中獲取待匹配實體映射的目標實體詞,從所述詞向量矩陣中,獲取所述目標實體詞對應的行向量;列向量獲取模塊,用于獲取所述詞向量矩陣中除所述目標實體詞對應的列向量之外的其他詞向量對應的候選列向量;相似度計算模塊,用于計算所述目標實體詞對應的行向量與所述候選列向量的余弦相似度;實體匹配模塊,用于依據計算得到的余弦相似度確定與所述待匹配實體相匹配的實體。第三方面,本申請實施例提供了一種計算機設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現上述實體匹配的方法的步驟。第四方面,本申請實施例提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有計算機程序,所述計算機程序被處理器運行時執行上述實體匹配的方法的步驟。本專利技術實施例提供的實體匹配的方法及裝置,通過獲取訓練文本信息,對所述訓練文本信息進行分詞,得到實體詞庫,然后依據所述實體詞庫中兩兩實體詞在所述訓練文本信息中同時出現的頻次,構建實體詞向量矩陣,從所述實體詞庫中獲取待匹配實體映射的目標實體詞,從所述詞向量矩陣中,獲取所述目標實體詞對應的行向量,獲取所述詞向量矩陣中除所述目標實體詞對應的列向量之外的其他詞向量對應的候選列向量,進而計算所述目標實體詞對應的行向量與所述候選列向量的余弦相似度,依據計算得到的余弦相似度確定與所述待匹配實體相匹配的實體。這樣,通過獲取訓練文本信息,對所述訓練文本信息進行分詞,得到實體詞庫,然后依據所述實體詞庫中兩兩實體詞在所述訓練文本信息中同時出現的頻次,構建實體詞向量矩陣,由于所述實體匹配的方法利用的是具有實際討論內容的文本信息,提高了匹配結果的可信度,并且文本信息在不同的社交媒體平臺中格式相同,因此減少了對匹配資源的浪費,進而提高了實體匹配的效率。為使本專利技術的上述目的、特征和優點能更明顯易懂,下文特舉較佳實施例,并配合所附附圖,作詳細說明如下。附圖說明為了更清楚地說明本專利技術實施例的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,應當理解,以下附圖僅示出了本專利技術的某些實施例,因此不應被看作是對范圍的限定,對于本本文檔來自技高網...

    【技術保護點】
    1.一種實體匹配的方法,其特征在于,所述方法包括:/n獲取訓練文本信息,對所述訓練文本信息進行分詞,得到實體詞庫;/n依據所述實體詞庫中兩兩實體詞在所述訓練文本信息中同時出現的頻次,構建實體詞向量矩陣;/n從所述實體詞庫中獲取待匹配實體映射的目標實體詞,從所述詞向量矩陣中,獲取所述目標實體詞對應的行向量;/n獲取所述詞向量矩陣中除所述目標實體詞對應的列向量之外的其他詞向量對應的候選列向量;/n計算所述目標實體詞對應的行向量與所述候選列向量的余弦相似度;/n依據計算得到的余弦相似度確定與所述待匹配實體相匹配的實體。/n

    【技術特征摘要】
    1.一種實體匹配的方法,其特征在于,所述方法包括:
    獲取訓練文本信息,對所述訓練文本信息進行分詞,得到實體詞庫;
    依據所述實體詞庫中兩兩實體詞在所述訓練文本信息中同時出現的頻次,構建實體詞向量矩陣;
    從所述實體詞庫中獲取待匹配實體映射的目標實體詞,從所述詞向量矩陣中,獲取所述目標實體詞對應的行向量;
    獲取所述詞向量矩陣中除所述目標實體詞對應的列向量之外的其他詞向量對應的候選列向量;
    計算所述目標實體詞對應的行向量與所述候選列向量的余弦相似度;
    依據計算得到的余弦相似度確定與所述待匹配實體相匹配的實體。


    2.根據權利要求1所述的方法,其特征在于,所述獲取訓練文本信息,對所述訓練文本信息進行分詞,得到實體詞庫,包括:
    從社交媒體平臺上爬取文本信息,得到所述訓練文本信息;
    對所述訓練文本信息進行分詞,基于分詞結果,合并所述分詞結果中的重復詞,得到所述實體詞庫。


    3.根據權利要求1所述的方法,其特征在于,所述依據所述實體詞庫中兩兩實體詞在所述訓練文本信息中同時出現的頻次,構建實體詞向量矩陣,包括:
    依據所述實體詞庫中包含的實體詞,構建實體詞行向量,每一實體詞對應一實體詞行向量,所述實體詞行向量的列數為統計的所述實體詞庫中包含的實體詞個數;
    針對每一所述實體詞行向量,統計該實體詞行向量對應的實體詞與所述實體詞庫中的實體詞在所述訓練文本信息中同時出現的頻次,填入該實體詞行向量對應的列。


    4.根據權利要求1所述的方法,其特征在于,所述從所述實體詞庫中獲取待匹配實體映射的目標實體詞,包括:
    對所述待匹配實體進行分詞,得到待匹配分詞結果,從所述實體詞庫中,獲取與所述待匹配分詞結果相匹配的目標實體詞。


    5.根據權利要求4所述的方法,其特征在于,所述從所述實體詞庫中獲取待匹配實體映射的目標實體詞,還包括:
    若從所述實體詞庫中,獲取不到與所述待匹配分詞結果相匹配的目標實體詞,從社交媒體平臺上,爬取包含所述待匹配分詞結果的補充文本信息,對...

    【專利技術屬性】
    技術研發人員:張夢醒
    申請(專利權)人:精碩科技北京股份有限公司
    類型:發明
    國別省市:北京;11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 性色av无码免费一区二区三区| 18禁免费无码无遮挡不卡网站| 国产精品爽爽va在线观看无码| 无码一区二区三区中文字幕| 亚洲日韩精品一区二区三区无码 | 日韩久久无码免费毛片软件| 国产成人无码区免费内射一片色欲| 久久精品中文字幕无码绿巨人 | 亚洲中文久久精品无码1| 亚洲中文字幕久久精品无码A| 久久亚洲AV无码西西人体| 亚洲综合无码一区二区三区 | 亚洲AV无码精品色午夜果冻不卡 | 亚洲国产精品无码久久青草| 精品久久久久久无码专区| 日韩人妻无码精品系列| 国产精品无码久久av| 亚洲精品无码专区在线| 精品多人p群无码| 97久久精品无码一区二区天美| 中文午夜乱理片无码| 中文字幕无码免费久久9一区9| 国产精品无码一区二区三区毛片| 久久精品无码一区二区WWW| 久久精品无码一区二区三区| 久久久久亚洲AV无码专区网站| 日韩av无码国产精品| 亚洲AV无码专区亚洲AV桃| 精品国产aⅴ无码一区二区| 激情无码人妻又粗又大中国人| 人妻无码αv中文字幕久久| 无码精品人妻一区二区三区免费看| 永久免费av无码网站yy| 免费无码av片在线观看| 亚洲国产精品无码久久一线| 亚洲AV无码乱码国产麻豆| 国产精品亚洲аv无码播放| 无码精品人妻一区二区三区免费看| 日韩精品无码一区二区三区不卡| 亚洲av无码一区二区三区不卡| 无码人妻AV免费一区二区三区|