• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種文本匹配方法、裝置、系統以及存儲介質制造方法及圖紙

    技術編號:36692554 閱讀:25 留言:0更新日期:2023-02-27 20:01
    本發明專利技術提供一種文本匹配方法、裝置、系統以及存儲介質,屬于語言處理領域,方法包括:對原始句子對進行標注分析得到標注句子對;利用編碼器對各個標注句子對進行編碼得到句子對隱藏向量;根據各個原始句子對以及句子對隱藏向量進行向量分析得到差異向量、第一初始全局向量以及第二初始全局向量;根據差異向量、第一初始全局向量以及第二初始全局向量進行句子對相似性匹配分數的計算得到文本匹配結果。本發明專利技術突出了關鍵字這一重要匹配粒度在句子匹配中的重要性,實現了更精確的文本匹配,相對現有技術,能夠更精確地判斷文本的相似性且提升了文本匹配的準確率。提升了文本匹配的準確率。提升了文本匹配的準確率。

    【技術實現步驟摘要】
    一種文本匹配方法、裝置、系統以及存儲介質


    [0001]本專利技術主要涉及語言處理
    ,具體涉及一種文本匹配方法、裝置、系統以及存儲介質。

    技術介紹

    [0002]文本匹配是自然語言處理中的一項重要且富有挑戰的任務,用于判斷兩段文本的相似性,廣泛應用于搜索引擎、推薦系統、問答系統等場景。在現有的先進文本匹配模型中,大多數方法是對每個單詞進行統一處理,直接進行文本比較。但是,這樣忽略了文本的匹配粒度,從而降低了匹配的準確率。

    技術實現思路

    [0003]本專利技術所要解決的技術問題是針對現有技術的不足,提供一種文本匹配方法、裝置、系統以及存儲介質。
    [0004]本專利技術解決上述技術問題的技術方案如下:一種文本匹配方法,包括如下步驟:
    [0005]導入多個原始句子對,并分別對各個所述原始句子對進行標注分析,得到各個所述原始句子對的標注句子對;
    [0006]構建編碼器,利用所述編碼器分別對各個所述原始句子對的標注句子對進行編碼,得到各個所述原始句子對的句子對隱藏向量;
    [0007]分別根據各個所述原始句子對以及所述原始句子對的句子對隱藏向量進行向量分析,得到各個所述原始句子對的差異向量、第一初始全局向量以及第二初始全局向量;
    [0008]分別根據各個所述原始句子對的差異向量、第一初始全局向量以及第二初始全局向量進行句子對相似性匹配分數的計算,得到各個所述原始句子對的句子對相似性匹配分數,并將所有所述句子對相似性匹配分數作為文本匹配結果。
    [0009]本專利技術解決上述技術問題的另一技術方案如下:一種文本匹配裝置,包括:
    [0010]標注分析模塊,用于導入多個原始句子對,并分別對各個所述原始句子對進行標注分析,得到各個所述原始句子對的標注句子對;
    [0011]編碼分析模塊,用于構建編碼器,利用所述編碼器分別對各個所述原始句子對的標注句子對進行編碼,得到各個所述原始句子對的句子對隱藏向量;
    [0012]向量分析模塊,用于分別根據各個所述原始句子對以及所述原始句子對的句子對隱藏向量進行向量分析,得到各個所述原始句子對的差異向量、第一初始全局向量以及第二初始全局向量;
    [0013]匹配結果獲得模塊,用于分別根據各個所述原始句子對的差異向量、第一初始全局向量以及第二初始全局向量進行句子對相似性匹配分數的計算,得到各個所述原始句子對的句子對相似性匹配分數,并將所有所述句子對相似性匹配分數作為文本匹配結果。
    [0014]基于上述一種文本匹配方法,本專利技術還提供一種文本匹配系統。
    [0015]本專利技術解決上述技術問題的另一技術方案如下:一種文本匹配系統,包括存儲器、
    處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,當所述處理器執行所述計算機程序時,實現如上所述的文本匹配方法。
    [0016]基于上述一種文本匹配方法,本專利技術還提供一種計算機可讀存儲介質。
    [0017]本專利技術解決上述技術問題的另一技術方案如下:一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,當所述計算機程序被處理器執行時,實現如上所述的文本匹配方法。
    [0018]本專利技術的有益效果是:通過對原始句子對的標注分析得到標注句子對,利用編碼器對標注句子對的編碼得到句子對隱藏向量,根據原始句子對以及句子對隱藏向量的向量分析得到差異向量、第一初始全局向量以及第二初始全局向量,根據差異向量、第一初始全局向量以及第二初始全局向量的句子對相似性匹配分數計算得到文本匹配結果,突出了關鍵字這一重要匹配粒度在句子匹配中的重要性,實現了更精確的文本匹配,相對現有技術,能夠更精確地判斷文本的相似性且提升了文本匹配的準確率。
    附圖說明
    [0019]圖1為本專利技術實施例提供的一種文本匹配方法的流程示意圖;
    [0020]圖2為本專利技術實施例提供的一種文本匹配裝置的模塊框圖。
    具體實施方式
    [0021]以下結合附圖對本專利技術的原理和特征進行描述,所舉實例只用于解釋本專利技術,并非用于限定本專利技術的范圍。
    [0022]圖1為本專利技術實施例提供的一種文本匹配方法的流程示意圖。
    [0023]如圖1所示,一種文本匹配方法,包括如下步驟:
    [0024]導入多個原始句子對,并分別對各個所述原始句子對進行標注分析,得到各個所述原始句子對的標注句子對;
    [0025]構建編碼器,利用所述編碼器分別對各個所述原始句子對的標注句子對進行編碼,得到各個所述原始句子對的句子對隱藏向量;
    [0026]分別根據各個所述原始句子對以及所述原始句子對的句子對隱藏向量進行向量分析,得到各個所述原始句子對的差異向量、第一初始全局向量以及第二初始全局向量;
    [0027]分別根據各個所述原始句子對的差異向量、第一初始全局向量以及第二初始全局向量進行句子對相似性匹配分數的計算,得到各個所述原始句子對的句子對相似性匹配分數,并將所有所述句子對相似性匹配分數作為文本匹配結果。
    [0028]應理解地,將數據集中句子對(即所述原始句子對)的關鍵字進行標記。
    [0029]應理解地,還可以利用NLTK文本處理庫分別對各個所述原始句子對進行標注分析。
    [0030]應理解地,NLTK數據集(即NLTK文本處理庫)是NLP研究領域常用的一個Python庫。
    [0031]上述實施例中,通過對原始句子對的標注分析得到標注句子對,利用編碼器對標注句子對的編碼得到句子對隱藏向量,根據原始句子對以及句子對隱藏向量的向量分析得到差異向量、第一初始全局向量以及第二初始全局向量,根據差異向量、第一初始全局向量以及第二初始全局向量的句子對相似性匹配分數計算得到文本匹配結果,突出了關鍵字這
    一重要匹配粒度在句子匹配中的重要性,實現了更精確的文本匹配,相對現有技術,能夠更精確地判斷文本的相似性且提升了文本匹配的準確率。
    [0032]可選地,作為本專利技術的一個實施例,所述分別對各個所述原始句子對進行標注分析,得到各個所述原始句子對的標注句子對的過程包括:
    [0033]分別對各個所述原始句子對進行潛在關鍵詞的提取,得到各個所述原始句子對的多個潛在關鍵詞;
    [0034]根據預設知識庫分別對各個所述原始句子對的各個潛在關鍵詞進行匹配,得到各個所述原始句子對的多個匹配后關鍵詞;
    [0035]基于命名實體識別方法,根據各個所述原始句子對的多個匹配后關鍵詞分別對對應的所述原始句子對進行標注,得到各個所述原始句子對的標注句子對。
    [0036]應理解地,設計一個關鍵字鑒別器,將數據集中句子對(即所述原始句子對)的關鍵字進行標記。
    [0037]應理解地,所述預設知識庫可以為維基百科實體圖或搜狗知識圖,維基百科實體圖用于英文語料庫,搜狗知識圖用于中文醫學SM。
    [0038]具體地,首先從NLTK(即所述NLTK數據集)中提取潛在的關鍵詞(即所述潛在關鍵詞),包括名詞、動詞和形容詞的詞性標簽。然后通過使用外部知識庫(即所述預設知識庫本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種文本匹配方法,其特征在于,包括如下步驟:導入多個原始句子對,并分別對各個所述原始句子對進行標注分析,得到各個所述原始句子對的標注句子對;構建編碼器,利用所述編碼器分別對各個所述原始句子對的標注句子對進行編碼,得到各個所述原始句子對的句子對隱藏向量;分別根據各個所述原始句子對以及所述原始句子對的句子對隱藏向量進行向量分析,得到各個所述原始句子對的差異向量、第一初始全局向量以及第二初始全局向量;分別根據各個所述原始句子對的差異向量、第一初始全局向量以及第二初始全局向量進行句子對相似性匹配分數的計算,得到各個所述原始句子對的句子對相似性匹配分數,并將所有所述句子對相似性匹配分數作為文本匹配結果。2.根據權利要求1所述的文本匹配方法,其特征在于,所述分別對各個所述原始句子對進行標注分析,得到各個所述原始句子對的標注句子對的過程包括:分別對各個所述原始句子對進行潛在關鍵詞的提取,得到各個所述原始句子對的多個潛在關鍵詞;根據預設知識庫分別對各個所述原始句子對的各個潛在關鍵詞進行匹配,得到各個所述原始句子對的多個匹配后關鍵詞;基于命名實體識別方法,根據各個所述原始句子對的多個匹配后關鍵詞分別對對應的所述原始句子對進行標注,得到各個所述原始句子對的標注句子對。3.根據權利要求1所述的文本匹配方法,其特征在于,所述標注句子對包括第一標注句子和第二標注句子,所述編碼器包括BERT模型和最大池化層;所述利用所述編碼器分別對各個所述原始句子對的標注句子對進行編碼,得到各個所述原始句子對的句子對隱藏向量的過程包括:利用所述BERT模型分別對各個所述原始句子對的第一標注句子進行編碼,得到各個所述原始句子對的第一隱藏分量;利用所述BERT模型分別對各個所述原始句子對的第二標注句子進行編碼,得到各個所述原始句子對的第二隱藏分量;利用所述最大池化層分別對各個所述原始句子對的第一隱藏分量進行最大池化處理,得到各個所述原始句子對的第一句子隱藏向量;利用所述最大池化層分別對各個所述原始句子對的第二隱藏分量進行最大池化處理,得到各個所述原始句子對的第二句子隱藏向量;其中,所述原始句子對的句子對隱藏向量包括所述原始句子對的第一句子隱藏向量和所述原始句子對的第二句子隱藏向量。4.根據權利要求3所述的文本匹配方法,其特征在于,所述分別根據各個所述原始句子對以及所述原始句子對的句子對隱藏向量進行向量分析,得到各個所述原始句子對的差異向量、第一初始全局向量以及第二初始全局向量的過程包括:利用所述BERT模型分別對各個所述原始句子對進行編碼,得到各個所述原始句子對的第一初始全局向量以及第二初始全局向量;分別根據各個所述原始句子對的第一句子隱藏向量、第二句子隱藏向量、第一初始全局向量以及第二初始全局向量進行差異向量的計算,得到各個所述原始句子對的差異向
    量。5.根據權利要求4所述的文本匹配方法,其特征在于,所述分別根據各個所述原始句子對的第一句子隱藏向量、第二句子隱藏向量、第一初始全局向量以及第二初始全局向量進行差異向量的計算,得到各個所述原始句子對的差異向量的過程包括:基于第一式,分別根據各個所述原始句子對的第一句子隱藏向量、第二句子隱藏向量、第一初始全局向量以及第二初始全局向量進行差異向量的計算,得到各個所述原始句子對的差異向量,所述第一式為:K
    diff
    =[H
    A
    (CLS)
    ?
    ...

    【專利技術屬性】
    技術研發人員:蔡曉東董麗芳
    申請(專利權)人:桂林電子科技大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 一本色道无码道DVD在线观看| 亚洲va中文字幕无码| 精品久久久久久中文字幕无码 | 免费A级毛片无码A∨| 午夜福利无码不卡在线观看 | 国产成人精品无码一区二区三区| 国产精品无码午夜福利| 无码午夜成人1000部免费视频| 亚洲av永久无码精品三区在线4| 亚洲av中文无码| 熟妇人妻无码中文字幕老熟妇| 人妻丰满熟妇aⅴ无码| 无码精品国产dvd在线观看9久| 天堂Aⅴ无码一区二区三区| 亚洲日韩中文字幕无码一区 | 一本一道VS无码中文字幕| 国产亚洲人成无码网在线观看| 亚洲Av永久无码精品黑人| 久久午夜无码鲁丝片直播午夜精品| 无码精品A∨在线观看无广告| 久久精品国产亚洲AV无码娇色 | 亚洲色无码一区二区三区| 国模无码视频一区| 亚洲最大天堂无码精品区| 午夜不卡无码中文字幕影院| 国产亚洲精品无码成人| 韩国19禁无遮挡啪啪无码网站| 色综合久久久无码中文字幕波多 | 亚洲国产精品无码久久98| a级毛片无码免费真人久久 | 一本一道VS无码中文字幕| 亚洲AV日韩AV高潮无码专区| 韩国免费a级作爱片无码| heyzo高无码国产精品| 亚洲区日韩区无码区| 国产激情无码一区二区三区| 少妇无码?V无码专区在线观看| 免费无码又爽又刺激高潮的视频| HEYZO无码中文字幕人妻| 国产av无码久久精品| 亚洲av无码成人精品区|