• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種用于生成關(guān)鍵詞的方法與設(shè)備技術(shù)

    技術(shù)編號:24331363 閱讀:49 留言:0更新日期:2020-05-29 19:43
    本申請的目的是提供一種用于生成關(guān)鍵詞的方法與設(shè)備。生成設(shè)備獲取輸入文本的單詞嵌入向量以及整體文本向量;將所述單詞嵌入向量輸入編碼器,并經(jīng)由所述編碼器編碼,以獲得與所述單詞嵌入向量相對應(yīng)的編碼隱向量;將所述整體文本向量輸入記憶力網(wǎng)絡(luò)中,以獲取與所述整體文本向量以及所述記憶力網(wǎng)絡(luò)中所包含的相關(guān)文檔相對應(yīng)的輸出隱向量;將所述編碼隱向量以及所述輸出隱向量輸入到解碼器中,并經(jīng)由所述解碼器解碼,以獲取與所述輸入文本相對應(yīng)的詞表概率分布。本申請同時解決了OOV的問題和生成未出現(xiàn)詞的問題,也解決了傳統(tǒng)的RNN的模型梯度消失和梯度爆炸等問題,可以準(zhǔn)確地為任何輸入文檔生成高度相關(guān)并且全面的關(guān)鍵詞。

    A method and equipment for generating keywords

    【技術(shù)實現(xiàn)步驟摘要】
    一種用于生成關(guān)鍵詞的方法與設(shè)備
    本申請涉及計算機
    ,尤其涉及一種用于生成關(guān)鍵詞的技術(shù)。
    技術(shù)介紹
    關(guān)鍵詞是對一段文本的關(guān)鍵信息的總結(jié),也是對整個文本重要信息的高度濃縮和概括。關(guān)鍵詞對于自然語言處理領(lǐng)域的很多任務(wù)都有幫助,比如文本摘要、文本分類、意見挖掘等,因此關(guān)鍵詞生成也是自然語言處理領(lǐng)域的基礎(chǔ)任務(wù)。根據(jù)生成的關(guān)鍵詞是否在當(dāng)前輸入文本中出現(xiàn),分為未出現(xiàn)關(guān)鍵詞(AbsentKeyphrase)和出現(xiàn)關(guān)鍵詞(PresentKeyphrase)兩種,因此,關(guān)鍵詞的生成效率、生成準(zhǔn)確性以及覆蓋范圍的廣泛性,則是衡量關(guān)鍵詞生成任務(wù)的重要參考指標(biāo)。
    技術(shù)實現(xiàn)思路
    本申請的目的是提供一種用于生成關(guān)鍵詞的方法與設(shè)備。根據(jù)本申請的一個實施例,提供了一種用于生成關(guān)鍵詞的方法,其中,該方法包括以下步驟:獲取輸入文本的單詞嵌入向量以及整體文本向量;將所述單詞嵌入向量輸入編碼器,并經(jīng)由所述編碼器編碼,以獲得與所述單詞嵌入向量相對應(yīng)的編碼隱向量;將所述整體文本向量輸入記憶力網(wǎng)絡(luò)中,以獲取與所述整體文本向量以及所述記憶力網(wǎng)絡(luò)中所包含的相關(guān)文檔相對應(yīng)的輸出隱向量;將所述編碼隱向量以及所述輸出隱向量輸入到解碼器中,并經(jīng)由所述解碼器解碼,以獲取與所述輸入文本相對應(yīng)的詞表概率分布。根據(jù)本申請的另一個實施例,提供了一種用于生成關(guān)鍵詞的生成設(shè)備,其中,所述生成設(shè)備包括:用于獲取輸入文本的單詞嵌入向量以及整體文本向量的裝置;用于將所述單詞嵌入向量輸入編碼器,并經(jīng)由所述編碼器編碼,以獲得與所述單詞嵌入向量相對應(yīng)的編碼隱向量的裝置;用于將所述整體文本向量輸入記憶力網(wǎng)絡(luò)中,以獲取與所述整體文本向量以及所述記憶力網(wǎng)絡(luò)中所包含的相關(guān)文檔相對應(yīng)的輸出隱向量的裝置;用于將所述編碼隱向量以及所述輸出隱向量輸入到解碼器中,并經(jīng)由所述解碼器解碼,以獲取與所述輸入文本相對應(yīng)的詞表概率分布的裝置。根據(jù)本申請的另一個實施例,提供了一種計算機設(shè)備,所述計算機設(shè)備包括:一個或多個處理器;存儲器,用于存儲一個或多個計算機程序;當(dāng)所述一個或多個計算機程序被所述一個或多個處理器執(zhí)行時,使得所述一個或多個處理器用于執(zhí)行以下操作:獲取輸入文本的單詞嵌入向量以及整體文本向量;將所述單詞嵌入向量輸入編碼器,并經(jīng)由所述編碼器編碼,以獲得與所述單詞嵌入向量相對應(yīng)的編碼隱向量;將所述整體文本向量輸入記憶力網(wǎng)絡(luò)中,以獲取與所述整體文本向量以及所述記憶力網(wǎng)絡(luò)中所包含的相關(guān)文檔相對應(yīng)的輸出隱向量;將所述編碼隱向量以及所述輸出隱向量輸入到解碼器中,并經(jīng)由所述解碼器解碼,以獲取與所述輸入文本相對應(yīng)的詞表概率分布。根據(jù)本申請的另一個實施例,提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序可被處理器用于執(zhí)行以下操作:獲取輸入文本的單詞嵌入向量以及整體文本向量;將所述單詞嵌入向量輸入編碼器,并經(jīng)由所述編碼器編碼,以獲得與所述單詞嵌入向量相對應(yīng)的編碼隱向量;將所述整體文本向量輸入記憶力網(wǎng)絡(luò)中,以獲取與所述整體文本向量以及所述記憶力網(wǎng)絡(luò)中所包含的相關(guān)文檔相對應(yīng)的輸出隱向量;將所述編碼隱向量以及所述輸出隱向量輸入到解碼器中,并經(jīng)由所述解碼器解碼,以獲取與所述輸入文本相對應(yīng)的詞表概率分布。與現(xiàn)有技術(shù)相比,本申請將記憶力網(wǎng)絡(luò)引入到編解碼器架構(gòu)中,利用記憶力網(wǎng)絡(luò)單獨對輸入文本進行處理,以生成關(guān)鍵詞,從而具有如下優(yōu)點:1.能夠從外部知識庫中檢索相似文檔并利用高度相關(guān)的內(nèi)容,提高預(yù)測未出現(xiàn)詞的能力;2.記憶力機制提供了領(lǐng)域遷移的能力,基于龐大的外部知識庫,模型可以輕松地遷移到特定領(lǐng)域,如醫(yī)療和金融;3.記憶力網(wǎng)絡(luò)還能夠兼容各種外部知識庫,具有高度靈活性,可以根據(jù)用戶的需求進行添加。此外,本申請還采用了復(fù)制機制,以從輸入文本中顯式復(fù)制重要單詞加入到輸出的預(yù)測內(nèi)容中,輔助模型提高預(yù)測單詞的準(zhǔn)確率;利用生成概率,決定每個詞復(fù)制概率和詞表概率的權(quán)重,可以有機地融合兩種概率所提供的信息,解決了OOV(未登錄詞,Out-of-Vocabulary)的問題。此外,本申請的所述編碼器和/或所述解碼器采用Transformer架構(gòu),也即利用了Transformer的模型架構(gòu)進行序列到序列的生成,具有更強大的并行計算和長期記憶能力,解決了傳統(tǒng)的基于RNN的模型梯度消失和梯度爆炸的問題,提高了生成過程的效率。綜上所述,本申請同時解決了OOV的問題和生成未出現(xiàn)詞的問題,也解決了傳統(tǒng)的RNN的模型梯度消失和梯度爆炸等問題,可以準(zhǔn)確地為任何輸入文檔生成高度相關(guān)并且全面的關(guān)鍵詞。附圖說明通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細(xì)描述,本申請的其它特征、目的和優(yōu)點將會變得更明顯:圖1示出根據(jù)本申請一個實施例的一種用于生成關(guān)鍵詞的方法流程圖;圖2示出根據(jù)本申請另一個實施例的一種用于生成關(guān)鍵詞的方法流程圖;圖3示出根據(jù)本申請一個實施例的一種用于生成關(guān)鍵詞的生成設(shè)備示意圖;圖4示出根據(jù)本申請另一個實施例的一種用于生成關(guān)鍵詞的生成設(shè)備示意圖;圖5示出根據(jù)本申請一個實施例的一種用于生成關(guān)鍵詞的架構(gòu)圖;圖6示出了可被用于實施本申請中所述的各個實施例的示例性系統(tǒng)。附圖中相同或相似的附圖標(biāo)記代表相同或相似的部件。具體實施方式生成關(guān)鍵詞的方法分為兩類:一類是抽取式,一類是生成式。抽取式方法是從輸入文本中選擇重要的單詞或者短語抽取出來,作為生成的結(jié)果,其候選詞空間限定在所有輸入文本中出現(xiàn)的詞中,生成過程中只需要在較小的范圍內(nèi)進行搜索。因此,抽取式方法不能生成未出現(xiàn)關(guān)鍵詞。生成式方法可以生成在原文中未出現(xiàn)的關(guān)鍵詞?;谘h(huán)神經(jīng)網(wǎng)絡(luò)在序列到序列任務(wù)上出色的表現(xiàn),將循環(huán)神經(jīng)網(wǎng)絡(luò)應(yīng)用于關(guān)鍵詞生成任務(wù)中,并利用更多的信息來提升性能。若僅是為了生成固定數(shù)量的關(guān)鍵詞,可以利用CopyRNN。這種循環(huán)神經(jīng)網(wǎng)絡(luò)可以將一個輸入文本X和N個關(guān)鍵詞做成N個文檔—關(guān)鍵詞對,但是每個文檔對應(yīng)的關(guān)鍵詞數(shù)量(N)是不同的,所以模型無法提前預(yù)知當(dāng)前文檔對應(yīng)關(guān)鍵詞的數(shù)量,只能預(yù)測固定數(shù)量(比如N=k)個關(guān)鍵詞。為了生成合適數(shù)量的關(guān)鍵詞,可以利用catSeq。這種循環(huán)神經(jīng)網(wǎng)絡(luò)將一個輸入文檔對應(yīng)的N個關(guān)鍵詞連接起來作為一個序列進行預(yù)測。在這一個序列不同的關(guān)鍵詞之間,加上特殊的符號標(biāo)記[SEP],并且在文檔開頭和末尾分別添加特殊標(biāo)記[BOS]和[EOS],這樣可以保證生成過程自動停止,從而生成不同數(shù)量的關(guān)鍵詞。申請人進一步發(fā)現(xiàn),上述方法存在以下不足:1.上述方法均是基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的架構(gòu)進行改進,然而RNN不能夠并行的特點導(dǎo)致訓(xùn)練過程非常緩慢,且RNN在處理長時間記憶方面能力較弱。2.上述方法忽略了其他文檔本身自帶的重要信息,這些信息可以為當(dāng)前文檔的關(guān)鍵詞生成提供重要的參考。因此,本申請?zhí)岢隽艘环N新型本文檔來自技高網(wǎng)...

    【技術(shù)保護點】
    1.一種用于生成關(guān)鍵詞的方法,其中,該方法包括以下步驟:/n獲取輸入文本的單詞嵌入向量以及整體文本向量;/n將所述單詞嵌入向量輸入編碼器,并經(jīng)由所述編碼器編碼,以獲得與所述單詞嵌入向量相對應(yīng)的編碼隱向量;/n將所述整體文本向量輸入記憶力網(wǎng)絡(luò)中,以獲取與所述整體文本向量以及所述記憶力網(wǎng)絡(luò)中所包含的相關(guān)文檔相對應(yīng)的輸出隱向量;/n將所述編碼隱向量以及所述輸出隱向量輸入到解碼器中,并經(jīng)由所述解碼器解碼,以獲取與所述輸入文本相對應(yīng)的詞表概率分布。/n

    【技術(shù)特征摘要】
    1.一種用于生成關(guān)鍵詞的方法,其中,該方法包括以下步驟:
    獲取輸入文本的單詞嵌入向量以及整體文本向量;
    將所述單詞嵌入向量輸入編碼器,并經(jīng)由所述編碼器編碼,以獲得與所述單詞嵌入向量相對應(yīng)的編碼隱向量;
    將所述整體文本向量輸入記憶力網(wǎng)絡(luò)中,以獲取與所述整體文本向量以及所述記憶力網(wǎng)絡(luò)中所包含的相關(guān)文檔相對應(yīng)的輸出隱向量;
    將所述編碼隱向量以及所述輸出隱向量輸入到解碼器中,并經(jīng)由所述解碼器解碼,以獲取與所述輸入文本相對應(yīng)的詞表概率分布。


    2.根據(jù)權(quán)利要求1所述的方法,其中,該方法還包括:
    將所述詞表概率分布以及所述解碼器解碼時所生成的相應(yīng)參數(shù),輸入到指針生成網(wǎng)絡(luò)中,以獲取與所述輸入文本相對應(yīng)的最終概率分布。


    3.根據(jù)權(quán)利要求2所述的方法,其中,獲取與所述輸入文本相對應(yīng)的最終概率分布的步驟包括:
    根據(jù)所述解碼器解碼時所生成的相應(yīng)參數(shù),確定生成概率;
    確定與所述輸入文本相對應(yīng)的復(fù)制概率分布;
    根據(jù)所述生成概率、所述詞表概率分布以及所述復(fù)制概率分布,確定與所述輸入文本相對應(yīng)的最終概率分布。


    4.根據(jù)權(quán)利要求1至3中任一項所述的方法,其中,所述編碼器和/或所述解碼器采用Transformer架構(gòu)。


    5.根據(jù)權(quán)利要求1至4中任一項所述的方法,其中,該方法還包括:
    根據(jù)所述輸入文本所對應(yīng)的關(guān)鍵詞提取需求,確定與所述關(guān)鍵詞提取需求相對應(yīng)的文本知識集合;
    將所述文本知識用作所述記憶力網(wǎng)絡(luò)中所包含的相關(guān)文檔。


    6.根據(jù)權(quán)利要求1至5中任一項所述的方法,其中,獲取與所述整體文本向量以及所述記憶力網(wǎng)絡(luò)中所包含的相關(guān)文檔相對應(yīng)的輸出隱向量的步驟包括:
    獲取所述記憶力網(wǎng)絡(luò)中所包含的相關(guān)文檔所對應(yīng)的文本鍵向量以及文本值向量;
    根據(jù)所述整體文本向量與所述文本鍵向量,獲取所述輸入文本與所述相關(guān)文檔的相似度;
    根據(jù)所述相似度以及所述文本值向量,獲取與所述整體文本向量以及所述記憶力網(wǎng)絡(luò)中所包含的相關(guān)文檔相對應(yīng)的輸出隱向量。


    7.根據(jù)權(quán)利要求1至6中任一項所述的方法,其中,獲取與所述輸入文本相對應(yīng)的詞表概率分布的步驟包括:
    拼接所述編碼隱向量以及所述輸出隱向量,以獲得最終隱向量;
    根據(jù)所述最終隱向量以及所述解碼器的歷史狀態(tài)輸出,經(jīng)過解碼器進行解碼后,獲取所述解碼器的當(dāng)前狀態(tài)輸出;
    利用softmax對所述當(dāng)前狀態(tài)輸出進行處理,以獲取與所述輸入文本相對應(yīng)的詞表概率分布。


    8.一種用于生成關(guān)鍵詞的生成設(shè)備,其中,所述生成設(shè)備包括:
    用于獲取輸入文本的單詞...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:刁詩哲,宋彥,王詠剛,
    申請(專利權(quán))人:創(chuàng)新工場廣州人工智能研究有限公司,
    類型:發(fā)明
    國別省市:廣東;44

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码午夜成人1000部免费视频 | 亚洲国产精品无码成人片久久| 无码人妻精一区二区三区| 国产乱人伦中文无无码视频试看| 国产精品无码DVD在线观看| 无码精品A∨在线观看免费| 中文字幕在线无码一区| 久久久久亚洲Av无码专| 中文字幕丰满乱子伦无码专区| 无码人妻丰满熟妇片毛片| 久久亚洲AV无码精品色午夜麻| 国产精品亚洲一区二区无码 | 亚洲成a人无码亚洲成av无码| 亚洲一级特黄无码片| 精品无码久久久久久国产| 亚洲AV无码久久| 中文无码久久精品| 亚洲男人第一无码aⅴ网站| 无码免费午夜福利片在线| 无码精品A∨在线观看中文| 亚洲无码日韩精品第一页| 曰韩无码无遮挡A级毛片| 亚洲av永久无码精品秋霞电影秋 | r级无码视频在线观看| 精品久久久久久无码人妻中文字幕| 日木av无码专区亚洲av毛片| 国产aⅴ无码专区亚洲av| 国产成人无码av片在线观看不卡| 亚洲乱亚洲乱妇无码| 无码里番纯肉h在线网站| 99无码人妻一区二区三区免费| 无码专区中文字幕无码| 日韩免费人妻AV无码专区蜜桃| 亚洲欧洲无码AV电影在线观看| a级毛片免费全部播放无码| 久久av高潮av无码av喷吹| 亚洲午夜无码片在线观看影院猛| 伊人久久大香线蕉无码麻豆| 亚洲一本大道无码av天堂 | 亚洲精品无码人妻无码| 无码丰满熟妇juliaann与黑人|