• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種句向量生成方法、裝置及電子設(shè)備制造方法及圖紙

    技術(shù)編號:24207966 閱讀:44 留言:0更新日期:2020-05-20 15:30
    本發(fā)明專利技術(shù)實(shí)施例提供了一種句向量生成方法、裝置及電子設(shè)備。所述句向量生成方法包括:確定目標(biāo)文本中的目標(biāo)語句;確定目標(biāo)語句的前N個(gè)第一語句以及目標(biāo)語句的后M個(gè)第二語句;獲取每一第一語句和每一第二語句的句向量;將每一第一語句和每一第二語句的句向量,作為預(yù)設(shè)句向量預(yù)測模型的輸入?yún)?shù),通過預(yù)設(shè)句向量預(yù)測模型,預(yù)測出目標(biāo)語句的目標(biāo)句向量。本發(fā)明專利技術(shù)實(shí)施中,在生成目標(biāo)語句的句向量時(shí),不再是基于目標(biāo)語句的詞向量,而是基于目標(biāo)語句的前后語句,并通過預(yù)設(shè)句向量預(yù)測模型,預(yù)測目標(biāo)語句的句向量。由于不同語言環(huán)境中目標(biāo)語句的前后語句,相似的概率較低,因此,這樣得到的句向量,能夠較好的對目標(biāo)語句的語義信息進(jìn)行表達(dá),準(zhǔn)確度較高。

    A method, device and electronic equipment of sentence vector generation

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    一種句向量生成方法、裝置及電子設(shè)備
    本專利技術(shù)實(shí)施例涉及自然語言處理
    ,尤其涉及一種句向量生成方法、裝置及電子設(shè)備。
    技術(shù)介紹
    在很多自然語言處理(NaturalLanguageProcessing,簡稱NLP)任務(wù)中,經(jīng)常需要將一個(gè)句子表達(dá)成一個(gè)向量,用于后續(xù)的分類、聚類等處理?,F(xiàn)有技術(shù)中,在獲得一個(gè)句子的向量表示時(shí),是基于詞向量來獲得句子的句向量。現(xiàn)有的句向量表達(dá)方法在簡單語言環(huán)境中能夠有效地對句子的語義信息進(jìn)行表達(dá),在下游任務(wù)中能夠獲得較好的效果。但是對于某些復(fù)雜的語言環(huán)境,目前的句向量表達(dá)方法并不能獲得很好的效果。比如對于下面兩個(gè)句子:A:如何更改登錄密碼?B:如何更改支付密碼?顯然,A和B兩個(gè)句子表達(dá)的是不同的含義,但是如果使用目前的句向量表達(dá)方法來獲取相應(yīng)的句子向量,則沒有辦法很好地將A和B兩個(gè)句子區(qū)分開。原因是目前主流的句向量表達(dá)方法,都是基于詞向量來學(xué)習(xí)句子向量,而詞向量的獲取都是基于上下文環(huán)境,即:詞的語義是由其上下文決定的,上下文相近的詞,其語義也相近。因此對于像A和B這種語境的句子,只有個(gè)別詞不一樣,其上下文完全一樣,通過這種方式學(xué)習(xí)得到的“登錄”的詞向量和“支付”的詞向量在向量空間非常近,不具備區(qū)分性,不能充分表達(dá)對應(yīng)詞的語義。因此,基于這種詞向量學(xué)習(xí)得到的句向量,對語義信息的表達(dá)效果可能差,不夠準(zhǔn)確。
    技術(shù)實(shí)現(xiàn)思路
    本專利技術(shù)實(shí)施例提供一種句向量生成方法、裝置及電子設(shè)備,以解決現(xiàn)有技術(shù)中,基于詞向量得到的句向量,存在對語義信息的表達(dá)不夠準(zhǔn)確的問題。為了解決上述技術(shù)問題,本專利技術(shù)是這樣實(shí)現(xiàn)的:第一方面,本專利技術(shù)實(shí)施例提供了一種句向量生成方法,包括:確定目標(biāo)文本中的目標(biāo)語句;其中,所述目標(biāo)文本包括至少兩個(gè)語句,所述目標(biāo)語句為所述至少兩個(gè)語句中的一個(gè)語句;確定所述目標(biāo)語句的前N個(gè)第一語句以及所述目標(biāo)語句的后M個(gè)第二語句,N與M均為大于或等于1的整數(shù);獲取每一所述第一語句和每一所述第二語句的句向量;將每一所述第一語句和每一所述第二語句的句向量,作為預(yù)設(shè)句向量預(yù)測模型的輸入?yún)?shù),通過所述預(yù)設(shè)句向量預(yù)測模型,預(yù)測出所述目標(biāo)語句的目標(biāo)句向量。第二方面,本專利技術(shù)實(shí)施例還提供了一種句向量生成裝置,包括:第一確定模塊,用于確定目標(biāo)文本中的目標(biāo)語句;其中,所述目標(biāo)文本包括至少兩個(gè)語句,所述目標(biāo)語句為所述至少兩個(gè)語句中的一個(gè)語句;第二確定模塊,用于確定所述目標(biāo)語句的前N個(gè)第一語句以及所述目標(biāo)語句的后M個(gè)第二語句;其中,N與M均為大于或等于1的整數(shù);第一獲取模塊,用于獲取每一所述第一語句和每一所述第二語句的句向量;生成模塊,用于將每一所述第一語句和每一所述第二語句的句向量,作為預(yù)設(shè)句向量預(yù)測模型的輸入?yún)?shù),通過所述預(yù)設(shè)句向量預(yù)測模型,預(yù)測出所述目標(biāo)語句的目標(biāo)句向量。第三方面,本專利技術(shù)實(shí)施例還提供了一種電子設(shè)備,該電子設(shè)備包括:存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上所述的句向量生成方法中的步驟。第四方面,本專利技術(shù)實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的句向量生成方法中的步驟。本專利技術(shù)實(shí)施中,在生成目標(biāo)語句的句向量時(shí),不再是基于目標(biāo)語句的詞向量,而是基于目標(biāo)語句的前后語句,并通過預(yù)設(shè)句向量預(yù)測模型,預(yù)測目標(biāo)語句的句向量。由于不同語言環(huán)境中目標(biāo)語句的前后語句,相似的概率較低,因此,這樣得到的句向量,能夠較好的對目標(biāo)語句的語義信息進(jìn)行表達(dá),準(zhǔn)確度較高。附圖說明圖1表示本專利技術(shù)實(shí)施例提供的句向量生成方法的流程圖示意圖;圖2表示本專利技術(shù)實(shí)施例提供的步驟104的子步驟流程示意圖;圖3表示本專利技術(shù)實(shí)施例提供的步驟103的子步驟流程示意圖;圖4表示本專利技術(shù)實(shí)施例提供的句向量生成過程的示意圖之一;圖5表示本專利技術(shù)實(shí)施例提供的模型訓(xùn)練的示意圖;圖6表示本專利技術(shù)實(shí)施例提供的句向量生成過程的示意圖之二;圖7表示本專利技術(shù)實(shí)施例提供的encoder-decoder模型框架的示意圖;圖8表示本專利技術(shù)實(shí)施例提供的示例中句向量生成過程的示意圖之一;圖9表示本專利技術(shù)實(shí)施例提供的示例中句向量生成過程的示意圖之二;圖10表示本專利技術(shù)實(shí)施例提供的示例中句向量生成過程的示意圖之三;圖11表示本專利技術(shù)實(shí)施例提供的示例中句向量生成過程的示意圖之四;圖12表示本專利技術(shù)的實(shí)施例提供的句向量生成裝置的框圖示意圖。具體實(shí)施方式下面將結(jié)合本專利技術(shù)實(shí)施例中的附圖,對本專利技術(shù)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本專利技術(shù)一部分實(shí)施例,而不是全部的實(shí)施例。基于本專利技術(shù)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本專利技術(shù)保護(hù)的范圍。應(yīng)理解,說明書通篇中提到的“一個(gè)實(shí)施例”或“一實(shí)施例”意味著與實(shí)施例有關(guān)的特定特征、結(jié)構(gòu)或特性包括在本專利技術(shù)的至少一個(gè)實(shí)施例中。因此,在整個(gè)說明書各處出現(xiàn)的“在一個(gè)實(shí)施例中”或“在一實(shí)施例中”未必一定指相同的實(shí)施例。此外,這些特定的特征、結(jié)構(gòu)或特性可以任意適合的方式結(jié)合在一個(gè)或多個(gè)實(shí)施例中。在本專利技術(shù)的各種實(shí)施例中,應(yīng)理解,下述各過程的序號的大小并不意味著執(zhí)行順序的先后,各過程的執(zhí)行順序應(yīng)以其功能和內(nèi)在邏輯確定,而不應(yīng)對本專利技術(shù)實(shí)施例的實(shí)施過程構(gòu)成任何限定。依據(jù)本專利技術(shù)實(shí)施例的一個(gè)方面,提供了一種句向量生成方法,應(yīng)用于電子設(shè)備。該電子設(shè)備可以包括但不限于:手機(jī)、平板電腦、筆記本電腦、掌上電腦、車載終端、可穿戴設(shè)備以及計(jì)步器等中的任意一種。如圖1所示,該句向量生成方法包括:步驟101:確定目標(biāo)文本中的目標(biāo)語句。這里所述的目標(biāo)文本包括至少兩個(gè)語句。對于目標(biāo)文本,在進(jìn)行語句劃分時(shí),可基于標(biāo)點(diǎn)符號進(jìn)行,如基于逗號、句號、省略號、分號、感嘆號等標(biāo)點(diǎn)符號。本專利技術(shù)實(shí)施例中,在將一段文本中的每個(gè)語句表達(dá)(即生成)為句向量時(shí),首先需要確定待表達(dá)為句向量的目標(biāo)語句,以便后續(xù)針對該目標(biāo)語句進(jìn)行處理。步驟102:確定目標(biāo)語句的前N個(gè)第一語句以及目標(biāo)語句的后M個(gè)第二語句。其中,N與M均為大于或等于1的整數(shù)。本專利技術(shù)實(shí)施例中,在確定目標(biāo)語句后,則可以基于該目標(biāo)語句,確定出目標(biāo)文本中該目標(biāo)語句之前預(yù)設(shè)數(shù)量的第一語句以及該目標(biāo)語句之后預(yù)設(shè)數(shù)量的第二語句。其中,第一語句與第二語句均是在后續(xù)處理過程中用于生成目標(biāo)語句的句向量的語句。這里N與M的數(shù)值可根據(jù)實(shí)際需求選擇,如取N與M的數(shù)值均為1、2或3。當(dāng)然可以理解的,N與M的數(shù)值可以相等,也可以不等,具體情況根據(jù)實(shí)際需求設(shè)計(jì)即可。步驟103:獲取每一第一語句和每一第二語句的句向量。本步驟中,根據(jù)每一第一語句和每一第二語句,生成每一第一語句和每一第二語句對應(yīng)的句向量,以便為后續(xù)目標(biāo)語句的目標(biāo)句向量的生成做準(zhǔn)備。對于本步本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】
    1.一種句向量生成方法,其特征在于,包括:/n確定目標(biāo)文本中的目標(biāo)語句;其中,所述目標(biāo)文本包括至少兩個(gè)語句,所述目標(biāo)語句為所述至少兩個(gè)語句中的一個(gè)語句;/n確定所述目標(biāo)語句的前N個(gè)第一語句以及所述目標(biāo)語句的后M個(gè)第二語句;其中,N與M均為大于或等于1的整數(shù);/n獲取每一所述第一語句和每一所述第二語句的句向量;/n將每一所述第一語句和每一所述第二語句的句向量,作為預(yù)設(shè)句向量預(yù)測模型的輸入?yún)?shù),通過所述預(yù)設(shè)句向量預(yù)測模型,預(yù)測出所述目標(biāo)語句的目標(biāo)句向量。/n

    【技術(shù)特征摘要】
    1.一種句向量生成方法,其特征在于,包括:
    確定目標(biāo)文本中的目標(biāo)語句;其中,所述目標(biāo)文本包括至少兩個(gè)語句,所述目標(biāo)語句為所述至少兩個(gè)語句中的一個(gè)語句;
    確定所述目標(biāo)語句的前N個(gè)第一語句以及所述目標(biāo)語句的后M個(gè)第二語句;其中,N與M均為大于或等于1的整數(shù);
    獲取每一所述第一語句和每一所述第二語句的句向量;
    將每一所述第一語句和每一所述第二語句的句向量,作為預(yù)設(shè)句向量預(yù)測模型的輸入?yún)?shù),通過所述預(yù)設(shè)句向量預(yù)測模型,預(yù)測出所述目標(biāo)語句的目標(biāo)句向量。


    2.根據(jù)權(quán)利要求1所述的句向量生成方法,其特征在于,所述獲取每一所述第一語句和每一所述第二語句的句向量,包括:
    分別對每一所述第一語句以及每一所述第二語句進(jìn)行分詞;
    分別獲取每一所述第一語句以及每一所述第二語句的分詞對應(yīng)的詞向量;
    分別將每一所述第一語句以及每一所述第二語句的分詞對應(yīng)的詞向量,輸入到預(yù)設(shè)網(wǎng)絡(luò)模型,獲得每一所述第一語句和每一所述第二語句的句向量;
    其中,所述預(yù)設(shè)網(wǎng)絡(luò)模型為循環(huán)神經(jīng)網(wǎng)絡(luò)模型或長短期記憶網(wǎng)絡(luò)模型。


    3.根據(jù)權(quán)利要求1所述的句向量生成方法,其特征在于,在通過所述預(yù)設(shè)句向量預(yù)測模型,預(yù)測出所述目標(biāo)語句的目標(biāo)句向量之前,所述句向量生成方法還包括:
    通過至少兩組樣本數(shù)據(jù),對所述預(yù)設(shè)句向量預(yù)測模型進(jìn)行訓(xùn)練,并在所述預(yù)設(shè)句向量預(yù)測模型輸出的向量與目標(biāo)樣本語句的初始句向量之間的距離小于或等于預(yù)設(shè)距離值,或所述樣本數(shù)據(jù)的組數(shù)達(dá)到預(yù)設(shè)數(shù)值時(shí),停止訓(xùn)練;
    其中,每組所述樣本數(shù)據(jù)包括:目標(biāo)樣本文本中的目標(biāo)樣本語句的初始句向量,以及所述目標(biāo)樣本語句的前N個(gè)第一樣本語句以及所述目標(biāo)樣本語句的后M個(gè)第二樣本語句。


    4.根據(jù)權(quán)利要求3所述的句向量生成方法,其特征在于,在通過至少兩組樣本數(shù)據(jù),對所述預(yù)設(shè)句向量預(yù)測模型進(jìn)行訓(xùn)練之前,所述句向量生成方法還包括:
    對所述目標(biāo)樣本語句進(jìn)行分詞,并獲取每個(gè)分詞對應(yīng)的詞向量;
    計(jì)算所有詞向量的均值向量;
    將所述均值向量確定為所述目標(biāo)樣本語句的初始句向量。


    5.根據(jù)權(quán)利要求1所述的句向量生成方法,其特征在于,在所述目標(biāo)文本中,若所述目標(biāo)語句之前的語句的數(shù)量X小于N時(shí),則默認(rèn)存在N個(gè)所述第一語句,并設(shè)置所述目標(biāo)語句之前的第N-X個(gè)語句以及第N-X個(gè)語句之前的語句,對應(yīng)的句向量為第一預(yù)設(shè)句向量;
    在所述目標(biāo)語句之后的語句的數(shù)量Y小于M時(shí),默認(rèn)存在M個(gè)所述第二語句,并設(shè)置所述目標(biāo)語句之后的第Y+1個(gè)語句以及第Y+1個(gè)語句之后的語句,對應(yīng)的句向量為第二預(yù)設(shè)句向量。

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:賀宇佟子健,茹立云,
    申請(專利權(quán))人:北京葡萄智學(xué)科技有限公司,
    類型:發(fā)明
    國別省市:北京;11

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 未满小14洗澡无码视频网站| 亚洲中文字幕久久精品无码2021 | 亚洲AV无码成人精品区在线观看| 精品国产AV无码一区二区三区| av色欲无码人妻中文字幕| 国产高清无码毛片| 亚洲a∨无码男人的天堂| 四虎成人精品无码永久在线| 亚洲AV无码乱码国产麻豆穿越| 亚洲av永久无码精品网址 | 亚洲AV无码欧洲AV无码网站| 亚洲AV无码资源在线观看| 国产在线观看无码免费视频 | 无码av高潮喷水无码专区线| 亚洲AⅤ无码一区二区三区在线| 无码专区AAAAAA免费视频| 午夜无码一区二区三区在线观看 | 无码人妻丝袜在线视频| 亚洲精品无码不卡在线播放HE | 国产午夜无码福利在线看网站| 无码超乳爆乳中文字幕久久| yy111111电影院少妇影院无码 | 国产成人无码久久久精品一| 免费人成无码大片在线观看| 亚洲AV日韩AV无码污污网站| 国产午夜片无码区在线播放| 国产成人无码精品久久久免费| 粉嫩大学生无套内射无码卡视频 | 久热中文字幕无码视频| 最新中文字幕AV无码不卡| 男男AV纯肉无码免费播放无码| 久久无码人妻一区二区三区| 无套中出丰满人妻无码| 免费无码又爽又刺激网站| 亚洲精品无码久久久| 亚洲AV无码乱码在线观看性色扶| 最新亚洲人成无码网站| 国产精品白浆无码流出| 亚洲日韩VA无码中文字幕| 国产精品亚洲专区无码不卡| 精品久久久久久久无码久中文字幕 |