當(dāng)前位置: 首頁 > 專利查詢>北京葡萄智學(xué)科技有限公司專利>正文

一種句向量生成方法、裝置及電子設(shè)備制造方法及圖紙

技術(shù)編號：24207966 閱讀：44 留言：0更新日期：2020-05-20 15:30

本發(fā)明專利技術(shù)實(shí)施例提供了一種句向量生成方法、裝置及電子設(shè)備。所述句向量生成方法包括：確定目標(biāo)文本中的目標(biāo)語句；確定目標(biāo)語句的前N個(gè)第一語句以及目標(biāo)語句的后M個(gè)第二語句；獲取每一第一語句和每一第二語句的句向量；將每一第一語句和每一第二語句的句向量，作為預(yù)設(shè)句向量預(yù)測模型的輸入?yún)?shù)，通過預(yù)設(shè)句向量預(yù)測模型，預(yù)測出目標(biāo)語句的目標(biāo)句向量。本發(fā)明專利技術(shù)實(shí)施中，在生成目標(biāo)語句的句向量時(shí)，不再是基于目標(biāo)語句的詞向量，而是基于目標(biāo)語句的前后語句，并通過預(yù)設(shè)句向量預(yù)測模型，預(yù)測目標(biāo)語句的句向量。由于不同語言環(huán)境中目標(biāo)語句的前后語句，相似的概率較低，因此，這樣得到的句向量，能夠較好的對目標(biāo)語句的語義信息進(jìn)行表達(dá)，準(zhǔn)確度較高。

A method, device and electronic equipment of sentence vector generation

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】
一種句向量生成方法、裝置及電子設(shè)備
本專利技術(shù)實(shí)施例涉及自然語言處理
，尤其涉及一種句向量生成方法、裝置及電子設(shè)備。
技術(shù)介紹
在很多自然語言處理(NaturalLanguageProcessing，簡稱NLP)任務(wù)中，經(jīng)常需要將一個(gè)句子表達(dá)成一個(gè)向量，用于后續(xù)的分類、聚類等處理?，F(xiàn)有技術(shù)中，在獲得一個(gè)句子的向量表示時(shí)，是基于詞向量來獲得句子的句向量。現(xiàn)有的句向量表達(dá)方法在簡單語言環(huán)境中能夠有效地對句子的語義信息進(jìn)行表達(dá)，在下游任務(wù)中能夠獲得較好的效果。但是對于某些復(fù)雜的語言環(huán)境，目前的句向量表達(dá)方法并不能獲得很好的效果。比如對于下面兩個(gè)句子：A：如何更改登錄密碼？B：如何更改支付密碼？顯然，A和B兩個(gè)句子表達(dá)的是不同的含義，但是如果使用目前的句向量表達(dá)方法來獲取相應(yīng)的句子向量，則沒有辦法很好地將A和B兩個(gè)句子區(qū)分開。原因是目前主流的句向量表達(dá)方法，都是基于詞向量來學(xué)習(xí)句子向量，而詞向量的獲取都是基于上下文環(huán)境，即：詞的語義是由其上下文決定的，上下文相近的詞，其語義也相近。因此對于像A和B這種語境的句子，只有個(gè)別詞不一樣，其上下文完全一樣，通過這種方式學(xué)習(xí)得到的“登錄”的詞向量和“支付”的詞向量在向量空間非常近，不具備區(qū)分性，不能充分表達(dá)對應(yīng)詞的語義。因此，基于這種詞向量學(xué)習(xí)得到的句向量，對語義信息的表達(dá)效果可能差，不夠準(zhǔn)確。
技術(shù)實(shí)現(xiàn)思路
本專利技術(shù)實(shí)施例提供一種句向量生成方法、裝置及電子設(shè)備，以解決現(xiàn)有技術(shù)中，基于詞向量得到的句向量，存在對語義信息...

【技術(shù)保護(hù)點(diǎn)】
1.一種句向量生成方法，其特征在于，包括：/n確定目標(biāo)文本中的目標(biāo)語句；其中，所述目標(biāo)文本包括至少兩個(gè)語句，所述目標(biāo)語句為所述至少兩個(gè)語句中的一個(gè)語句；/n確定所述目標(biāo)語句的前N個(gè)第一語句以及所述目標(biāo)語句的后M個(gè)第二語句；其中，N與M均為大于或等于1的整數(shù)；/n獲取每一所述第一語句和每一所述第二語句的句向量；/n將每一所述第一語句和每一所述第二語句的句向量，作為預(yù)設(shè)句向量預(yù)測模型的輸入?yún)?shù)，通過所述預(yù)設(shè)句向量預(yù)測模型，預(yù)測出所述目標(biāo)語句的目標(biāo)句向量。/n

【技術(shù)特征摘要】
1.一種句向量生成方法，其特征在于，包括：
確定目標(biāo)文本中的目標(biāo)語句；其中，所述目標(biāo)文本包括至少兩個(gè)語句，所述目標(biāo)語句為所述至少兩個(gè)語句中的一個(gè)語句；
確定所述目標(biāo)語句的前N個(gè)第一語句以及所述目標(biāo)語句的后M個(gè)第二語句；其中，N與M均為大于或等于1的整數(shù)；
獲取每一所述第一語句和每一所述第二語句的句向量；
將每一所述第一語句和每一所述第二語句的句向量，作為預(yù)設(shè)句向量預(yù)測模型的輸入?yún)?shù)，通過所述預(yù)設(shè)句向量預(yù)測模型，預(yù)測出所述目標(biāo)語句的目標(biāo)句向量。

2.根據(jù)權(quán)利要求1所述的句向量生成方法，其特征在于，所述獲取每一所述第一語句和每一所述第二語句的句向量，包括：
分別對每一所述第一語句以及每一所述第二語句進(jìn)行分詞；
分別獲取每一所述第一語句以及每一所述第二語句的分詞對應(yīng)的詞向量；
分別將每一所述第一語句以及每一所述第二語句的分詞對應(yīng)的詞向量，輸入到預(yù)設(shè)網(wǎng)絡(luò)模型，獲得每一所述第一語句和每一所述第二語句的句向量；
其中，所述預(yù)設(shè)網(wǎng)絡(luò)模型為循環(huán)神經(jīng)網(wǎng)絡(luò)模型或長短期記憶網(wǎng)絡(luò)模型。

3.根據(jù)權(quán)利要求1所述的句向量生成方法，其特征在于，在通過所述預(yù)設(shè)句向量預(yù)測模型，預(yù)測出所述目標(biāo)語句的目標(biāo)句向量之前，所述句向量生成方法還包括：
通過至少兩組樣本數(shù)據(jù)，對所述預(yù)設(shè)句向量預(yù)測模型進(jìn)行訓(xùn)練，并在所述預(yù)設(shè)句向量預(yù)測模型輸出的向量與目標(biāo)樣本語句的初始句向量之間的距離小于或等于預(yù)設(shè)距離值，或所述樣本數(shù)據(jù)的組數(shù)達(dá)到預(yù)設(shè)數(shù)值時(shí)，停止訓(xùn)練；
其中，每組所述樣本數(shù)據(jù)包括：目標(biāo)樣本文本中的目標(biāo)樣本語句的初始句向量，以及所述目標(biāo)樣本語句的前N個(gè)第一樣本語句以及所述目標(biāo)樣本語句的后M個(gè)第二樣本語句。

4.根據(jù)權(quán)利要求3所述的句向量生成方法，其特征在于，在通過至少兩組樣本數(shù)據(jù)，對所述預(yù)設(shè)句向量預(yù)測模型進(jìn)行訓(xùn)練之前，所述句向量生成方法還包括：
對所述目標(biāo)樣本語句進(jìn)行分詞，并獲取每個(gè)分詞對應(yīng)的詞向量；
計(jì)算所有詞向量的均值向量；
將所述均值向量確定為所述目標(biāo)樣本語句的初始句向量。

5.根據(jù)權(quán)利要求1所述的句向量生成方法，其特征在于，在所述目標(biāo)文本中，若所述目標(biāo)語句之前的語句的數(shù)量X小于N時(shí)，則默認(rèn)存在N個(gè)所述第一語句，并設(shè)置所述目標(biāo)語句之前的第N-X個(gè)語句以及第N-X個(gè)語句之前的語句，對應(yīng)的句向量為第一預(yù)設(shè)句向量；
在所述目標(biāo)語句之后的語句的數(shù)量Y小于M時(shí)，默認(rèn)存在M個(gè)所述第二語句，并設(shè)置所述目標(biāo)語句之后的第Y+1個(gè)語句以及第Y+1個(gè)語句之后的語句，對應(yīng)的句向量為第二預(yù)設(shè)句向量。

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：賀宇，佟子健，茹立云，
申請(專利權(quán))人：北京葡萄智學(xué)科技有限公司，
類型：發(fā)明
國別省市：北京;11

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)

同步相量裝置的作用技術(shù)

同步相量測量裝置作用技術(shù)

PMU裝置技術(shù)