特征編碼方法、裝置、電子設備及可讀存儲介質制造方法及圖紙

技術編號：24170301 閱讀：56 留言：0更新日期：2020-05-16 02:43

本發明專利技術實施例提供一種特征編碼方法、裝置、電子設備及可讀存儲介質，獲取待分析語句；將所述待分析語句輸入至預先訓練好的特征編碼模型中，獲得所述特征編碼模型輸出的特征編碼結果；所述特征編碼模型為注意力模塊和訓練好的生成對抗網絡模型中的編碼模塊共同訓練所得到。本發明專利技術實施例中的特征編碼方法利用注意力模塊和訓練好的生成對抗網絡模型中的編碼模塊共同訓練特征編碼模型，提高了特征編碼模型的魯棒性。

Feature coding method, device, electronic equipment and readable storage medium

全部詳細技術資料下載

【技術實現步驟摘要】
特征編碼方法、裝置、電子設備及可讀存儲介質
本專利技術涉及自然語言處理領域，尤其涉及一種特征編碼方法、裝置、電子設備及可讀存儲介質。
技術介紹
語義理解是自然語言處理領域的重要問題之一，其任務是將自然語言解析為結構化、機器可讀的表征語義信息的特征編碼。特征編碼模型的魯棒性是語義理解領域不可規避的問題，其衡量的是特征編碼模型的抗噪能力。當對輸出語句的內容進行擾動后，特征編碼模型抽取的語句關鍵特征會存在不準確的問題，導致機器不能理解語句的真實語義。加強特征編碼模型的抗噪能力需要使用大量加噪語句作為訓練樣本來訓練特征編碼模型。現有技術中獲取加噪語句主要有基于規則的加噪方法和基于回譯的加噪方法。然而，前者無法保證噪聲的覆蓋率，后者則強依賴于翻譯器的效果。另外，這兩種方法所生成的加噪語句可能會改變原始語句的含義，導致用噪聲語句訓練的特征編碼模型在準確理解語句的真實含義方面效果不佳。
技術實現思路
本專利技術實施例提供一種特征編碼處理方法、裝置、電子設備及可讀存儲介質，用以解決現有技術中特征編碼方法準確性較低、魯棒性不強的問題。第一方面，本專利技術實施例提供一種語義理解處理方法，包括：獲取待分析語句；將所述待分析語句輸入至預先訓練好的特征編碼模型中，獲得所述特征編碼模型輸出的特征編碼結果；所述特征編碼模型為基于注意力模塊和訓練好的生成對抗網絡模型中的編碼模塊共同訓練所得到。優選地，其中所述生成對抗網絡模型為以語句樣本對為訓練樣本，以與所述語句樣本對對應的用于表征...

【技術保護點】
1.一種特征編碼方法，其特征在于，包括：/n獲取待分析語句；/n將所述待分析語句輸入至預先訓練好的特征編碼模型中，獲得所述特征編碼模型輸出的特征編碼結果；/n所述特征編碼模型為注意力模塊和訓練好的生成對抗網絡模型中的編碼模塊共同訓練所得到。/n

【技術特征摘要】
1.一種特征編碼方法，其特征在于，包括：
獲取待分析語句；
將所述待分析語句輸入至預先訓練好的特征編碼模型中，獲得所述特征編碼模型輸出的特征編碼結果；
所述特征編碼模型為注意力模塊和訓練好的生成對抗網絡模型中的編碼模塊共同訓練所得到。

2.根據權利要求1所述的語義理解處理方法，其特征在于，所述生成對抗網絡模型為以語句樣本對為訓練樣本，以與所述語句樣本對對應的用于表征加噪類型的加噪向量為樣本標簽訓練得到；所述特征編碼模型為以所述語句樣本對為訓練樣本訓練得到；所述語句樣本對包括原始語句和加噪語句，所述加噪語句為對所述原始語句進行加噪得到。

3.根據權利要求2所述的語義理解處理方法，其特征在于，所述生成對抗網絡模型包括編碼模塊和判別模塊，所述生成對抗網絡模型通過如下方式訓練得到：
將語句樣本對中的原始語句和加噪語句分別進行向量化處理，得到原始語句向量和加噪語句向量；
將原始語句向量和加噪語句向量分別輸入編碼模塊，得到所述編碼模塊輸出的與原始語句向量和加噪語句向量分別對應的原始第一特征和加噪第一特征；
將所述原始第一特征和所述加噪第一特征分別輸入判別模塊，得到所述判別模塊輸出的所述原始第一特征對應的預測標簽和所述加噪第一特征對應的預測標簽；
以所述加噪第一特征對應的預測標簽以及所述原始第一特征對應的預測標簽均趨近于原始語句的樣本標簽為目標，對所述生成對抗網絡模型的參數進行更新。

4.根據權利要求2所述的語義理解處理方法，其特征在于，所述特征編碼模型通過以下方式訓練得到：
將所述生成對抗網絡模型訓練完成后，將語句樣本對中的原始語句和加噪語句分別進行向量化處理，得到原始語句向量和加噪語句向量；
將原始語句向量和加噪語句向量分別輸入...

【專利技術屬性】
技術研發人員：戴瑾，胡加學，趙乾，宋時德，
申請(專利權)人：科大訊飛股份有限公司，
類型：發明
國別省市：安徽;34

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術

計算機可讀存儲介質技術

目前的三種存儲介質技術