本發(fā)明專利技術(shù)涉及一種基于對抗訓(xùn)練的語言模型預(yù)訓(xùn)練方法包括:步驟S1,提供一個語義提取網(wǎng)絡(luò)、鑒別網(wǎng)絡(luò)及原始文本;步驟S2,將原始文本中的詞轉(zhuǎn)換為第一初始詞向量,并輸入至語義提取網(wǎng)絡(luò),通過語義提取網(wǎng)絡(luò)提取原始文本的第一向量;步驟S3,對原始文本進行修改,將修改文本中的詞轉(zhuǎn)換為第二初始詞向量,并輸入至語義提取網(wǎng)絡(luò),通過語義提取網(wǎng)絡(luò)提取修改文本的第二向量;步驟S4,將第一向量和第二向量輸入鑒別網(wǎng)絡(luò),以獲得鑒別網(wǎng)絡(luò)的鑒別結(jié)果;步驟S5,根據(jù)鑒別網(wǎng)絡(luò)的鑒別結(jié)果以對語義提取網(wǎng)絡(luò)及鑒別網(wǎng)絡(luò)進行優(yōu)化;步驟S6,重復(fù)上述步驟S2?S5,直至第一向量與第二向量可通過鑒別網(wǎng)絡(luò)的鑒別,以獲得優(yōu)化后的語義提取網(wǎng)絡(luò)與鑒別網(wǎng)絡(luò)。
A language model pre training method, system and electronic equipment based on confrontation training
【技術(shù)實現(xiàn)步驟摘要】
一種基于對抗訓(xùn)練的語言模型預(yù)訓(xùn)練方法、系統(tǒng)及電子設(shè)備
本專利技術(shù)涉及到自然語言處理領(lǐng)域,特別涉及一種基于對抗訓(xùn)練的語言模型預(yù)訓(xùn)練方法、系統(tǒng)及電子設(shè)備。
技術(shù)介紹
語言模型的預(yù)訓(xùn)練是自然語言處理中的重要先行步驟,其目的是從大規(guī)模未經(jīng)標注的語料中,學(xué)習(xí)字或詞在帶有上下文基礎(chǔ)上的表達方式——高維空間的一個向量。預(yù)訓(xùn)練模型的意義在于為后續(xù)的特定任務(wù)的訓(xùn)練提供初始化的字詞表達向量,進而降低后續(xù)任務(wù)的訓(xùn)練時間,提升后續(xù)任務(wù)的效果。因此,一個好的預(yù)訓(xùn)練方法,對自然處理處理的大量任務(wù),有至關(guān)重要的作用。現(xiàn)有的語言預(yù)訓(xùn)練模型中有的僅考慮了前文的信息,而忽略了后文的信息,有的僅提取上下文信息中對預(yù)測某一個位置詞有幫助的信息,而忽略了文本的整體信息、非預(yù)測詞之間的相關(guān)信息,因此他們對于上下文關(guān)系、文本整體信息的提取不夠充分,從而影響了語言預(yù)訓(xùn)練模型在后續(xù)任務(wù)中的表現(xiàn)。此外,現(xiàn)有的預(yù)訓(xùn)練方法往往會在訓(xùn)練中對訓(xùn)練文本添加<MASK>干擾,這帶來了兩個問題:一是<MASK>干擾本身不會在后續(xù)任務(wù)的輸入文本中出現(xiàn),也就是說,訓(xùn)練文本和后續(xù)任務(wù)輸入文本并不一致,這影響了預(yù)訓(xùn)練模型在后續(xù)任務(wù)中的表現(xiàn);二是<MASK>干擾過于單一,以此訓(xùn)練使得預(yù)訓(xùn)練模型僅注重文本的一部分信息,信息提取不完善。如何克服現(xiàn)有語言預(yù)訓(xùn)練模型的不足,成了繼續(xù)解決的問題。
技術(shù)實現(xiàn)思路
為克服現(xiàn)有技術(shù)中存在的問題,本專利技術(shù)提供了一種基于對抗訓(xùn)練的語言模型預(yù)訓(xùn)練方法、系統(tǒng)及電子設(shè)備。本專利技術(shù)解決技術(shù)問題的方案是提供一種基于對抗訓(xùn)練的語言模型預(yù)訓(xùn)練方法,其特征在于:所述語言預(yù)訓(xùn)練模型包括語義提取網(wǎng)絡(luò)與鑒別網(wǎng)絡(luò),其包括以下步驟:步驟S1,提供一個語義提取網(wǎng)絡(luò)、鑒別網(wǎng)絡(luò)及原始文本;步驟S2,將原始文本中的詞轉(zhuǎn)換為第一初始詞向量,并輸入至語義提取網(wǎng)絡(luò),通過語義提取網(wǎng)絡(luò)提取原始文本的第一向量;步驟S3,對原始文本進行修改,將修改文本中的詞轉(zhuǎn)換為第二初始詞向量,并輸入至語義提取網(wǎng)絡(luò),通過語義提取網(wǎng)絡(luò)提取修改文本的第二向量;步驟S4,將第一向量和第二向量輸入鑒別網(wǎng)絡(luò),以獲得鑒別網(wǎng)絡(luò)對于第一向量與第二向量的鑒別結(jié)果;步驟S5,根據(jù)鑒別網(wǎng)絡(luò)對于第一向量與第二向量的鑒別結(jié)果以對語義提取網(wǎng)絡(luò)及鑒別網(wǎng)絡(luò)進行優(yōu)化;步驟S6,重復(fù)上述步驟S2-S5,直至第一向量與第二向量可通過鑒別網(wǎng)絡(luò)的鑒別,以獲得優(yōu)化后的語義提取網(wǎng)絡(luò)與鑒別網(wǎng)絡(luò)。優(yōu)選地,對原始文本的修改方式包括對部分詞語掩膜、打亂原始順序。優(yōu)選地,所述語義提取網(wǎng)絡(luò)包括詞級語義提取網(wǎng)絡(luò)與句級語義提取網(wǎng)絡(luò);步驟S2進一步包括:步驟S21,將所述原始文本中的每個句子進行分詞;步驟S22,將分詞之后的每個句子中的每個詞轉(zhuǎn)化為第一初始詞向量;步驟S23,在所述每個句子的句首添加識別字符并將所述識別字符轉(zhuǎn)化為第一字符向量;步驟S24,將所述步驟S22中的第一初始詞向量與所述步驟S23中的第一字符向量輸入至詞級語義提取網(wǎng)絡(luò)、句級語義提取網(wǎng)絡(luò)以獲得與每個句子對應(yīng)的第一向量,所述第一向量包括第一詞向量與第一句向量;步驟S3進一步包括以下步驟:步驟S31,對原始文本進行修改,將所述修改文本中的每個句子進行分詞;步驟S32,將分詞之后的每個句子中的每個詞轉(zhuǎn)化為第二初始詞向量;步驟S33,在所述每個句子的句首添加識別字符并將所述識別字符轉(zhuǎn)化為第二字符向量;步驟S34,將所述步驟S32中的第二初始詞向量與所述步驟S33中的第二字符向量分別輸入至詞級語義提取網(wǎng)絡(luò)與句級語義提取網(wǎng)絡(luò)以獲得與每個句子對應(yīng)的第二向量,所述第二向量包括第二詞向量與第二句向量。優(yōu)選地,所述鑒別網(wǎng)絡(luò)包括詞向量鑒別網(wǎng)絡(luò);步驟S4進一步包括:步驟S411,將第一詞向量與第二詞向量輸入至詞向量鑒別網(wǎng)絡(luò);步驟S412,詞向量鑒別網(wǎng)絡(luò)將第一詞向量與第二詞向量相互配對并計算;步驟S413,獲得詞向量鑒別網(wǎng)絡(luò)的詞向量鑒別結(jié)果。優(yōu)選地,所述詞向量鑒別網(wǎng)絡(luò)包括第一全連接層;步驟S412進一步包括:步驟S4121,詞向量鑒別網(wǎng)絡(luò)對第一詞向量與第二詞向量進行配對;步驟S4122,詞向量鑒別網(wǎng)絡(luò)通過第一全連接層對第一詞向量與第二詞向量進行計算并輸出結(jié)果;其中,詞向量鑒別結(jié)果由第一全連接層輸出。優(yōu)選地,所述鑒別網(wǎng)絡(luò)包括句向量鑒別網(wǎng)絡(luò);步驟S4進一步包括:步驟S421,將第一句向量和第二句向量輸入句向量鑒別網(wǎng)絡(luò);步驟S422,句向量鑒別網(wǎng)絡(luò)將第一句向量、第二句向量隨機放入第一位置、第二位置,并進行計算;步驟S423,獲得句向量鑒別網(wǎng)絡(luò)的句向量鑒別結(jié)果。優(yōu)選地,所述句向量鑒別網(wǎng)絡(luò)包括第二全連接層;步驟S422進一步包括:步驟S4221,句向量鑒別網(wǎng)絡(luò)將第一句向量、第二句向量隨機放入第一位置、第二位置;步驟S4222,句向量鑒別網(wǎng)絡(luò)通過第二全連接層對第一位置、第二位置進行計算,并輸出結(jié)果;句向量鑒別結(jié)果由第二全連接層輸出。優(yōu)選地,步驟S5進一步包括以下步驟:步驟S51,建立關(guān)于所述語義提取網(wǎng)絡(luò)與鑒別網(wǎng)絡(luò)的目標函數(shù);步驟S52,根據(jù)鑒別網(wǎng)絡(luò)的鑒別結(jié)果計算所述目標函數(shù);步驟S53,對所述目標函數(shù)求導(dǎo),并更新所述語義提取網(wǎng)絡(luò)與鑒別網(wǎng)絡(luò)的參數(shù)。優(yōu)選地,包括:輸入模塊;用于輸入原始文本;詞轉(zhuǎn)換模塊;用于將原始文本中的詞轉(zhuǎn)換為第一初始詞向量,并用于將原始文本進行修改后的修改文本中的詞轉(zhuǎn)換為第二初始詞向量;語義提取網(wǎng)絡(luò);用于通過第一初始詞向量提取原始文本的第一向量;并用于通過第二初始詞向量提取修改文本的第二向量;鑒別網(wǎng)絡(luò);用于鑒別第一向量與第二向量的匹配度以獲得鑒別結(jié)果;優(yōu)化模塊,用于根據(jù)鑒別網(wǎng)絡(luò)對于第一向量與第二向量的鑒別結(jié)果以對語義提取網(wǎng)絡(luò)及鑒別網(wǎng)絡(luò)進行優(yōu)化。優(yōu)選地,所述存儲器中存儲有計算機程序,所述計算機程序被設(shè)置為運行時執(zhí)行所述權(quán)利要求1至9任一項中所述的基于對抗訓(xùn)練的語言模型預(yù)訓(xùn)練方法;所述處理器被設(shè)置為通過所述計算機程序執(zhí)行所述權(quán)利要求1至9任一項中所述的基于亂序重排的自然語言模型預(yù)訓(xùn)練方法。與現(xiàn)有技術(shù)相比,本專利技術(shù)的基于對抗訓(xùn)練的語言模型預(yù)訓(xùn)練方法具有以下優(yōu)點:1.將原始文本與修改文本同時送入預(yù)訓(xùn)練模型中,通過對抗任務(wù)的訓(xùn)練,使得預(yù)訓(xùn)練模型能對受干擾的文本和原文本都準確提取信息,從而避免了進行后續(xù)任務(wù)時的輸入文本與訓(xùn)練時的輸入文本不一致的情況,保證了本基于對抗訓(xùn)練的自然語言預(yù)訓(xùn)練模型在預(yù)訓(xùn)練階段與后續(xù)任務(wù)階段能夠保持同樣的語義提取能力。2.通過采用詞干擾與順序干擾并存的方式來進行自然語言模型的預(yù)訓(xùn)練任務(wù),使得預(yù)訓(xùn)練語言模型能夠更全面、更準確的提取到句子中各詞的語義信息以及整個句子的語義信息。3.通過對詞、句兩種層次的文本同時進行對抗訓(xùn)練,可使得本基于對抗訓(xùn)練的自然語言預(yù)訓(xùn)練模型充分提取文本中不同層次的語義信息,使得本基于對抗訓(xùn)練的自然語言預(yù)訓(xùn)練模型可在不同的層次理解文本信息,以便于后續(xù)任務(wù)的完成?!靖綀D說明】圖1是本專利技術(shù)第一實施例一種基于對抗訓(xùn)練的語言模型預(yù)訓(xùn)練方法的流程示意圖。圖2是本專利技術(shù)第一實施例中步驟S2的細節(jié)流程示意圖。圖3是本專利技術(shù)第一實施例通過本文檔來自技高網(wǎng)...
【技術(shù)保護點】
1.一種基于對抗訓(xùn)練的語言模型預(yù)訓(xùn)練方法,其特征在于:所述語言預(yù)訓(xùn)練模型包括語義提取網(wǎng)絡(luò)與鑒別網(wǎng)絡(luò),其包括以下步驟:/n步驟S1,提供一個語義提取網(wǎng)絡(luò)、鑒別網(wǎng)絡(luò)及原始文本;/n步驟S2,將原始文本中的詞轉(zhuǎn)換為第一初始詞向量,并輸入至語義提取網(wǎng)絡(luò),通過語義提取網(wǎng)絡(luò)提取原始文本的第一向量;/n步驟S3,對原始文本進行修改,將修改文本中的詞轉(zhuǎn)換為第二初始詞向量,并輸入至語義提取網(wǎng)絡(luò),通過語義提取網(wǎng)絡(luò)提取修改文本的第二向量;/n步驟S4,將第一向量和第二向量輸入鑒別網(wǎng)絡(luò),以獲得鑒別網(wǎng)絡(luò)對于第一向量與第二向量的鑒別結(jié)果;/n步驟S5,根據(jù)鑒別網(wǎng)絡(luò)對于第一向量與第二向量的鑒別結(jié)果以對語義提取網(wǎng)絡(luò)及鑒別網(wǎng)絡(luò)進行優(yōu)化;/n步驟S6,重復(fù)上述步驟S2-S5,直至第一向量與第二向量可通過鑒別網(wǎng)絡(luò)的鑒別,以獲得優(yōu)化后的語義提取網(wǎng)絡(luò)與鑒別網(wǎng)絡(luò)。/n
【技術(shù)特征摘要】
1.一種基于對抗訓(xùn)練的語言模型預(yù)訓(xùn)練方法,其特征在于:所述語言預(yù)訓(xùn)練模型包括語義提取網(wǎng)絡(luò)與鑒別網(wǎng)絡(luò),其包括以下步驟:
步驟S1,提供一個語義提取網(wǎng)絡(luò)、鑒別網(wǎng)絡(luò)及原始文本;
步驟S2,將原始文本中的詞轉(zhuǎn)換為第一初始詞向量,并輸入至語義提取網(wǎng)絡(luò),通過語義提取網(wǎng)絡(luò)提取原始文本的第一向量;
步驟S3,對原始文本進行修改,將修改文本中的詞轉(zhuǎn)換為第二初始詞向量,并輸入至語義提取網(wǎng)絡(luò),通過語義提取網(wǎng)絡(luò)提取修改文本的第二向量;
步驟S4,將第一向量和第二向量輸入鑒別網(wǎng)絡(luò),以獲得鑒別網(wǎng)絡(luò)對于第一向量與第二向量的鑒別結(jié)果;
步驟S5,根據(jù)鑒別網(wǎng)絡(luò)對于第一向量與第二向量的鑒別結(jié)果以對語義提取網(wǎng)絡(luò)及鑒別網(wǎng)絡(luò)進行優(yōu)化;
步驟S6,重復(fù)上述步驟S2-S5,直至第一向量與第二向量可通過鑒別網(wǎng)絡(luò)的鑒別,以獲得優(yōu)化后的語義提取網(wǎng)絡(luò)與鑒別網(wǎng)絡(luò)。
2.如權(quán)利要求1所述的基于對抗訓(xùn)練的語言模型預(yù)訓(xùn)練方法,其特征在于:對原始文本的修改方式包括對部分詞語掩膜、打亂原始順序。
3.如權(quán)利要求2所述的基于對抗訓(xùn)練的語言模型預(yù)訓(xùn)練方法,其特征在于:所述語義提取網(wǎng)絡(luò)包括詞級語義提取網(wǎng)絡(luò)與句級語義提取網(wǎng)絡(luò);
步驟S2進一步包括:
步驟S21,將所述原始文本中的每個句子進行分詞;
步驟S22,將分詞之后的每個句子中的每個詞轉(zhuǎn)化為第一初始詞向量;
步驟S23,在所述每個句子的句首添加識別字符并將所述識別字符轉(zhuǎn)化為第一字符向量;
步驟S24,將所述步驟S22中的第一初始詞向量與所述步驟S23中的第一字符向量輸入至詞級語義提取網(wǎng)絡(luò)、句級語義提取網(wǎng)絡(luò)以獲得與每個句子對應(yīng)的第一向量,所述第一向量包括第一詞向量與第一句向量;
步驟S3進一步包括以下步驟:
步驟S31,對原始文本進行修改,將所述修改文本中的每個句子進行分詞;
步驟S32,將分詞之后的每個句子中的每個詞轉(zhuǎn)化為第二初始詞向量;
步驟S33,在所述每個句子的句首添加識別字符并將所述識別字符轉(zhuǎn)化為第二字符向量;
步驟S34,將所述步驟S32中的第二初始詞向量與所述步驟S33中的第二字符向量分別輸入至詞級語義提取網(wǎng)絡(luò)與句級語義提取網(wǎng)絡(luò)以獲得與每個句子對應(yīng)的第二向量,所述第二向量包括第二詞向量與第二句向量。
4.如權(quán)利要求3所述的基于對抗訓(xùn)練的語言模型預(yù)訓(xùn)練方法,其特征在于:所述鑒別網(wǎng)絡(luò)包括詞向量鑒別網(wǎng)絡(luò);
步驟S4進一步包括:
步驟S411,將第一詞向量與第二詞向量輸入至詞向量鑒別網(wǎng)絡(luò);
步驟S412,詞向量鑒別網(wǎng)絡(luò)將第一詞向量與第二詞向量相互配對并計算;
步驟S413,獲得詞向量鑒別網(wǎng)絡(luò)的詞向量鑒別結(jié)果...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:宋思睿,宋彥,
申請(專利權(quán))人:創(chuàng)新工場廣州人工智能研究有限公司,
類型:發(fā)明
國別省市:廣東;44
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。