本發(fā)明專利技術(shù)涉及英語發(fā)音標(biāo)注模型技術(shù)領(lǐng)域,尤其是一種基于意群標(biāo)注的英語發(fā)音連讀標(biāo)記模型,包括文本預(yù)處理、意群標(biāo)注模型以及連讀標(biāo)注模塊,所述的文本預(yù)處理為將輸入的文本進(jìn)行分句與分詞預(yù)處理,將預(yù)處理后的文本輸入意群標(biāo)注模型,意群標(biāo)注模型輸出意群信息與文本至連讀標(biāo)注模塊進(jìn)行連讀分析,連讀標(biāo)注模塊完成連讀標(biāo)注后輸出標(biāo)記結(jié)果,本發(fā)明專利技術(shù)能夠高效地并行運(yùn)算。
【技術(shù)實(shí)現(xiàn)步驟摘要】
基于意群標(biāo)注的英語發(fā)音連讀標(biāo)記模型
本專利技術(shù)涉及英語發(fā)音標(biāo)注模型
,具體領(lǐng)域?yàn)橐环N基于意群標(biāo)注的英語發(fā)音連讀標(biāo)記模型。
技術(shù)介紹
單詞間的連讀、變音是英語口語中的一種常見現(xiàn)象??谡Z學(xué)習(xí)中,在文本上顯式地標(biāo)出需要連讀變音的位置能夠幫助學(xué)生更好地掌握地道的發(fā)音,并且可以提高學(xué)生對(duì)于連讀的聽力理解能力。因此,連讀、變音的標(biāo)注對(duì)于英語口語的學(xué)習(xí)具有促進(jìn)作用。常見的連讀、變音包括:失去爆破音、相同或相似音的失去、輕輔音[h]連讀、連讀發(fā)生音變成為復(fù)合輔音等。以上連讀與變音應(yīng)當(dāng)發(fā)生在語義緊密的詞之間,也就是同一個(gè)意群內(nèi),不同的意群間的連讀顯得不自然,如Isitahatoracat中ora間的連讀。因此語句中意群的劃分是標(biāo)注連讀發(fā)音的前提。常規(guī)的序列標(biāo)注模型,如條件隨機(jī)場(chǎng)(CRF)、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN以及變體如GRU、LSTM等被成功地運(yùn)用于意群的標(biāo)注。然而常規(guī)的循環(huán)神經(jīng)網(wǎng)絡(luò)序列標(biāo)注模型,在計(jì)算t時(shí)刻時(shí)需要依賴t-1時(shí)刻的運(yùn)算結(jié)果,也就是需要依次計(jì)算,這樣的按序列依次運(yùn)算的方式不利于并行化計(jì)算。基于Self-attention的Transformer結(jié)構(gòu)雖然可以并行化,但卻需要序列長度平方級(jí)的計(jì)算與空間復(fù)雜度。
技術(shù)實(shí)現(xiàn)思路
針對(duì)現(xiàn)有技術(shù)存在的不足,本專利技術(shù)的目的在于提供一種基于意群標(biāo)注的英語發(fā)音連讀標(biāo)記模型。為實(shí)現(xiàn)上述目的,本專利技術(shù)提供如下技術(shù)方案:一種基于意群標(biāo)注的英語發(fā)音連讀標(biāo)記模型,包括文本預(yù)處理、意群標(biāo)注模型以及連讀標(biāo)注模塊,所述的文本預(yù)處理為將輸入的文本進(jìn)行分句與分詞預(yù)處理,將預(yù)處理后的文本輸入意群標(biāo)注模型,意群標(biāo)注模型輸出意群信息與文本至連讀標(biāo)注模塊進(jìn)行連讀分析,連讀標(biāo)注模塊完成連讀標(biāo)注后輸出標(biāo)記結(jié)果,所述的意群標(biāo)注模型包括字母級(jí)別的卷積神經(jīng)網(wǎng)絡(luò)編碼器、詞嵌入層、序列標(biāo)注模型和CRF層,預(yù)處理后的文本通過卷積神經(jīng)網(wǎng)絡(luò)編碼器進(jìn)行每個(gè)詞字母編碼后與該詞的詞向量拼接后輸入到序列標(biāo)注模型進(jìn)行運(yùn)算處理,并將運(yùn)算結(jié)果輸入到CRF層中解碼得到意群標(biāo)注序列,所述的連讀標(biāo)注模塊以句子與意群信息作為輸入,根據(jù)連讀規(guī)則在意群內(nèi)標(biāo)注連讀與變音。優(yōu)選的,所述的意群標(biāo)注模型還包括詞嵌入層,字母級(jí)別的卷積神經(jīng)網(wǎng)絡(luò)編碼器和詞嵌入層分別對(duì)預(yù)處理后的文本進(jìn)行計(jì)算處理,并將兩者的計(jì)算結(jié)果拼接后進(jìn)行一次線性變化后輸入序列標(biāo)注模塊。優(yōu)選的,字母級(jí)別的卷積神經(jīng)網(wǎng)絡(luò)編碼器對(duì)輸入的文本單詞以字母序列的形式輸入到字母嵌入層,對(duì)字母嵌入表示進(jìn)行卷積運(yùn)算,運(yùn)算的結(jié)果做最大池化后輸出。優(yōu)選的,所述的序列標(biāo)注模型由分組卷積神經(jīng)網(wǎng)絡(luò)與Position-WiseFeed-ForwardNetworks兩個(gè)子結(jié)構(gòu)構(gòu)成,分組卷積神經(jīng)網(wǎng)絡(luò)與Position-WiseFeed-ForwardNetworks兩個(gè)子結(jié)構(gòu)間以殘差連接并插入Layer-Normalization。優(yōu)選的,所述的分組卷積神經(jīng)網(wǎng)絡(luò)由兩層分組卷積層構(gòu)成,兩層間使用的激活函數(shù)為ReLU,設(shè)定第一層分組卷積層的分組數(shù)G等于輸入通道數(shù)C1,中間通道數(shù)C2為4C1,輸出通道數(shù)為C1,即,輸入輸入到第一層分組卷積層,其中L為序列長度,dmodel為模型隱狀態(tài)大小,y=max(GroupedConv(x,K1,C1,C2,G),0)其中C1=G=dmodel,K1為卷積核的大小。第二層分組卷積層的輸入通道數(shù)為C2,輸出通道數(shù)為C1,卷積核大小為K2,分組數(shù)G;z=GroupedConv(y,K2,C2,C1,G)其中優(yōu)選的,Position-WiseFeed-ForwardNetworks的計(jì)算公式為:FFN(x)=max(0,xW1+b1)W2+b2其中優(yōu)選的,定義CRF層的目標(biāo)函數(shù)為其中A為標(biāo)簽轉(zhuǎn)移矩陣,Ai,j表示標(biāo)簽i轉(zhuǎn)移到標(biāo)簽j的分?jǐn)?shù),θ為模型中所有的參數(shù),輸入的句子x,句子長度為T,[fθ]i,t表示神經(jīng)網(wǎng)絡(luò)在t個(gè)詞輸出標(biāo)簽i的分?jǐn)?shù);令是句子x的真實(shí)標(biāo)簽序列,需要優(yōu)化的目標(biāo)函數(shù)為:在推理時(shí),采用Viterbi算法求解最大化的標(biāo)簽序列優(yōu)選的,所述的連讀標(biāo)注模塊設(shè)定規(guī)則為:a.失去爆破音,當(dāng)前一詞以爆破音[p]、[b]、[t]、[d]、[k]、[g]結(jié)尾,后一詞以輔音開頭,則爆破音失爆;b.相同或相似音的失去,相同或相似的兩個(gè)音素以及發(fā)音部位相同的音素相鄰時(shí),前一個(gè)音素不讀出聲;c.輕輔音[h]的連讀,如果前一個(gè)單詞以輔音音素結(jié)尾,后一個(gè)單詞的讀音以輕輔音音素[h]開頭,語速較快時(shí),直接穿透[h]與后面的元音音素發(fā)生連讀,即輔音[h]不發(fā)音;d.連讀發(fā)生音變成為復(fù)合輔音;e.詞末連接音[r]+元音,單詞末尾的r或re,在英式讀音中,不發(fā)音;在美式讀音中,發(fā)[r],在連貫話語中,如果后面緊跟一個(gè)以元音開頭的詞,而且兩個(gè)詞屬于同一個(gè)意群時(shí),發(fā)生連讀,英音中原本不發(fā)音的r或re,此時(shí)發(fā)[r]音;f.前一個(gè)詞是以輔音結(jié)尾,后一個(gè)詞是以/w/或/j/,應(yīng)當(dāng)連讀。優(yōu)選的,輸入文本經(jīng)過字母級(jí)別編碼后與相應(yīng)的詞嵌入表示拼接,輸入到序列標(biāo)注層,經(jīng)過N次計(jì)算后輸出,再經(jīng)過一次線性變化后投影到標(biāo)簽空間中作為CRF層的發(fā)射分?jǐn)?shù),結(jié)合CRF層的轉(zhuǎn)移分?jǐn)?shù)解碼出最優(yōu)的標(biāo)簽序列。與現(xiàn)有技術(shù)相比,本專利技術(shù)的有益效果是:采用了一種基于分組卷積神經(jīng)網(wǎng)絡(luò)與Position-WiseFeed-ForwardNetworks作為基本建模單元的模型結(jié)構(gòu)。該結(jié)構(gòu)在意群標(biāo)注任務(wù)上不止性能優(yōu)秀,并且能夠高效地并行運(yùn)算。本專利技術(shù)的另一個(gè)關(guān)鍵技術(shù)點(diǎn)是基于意群標(biāo)注模型的連讀標(biāo)記,即先利用序列標(biāo)注模型對(duì)輸入文本的意群劃分進(jìn)行預(yù)測(cè),然后在意群內(nèi)進(jìn)行連讀標(biāo)記。附圖說明圖1為本專利技術(shù)的整體流程圖;圖2為本專利技術(shù)的意群標(biāo)注模型結(jié)構(gòu);圖3為本專利技術(shù)的分組卷積神經(jīng)網(wǎng)絡(luò);圖4為本專利技術(shù)的字母級(jí)編碼器結(jié)構(gòu)。具體實(shí)施方式下面將結(jié)合本專利技術(shù)實(shí)施例中的附圖,對(duì)本專利技術(shù)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本專利技術(shù)一部分實(shí)施例,而不是全部的實(shí)施例?;诒緦@夹g(shù)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本專利技術(shù)保護(hù)的范圍。請(qǐng)參閱圖1,本專利技術(shù)提供一種技術(shù)方案:一種基于意群標(biāo)注的英語發(fā)音連讀標(biāo)記模型,包括文本預(yù)處理、意群標(biāo)注模型以及連讀標(biāo)注模塊,所述的文本預(yù)處理為將輸入的文本進(jìn)行分句與分詞預(yù)處理,將預(yù)處理后的文本輸入意群標(biāo)注模型,意群標(biāo)注模型輸出意群信息與文本至連讀標(biāo)注模塊進(jìn)行連讀分析,連讀標(biāo)注模塊完成連讀標(biāo)注后輸出標(biāo)記結(jié)果,所述的意群標(biāo)注模型包括字母級(jí)別的卷積神經(jīng)網(wǎng)絡(luò)編碼器、序列標(biāo)注模型和CRF層,預(yù)處理后的文本通過卷積神經(jīng)網(wǎng)絡(luò)編碼器進(jìn)行每個(gè)詞字母編碼后與該詞的詞向量拼接后輸入到序列標(biāo)注模型進(jìn)行運(yùn)算處理,并將運(yùn)算結(jié)果輸入到CRF層中解碼得到意群標(biāo)注序列,所述的連讀標(biāo)注模塊以句子與意群信息作為輸入,根據(jù)連讀規(guī)則在意群內(nèi)標(biāo)注連本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于意群標(biāo)注的英語發(fā)音連讀標(biāo)記模型,其特征在于:包括文本預(yù)處理、意群標(biāo)注模型以及連讀標(biāo)注模塊,所述的文本預(yù)處理為將輸入的文本進(jìn)行分句與分詞預(yù)處理,將預(yù)處理后的文本輸入意群標(biāo)注模型,意群標(biāo)注模型輸出意群信息與文本至連讀標(biāo)注模塊進(jìn)行連讀分析,連讀標(biāo)注模塊完成連讀標(biāo)注后輸出標(biāo)記結(jié)果,/n所述的意群標(biāo)注模型包括字母級(jí)別的卷積神經(jīng)網(wǎng)絡(luò)編碼器、詞嵌入層、序列標(biāo)注模型和條件隨機(jī)場(chǎng)層(CRF層),預(yù)處理后的文本通過卷積神經(jīng)網(wǎng)絡(luò)編碼器進(jìn)行每個(gè)詞字母編碼后與該詞的詞向量拼接后輸入到序列標(biāo)注模型進(jìn)行運(yùn)算處理,并將運(yùn)算結(jié)果輸入到條件隨機(jī)場(chǎng)層中解碼得到意群標(biāo)注序列,/n所述的連讀標(biāo)注模塊以句子與意群信息作為輸入,根據(jù)連讀規(guī)則在意群內(nèi)標(biāo)注連讀與變音。/n
【技術(shù)特征摘要】
1.一種基于意群標(biāo)注的英語發(fā)音連讀標(biāo)記模型,其特征在于:包括文本預(yù)處理、意群標(biāo)注模型以及連讀標(biāo)注模塊,所述的文本預(yù)處理為將輸入的文本進(jìn)行分句與分詞預(yù)處理,將預(yù)處理后的文本輸入意群標(biāo)注模型,意群標(biāo)注模型輸出意群信息與文本至連讀標(biāo)注模塊進(jìn)行連讀分析,連讀標(biāo)注模塊完成連讀標(biāo)注后輸出標(biāo)記結(jié)果,
所述的意群標(biāo)注模型包括字母級(jí)別的卷積神經(jīng)網(wǎng)絡(luò)編碼器、詞嵌入層、序列標(biāo)注模型和條件隨機(jī)場(chǎng)層(CRF層),預(yù)處理后的文本通過卷積神經(jīng)網(wǎng)絡(luò)編碼器進(jìn)行每個(gè)詞字母編碼后與該詞的詞向量拼接后輸入到序列標(biāo)注模型進(jìn)行運(yùn)算處理,并將運(yùn)算結(jié)果輸入到條件隨機(jī)場(chǎng)層中解碼得到意群標(biāo)注序列,
所述的連讀標(biāo)注模塊以句子與意群信息作為輸入,根據(jù)連讀規(guī)則在意群內(nèi)標(biāo)注連讀與變音。
2.根據(jù)權(quán)利要求1所述的基于意群標(biāo)注的英語發(fā)音連讀標(biāo)記模型,其特征在于:所述的意群標(biāo)注模型還包括詞嵌入層,字母級(jí)別的卷積神經(jīng)網(wǎng)絡(luò)編碼器和詞嵌入層分別對(duì)預(yù)處理后的文本進(jìn)行計(jì)算處理,并將兩者的計(jì)算結(jié)果拼接后進(jìn)行一次線性變化后輸入序列標(biāo)注模塊。
3.根據(jù)權(quán)利要求2所述的基于意群標(biāo)注的英語發(fā)音連讀標(biāo)記模型,其特征在于:字母級(jí)別的卷積神經(jīng)網(wǎng)絡(luò)編碼器對(duì)輸入的文本單詞以字母序列的形式輸入到字母嵌入層,對(duì)字母嵌入表示進(jìn)行卷積運(yùn)算,運(yùn)算的結(jié)果做最大池化后輸出。
4.根據(jù)權(quán)利要求2所述的基于意群標(biāo)注的英語發(fā)音連讀標(biāo)記模型,其特征在于:所述的序列標(biāo)注模型由分組卷積神經(jīng)網(wǎng)絡(luò)與Position-WiseFeed-ForwardNetworks兩個(gè)子結(jié)構(gòu)構(gòu)成,分組卷積神經(jīng)網(wǎng)絡(luò)與Position-WiseFeed-ForwardNetworks兩個(gè)子結(jié)構(gòu)間以殘差連接并插入Layer-Normalization。
5.根據(jù)權(quán)利要求4所述的基于意群標(biāo)注的英語發(fā)音連讀標(biāo)記模型,其特征在于:所述的分組卷積神經(jīng)網(wǎng)絡(luò)由兩層分組卷積層構(gòu)成,兩層卷積層間插入ReLU作為激活函數(shù),
設(shè)定第一層分組卷積層的分組數(shù)G等于輸入通道數(shù)C1,中間通道數(shù)C2為4C1,輸出通道數(shù)為C1,即,
輸入輸入到第一層分組卷積層,其中L為序列長度,dmodel為模型隱狀態(tài)大小,
y=max(GroupedConv(x,K1,C1,C2,G),0)
其中C1=G=dmodel,K1為卷積核的...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:徐書堯,秦龍,陳進(jìn),陸勇毅,
申請(qǐng)(專利權(quán))人:北京先聲智能科技有限公司,
類型:發(fā)明
國別省市:北京;11
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。