本發(fā)明專利技術(shù)提供了一種基于卷積神經(jīng)網(wǎng)絡(luò)識別單詞的方法和裝置。該方法包括采用卷積神經(jīng)網(wǎng)絡(luò)模型對原始圖像進行特征提取以輸出第一特征圖;將第一特征圖在高度維度上切片以得到多個第二特征圖;分別自上而下、自下而上對多個第二特征圖進行卷積和相加運算以得到第三特征圖;將第三特征圖在寬度維度上切片以得到多個第四特征圖;分別自左向右、自右向左對多個第四特征圖進行卷積和相加運算以得到第五特征圖;通過平均池化和全連接的方式將第五特征圖映射到單詞相似性概率空間以得到第一單詞語義空間特征圖;采用時序分類算法求解第一單詞語義空間特征圖對應(yīng)的最優(yōu)的單詞序列,從而利用上下文空間序列學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò),充分探索圖像中上下文的語義關(guān)系。
Method and device of word recognition based on convolution neural network
【技術(shù)實現(xiàn)步驟摘要】
基于卷積神經(jīng)網(wǎng)絡(luò)識別單詞的方法和裝置
本專利技術(shù)涉及卷積神經(jīng)網(wǎng)絡(luò)
,具體涉及一種基于卷積神經(jīng)網(wǎng)絡(luò)識別單詞的方法和裝置。
技術(shù)介紹
現(xiàn)有的任意長度單詞識別方法中在深度神經(jīng)網(wǎng)絡(luò)中使用空間信息通常采用兩種方式,一種為使用長短期記憶網(wǎng)絡(luò)(LongShort-TermMemory,LSTM)變體探索上下文語義信息,但該方法不易訓(xùn)練而且計算消耗較大;另一種為使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)按照每行和列傳遞信息,但特征圖上的每個點只能接受最鄰近的同一行或列的信息,無法探索到更加豐富的空間層次。
技術(shù)實現(xiàn)思路
有鑒于此,本專利技術(shù)實施例提供一種基于卷積神經(jīng)網(wǎng)絡(luò)識別單詞的方法和裝置,能夠有效克服現(xiàn)有技術(shù)中學(xué)習(xí)空間語義的相互關(guān)系時參數(shù)量大、耗時、不易訓(xùn)練的缺點,同時可探索更加豐富的空間層次,使序列特征分類的更加準(zhǔn)確。在本專利技術(shù)實施例的第一方面,本專利技術(shù)實施例提供了一種基于卷積神經(jīng)網(wǎng)絡(luò)識別單詞的方法,包括:采用卷積神經(jīng)網(wǎng)絡(luò)模型對原始圖像進行特征提取以輸出第一特征圖;將第一特征圖在高度維度上切片以得到多個第二特征圖;分別自上而下、自下而上對多個第二特征圖進行卷積和相加運算以得到第三特征圖;將第三特征圖在寬度維度上切片以得到多個第四特征圖;分別自左向右、自右向左對多個第四特征圖進行卷積和相加運算以得到第五特征圖;通過平均池化和全連接的方式將第五特征圖映射到單詞相似性概率空間以得到第一單詞語義空間特征圖;采用時序分類算法求解第一單詞語義空間特征圖對應(yīng)的最優(yōu)的單詞序列。在本專利技術(shù)一實施例中,第一特征圖的尺寸為C*H*W1,C為通道數(shù),H為高度,W1為寬度,上述將第一特征圖在高度維度上切片以得到多個第二特征圖,包括:將第一特征圖在高度維度上切片成第二特征圖1、第二特征圖2、第二特征圖3…第二特征圖H共H個單片的第二特征圖,其中,上述分別自上而下、自下而上對多個第二特征圖進行卷積和相加運算以得到第三特征圖,包括:將第二特征圖1作為輸入,自上而下對H個單片的第二特征圖進行卷積和相加運算以獲得新的第二特征圖1、新的第二特征圖2、新的第二特征圖3…新的第二特征圖H;將新的第二特征圖H作為輸入,自下而上對新的第二特征圖1、新的第二特征圖2、新的第二特征圖3…新的第二特征圖H進行卷積和相加運算以得到第三特征圖。在本專利技術(shù)一實施例中,上述通過平均池化和全連接的方式將第五特征圖映射到單詞相似性概率空間中以得到第一單詞語義空間特征圖之后,所述方法還包括:對第一單詞語義空間特征圖進行Softmax計算以得到第二單詞語義空間特征圖,其中,上述采用時序分類算法求解第一單詞語義空間特征圖對應(yīng)的最優(yōu)的單詞序列,包括:采用時序分類算法求解第二單詞語義空間特征圖對應(yīng)的最優(yōu)的單詞序列。在本專利技術(shù)一實施例中,第一特征圖的尺寸為C*H*W1,C為通道數(shù),H為高度,W1為寬度,上述通過平均池化和全連接的方式將第五特征圖映射到單詞相似性概率空間以得到第一單詞語義空間特征圖,包括:將第五特征圖在高度維度上進行平均池化以得到平均池化后的第五特征圖,平均池化后的第五特征圖的尺寸為C*1*W1;采用全連接的方式將平均池化后的第五特征圖映射到單詞相似性概率空間以得到第一單詞語義空間特征圖,第一單詞語義空間特征圖的尺寸為W2*N,其中,W2為將平均池化后的第五特征圖映射到單詞相似性概率空間后輸出的特征圖的寬,N為單詞的類別數(shù)目。在本專利技術(shù)一實施例中,時序分類算法包括連接時序分類算法或framewise分類算法。在本專利技術(shù)一實施例中,當(dāng)時序分類算法為連接時序分類算法時,上述采用時序分類算法求解第一單詞語義空間特征圖對應(yīng)的最優(yōu)的單詞序列,包括:采用連接時序分類算法對第一單詞語義空間特征圖進行指導(dǎo)訓(xùn)練;采用連接時序分類算法中的最優(yōu)路徑解碼求解第一單詞語義空間特征圖對應(yīng)的最優(yōu)的單詞序列。在本專利技術(shù)一實施例中,卷積神經(jīng)網(wǎng)絡(luò)模型包括AlexNet模型或VGG模型。在本專利技術(shù)一實施例中,VGG模型包括VGG11模型、VGG13模型、VGG16模型或VGG19模型。在本專利技術(shù)實施例的第二方面,本專利技術(shù)實施例提供了一種基于卷積神經(jīng)網(wǎng)絡(luò)識別單詞的裝置,包括:提取模塊,用于采用卷積神經(jīng)網(wǎng)絡(luò)模型對原始圖像進行特征提取以輸出第一特征圖;第一切片模塊,用于將第一特征圖在高度維度上切片以得到多個第二特征圖;第一卷積和相加運算模塊,用于分別自上而下、自下而上對多個第二特征圖進行卷積和相加運算以得到第三特征圖;第二切片模塊,用于將第三特征圖在寬度維度上切片以得到多個第四特征圖;第二卷積和相加運算模塊,用于分別自左向右、自右向左對多個第四特征圖進行卷積和相加運算以得到第五特征圖;第一映射模塊,用于通過平均池化和全連接的方式將第五特征圖映射到單詞相似性概率空間以得到第一單詞語義空間特征圖;求解模塊,用于采用時序分類算法求解第一單詞語義空間特征圖對應(yīng)的最優(yōu)的單詞序列。在本專利技術(shù)實施例的第三方面,本專利技術(shù)實施例提供一種計算機可讀存儲介質(zhì),其上存儲有計算機可執(zhí)行指令,上述可執(zhí)行指令被處理器執(zhí)行時實現(xiàn)如本專利技術(shù)實施例的第一方面中的任一項所述的基于卷積神經(jīng)網(wǎng)絡(luò)識別單詞的方法。根據(jù)本專利技術(shù)實施例提供的技術(shù)方案,通過采用卷積神經(jīng)網(wǎng)絡(luò)模型對原始圖像進行特征提取以輸出第一特征圖;將第一特征圖在高度維度上切片以得到多個第二特征圖;分別自上而下、自下而上對多個第二特征圖進行卷積和相加運算以得到第三特征圖;將第三特征圖在寬度維度上切片以得到多個第四特征圖;分別自左向右、自右向左對多個第四特征圖進行卷積和相加運算以得到第五特征圖;通過平均池化和全連接的方式將第五特征圖映射到單詞相似性概率空間以得到第一單詞語義空間特征圖;采用時序分類算法求解第一單詞語義空間特征圖對應(yīng)的最優(yōu)的單詞序列,從而實現(xiàn)利用上下文空間序列深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò),充分探索圖像的行和列的上下文的語義關(guān)系,使序列特征分類的更加準(zhǔn)確。附圖說明圖1是本專利技術(shù)一實施例提供的一種基于卷積神經(jīng)網(wǎng)絡(luò)識別單詞的方法的流程示意圖。圖2是本專利技術(shù)另一實施例提供的一種基于卷積神經(jīng)網(wǎng)絡(luò)識別單詞的方法的流程示意圖。圖3是本專利技術(shù)一實施例提供的一種將第一特征圖轉(zhuǎn)換成第五特征圖的的流程示意圖。圖4是本專利技術(shù)一實施例提供的一種基于卷積神經(jīng)網(wǎng)絡(luò)識別單詞的裝置的結(jié)構(gòu)示意圖。圖5是本專利技術(shù)一實施例提供的一種基于卷積神經(jīng)網(wǎng)絡(luò)識別單詞的系統(tǒng)的框圖。具體實施方式下面將結(jié)合本專利技術(shù)實施例中所需要使用的附圖,對本專利技術(shù)實施例中的技術(shù)方案進行清楚、完整地描述,顯而易見地,下面描述的附圖僅是本專利技術(shù)一部分實施例,而不是全部的實施例。需要說明的是,基于本專利技術(shù)中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有相關(guān)實施例,都屬于本專利技術(shù)保護的范圍。本專利技術(shù)實施例中提供了一種基于卷積神經(jīng)網(wǎng)絡(luò)識別單詞的方法和裝置,以下分別進行詳細說明。圖1是本專利技術(shù)一實施例提供的一種基于卷積神經(jīng)網(wǎng)絡(luò)識別單詞的方法的流程示意圖。該方法可以由服務(wù)器或處理器等執(zhí)行,以服務(wù)器作為執(zhí)行主體為例。如圖1所示,該方法包括以下步驟。S110:采用卷積神經(jīng)網(wǎng)絡(luò)模型對原始圖像進行特征提取以輸出第一特征圖。具體而言,服務(wù)器接收用戶輸入的原始圖像,服務(wù)器采用卷積神經(jīng)網(wǎng)絡(luò)模型對原始圖像進行特征提取,從而輸出第一特征圖。卷積神經(jīng)網(wǎng)絡(luò)模型可以是視覺幾何組(VisualGeom本文檔來自技高網(wǎng)...
【技術(shù)保護點】
1.一種基于卷積神經(jīng)網(wǎng)絡(luò)識別單詞的方法,其特征在于,包括:采用卷積神經(jīng)網(wǎng)絡(luò)模型對原始圖像進行特征提取以輸出第一特征圖;將所述第一特征圖在高度維度上切片以得到多個第二特征圖;分別自上而下、自下而上對所述多個第二特征圖進行卷積和相加運算以得到第三特征圖;將所述第三特征圖在寬度維度上切片以得到多個第四特征圖;分別自左向右、自右向左對所述多個第四特征圖進行卷積和相加運算以得到第五特征圖;通過平均池化和全連接的方式將所述第五特征圖映射到單詞相似性概率空間中以得到第一單詞語義空間特征圖;采用時序分類算法求解所述第一單詞語義空間特征圖對應(yīng)的最優(yōu)的單詞序列。
【技術(shù)特征摘要】
1.一種基于卷積神經(jīng)網(wǎng)絡(luò)識別單詞的方法,其特征在于,包括:采用卷積神經(jīng)網(wǎng)絡(luò)模型對原始圖像進行特征提取以輸出第一特征圖;將所述第一特征圖在高度維度上切片以得到多個第二特征圖;分別自上而下、自下而上對所述多個第二特征圖進行卷積和相加運算以得到第三特征圖;將所述第三特征圖在寬度維度上切片以得到多個第四特征圖;分別自左向右、自右向左對所述多個第四特征圖進行卷積和相加運算以得到第五特征圖;通過平均池化和全連接的方式將所述第五特征圖映射到單詞相似性概率空間中以得到第一單詞語義空間特征圖;采用時序分類算法求解所述第一單詞語義空間特征圖對應(yīng)的最優(yōu)的單詞序列。2.如權(quán)利要求1所述的方法,其特征在于,所述第一特征圖的尺寸為C*H*W1,C為通道數(shù),H為高度,W1為寬度,所述將所述第一特征圖在高度維度上切片以得到多個第二特征圖,包括:將所述第一特征圖在高度維度上切片成第二特征圖1、第二特征圖2、第二特征圖3…第二特征圖H共H個單片的第二特征圖,其中,所述分別自上而下、自下而上對所述多個第二特征圖進行卷積和相加運算以得到第三特征圖,包括:將所述第二特征圖1作為輸入,自上而下對所述H個單片的第二特征圖進行卷積和相加運算以獲得新的第二特征圖1、新的第二特征圖2、新的第二特征圖3…新的第二特征圖H;將所述新的第二特征圖H作為輸入,自下而上對所述新的第二特征圖1、新的第二特征圖2、新的第二特征圖3…新的第二特征圖H進行卷積和相加運算以得到所述第三特征圖。3.如權(quán)利要求1所述的方法,其特征在于,所述通過平均池化和全連接的方式將所述第五特征圖映射到單詞相似性概率空間中以得到第一單詞語義空間特征圖之后,所述方法還包括:對所述第一單詞語義空間特征圖進行Softmax計算以得到第二單詞語義空間特征圖,其中,所述采用時序分類算法求解所述第一單詞語義空間特征圖對應(yīng)的最優(yōu)的單詞序列,包括:采用時序分類算法求解所述第二單詞語義空間特征圖對應(yīng)的最優(yōu)的單詞序列。4.如權(quán)利要求1中所述的方法,其特征在于,所述第一特征圖的尺寸為C*H*W1,C為通道數(shù),H為高度,W1為寬度,所述通過平均池化和全連接的方式將所述第五特征圖映射到單詞相似性概率空間中以得到第一單詞語義空間特征圖,包括:將所述第五特...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:張韻東,黃發(fā)亮,劉小濤,
申請(專利權(quán))人:北京中星微電子有限公司,
類型:發(fā)明
國別省市:北京,11
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。