本申請公開了結構化文本檢測方法和系統,其中所述方法包括:將待檢測結構化文本圖片及一組文字區域模板輸入訓練好的卷積神經網絡;通過所述卷積神經網絡的處理得到所述待檢測結構化文本圖片的一組待檢測區域的實際位置;其中,所述一組文字區域模板中的每一個的位置為與所述待檢測結構化文本圖片同類的多個結構化文本圖片中相應文字區域的位置的平均值;及所述卷積神經網絡將所述一組文字區域模板的位置作為所述待檢測結構化文本圖片的一組待檢測區域。本發明專利技術在保證檢測準確度的同時使得計算量盡可能小,大大提高了結構化文本檢測的效率。
【技術實現步驟摘要】
本申請涉及圖片處理領域,尤其涉及一種結構化文本檢測方法和系統。
技術介紹
結構化文本是指布局結構基本固定的文本,例如身份證、護照、機動車駕駛證、票據等。在數字化時代,人們為了將這些信息錄入計算機,往往需要手動打字,花費大量的時間。為了節省時間,人們開始采用將證件拍成圖片,再利用計算機視覺技術從圖片中自動獲取文本的方法。這種方法一般分為三步:第一,將圖片中的所有結構化文本作為一個整體進行截取并轉正,使之充滿整個圖片,截取使得去除背景區域,轉正使得歪斜的圖片變正;第二,檢測所有包含文本信息的區域;第三,對被檢測出的區域進行文字識別,獲取文本信息。其中,第二步,即結構化文本的檢測,在整個結構化文本信息獲取的過程中占有重要地位。目前結構化文本的檢測一般借助于通用物體檢測的方法,如基于卷積神經網絡的RegionProposalNetwork(RPN),它根據深度卷積神經網絡輸出的卷積特征圖上每一個位置的信息計算這個位置的對應的錨(anchors)的分類分數和調整量,根據分類分數確定對應位置是否有待檢測文本存在,通過調整量計算對應文本的位置,即上下左右四個方向的邊界坐標。最后還需要利用非最大值抑制法除去重復程度較高的區域。上述方法計算成本較高。由于一般深度卷積神經網絡輸出的卷積特征圖面積較大,且每個位置都對應了若干個anchors,總共需要計算的anchors的分類分數和調整量數量巨大,再加上后處理,使得計算開銷過大,需要花費的時間過長。
技術實現思路
本專利技術實施例提供一種結構化文本檢測方案。第一方面,本申請實施例提供一種結構化文本檢測方法,包括:將待檢測結構化文本圖片及一組文字區域模板輸入訓練好的卷積神經網絡;通過所述卷積神經網絡的處理得到所述待檢測結構化文本圖片的一組待檢測區域的實際位置;其中,所述一組文字區域模板中的每一個的位置為與所述待檢測結構化文本圖片同類的多個結構化文本圖片中相應文字區域的位置的平均值;及所述卷積神經網絡將所述一組文字區域模板的位置作為所述待檢測結構化文本圖片的一組待檢測區域。結合本專利技術實施例提供的任一種結構化文本檢測方法,可選地,所述卷積神經網絡進行如下處理以得到所述待檢測結構化文本圖片的一組待檢測區域的實際位置:對所述待檢測結構化文本圖片進行處理獲得其卷積特征圖;以所述一組文字區域模板的位置作為所述待檢測結構化文本圖片的一組待檢測區域對所述卷積特征圖進行興趣區域池化操作,然后經過全連接層輸出所述待檢測結構化文本圖片的每一待檢測區域對應的分類分數和位置調整值;根據所述分類分數確定所述每一待檢測區域是否有文字;在確定一待檢測區域有文字時,根據該確定有文字的待檢測區域的位置調整值調整該確定有文字的待檢測區域的坐標值,得到該確定有文字的待檢測區域的實際位置。結合本專利技術實施例提供的任一種結構化文本檢測方法,可選地,所述將待檢測結構化文本圖片及一組文字區域模板輸入訓練好的卷積神經網絡之前,所述方法還包括:獲取用于訓練所述卷積神經網絡的所述多個結構化文本圖片中的每一圖片的所有文字區域的位置;根據所述多個結構化文本圖片中的相應文字區域的位置的平均值確定所述文字區域對應的文字區域模板。結合本專利技術實施例提供的任一種結構化文本檢測方法,可選地,所述文字區域模板的位置通過相應文字區域的中心坐標、寬度及長度確定。結合本專利技術實施例提供的任一種結構化文本檢測方法,可選地,所述根據所述分類分數確定所述每一待檢測區域是否有文字包括:將每一待檢測區域對應的分類分數接Softmax層;在一待檢測區域的分類分數大于預設閾值時確定該待檢測區域有文字。結合本專利技術實施例提供的任一種結構化文本檢測方法,可選地,所述待檢測區域的實際位置為[x+w*f1,y+h*f2,exp(f3)*w,exp(f4)*h],其中(x+w*f1,y+h*f2)為所述待檢測區域的中心X坐標和Y坐標,exp(f3)*w為所述待檢測區域的長度,exp(f4)*h為所述待檢測區域的寬度;其中x,y,h,w為與所述待檢測區域對應的文字區域模板的X坐標、Y坐標、寬度和長度;[f1,f2,f3,f4]為訓練所述卷積神經網絡時每一文字區域的回歸目標,其中[f1,f2,f3,f4]=[(x'-x)/w,(y'-y)/h,log(w'/w),log(h'/h)],其中x',y',h',w'為所述多個結構化文本圖片中的每一圖片的相應文字區域的X坐標、Y坐標、寬度和長度。結合本專利技術實施例提供的任一種結構化文本檢測方法,可選地,所述回歸目標通過在訓練所述卷積神經網絡時使所述位置調整值接一回歸函數獲得。結合本專利技術實施例提供的任一種結構化文本檢測方法,可選地,所述方法還包括:在輸入所述卷積神經網絡之前,對所述待檢測結構化文本圖片進行截取和轉正預處理并縮放到一個固定尺寸。第二方面,本專利技術實施例還提供了一種結構化文本檢測系統,包括:圖片及模板輸入模塊,用于將待檢測結構化文本圖片及一組文字區域模板輸入訓練好的卷積神經網絡;卷積神經網絡,用于通過所述卷積神經網絡的處理得到所述待檢測結構化文本圖片的一組待檢測區域的實際位置;其中,所述一組文字區域模板中的每一個的位置為與所述待檢測結構化文本圖片同類的多個結構化文本圖片中相應文字區域的位置的平均值;及所述卷積神經網絡將所述一組文字區域模板的位置作為所述待檢測結構化文本圖片的一組待檢測區域。結合本專利技術實施例提供的任一種結構化文本檢測系統,可選地,所述卷積神經網絡包括:特征圖獲得模塊,用于對所述待檢測結構化文本圖片進行處理獲得其卷積特征圖;分類分數和位置調整值獲得模塊,用于以所述一組文字區域模板的位置作為所述待檢測結構化文本圖片的一組待檢測區域對所述卷積特征圖進行興趣區域池化操作,然后經過全連接層輸出所述待檢測結構化文本圖片的每一待檢測區域對應的分類分數和位置調整值;文字區域確定模塊,用于根據所述分類分數確定所述每一待檢測區域是否有文字;待檢測區域實際位置確定模塊,用于在確定一待檢測區域有文字時,根據該確定有文字的待檢測區域的位置調整值調整該確定有文字的待檢測區域的坐標值,得到該確定有文字的待檢測區域的實際位置。結合本專利技術實施例提供的任一種結構化文本檢測系統,可選地,所述一組文字區域模板根據所述多個結構化文本圖片中的每一圖片的相應文字區域的位置的平均值確定。結合本專利技術實施例提供的任一種結構化文本檢測系統,可選地,所述文字區域模板的位置通過相應文字區域的中心坐標、寬度及長度確定。結合本專利技術實施例提供的任一種結構化文本檢測系統,可選地,所述文字區域確定模塊包括:將每一待檢測區域對應的分類分數接Softmax層;在一待檢測區域的分類分數大于預設閾值時確定該待檢測區域有文字。結合本專利技術實施例提供的任一種結構化文本檢測系統,可選地,所述待檢測區域的實際位置為[x+w*f1,y+h*f2,exp(f3)*w,exp(f4)*h],其中(x+w*f1,y+h*f2)為所述待檢測區域的中心X坐標和Y坐標,exp(f3)*w為所述待檢測區域的長度,exp(f4)*h為所述待檢測區域的寬度;其中x,y,h,w為與所述待檢測區域對應的文字區域模板的X坐標、Y坐標、寬度和長度;[f1,f2,f3,f4]為訓練所述卷積神經網絡時每一文字區域的回歸目標本文檔來自技高網...

【技術保護點】
一種結構化文本檢測方法,其特征在于,所述方法包括:將待檢測結構化文本圖片及一組文字區域模板輸入訓練好的卷積神經網絡;通過所述卷積神經網絡的處理得到所述待檢測結構化文本圖片的一組待檢測區域的實際位置;其中,所述一組文字區域模板中的每一個的位置為與所述待檢測結構化文本圖片同類的多個結構化文本圖片中相應文字區域的位置的平均值;及所述卷積神經網絡將所述一組文字區域模板的位置作為所述待檢測結構化文本圖片的一組待檢測區域。
【技術特征摘要】
1.一種結構化文本檢測方法,其特征在于,所述方法包括:將待檢測結構化文本圖片及一組文字區域模板輸入訓練好的卷積神經網絡;通過所述卷積神經網絡的處理得到所述待檢測結構化文本圖片的一組待檢測區域的實際位置;其中,所述一組文字區域模板中的每一個的位置為與所述待檢測結構化文本圖片同類的多個結構化文本圖片中相應文字區域的位置的平均值;及所述卷積神經網絡將所述一組文字區域模板的位置作為所述待檢測結構化文本圖片的一組待檢測區域。2.根據權利要求1所述的方法,其特征在于,所述卷積神經網絡進行如下處理以得到所述待檢測結構化文本圖片的一組待檢測區域的實際位置:對所述待檢測結構化文本圖片進行處理獲得其卷積特征圖;以所述一組文字區域模板的位置作為所述待檢測結構化文本圖片的一組待檢測區域對所述卷積特征圖進行興趣區域池化操作,然后經過全連接層輸出所述待檢測結構化文本圖片的每一待檢測區域對應的分類分數和位置調整值;根據所述分類分數確定所述每一待檢測區域是否有文字;在確定一待檢測區域有文字時,根據該確定有文字的待檢測區域的位置調整值調整該確定有文字的待檢測區域的坐標值,得到該確定有文字的待檢測區域的實際位置。3.根據權利要求1所述的方法,其特征在于,所述將待檢測結構化文本圖片及一組文字區域模板輸入訓練好的卷積神經網絡之前,所述方法還包括:獲取用于訓練所述卷積神經網絡的所述多個結構化文本圖片中的每一圖片的所有文字區域的位置;根據所述多個結構化文本圖片中的相應文字區域的位置的平均值確定所述文字區域對應的文字區域模板。4.根據權利要求1或3所述的方法,其特征在于,所述文字區域模板的位置通過相應文字區域的中心坐標、寬度及長度確定。5.根據權利要求2所述的方法,其特征在于,所述根據所述分類分數確定所述每一待檢測區域是否有文字包括:將每一待檢測區域對應的分類分數接Softmax層;在一待檢測區域的分類分數大于預設閾值時確定該待檢測區域有文字。6.根據權利要求4所述的方法,其特...
【專利技術屬性】
技術研發人員:向東來,夏炎,
申請(專利權)人:北京市商湯科技開發有限公司,
類型:發明
國別省市:北京;11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。