• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    漢字識別方法和裝置制造方法及圖紙

    技術編號:8191140 閱讀:197 留言:0更新日期:2013-01-10 02:01
    本發明專利技術提供一種漢字識別裝置和方法,該裝置包括:第一識別單元用于對文本圖像進行切分和識別,以獲得識別信息;錯誤檢測單元,用于利用該第一識別單元獲得識別信息中圖像單元的位置信息和識別編碼信息檢測錯誤切分的圖像單元;錯誤修正單元,用于對該錯誤檢測單元檢測出的該錯誤切分的圖像單元進行修正;第二識別單元,用于對該錯誤修正單元修正后的該圖像單元進行識別,以獲得相應的識別編碼信息。通過本發明專利技術實施例,利用對文本圖像進行識別后獲得的識別信息中的識別編碼信息和圖像單元位置信息檢測錯誤切分的圖像單元并對錯誤切分的圖像單元進行修正,從而可提高識別精度,解決現有技術中存在的問題。

    【技術實現步驟摘要】

    本專利技術涉及漢字識別技術,特別涉及ー種漢字識別方法和裝置
    技術介紹
    隨著光學文字識別(OCR :0ptical Character Recognition)正確率的提高,其應用也越來越廣泛,如大量應用于自動化辦公中。圖I是現有技術中光學識別引擎的結構示意圖;圖2是利用光學識別引擎的切分模塊101對文本圖像進行切分后的圖像單元的示意圖;圖3是對切分后的圖像單元進行選擇的示意圖;圖4是左右結構的標準漢字的示意圖。 如圖I所示,該光學識別引擎主要包括切分模塊101和識別模塊102 ;其中,切分模塊101用于將包含多個文字的文本圖像(Text Image)切分為圖像單元(Segments),如圖2所示,利用該文本圖像為“信息外圍設備”201,切分模塊101對文本圖像201切分后獲得多個圖像単元202,如圖2所示用豎線分開的各個圖像単元202 ;識別模塊102用于將切分模塊101對文本圖像201切分后獲得的圖像單元202進行識別,以獲得可編輯文字(EditableText),如圖2所示,獲得可編輯的文字203。如圖2所示,在切分模塊101對文本圖像進行切分時,會出現切分錯誤。例如,有些單個字符的文字圖像可能被切分為多個圖像單元,如單個字符“信”被切分為“イ”和“言”;單個字符“外”,被切分為“夕”和“卜”,這樣最終導致識別錯誤。由于ー個標準漢字的圖像單元的識別相似度比一個非標準漢字的識別相似度高,因此,目前對于切分錯誤的問題,如對于ー個單個字符被切分為多個圖像單元的錯誤,可結合識別技術對切分錯誤的圖像單元進行修正,即通過識別相似度的高低來選擇識別相似度高的圖像單元,從而可以避免切分錯誤。例如,在切分模塊101對文本圖像201進行切分獲得圖像單元202后,為了避免上述的切分錯誤,可將相鄰的兩個圖像單元進行合并,例如,如圖3所示,將圖像単元“イ”、“言”進行合并,然后對“イ、言”和合并后的圖像單元“信”進行識別,比較識別相似度,由于“信”是標準漢字的圖像單元,“イ、言”識別后為“イ、育”不是標準漢字的圖像單元,因此,對圖像単元“信”的識別相似度高于對圖像単元“イ、言”的識別相似度,這樣,選擇合并后的識別相似度高的圖像單元“信”來修正切分錯誤的圖像單元“イ、育”,即最終選擇“信”的圖像單元來代替“イ”和”育”。由上述可知,通過選擇相似度高的圖像單元,可以得到正確的切分単元,圖3所示的是ー個結合識別進行切分選擇的例子。但是在實現本專利技術的過程中專利技術人發現上述技術的缺陷在于如圖4所示,對于左右結構的標準漢字,如“外”,且該左右結構的標準漢字的左部分和右部分均為標準漢字,即“夕”和“卜”,光學識別引擎(OCR)會將該左右結構的漢字切分為兩個圖像單元,即使利用上述切分錯誤修正方法也無法解決上述切分錯誤的問題,從而最終導致識別錯誤。
    技術實現思路
    本專利技術實施例的目的在于提供ー種漢字識別方法和裝置,通過利用對文本圖像進行識別后獲得的識別信息中的識別編碼信息和圖像單元位置信息檢測錯誤切分的圖像單元并對錯誤切分的圖像單元進行修正,從而可提高識別精度,解決現有技術中存在的問題。根據本專利技術實施例的ー個方面提供了ー種漢字識別裝置,該裝置包括第一識別單元,該第一識別單元用于對文本圖像進行切分和識別,以獲得識別信息;其中,該識別信息包括對該文本圖像進行切分后獲得的多個圖像単元在該文本圖像中的位置信息、以及對該圖像単元進行識別所獲得的識別編碼信息;錯誤檢測單元,該錯誤檢測單元用于利用該第一識別單元獲得該識別編碼信息和位置信息檢測錯誤切分的圖像單元;錯誤修正単元,該錯誤修正単元用于對該錯誤檢測單元檢測出的該錯誤切分的圖像單元進行修正;第二識別單元,該第二識別單元用于對該錯誤修正単元修正后的該圖像單元進行識別,以獲得相應的識別編碼信息。根據本專利技術實施例的另ー個方面提供了ー種漢字識別方法,該方法包括第一識別步驟,對文本圖像進行切分和識別,以獲得識別信息;其中,該識別信息包括對該文本圖像進行切分后獲得的多個圖像単元在該文本圖像中的位置信息、以及對該圖像單元進行識別獲得的識別編碼信息;錯誤檢測步驟,利用該識別信息中的該識別編碼信息和位置信息檢測錯誤切分的圖像單元;錯誤修正步驟,對檢測出的該錯誤切分的圖像單元進行修正;第二識別步驟,對修正后的該圖像單元進行識別,以獲得相應的識別編碼信息。本專利技術實施例的有益效果在干通過對文本圖像進行切分和識別以獲得識別信息,利用該識別信息中的識別編碼信息和圖像單元位置信息查找錯誤切分的圖像單元,合并相鄰的錯誤切分的圖像單元,并將合并的圖像単元替換該切分錯誤的圖像單元,從而可提聞識別精度,解決現有技術中存在的問題。參照后文的說明和附圖,詳細公開了本專利技術的特定實施方式,指明了本專利技術的原理可以被采用的方式。應該理解,本專利技術的實施方式在范圍上并不因而受到限制。在所附權利要求的精神和條款的范圍內,本專利技術的實施方式包括許多改變、修改和等同。針對ー種實施方式描述和/或示出的特征可以以相同或類似的方式在一個或更多個其它實施方式中使用,與其它實施方式中的特征相組合,或替代其它實施方式中的特征。應該強調,術語“包括/包含”在本文使用時指特征、整件、步驟或組件的存在,但并不排除一個或更多個其它特征、整件、步驟或組件的存在或附加。附圖說明圖I是現有技術中光學識別引擎的結構示意圖;圖2是利用光學識別引擎的切分模塊101對文本圖像進行切分后的圖像單元的示意圖3是對切分后的圖像單元進行選擇的示意圖;圖4是左右結構的標準漢字的示意圖;圖5是三個定寬漢字的示意圖;圖6是本專利技術實施例I的漢字識別裝置構成示意圖;圖7是圖6中的錯誤檢測單元的構成示意圖;圖8是圖7中字寬計算單元的構成示意圖;圖9是本專利技術實施例I中各個圖像單元的位置信息示意圖;圖10是圖7中檢測單元的構成示意圖; 圖11是圖6中錯誤修正單元的構成示意圖;圖12是本專利技術實施例2的漢字識別方法流程圖;圖13是本專利技術實施例3的漢字識別方法的應用實例流程圖;圖14是對文本圖像分別利用現有的OCR技術和本專利技術實施例的識別方法進行識別的識別結果示意圖。具體實施例方式下面結合附圖對本專利技術的各種實施方式進行說明。這些實施方式只是示例性的,不是對本專利技術的限制。為了使本領域的技術人員能夠容易地理解本專利技術的原理和實施方式,本專利技術的實施方式以下述的漢字識別裝置為例進行說明。在實現本專利技術的過程中專利技術人發現,目前漢字排版一般采用固定寬度的漢字字形,如圖5所示,展示了三個定寬漢字的例子,這樣排版結果整齊清晰易于閱讀。因此,對于采用固定寬度漢字字形排版的漢字圖像,可以認為該圖像中的漢字圖像単元都具有相同的寬度。若利用寬度信息檢測錯誤切分的圖像單元可提高識別精度,并且該方法簡單容易實現,并解決現有技術中存在的上述問題,圖6是本專利技術實施例I的漢字識別裝置的構成示意圖。如圖6所示,該裝置包括第一識別單元601、錯誤檢測單元602、錯誤修正単元603和第二識別單元604 ;其中,第一識別單元601,用于對文本圖像進行切分和識別,以獲得識別信息;其中,該識別信息包括對文本圖像進行切分后獲得的多個圖像単元(Segments)在文本圖像中的位置信息、以及對圖像單元進行識別所獲得的識別編碼信息;錯誤檢測單元602,用于利用第一識別單60本文檔來自技高網
    ...

    【技術保護點】
    一種漢字識別裝置,所述裝置包括:第一識別單元,所述第一識別單元用于對文本圖像進行切分和識別,以獲得識別信息;其中,所述識別信息包括對所述文本圖像進行切分后獲得的多個圖像單元在所述文本圖像中的位置信息、以及對所述圖像單元進行識別所獲得的識別編碼信息;錯誤檢測單元,所述錯誤檢測單元用于利用所述第一識別單元獲得所述識別編碼信息和位置信息檢測錯誤切分的圖像單元;錯誤修正單元,所述錯誤修正單元用于對所述錯誤檢測單元檢測出的所述錯誤切分的圖像單元進行修正;第二識別單元,所述第二識別單元用于對所述錯誤修正單元修正后的所述圖像單元進行識別,以獲得相應的識別編碼信息。

    【技術特征摘要】

    【專利技術屬性】
    技術研發人員:徐文權河源孫俊于浩直井聰
    申請(專利權)人:富士通株式會社
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 久久久久无码精品国产不卡| 高潮潮喷奶水飞溅视频无码| 亚洲中文字幕无码一去台湾| 精品无码成人片一区二区98| 无码一区二区三区中文字幕| 无码国产精品一区二区免费16 | 国产精品无码亚洲一区二区三区| 免费A级毛片无码免费视| 国产精品无码av在线播放| 免费无码不卡视频在线观看| 98久久人妻无码精品系列蜜桃| 亚洲va中文字幕无码| 亚洲AV无码国产剧情| 人妻丰满熟妇AV无码片| 亚洲无码日韩精品第一页| 一本久道综合在线无码人妻| 亚洲精品无码AV人在线播放| 无码精品久久一区二区三区| 亚洲AV日韩AV无码污污网站| 久久国产加勒比精品无码| 国产午夜无码精品免费看动漫| 亚洲va中文字幕无码 | 伊人蕉久中文字幕无码专区| 久久久无码精品亚洲日韩按摩| 国精品无码一区二区三区左线| 久久久久亚洲av成人无码电影| 夫妻免费无码V看片| 国产精品无码无片在线观看3D| 亚洲av纯肉无码精品动漫| 亚洲午夜无码久久久久小说 | 久久精品国产亚洲AV无码偷窥| 国产精品无码免费专区午夜| 内射无码午夜多人| 国产乱人伦无无码视频试看| 免费无码不卡视频在线观看| 无码人妻精品一区二区蜜桃百度| 国产精品无码aⅴ嫩草| 东京热加勒比无码视频| 亚洲伊人成无码综合网| 中文字幕无码一区二区三区本日| 中文字幕无码一区二区免费|