• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    用于確定文字形近度的方法和設(shè)備技術(shù)

    技術(shù)編號(hào):15691540 閱讀:62 留言:0更新日期:2017-06-24 04:49
    提供了一種用于確定文字形近度的方法和設(shè)備,所述方法包括(A)將待比較的第一文字和第二文字分別進(jìn)行圖片格式轉(zhuǎn)換,以得到相應(yīng)的第一圖片和第二圖片;(B)確定第一圖片與第二圖片之間的像素匹配情況;以及(C)基于確定的像素匹配情況來(lái)確定第一文字與第二文字之間的形近度。在根據(jù)本發(fā)明專(zhuān)利技術(shù)示例性實(shí)施例的用于確定文字形近度的方法和設(shè)備中,可基于文字轉(zhuǎn)換為圖片格式之后的像素匹配程度來(lái)判斷文字的形近程度,從而不再受限于任何編碼規(guī)則而成為一種通用的形近字確定方式。

    Method and apparatus for determining text shape proximity

    A method and apparatus for determining the degree of text shape near are provided, the method comprises (A) will be the first text comparison and second text respectively, image format conversion, in order to obtain the corresponding first picture and the second picture; (B) to determine the first picture and the second picture of the pixel matching between; and (C) to determine the pixel matching is determined based on the first second words between text and shape close degree. In according to an embodiment of the present invention method and apparatus for determining a character shape near degree, can be converted to text based on pixel image format after matching to determine the extent of the text in which is no longer limited to any degree, encoding rules and become a common way to determine nearly word.

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    用于確定文字形近度的方法和設(shè)備
    本專(zhuān)利技術(shù)總體說(shuō)來(lái)涉及計(jì)算機(jī)信息處理,更具體地說(shuō),涉及一種基于計(jì)算機(jī)信息處理來(lái)確定文字形近度的方法和設(shè)備。
    技術(shù)介紹
    在諸如中文、日文、韓文等語(yǔ)言中,存在大量字形上近似的文字,這些形近字的存在很容易導(dǎo)致文字使用上的錯(cuò)誤。過(guò)去較多地依靠人力來(lái)查找錯(cuò)誤使用的形近字,但由于形近字本身容易混淆,導(dǎo)致不僅需要耗費(fèi)大量的人力,而且難免錯(cuò)漏的情況。隨著計(jì)算機(jī)技術(shù)的發(fā)展,越來(lái)越多地采用自動(dòng)識(shí)別的方式來(lái)查找形近字。通常,在文字基于字形被編碼(例如,按照編碼規(guī)則被轉(zhuǎn)換為由1-5位字符(例如,字母或數(shù)字等)組成的碼字)的情況下,可基于碼字之間的編輯距離來(lái)確定文字之間的形近程度,這里,作為示例,編輯距離可基于碼字之間字符的增加、刪減或改換來(lái)計(jì)算。例如,公開(kāi)號(hào)為CN103399907A的中國(guó)專(zhuān)利申請(qǐng)《一種基于編輯距離計(jì)算中文字符串相似度的方法及裝置》公開(kāi)了一種基于編輯距離計(jì)算中文字符串相似度的方法,其采用四角號(hào)碼編碼將字符串中的漢字轉(zhuǎn)換成四角編碼,從而基于編輯距離計(jì)算漢字的相似度。上述文字編碼對(duì)編碼規(guī)則的依賴極強(qiáng),然而,這些編碼規(guī)則無(wú)法有效地刻畫(huà)部首與部首之間的相似度。以漢字為例,五筆碼、倉(cāng)頡碼、四角碼等均基于漢字的部首和/或筆畫(huà)等組件,但是編碼結(jié)果之間的編輯距離常常無(wú)法體現(xiàn)出漢字之間的相似程度,例如,“宇”字的五筆編碼為“PGFJ”,“盱”字的五筆編碼為“HGFJ”,兩者之間的編輯距離僅僅為1,但這兩個(gè)字在視覺(jué)上并不相似。又例如,“操”字的四角編碼為56094,“燥”字的四角編碼為96894,兩個(gè)碼字之間僅有2個(gè)相同字符,編輯距離較大,然而這兩個(gè)字的相似度實(shí)則極高。此外,對(duì)于筆畫(huà)數(shù)特別少的文字,例如,“二”和“三”、“干”和“于”,也難以通過(guò)碼字之間的編輯距離來(lái)判斷近似性??梢钥闯觯诖a字之間的編輯距離來(lái)判斷文字近似性時(shí)必然受到編碼規(guī)則的限制,也就是說(shuō),編碼時(shí)損失掉的那部分文字特點(diǎn)信息導(dǎo)致難以有效地衡量文字的形近程度。
    技術(shù)實(shí)現(xiàn)思路
    本專(zhuān)利技術(shù)的示例性實(shí)施例旨在克服現(xiàn)有技術(shù)中難以準(zhǔn)確識(shí)別形近文字的缺陷。根據(jù)本專(zhuān)利技術(shù)的示例性實(shí)施例,提供一種用于確定文字形近度的方法,包括:(A)將待比較的第一文字和第二文字分別進(jìn)行圖片格式轉(zhuǎn)換,以得到相應(yīng)的第一圖片和第二圖片;(B)確定第一圖片與第二圖片之間的像素匹配情況;以及(C)基于確定的像素匹配情況來(lái)確定第一文字與第二文字之間的形近度??蛇x地,在所述方法中,在步驟(A)中,按照點(diǎn)陣字體將第一文字和第二文字分別進(jìn)行圖片格式轉(zhuǎn)換。可選地,在所述方法中,在步驟(B)中,以單個(gè)像素為單位來(lái)確定第一圖片與第二圖片之間的像素匹配情況。可選地,在所述方法中,步驟(B)包括:(b1)對(duì)第一圖片和第二圖片的像素分別進(jìn)行二值化處理;以及(b2)確定經(jīng)過(guò)二值化處理之后的第一圖片與第二圖片之間的像素匹配情況??蛇x地,在所述方法中,步驟(B)包括:(b3)對(duì)第一圖片和第二圖片分別進(jìn)行至少一種幾何變換;以及(b4)確定幾何變換之前的第一圖片以及經(jīng)過(guò)每種幾何變換后的第一圖片分別與幾何變換之前的第二圖片以及經(jīng)過(guò)每種幾何變換后的第二圖片之間的像素匹配情況;并且,步驟(C)包括:(c1)分別基于每個(gè)確定的像素匹配情況來(lái)確定第一文字與第二文字之間的候選形近度;以及(c2)將確定的候選形近度之中的最高候選形近度確定為第一圖片與第二圖片之間的形近度??蛇x地,在所述方法中,所述至少一種幾何變換包括平移變換、縮放變換、刪行變換和刪列變換之中的至少一種??蛇x地,在所述方法中,在步驟(B)中,通過(guò)考慮非空白像素之間的匹配情況來(lái)確定第一圖片與第二圖片之間的像素匹配情況??蛇x地,所述方法還包括步驟(D)和步驟(E),其中,所述方法在步驟(A)之前,執(zhí)行步驟(D):確定待比較的第一文字和第二文字的筆畫(huà)數(shù)量,其中,如果在步驟(D)中確定第一文字和第二文字之中的至少一個(gè)的筆畫(huà)數(shù)量小于預(yù)設(shè)閾值,則所述方法執(zhí)行步驟(A)、步驟(B)和步驟(C);否則,所述方法執(zhí)行步驟(E):基于第一文字與第二文字的編輯距離來(lái)確定第一文字與第二文字之間的形近度??蛇x地,在所述方法中,所述方法針對(duì)多個(gè)第一文字和多個(gè)第二文字分別確定每個(gè)第一文字與每個(gè)第二文字之間的形近度,并且,所述方法還包括:(F)針對(duì)每個(gè)第一文字,選擇與所述每個(gè)第一文字形近度較高的至少一個(gè)第二文字作為所述每個(gè)第一文字的形近字,并建立由所述多個(gè)第一文字及其形近字組成的形近字庫(kù)。根據(jù)本專(zhuān)利技術(shù)的另一示例性實(shí)施例,提供一種執(zhí)行文字校對(duì)的方法,包括:確定待校對(duì)文字;從基于本專(zhuān)利技術(shù)示例性實(shí)施例建立的形近字庫(kù)中搜索所述待校對(duì)文字的形近字;以及輸出搜索到的所述待校對(duì)文字的形近字。根據(jù)本專(zhuān)利技術(shù)的另一示例性實(shí)施例,提供一種用于確定文字形近度的設(shè)備,包括:轉(zhuǎn)換裝置,用于將待比較的第一文字和第二文字分別進(jìn)行圖片格式轉(zhuǎn)換,以得到相應(yīng)的第一圖片和第二圖片;匹配確定裝置,用于確定第一圖片與第二圖片之間的像素匹配情況;以及形近度確定裝置,用于基于確定的像素匹配情況來(lái)確定第一文字與第二文字之間的形近度。可選地,在所述設(shè)備中,轉(zhuǎn)換裝置按照點(diǎn)陣字體將第一文字和第二文字分別進(jìn)行圖片格式轉(zhuǎn)換。可選地,在所述設(shè)備中,匹配確定裝置以單個(gè)像素為單位來(lái)確定第一圖片與第二圖片之間的像素匹配情況。可選地,在所述設(shè)備中,匹配確定裝置包括:二值化處理單元,用于對(duì)第一圖片和第二圖片的像素分別進(jìn)行二值化處理;以及匹配單元,用于確定經(jīng)過(guò)二值化處理之后的第一圖片與第二圖片之間的像素匹配情況??蛇x地,在所述設(shè)備中,匹配確定裝置包括:變換單元,用于對(duì)第一圖片和第二圖片分別進(jìn)行至少一種幾何變換;以及匹配單元,用于確定幾何變換之前的第一圖片以及經(jīng)過(guò)每種幾何變換后的第一圖片分別與幾何變換之前的第二圖片以及經(jīng)過(guò)每種幾何變換后的第二圖片之間的像素匹配情況;并且,形近度確定裝置包括:候選形近度確定單元,用于分別基于每個(gè)確定的像素匹配情況來(lái)確定第一文字與第二文字之間的候選形近度;以及最高形近度確定單元,用于將確定的候選形近度之中的最高候選形近度確定為第一圖片與第二圖片之間的形近度。可選地,在所述設(shè)備中,所述至少一種幾何變換包括平移變換、縮放變換、刪行變換和刪列變換之中的至少一種??蛇x地,在所述設(shè)備中,匹配確定裝置通過(guò)考慮非空白像素之間的匹配情況來(lái)確定第一圖片與第二圖片之間的像素匹配情況??蛇x地,所述設(shè)備還包括:筆畫(huà)確定裝置,用于確定待比較的第一文字和第二文字的筆畫(huà)數(shù)量;其中,如果筆畫(huà)確定裝置確定第一文字和第二文字之中的至少一個(gè)的筆畫(huà)數(shù)量小于預(yù)設(shè)閾值,則轉(zhuǎn)換裝置執(zhí)行圖片格式轉(zhuǎn)換,匹配確定裝置確定像素匹配情況,并且形近度確定裝置基于確定的像素匹配情況來(lái)確定第一文字與第二文字之間的形近度;否則,形近度確定裝置基于第一文字與第二文字的編輯距離來(lái)確定第一文字與第二文字之間的形近度??蛇x地,所述設(shè)備針對(duì)多個(gè)第一文字和多個(gè)第二文字分別確定每個(gè)第一文字與每個(gè)第二文字之間的形近度,并且,所述設(shè)備還包括:字庫(kù)建立裝置,用于針對(duì)每個(gè)第一文字,選擇與所述每個(gè)第一文字形近度較高的至少一個(gè)第二文字作為所述每個(gè)第一文字的形近字,并建立由所述多個(gè)第一文字及其形近字組成的形近字庫(kù)。根據(jù)本專(zhuān)利技術(shù)的另一示例性實(shí)施例,提供一種執(zhí)行文字校對(duì)的設(shè)備,包括:文字確定裝置,用于確定待校對(duì)文字;形近字搜索裝置,本文檔來(lái)自技高網(wǎng)
    ...
    用于確定文字形近度的方法和設(shè)備

    【技術(shù)保護(hù)點(diǎn)】
    一種用于確定文字形近度的方法,包括:(A)將待比較的第一文字和第二文字分別進(jìn)行圖片格式轉(zhuǎn)換,以得到相應(yīng)的第一圖片和第二圖片;(B)確定第一圖片與第二圖片之間的像素匹配情況;以及(C)基于確定的像素匹配情況來(lái)確定第一文字與第二文字之間的形近度。

    【技術(shù)特征摘要】
    1.一種用于確定文字形近度的方法,包括:(A)將待比較的第一文字和第二文字分別進(jìn)行圖片格式轉(zhuǎn)換,以得到相應(yīng)的第一圖片和第二圖片;(B)確定第一圖片與第二圖片之間的像素匹配情況;以及(C)基于確定的像素匹配情況來(lái)確定第一文字與第二文字之間的形近度。2.如權(quán)利要求1所述的方法,其中,步驟(B)包括:(b1)對(duì)第一圖片和第二圖片的像素分別進(jìn)行二值化處理;以及(b2)確定經(jīng)過(guò)二值化處理之后的第一圖片與第二圖片之間的像素匹配情況。3.如權(quán)利要求1所述的方法,其中,步驟(B)包括:(b3)對(duì)第一圖片和第二圖片分別進(jìn)行至少一種幾何變換;以及(b4)確定幾何變換之前的第一圖片以及經(jīng)過(guò)每種幾何變換后的第一圖片分別與幾何變換之前的第二圖片以及經(jīng)過(guò)每種幾何變換后的第二圖片之間的像素匹配情況;并且,步驟(C)包括:(c1)分別基于每個(gè)確定的像素匹配情況來(lái)確定第一文字與第二文字之間的候選形近度;以及(c2)將確定的候選形近度之中的最高候選形近度確定為第一圖片與第二圖片之間的形近度。4.如權(quán)利要求1所述的方法,還包括步驟(D)和步驟(E),其中,所述方法在步驟(A)之前,執(zhí)行步驟(D):確定待比較的第一文字和第二文字的筆畫(huà)數(shù)量,其中,如果在步驟(D)中確定第一文字和第二文字之中的至少一個(gè)的筆畫(huà)數(shù)量小于預(yù)設(shè)閾值,則所述方法執(zhí)行步驟(A)、步驟(B)和步驟(C);否則,所述方法執(zhí)行步驟(E):基于第一文字與第二文字的編輯距離來(lái)確定第一文字與第二文字之間的形近度。5.如權(quán)利要求1到4之中的任一權(quán)利要求所述的方法,其中,所述方法針對(duì)多個(gè)第一文字和多個(gè)第二文字分別確定每個(gè)第一文字與每個(gè)第二文字之間的形近度,并且,所述方法還包括:(F)針對(duì)每個(gè)第一文字,選擇與所...

    【專(zhuān)利技術(shù)屬性】
    技術(shù)研發(fā)人員:王珵
    申請(qǐng)(專(zhuān)利權(quán))人:第四范式北京技術(shù)有限公司,
    類(lèi)型:發(fā)明
    國(guó)別省市:北京,11

    網(wǎng)友詢問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 精品无码国产自产拍在线观看| 无码人妻丰满熟妇区96| 国产aⅴ激情无码久久久无码| 亚洲国产精品无码观看久久| 丰满少妇被猛烈进入无码| 久久无码AV中文出轨人妻| 无码精品人妻一区二区三区漫画| 亚洲天堂2017无码中文| 国产成人A亚洲精V品无码| 特级小箩利无码毛片| 国产日韩精品中文字无码| 国产成人无码精品久久久露脸| 亚洲AV人无码激艳猛片| 无码毛片一区二区三区视频免费播放| 无码免费一区二区三区免费播放 | 亚洲国产精品无码久久九九| 无码久久精品国产亚洲Av影片| 国产高新无码在线观看| 精品国产性色无码AV网站 | 亚洲精品av无码喷奶水糖心| 亚洲精品无码精品mV在线观看| 亚洲AV无码乱码麻豆精品国产 | 精品人妻无码专区在中文字幕| 无码国产精品一区二区免费虚拟VR| 韩国19禁无遮挡啪啪无码网站| 无码少妇一区二区三区芒果| 亚洲av无码无线在线观看| 亚洲毛片无码专区亚洲乱| 亚洲av永久无码精品秋霞电影影院 | 无码精品一区二区三区在线| 亚洲欧洲日产国码无码久久99| 亚洲AⅤ无码一区二区三区在线| 日韩免费无码一区二区视频| 亚洲AV无码专区亚洲AV桃| 无码亚洲成a人在线观看| 无码人妻精一区二区三区| 成人无码Av片在线观看| 午夜精品久久久久久久无码| 人妻无码久久精品| 亚洲精品色午夜无码专区日韩| 亚洲精品无码久久久久sm|