本發明專利技術提出的一種公式解析方法,首先根據字符間隙對公式進行切割,獲取一個或多個字符單元;然后逐一識別各字符單元,并提取無法識別的字符單元作為分離對象;根據字符長度對各分離對象進行切割,獲得切割字符,并對切割字符進行識別。本發明專利技術提出的一種公式解析方法,通過對字符單元和切割字符的拆分,實現了將公式中每一個字符的單獨確認。本發明專利技術是通過將公式拆分為字符,然后通過識別字符還原公式。如此,以字符識別代替公式識別,大大降低了識別難度,同時還提高了識別精度。
A method of formula analysis
【技術實現步驟摘要】
一種公式解析方法
本專利技術涉及文本處理
,尤其涉及一種公式解析方法。
技術介紹
隨著互聯網的不斷普及和互聯網技術的迅速發展,信息、在線化、智能化等信息處理手段正在向傳統逐漸取代紙質文件。很多文件構建時,需要對大量包含公式的數據進行語義解析,如何準確地對包含數學公式的數據進行語義解析具重大意義。
技術實現思路
基于
技術介紹
存在的技術問題,本專利技術提出了一種公式解析方法。本專利技術提出的一種公式解析方法,首先根據字符間隙對公式進行切割,獲取一個或多個字符單元;然后逐一識別各字符單元,并提取無法識別的字符單元作為分離對象;根據字符長度對各分離對象進行切割,獲得切割字符,并對切割字符進行識別。優選的,逐一識別各字符單元的方式為,將每一個字符單元與預設的字符庫中存儲的字符逐一進行對比,獲取與字符單元相符合的字符作為識別結果。優選的,對切割字符進行識別的方法為:將每一個切割字符與預設的字符庫中存儲的字符逐一進行對比,獲取與切割字符相符合的字符。優選的,根據字符長度對各分離對象進行切割的方法為:根據識別結果,獲取標準字符長度,并根據標準字符長度對分離對象進行切割。優選的,標準字符長度為成功識別的各字符單元的平均長度。優選的,根據標準字符長度對分離對象進行切割的方法為:從分離對象的左側起,逐一切割出長度等于標準字符長度的切割字符;對于剩余的不足一個標準字符長度的部分,獲取其長度值,當其長度值與標準字符長度的比值大于或等于預設閾值,則將該剩余部分作為一個切割字符;反之,則放棄該剩余部分。優選的,預設閾值大于或等于0.8。優選的,對于無法識別的切割字符,則根據其在字符單元中的排序,獲取位置連續的不能識別的切割字符作為一個組合對象,然后對每一個組合對象,首先以最左側的切割字符作為起始字符,然后將起始字符與右側相鄰的切割字符組合,并對組合字符進行識別:如果組合字符識別成功,則將與組合字符相鄰的切割字符更新為起始字符,然后將起始字符與右側相鄰的切割字符組合,并對組合字符進行識別;如果組合字符識別失敗,則將組合字符作為起始字符,然后將起始字符與右側相鄰的切割字符組合,并對組合字符進行識別。優選的,具體包括以下步驟:S1、設置字符庫,用于存儲字符模型;S2、獲取公式,并建立模型參照庫,將字符庫中的各字符模型根據公式進行格式調整后存儲到模型參照庫中;S3、根據字符間隙對公式進行切割,獲取一個或多個字符單元;S4、將每一個字符單元與模型參照庫中各字符模型逐一對比,獲取與字符單元相符合的字符模型作為識別結果;S5、判斷是否存在沒有識別結果的字符單元;否,則根據各字符單元的識別結果組合公式;S6、是,則提取無法識別的字符單元作為分離對象,并根據字符長度對各分離對象進行切割,獲得切割字符;S7、將每一個切割字符與模型參照庫中各字符模型逐一對比,獲取與切割字符相符合的字符模型作為識別結果;S8、判斷是否存在沒有識別結果的切割字符;否,則根據各字符單元和切割字符的識別結果組合公式;S9、是,則判斷沒有識別結果的切割字符在字符單元中是否獨立存在,是,則輸出公式解析失敗信息;S10、否,則獲取所述沒有識別結果的切割字符所在字符單元中位置連續的不能識別的切割字符作為一個組合對象;S11、對每一個組合對象,首先以最左側的切割字符作為起始字符;S12、將起始字符與右側相鄰的切割字符組合,并對組合字符進行識別:S13、如果組合字符識別成功,則判斷組合對象中是否有剩余的切割字符;是,則將與組合字符相鄰的切割字符更新為起始字符,然后返回步驟S12;否,則根據各字符單元、切割字符和組合字符的識別結果組合公式;S14、如果組合字符識別失敗,則判斷組合對象中是否有剩余的切割字符;是,則將組合字符作為起始字符,然后返回步驟S12;否,則輸出公式解析失敗信息。本專利技術提出的一種公式解析方法,通過對字符單元和切割字符的拆分,實現了將公式中每一個字符的單獨確認。本專利技術是通過將公式拆分為字符,然后通過識別字符還原公式。如此,以字符識別代替公式識別,大大降低了識別難度,同時還提高了識別精度。本專利技術中,首先根據字符間隙拆分字符單元,實現了相互獨立的字符之間的拆分;同時對于無法識別的字符,根據字符長度進行切割,實現了對于黏連的字符的切分,從而進一步保證了將公式拆分為最小字符單元的精確,保證字符的完全拆分,從而保證字符識別精度。附圖說明圖1為本專利技術提出的一種公式解析方法流程圖;圖2為本專利技術提出的另一種公式解析方法流程圖。具體實施方式參照圖1,本專利技術提出的一種公式解析方法,首先根據字符間隙對公式進行切割,獲取一個或多個字符單元;然后逐一識別各字符單元,并提取無法識別的字符單元作為分離對象;根據字符長度對各分離對象進行切割,獲得切割字符,并對切割字符進行識別。如此,本實施方式中,通過對字符單元和切割字符的拆分,實現了將公式中每一個字符的單獨確認。本實施方式中的公式解析方法,是通過將公式拆分為字符,然后通過識別字符還原公式。本實施方式中,以字符識別代替公式識別,大大降低了識別難度,同時還提高了識別精度。本實施方式中,首先根據字符間隙拆分字符單元,實現了相互獨立的字符之間的拆分;同時對于無法識別的字符,根據字符長度進行切割,實現了對于黏連的字符的切分,從而進一步保證了將公式拆分為最小字符單元的精確,保證字符的完全拆分,從而保證字符識別精度。本實施方式中,逐一識別各字符單元的方式為,將每一個字符單元與預設的字符庫中存儲的字符逐一進行對比,獲取與字符單元相符合的字符作為識別結果。如果某一個字符單元在字符庫中無法匹配到相符合的字符,則判斷該字符單元無法識別。同理,對切割字符進行識別的方法為:將每一個切割字符與預設的字符庫中存儲的字符逐一進行對比,獲取與切割字符相符合的字符。如果某一個切割字符在字符庫中無法匹配到相符合的字符,則判斷該切割字符無法識別。本實施方式中,根據字符長度對各分離對象進行切割的方法為:根據識別結果,獲取標準字符長度,并根據標準字符長度對分離對象進行切割。具體的,本實施方式中,標準字符長度為成功識別的各字符單元的平均長度。具體的,本實施方式中,在切割字符單元時,以字符間隙作為切割參照,故而可保證切割出的字符單元中字符的最左點與最右點與邊緣之間無間隙,即保證字符單元的長度為字符長度。且,公式編輯過程中,單個字符長度固定,保證了標準字符長度的精確計算。同時,本實施方式中,通過根據標準字符長度切割標準字符,實現了黏連字符的分離,從而方便了后續對標準字符的識別。具體的,本實施方式中,對于不能識別的切割字符,則根據其在字符單元中的排序,獲取位置連續的不能識別的切割字符作為一個組合對象,然后對每一個組合對象,首先以最左側的切割字符作為起始字符,然后將起始字符與右側相鄰的切割字符組合,并對組合字符進行識別:如果組合字符識別成功本文檔來自技高網...
【技術保護點】
1.一種公式解析方法,其特征在于,首先根據字符間隙對公式進行切割,獲取一個或多個字符單元;然后逐一識別各字符單元,并提取無法識別的字符單元作為分離對象;根據字符長度對各分離對象進行切割,獲得切割字符,并對切割字符進行識別。/n
【技術特征摘要】
1.一種公式解析方法,其特征在于,首先根據字符間隙對公式進行切割,獲取一個或多個字符單元;然后逐一識別各字符單元,并提取無法識別的字符單元作為分離對象;根據字符長度對各分離對象進行切割,獲得切割字符,并對切割字符進行識別。
2.如權利要求1所述的公式解析方法,其特征在于,逐一識別各字符單元的方式為,將每一個字符單元與預設的字符庫中存儲的字符逐一進行對比,獲取與字符單元相符合的字符作為識別結果。
3.如權利要求2所述的公式解析方法,其特征在于,對切割字符進行識別的方法為:將每一個切割字符與預設的字符庫中存儲的字符逐一進行對比,獲取與切割字符相符合的字符。
4.如權利要求1所述的公式解析方法,其特征在于,根據字符長度對各分離對象進行切割的方法為:根據識別結果,獲取標準字符長度,并根據標準字符長度對分離對象進行切割。
5.如權利要求4所述的公式解析方法,其特征在于,標準字符長度為成功識別的各字符單元的平均長度。
6.如權利要求4所述的公式解析方法,其特征在于,根據標準字符長度對分離對象進行切割的方法為:從分離對象的左側起,逐一切割出長度等于標準字符長度的切割字符;對于剩余的不足一個標準字符長度的部分,獲取其長度值,當其長度值與標準字符長度的比值大于或等于預設閾值,則將該剩余部分作為一個切割字符;反之,則放棄該剩余部分。
7.如權利要求6所述的公式解析方法,其特征在于,預設閾值大于或等于0.8。
8.如權利要求1至6任一項所述的公式解析方法,其特征在于,對于無法識別的切割字符,則根據其在字符單元中的排序,獲取位置連續的不能識別的切割字符作為一個組合對象,然后對每一個組合對象,首先以最左側的切割字符作為起始字符,然后將起始字符與右側相鄰的切割字符組合,并對組合字符進行識別:如果組合字符識別成功,則將與組合字符相鄰的切割字符更新為起始字符...
【專利技術屬性】
技術研發人員:董霞,李穎,齊苗苗,
申請(專利權)人:合肥長遠知識產權管理有限公司,
類型:發明
國別省市:安徽;34
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。