一種一對多的混合字符串融合比對方法技術

技術編號：10363038 閱讀：377 留言：0更新日期：2014-08-27 19:04

本發明專利技術公開了一種一對多的混合字符串融合比對方法,將一個源字符串從一組待比對字符串中找到最相似或匹配目標字符串。首先用改進的GST*算法，再使用一種偏有序的字符串比對算法POC。結合以上兩種算法分別在字符串無序、部分有序匹配方面各自的特點，將兩種算法計算得到的匹配度值進行加權融合求得最終的匹配度。另外，針對同義字符串在不同場合下具有不同的表達方式，采用字符串等價替換策略，對源字符串、待比對字符串中同義字符子串等價替換成相同的字符串，大大提高兩個字符串的匹配度。通過將源字符串與一組待匹配字符串分別匹配，再將各匹配度進行排序，將最高匹配度的字符串作為目標字符串，實現了一對多的混合字符串的較佳匹配。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于字符串智能比對
，具體涉及一種新型一對多的混合字符串融合比對方法。
技術介紹
字符串比對問題是計算機科學中的一個基本問題，其研究內容在信息檢索、模式識別等眾多領域均有著重要的應用價值[1]_[4]。文獻I分別研究中文字符串模糊匹配算法，文獻2研究了一種基于漢字聚類特征的中文字符串相似度計算方法。文獻3對LCS與GST算法做了比較，GST算法是一種貪婪字符串比對算法，也是一種無序匹配算法，目前應用較廣，但該算法采用了兩個字符串逐個字符比較的方法，所以算法的時間復雜度較大。文獻4研究了對GST算法改進后RKR-GST算法，提高了 GST算法的運行效率，但是RKR-GST算法中散列函數的選擇對算法的運行影響很大?，F有的字符串比對方法往往只采用一種算法，沒有能夠充分利用無序字符子串和部分有序字符子串在匹配度計算時的各自特點，往往它們的比對效果并不理想。在一些某些混合字符串的實際應用中，不但要求比對的準確性高，而且要求比對的速度快。目前，通過單一的匹配度計算方法，往往很難精確地表達字符串的相似程度。另外，現有的字符串比對方法沒有考慮同義字符串可能存在不同表達方式的情況，使得現有字符串比對方法在此類情況下很難達到較準確、高匹配率的要求。參考文獻:[I]陳開渠，趙潔，彭志威.快速中文字符串模糊匹配算法[J].中文信息學報，2003，18(2):58-65[2]王靜婷.基于漢字聚類特征的中文字符串相似度計算研究[J].現代圖書情報技術，2011，20 (2):48-53[3]于海英.字符串相似度度量中LCS和GST算法比較[J].電子科技...
一種一對多的混合字符串融合比對方法

【技術保護點】
一種一對多的混合字符串融合比對方法，對基于漢字聚類特征的由漢字、數字、英文字母組成的混合字符串的相似度進行融合比對，以提高表達字符串的相似的精確度，包括以下主要步驟：1）取出源字符串和一組待匹配字符串；2）讀出事先在存儲器中構建的字符串等價替換字典，對該組待匹配字符串中部分字符（子串）進行等價替換；利用等價替換字典，將上述在源字符串場合和待匹配字符串場合具有不同描述但含義相同的兩種子串進行統一；3）取出源字符串，依此取出等價替換后的該待匹配字符串數組中的一個待匹配字符串；4）利用GST*算法計算源字符串與該待匹配字符串的匹配度a：采用傳統GST算法，得到兩個字符串中各公共子串，將它們存入公共子串鏈表中。如果某個公共子串的字符長度與較長字符串字符長度的比值大于或等于0.33，則在計算匹配度時將該公共子串的字符個數乘以權重,該權重為大于1的常數；如果某個公共子串的字符長度與較長字符串字符長度的比值小于0.33、且公共子串的字符個數大于最小匹配長度，則計算匹配度時將該公共子串的字符個數直接帶入計算；5）利用偏有序字符串匹配算法POC（Partial?Order?Comparison,POC）...

【技術特征摘要】
1.一種一對多的混合字符串融合比對方法，對基于漢字聚類特征的由漢字、數字、英文字母組成的混合字符串的相似度進行融合比對，以提高表達字符串的相似的精確度，包括以下主要步驟: 1)取出源字符串和一組待匹配字符串； 2)讀出事先在存儲器中構建的字符串等價替換字典，對該組待匹配字符串中部分字符(子串)進行等價替換；利用等價替換字典，將上述在源字符串場合和待匹配字符串場合具有不同描述但含義相同的兩種子串進行統一； 3)取出源字符串，依此取出等價替換后的該待匹配字符串數組中的一個待匹配字符串; 4)利用GST*算法計算源字符串與該待匹配字符串的匹配度a: 采用傳統GST算法，得到兩個字符串中各公共子串，將它們存入公共子串鏈表中。如果某個公共子串的字符長度與較長字符串字符長度的比值大于或等于0.33，則在計算匹配度時將該公共子串的字符個數乘以權重，該權重為大于I的常數；如果某個公共子串的字符長度與較長字符串字符長度的比值小于0.33、且公共子串的字符個數大于最小匹配長度，則計算匹配度時將該公共子串的字符個數直接帶入計算； 5)利用偏有序字符串匹配算法POC(Partial Order Comparison, P0C)計算源字符串和待匹配字符串的匹配度b: 將兩個待匹配的含有漢字、數字和英文字母的混合字符串分別稱為源字符串和待匹配字符串，首先，先搜索出源字符串與待匹配字符串中相同的字符或漢字，記錄下它們的個數，；其次，以源字符串和待匹配字符串中較長字符串為標準，求匹配度I (match_degreel):匹配度i1QJ(DL較長字符串的字個數」以其中較短字符串為標準，求匹配度2 ...

【專利技術屬性】
技術研發人員：童曉陽，甄威，鄭永康，姜振超，莊先濤，吳繼維，張茜，丁宣文，
申請(專利權)人：西南交通大學，國網四川省電力公司電力科學研究院，
類型：發明
國別省市：四川;51

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術