• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種一對多的混合字符串融合比對方法技術

    技術編號:10363038 閱讀:377 留言:0更新日期:2014-08-27 19:04
    本發明專利技術公開了一種一對多的混合字符串融合比對方法,將一個源字符串從一組待比對字符串中找到最相似或匹配目標字符串。首先用改進的GST*算法,再使用一種偏有序的字符串比對算法POC。結合以上兩種算法分別在字符串無序、部分有序匹配方面各自的特點,將兩種算法計算得到的匹配度值進行加權融合求得最終的匹配度。另外,針對同義字符串在不同場合下具有不同的表達方式,采用字符串等價替換策略,對源字符串、待比對字符串中同義字符子串等價替換成相同的字符串,大大提高兩個字符串的匹配度。通過將源字符串與一組待匹配字符串分別匹配,再將各匹配度進行排序,將最高匹配度的字符串作為目標字符串,實現了一對多的混合字符串的較佳匹配。

    【技術實現步驟摘要】

    本專利技術屬于字符串智能比對
    ,具體涉及一種新型一對多的混合字符串融合比對方法。
    技術介紹
    字符串比對問題是計算機科學中的一個基本問題,其研究內容在信息檢索、模式識別等眾多領域均有著重要的應用價值[1]_[4]。文獻I分別研究中文字符串模糊匹配算法,文獻2研究了一種基于漢字聚類特征的中文字符串相似度計算方法。文獻3對LCS與GST算法做了比較,GST算法是一種貪婪字符串比對算法,也是一種無序匹配算法,目前應用較廣,但該算法采用了兩個字符串逐個字符比較的方法,所以算法的時間復雜度較大。文獻4研究了對GST算法改進后RKR-GST算法,提高了 GST算法的運行效率,但是RKR-GST算法中散列函數的選擇對算法的運行影響很大?,F有的字符串比對方法往往只采用一種算法,沒有能夠充分利用無序字符子串和部分有序字符子串在匹配度計算時的各自特點,往往它們的比對效果并不理想。在一些某些混合字符串的實際應用中,不但要求比對的準確性高,而且要求比對的速度快。目前,通過單一的匹配度計算方法,往往很難精確地表達字符串的相似程度。另外,現有的字符串比對方法沒有考慮同義字符串可能存在不同表達方式的情況,使得現有字符串比對方法在此類情況下很難達到較準確、高匹配率的要求。參考文獻:[I]陳開渠,趙潔,彭志威.快速中文字符串模糊匹配算法[J].中文信息學報,2003,18(2):58-65[2]王靜婷.基于漢字聚類特征的中文字符串相似度計算研究[J].現代圖書情報技術,2011,20 (2):48-53[3]于海英.字符串相似度度量中LCS和GST算法比較[J].電子科技,2011,24(3):101-103[4]牛永潔.RKR_GST算法在_NET中的分析與實現[J].信息技術,2012,3:171-174
    技術實現思路
    鑒于現有技術的以上不足,本專利技術的目的是提供一種更準確的混合字符串融合比對方法。解決了實際應用中以單一匹配度計算方法很難達到精確表達字符串之間相似程度、同義字符串存在不同表達方式情形下現有字符串比對方法幾乎失效等問題。本專利技術的目的是通過以下的手段實現的:,對基于漢字聚類特征的由漢字、數字、英文字母組成的混合字符串的相似度進行融合比對,以提高表達字符串的相似的精確度,包括以下主要步驟:I)取出源字符串和一組待匹配字符串;2)讀出事先在存儲器中構建的字符串等價替換字典,對該組待匹配字符串中部分字符(子串)進行等價替換;利用等價替換字典,將上述在源字符串場合和待匹配字符串場合具有不同描述但含義相同的兩種子串進行統一;3)取出源字符串,依此取出等價替換后的該待匹配字符串數組中的一個待匹配字符串;4)利用GST*算法計算源字符串與該待匹配字符串的匹配度a:采用傳統GST算法,得到兩個字符串中各公共子串,將它們存入公共子串鏈表中。如果某個公共子串的字符長度與較長字符串字符長度的比值大于或等于0.33,則在計算匹配度時將該公共子串的字符個數乘以權重,該權重為大于I的常數;如果某個公共子串的字符長度與較長字符串字符長度的比值小于0.33、且公共子串的字符個數大于最小匹配長度,則計算匹配度時將該公共子串的字符個數直接帶入計算;5)利用偏有序字符串匹配算法POC (Partial Order Comparison, P0C)計算源字符串和待匹配字符串的匹配度b:將兩個待匹配的含有漢字、數字和英文字母的混合字符串分別稱為源字符串和待匹配字符串,首先,先搜索出 源字符串與待匹配字符串中相同的字符或漢字,記錄下它們的個數,;其次,以源字符串和待匹配字符串中較長字符串為標準,求匹配度l(match_degreel):匹配度1-「才洞封守域'漢.)白勺f — 100](1)mml-[較長字符串的字個數xlooJ⑴以其中較短字符串為標準,求匹配度2 (match_degree2):匹配度2 =[相J字f數XIOOI⑵L較短字符串的字個數 _公式(I)、(2)中口表示取整;再次,分別比較源字符串和待匹配字符串中第I個或第2個數字與字母,最后I個或倒數第2個數字與字母,如果其中I項相等,則調整匹配度2的matCh_degree2數值為match—degree2+l:對匹配度I和匹配度2賦予不同的權重0.41、0.59,求源字符串和待匹配字符串的最終匹配值b:b = match_degreelX0.41+match_degree2X0.59 (3)6)將步驟4)GST*計算所得的匹配度a和步驟5)P0C計算所得的匹配度b進行加權融合,融合方法是,如果匹配度a大于匹配度b,則最終匹配度為a;如果匹配度a小于匹配度b,則最終匹配度等于(a+b)/2;7)將源字符串和待匹配字符串數組中每個待匹配字符串計算所獲得匹配度進行排序,把最大匹配度對應的待匹配字符串,作為與源字符串最匹配的目標字符串。在步驟4)中,先搜索出源字符串與待匹配字符串相同的各公共子串,再對不同長度的公共子串賦予不同的權重,增大了較長公共字符子串的權重。本專利技術的GST*算法,針對傳統GST算法存在的較短公共子串匹配度可能比較長公共子串的匹配度更大的現象,對其進行了改進:如果公共子串的字符長度與較長字符串字符長度的比值大于或等于0.33,則在計算匹配度時將該公共子串的字符個數乘以權重(大于I的常數);如果公共子串的字符長度與較長字符串字符長度的比值小于0.33、且公共子串的字符個數大于最小匹配長度,則計算匹配度時將該公共子串的字符個數直接帶入計算。在步驟5)中,將兩個含有數字、字母、漢字的混合字符串分別作為源字符串和待匹配字符串;分別以其中較長字符串、較短字符串為標準,求出匹配度I和匹配度2 ;然后再比較第一個或多個數字與字母、最后一個或多個數字與字母是否相等,對匹配度2進行修改。最后對兩種匹配度分別賦予不同權重,得到兩個字符串之間的匹配度值。本專利技術的偏有序字符串比對算法POC考慮到匹配度2更能反映實際匹配情況,因此賦予匹配度2稍微較大的權重。本專利技術給出了字符串等價替換策略。比如,“高壓側”與“220KV側”,“千伏”與“kV”,在含義上是 等價的。采用現有各類比對算法均不能準確地反映它們之間的等價關系,因此提出字符串等價替換策略。事先構建一個字符子串等價替換字典,采用:待匹配中子串=等價的源側子串的形式,比如千伏=kV,它表示等號兩側的字符子串在含義上是相同的,等號左側子串代表待匹配字符串中的某子串,等號右側子串代表與左側等價的源字符串中子串。在做匹配度計算之前,先檢查待匹配字符串中是否含有字符子串等價替換字典中各行中左側的字符子串,如果有,則替換它為等號右側的源側字符子串。在此基礎上,再運用本融合比對算法進行比對,計算得到相應的匹配度,這樣大大提高了匹配的精確度,能夠反映出參與比較兩個字符串之間真實的匹配情況。本專利技術適用于一對多混合字符串的比對。分別計算源字符串與一組待匹配字符串的匹配度,并將得到的各匹配度進行排序,從中找出與源字符串匹配度最大的待匹配字符串,把它確定為目標字符串,從而實現了一對多字符串的較佳匹配。【附圖說明】:圖1為新型一對多字符串的融合比對方法的流程圖。圖2為一對多混合字符串的融合比對方法的應用實例?!揪唧w實施方式】下面結合附圖對本專利技術的方法作進本文檔來自技高網
    ...
    一種一對多的混合字符串融合比對方法

    【技術保護點】
    一種一對多的混合字符串融合比對方法,對基于漢字聚類特征的由漢字、數字、英文字母組成的混合字符串的相似度進行融合比對,以提高表達字符串的相似的精確度,包括以下主要步驟:1)取出源字符串和一組待匹配字符串;2)讀出事先在存儲器中構建的字符串等價替換字典,對該組待匹配字符串中部分字符(子串)進行等價替換;利用等價替換字典,將上述在源字符串場合和待匹配字符串場合具有不同描述但含義相同的兩種子串進行統一;3)取出源字符串,依此取出等價替換后的該待匹配字符串數組中的一個待匹配字符串;4)利用GST*算法計算源字符串與該待匹配字符串的匹配度a:采用傳統GST算法,得到兩個字符串中各公共子串,將它們存入公共子串鏈表中。如果某個公共子串的字符長度與較長字符串字符長度的比值大于或等于0.33,則在計算匹配度時將該公共子串的字符個數乘以權重,該權重為大于1的常數;如果某個公共子串的字符長度與較長字符串字符長度的比值小于0.33、且公共子串的字符個數大于最小匹配長度,則計算匹配度時將該公共子串的字符個數直接帶入計算;5)利用偏有序字符串匹配算法POC(Partial?Order?Comparison,POC)計算源字符串和待匹配字符串的匹配度b:將兩個待匹配的含有漢字、數字和英文字母的混合字符串分別稱為源字符串和待匹配字符串,首先,先搜索出源字符串與待匹配字符串中相同的字符或漢字,記錄下它們的個數,;其次,以源字符串和待匹配字符串中較長字符串為標準,求匹配度1(match_degree1):以其中較短字符串為標準,求匹配度2(match_degree2):公式(1)、(2)中[]表示取整;再次,分別比較源字符串和待匹配字符串中第1個或第2個數字與字母,最后1個或倒數第2個數字與字母,如果其中1項相等,則調整匹配度2的match_degree2數值為match_degree2+1:對匹配度1和匹配度2賦予不同的權重0.41、0.59,求源字符串和待匹配字符串的最終匹配值b:b=match_degree1×0.41+match_degree2×0.59??(3)6)將步驟4)GST*計算所得的匹配度a和步驟5)POC計算所得的匹配度b進行加權融合,融合方法是,如果匹配度a大于匹配度b,則最終匹配度為a;如果匹配度a小于匹配度b,則最終匹配度等于(a+b)/2;7)將源字符串和待匹配字符串數組中每個待匹配字符串計算所獲得匹配度進行排序,把最大匹配度對應的待匹配字符串,作為與源字符串最匹配的目標字符串。...

    【技術特征摘要】
    1.一種一對多的混合字符串融合比對方法,對基于漢字聚類特征的由漢字、數字、英文字母組成的混合字符串的相似度進行融合比對,以提高表達字符串的相似的精確度,包括以下主要步驟: 1)取出源字符串和一組待匹配字符串; 2)讀出事先在存儲器中構建的字符串等價替換字典,對該組待匹配字符串中部分字符(子串)進行等價替換;利用等價替換字典,將上述在源字符串場合和待匹配字符串場合具有不同描述但含義相同的兩種子串進行統一; 3)取出源字符串,依此取出等價替換后的該待匹配字符串數組中的一個待匹配字符串; 4)利用GST*算法計算源字符串與該待匹配字符串的匹配度a: 采用傳統GST算法,得到兩個字符串中各公共子串,將它們存入公共子串鏈表中。如果某個公共子串的字符長度與較長字符串字符長度的比值大于或等于0.33,則在計算匹配度時將該公共子串的字符個數乘以權重,該權重為大于I的常數;如果某個公共子串的字符長度與較長字符 串字符長度的比值小于0.33、且公共子串的字符個數大于最小匹配長度,則計算匹配度時將該公共子串的字符個數直接帶入計算; 5)利用偏有序字符串匹配算法POC(Partial Order Comparison, P0C)計算源字符串和待匹配字符串的匹配度b: 將兩個待匹配的含有漢字、數字和英文字母的混合字符串分別稱為源字符串和待匹配字符串, 首先,先搜索出源字符串與待匹配字符串中相同的字符或漢字,記錄下它們的個數,; 其次,以源字符串和待匹配字符串中較長字符串為標準,求匹配度I (match_degreel):匹配度i1QJ(DL較長字符串的字個數 」 以其中較短字符串為標準,求匹配度2 ...

    【專利技術屬性】
    技術研發人員:童曉陽,甄威,鄭永康姜振超莊先濤,吳繼維,張茜,丁宣文,
    申請(專利權)人:西南交通大學,國網四川省電力公司電力科學研究院,
    類型:發明
    國別省市:四川;51

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 精品一区二区三区无码免费视频| 亚洲av无码一区二区三区在线播放| 激情射精爆插热吻无码视频| 无码精品国产dvd在线观看9久 | 亚洲午夜无码AV毛片久久| 亚洲精品无码乱码成人| 无码熟妇人妻在线视频| 久久无码AV一区二区三区| 无码人妻一区二区三区在线水卜樱| 久久久久久国产精品无码超碰| 亚洲av无码久久忘忧草| YY111111少妇无码理论片| 久久久无码精品午夜| 日韩av无码成人无码免费| 日韩人妻精品无码一区二区三区 | 亚洲精品久久无码av片俺去也| 无码任你躁久久久久久老妇App | 亚洲成a人片在线观看无码| 无码精品A∨在线观看免费| 亚洲AV无码成人精品区天堂| 精品无码综合一区| 免费无遮挡无码视频在线观看| 在线看片福利无码网址| 亚洲国产成人精品无码区在线秒播| 亚洲午夜福利AV一区二区无码| 亚洲AV中文无码乱人伦| 国产做无码视频在线观看| 乱人伦人妻中文字幕无码| 亚洲av永久中文无码精品| 久久无码国产专区精品| 无码福利一区二区三区| 国产精品久久久久无码av| 精品无码日韩一区二区三区不卡 | 久久亚洲AV无码精品色午夜麻| 内射人妻少妇无码一本一道| 少妇无码太爽了在线播放| 国产网红主播无码精品| 亚洲人成无码网站| 久久久国产精品无码免费专区 | 亚洲日韩精品无码专区| 亚洲国产成人无码AV在线|