The invention provides a mass character string matching method and device of the collection, including the method according to the feature string in the feature set string contains the number of characters to determine the matching window length and the matching data set the initial offset value; according to the initial offset value as a starting point on the current matching data migration and positioning, to find the match in the end, the window window length for the length of the first end point, preset length character block as the first character in the first character block; block feature string set sub feature string, in order to obtain matching window length matching window beginning as starting, the length of the length of the block and preset second characters as the second character second character block block; calculate conversion value and to read and convert the bit vector corresponding to the value as the current matching vector; according to the matching number of current vector matching Feature string matching. The method can effectively utilize the space of the bit vector mask table, reduce the filtering pass rate and improve the matching speed.
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及互聯(lián)網(wǎng)
,尤其涉及一種海量特征串集合的匹配方法和裝置。
技術(shù)介紹
模式匹配是計算機領(lǐng)域重要研究方向之一,用于從目標(biāo)串中發(fā)現(xiàn)特征串。隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,模式匹配被廣泛地應(yīng)用于網(wǎng)絡(luò)安全、信息檢索,以及生物醫(yī)學(xué)等領(lǐng)域。模式匹配是指在文本T=t1t2...tn中找出某個給定的特征串集合P={p1,p2,...,pr
【技術(shù)保護點】
一種海量特征串集合的匹配方法,其特征在于,包括以下步驟:接收當(dāng)前待匹配數(shù)據(jù),并生成與所述當(dāng)前待匹配數(shù)據(jù)對應(yīng)的字符轉(zhuǎn)換函數(shù)和對應(yīng)的位向量掩碼表;根據(jù)特征串集合中的特征串所包含字符個數(shù)確定匹配窗口長度,并為當(dāng)前待匹配數(shù)據(jù)設(shè)置初始偏移值;根據(jù)所述初始偏移值為起點對所述當(dāng)前待匹配數(shù)據(jù)進行偏移并定位,獲取所述匹配窗口長度內(nèi)以所述匹配窗口末端為終點,長度為預(yù)設(shè)第一長度的字符塊并作為第一字符塊;根據(jù)預(yù)設(shè)快表判斷所述第一字符塊是否為所述特征串集合的子特征串;在所述第一字符塊為所述特征串集合的子特征串時,獲取所述匹配窗口長度內(nèi)以所述匹配窗口始端為起始,長度為預(yù)設(shè)第二長度的字符塊并作為第二字符塊;根據(jù)所述對應(yīng)的字符轉(zhuǎn)換函數(shù)計算所述第二字符塊的轉(zhuǎn)換值,并從所述對應(yīng)的位向量掩碼表讀取與所述轉(zhuǎn)換值對應(yīng)的位向量并作為當(dāng)前匹配向量;根據(jù)所述當(dāng)前匹配向量對所述當(dāng)前待匹配數(shù)據(jù)進行特征串匹配;在所述第一字符塊不為所述特征串集合的子特征串時,以當(dāng)前讀入的所述第一字符塊的起點位置的下一位作為所述匹配窗口的起點;基于新的匹配窗口的起點對所述當(dāng)前待匹配數(shù)據(jù)進行偏移并定位,并在新的所述匹配窗口的長度內(nèi)對所述第一字符塊進行更新。
【技術(shù)特征摘要】
1.一種海量特征串集合的匹配方法,其特征在于,包括以下步驟:接收當(dāng)前待匹配數(shù)據(jù),并生成與所述當(dāng)前待匹配數(shù)據(jù)對應(yīng)的字符轉(zhuǎn)換函數(shù)和對應(yīng)的位向量掩碼表;根據(jù)特征串集合中的特征串所包含字符個數(shù)確定匹配窗口長度,并為當(dāng)前待匹配數(shù)據(jù)設(shè)置初始偏移值;根據(jù)所述初始偏移值為起點對所述當(dāng)前待匹配數(shù)據(jù)進行偏移并定位,獲取所述匹配窗口長度內(nèi)以所述匹配窗口末端為終點,長度為預(yù)設(shè)第一長度的字符塊并作為第一字符塊;根據(jù)預(yù)設(shè)快表判斷所述第一字符塊是否為所述特征串集合的子特征串;在所述第一字符塊為所述特征串集合的子特征串時,獲取所述匹配窗口長度內(nèi)以所述匹配窗口始端為起始,長度為預(yù)設(shè)第二長度的字符塊并作為第二字符塊;根據(jù)所述對應(yīng)的字符轉(zhuǎn)換函數(shù)計算所述第二字符塊的轉(zhuǎn)換值,并從所述對應(yīng)的位向量掩碼表讀取與所述轉(zhuǎn)換值對應(yīng)的位向量并作為當(dāng)前匹配向量;根據(jù)所述當(dāng)前匹配向量對所述當(dāng)前待匹配數(shù)據(jù)進行特征串匹配;在所述第一字符塊不為所述特征串集合的子特征串時,以當(dāng)前讀入的所述第一字符塊的起點位置的下一位作為所述匹配窗口的起點;基于新的匹配窗口的起點對所述當(dāng)前待匹配數(shù)據(jù)進行偏移并定位,并在新的所述匹配窗口的長度內(nèi)對所述第一字符塊進行更新。2.如權(quán)利要求1所述的海量特征串集合的匹配方法,其特征在于,所述根據(jù)所述當(dāng)前匹配向量對所述當(dāng)前待匹配數(shù)據(jù)進行特征串匹配,包括:將所述當(dāng)前匹配向量和預(yù)設(shè)判斷向量作與運算,得到運算結(jié)果;在所述運算結(jié)果為未在所述當(dāng)前待匹配數(shù)據(jù)中命中所述特征串集合中的特征串的第一運算結(jié)果時,獲取所述匹配窗口長度內(nèi)以所述第二字符塊終點位置的下一位為起始,長度為預(yù)設(shè)第二長度的字符塊并作為第三字符塊,并根據(jù)所述第三字符塊對所述第二字符塊進行更新;在所述運算結(jié)果為在所述當(dāng)前待匹配數(shù)據(jù)中命中所述特征串集合中的特征串的第二運算結(jié)果時,獲取所述第二字符塊對應(yīng)的哈希值,并根據(jù)所述哈希值及預(yù)設(shè)哈希表對命中情況進行確認。3.如權(quán)利要求2所述的海量特征串集合的匹配方法,其特征在于,所述預(yù)設(shè)哈希表包括第一哈希表和第二哈希表,所述根據(jù)所述哈希值及預(yù)設(shè)哈希表對命中情況進行確認,包括:獲取所述第一哈希表的行數(shù)和列數(shù),并計算所述行數(shù)和列數(shù)的乘積得到乘積值;對所述哈希值和所述乘積值進行求余取模運算,得到模值;判斷所述第一哈希表中與所述模值對應(yīng)位的位值是否為1;在所述對應(yīng)位的位值不為1時,判定所述命中情況為所述當(dāng)前待匹配數(shù)據(jù)與所述特征串集合匹配失敗;在所述對應(yīng)位的位值為1時,根據(jù)所述哈希值判斷所述第二哈希表中是否存在所述特征串集合中的特征串;在不存在所述特征串集合中的特征串時,判定所述命中情況為所述當(dāng)前待匹配數(shù)據(jù)與所述特征串集合匹配失敗;在存在所述特征串集合中的特征串時,判定所述命中情況為所述當(dāng)前待匹配數(shù)據(jù)與所述特征串集合匹配成功。4.如權(quán)利要求3所述的海量特征串集合的匹配方法,其特征在于,在所述接收當(dāng)前待匹配數(shù)據(jù)之前,還包括:根據(jù)所述特征串集合中的每個特征串的哈希值生成所述第一哈希表和所述第二哈希表。5.如權(quán)利要求1所述的海量特征串集合的匹配方法,其特征在于,所述生成與所述當(dāng)前待匹配數(shù)據(jù)對應(yīng)的字符轉(zhuǎn)換函數(shù)和對應(yīng)的位向量掩碼表,包括:生成與所述當(dāng)前待匹配數(shù)據(jù)所支持的編碼類型對應(yīng)的字符轉(zhuǎn)換函數(shù)和對應(yīng)的位向量掩碼表。6.如權(quán)利要求1所述的海量特征串集合的匹配方法,其特征在于,在所述接收當(dāng)前待匹配數(shù)據(jù)之后,還包括:獲取所述特征串集合中長度...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:尹延偉,
申請(專利權(quán))人:東軟集團股份有限公司,
類型:發(fā)明
國別省市:遼寧;21
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。