本發明專利技術公開了一種基于擴展查詢似然模型的動態后繼樹索引裁剪方法,該方法依次包括以下步驟:(1)針對動態后繼樹索引結構,首先創建完整的動態后繼樹索引;(2)然后依次遍歷索引中每一篇文檔包含的不同二元詞項,提取索引的統計信息;(3)計算這些二元詞項在其當前出現文檔中的相對重要性評分;(4)輸入裁剪參數,從完整動態后繼樹索引中刪除掉一定比例的不重要二元詞項所對應的索引信息;(5)形成裁剪后的動態后繼樹索引。本方法通過合理的去掉動態后繼樹索引中的不重要信息達到降低索引文件大小的目的。
【技術實現步驟摘要】
本專利技術涉及信息檢索與數據壓縮
,具體涉及ー種基于擴展查詢似然模型的動態后繼樹索弓I裁剪方法。
技術介紹
隨著以社交網絡為代表的Web 2. O時代的到來,每時每刻都有大量文本數據被生產出來,對這些海量文本數據或者大數據建立索引必然導致龐大的索引文件。同時,為支持更加豐富而多樣化的查詢檢索功能,存儲在索引文件中的信息類型和數量也較以前有大量的増加,這無疑進ー步加劇了索引文件的膨脹。龐大索引文件不僅占用大量的磁盤空間,更 使得查詢時訪問索引文件時間開銷過大,磁盤I/o的過于頻繁與緩慢的磁盤訪問速度,已經成為影響效率提升的重大瓶頸之一。此外,新應用場景的出現,如移動終端檢索(searchin mobile devices)、個人電腦桌面搜索(desktop search)、P2P 檢索(Peer to Peersearch)等,對信息檢索系統的各項性能提出了更嚴格的要求,迫使現代信息檢索系統必須重新考慮下列問題哪一部分索引數據應該被存儲于索引文件之中。目前降低索引文件大小的最常見方法是使用數據壓縮技術,數據壓縮技術一般存在兩種類型無損壓縮和有損壓縮。無損壓縮采用高效的數據編碼方式表示記錄在索引結構中的數據信息,比如Delta編碼、Golomb編碼和可變長字節編碼等,壓縮過程中不刪除任何索引信息。有損壓縮則是通過刪除在查詢時被認為是無用的索引信息的方式達到降低索引文件大小的目的。目前,對倒排索引文件無損壓縮方法的研究已經有許多成熟的解決方案,也有ー些對動態后繼樹索引文件進行無損壓縮的相關研究。無損壓縮的優勢在于其安全性高,不會損失任何索引信息。與無損壓縮研究不同,針對索引文件的有損壓縮研究,即索引裁剪技術研究,卻并不是很多。依據目前公開可查詢的國內外文獻來看,索引裁剪技術研究主要針對倒排索引文件進行,國內的相關研究更少,而且沒有針對動態后繼樹索引文件進行索引裁剪的相關研究。在充分利用動態后繼樹索引結構針對中文信息檢索的優越性的同時,必須注意到動態后繼樹索引結構的不足產生的索引文件比較大,膨脹比高。因此針對動態后繼樹索引的特點進行相應的索引裁剪技術研究,從而彌補其索引文件膨脹比高的不足就具有極大理論價值和實踐意義。
技術實現思路
本專利技術的目的在于針對現有技術的不足,提供了一種。為了實現上述目的,本專利技術采用了以下技術方案一種基于擴展查詢似然模型的動態后繼樹索弓I裁剪方法,以完整的動態后繼樹索弓I作為處理對象,對索引中的樹葉信息進行重要性評估,然后刪除不重要的樹葉信息,形成裁剪后的動態后繼樹索引; 該方法依次包括以下步驟 (I)針對動態后繼樹索引結構,創建完整的動態后繼樹索引;(2)依次遍歷索引中每ー篇文檔包含的不同ニ元詞項,提取索引統計信息; (3)利用重要性評分公式卿)+^,計算索引中的ニ元詞項在其當前出現文檔中的重要性評分,然后對ニ元詞項進行重要性降序排列;其中tf(bi)是ニ元詞項&在文檔中的出現次數,TFm是ニ元詞項&在文檔集C中的出現次數,I Cl是文檔集e的長度,丨D|為文檔ゴ的長度,.W為平滑因子;該評分公式由一系列的公式推導而形成首先從傳統的查詢似然模型出發,引入高效的狄尼克雷平滑機制對此查詢似然模型進行擴展;然后在信息論K-L距離定義的基礎上采用算木平均數的方式定義了對稱K-L距離,從而更加平衡的度量文檔與文檔集之間的差異;最后評估文檔中的ニ元詞項對文檔對稱K-L距離的貢獻度即; (4)輸入裁剪參數1<1€1€太€が)、/^^.£^1),讓裁剪參數しP依次分別和索引中與一篇文檔關聯的所有樹葉信息的個數μ/41進行比較、計算,控制動態后繼樹索引的裁剪規模,刪除ー篇文檔中排序靠后的ニ元詞項所對應的樹葉信息Leaf Information (LI);裁剪參數k、P在取值范圍內的實際取值可以根據裁剪數據的實際情況、實際需求輸入,通過不同的取值,可以得到我們需要的不同裁剪效果; (5)形成并輸出裁剪后的動態后繼樹索引。上述的ニ元詞項由樹根詞項和與樹根詞項直接關聯的樹葉詞項組成的整體,是不可分割。所述的樹根詞項是指在創建動態后繼樹索引時,位于樹根的分詞詞項;而樹葉詞項則是樹根的后繼,指位于樹葉的分詞詞項。上述的索引統計信息包括ニ元詞項在每ー篇文檔中出現的次數、含有某一個ニ元詞項的文檔數目、ニ元詞項在文檔集中總的出現次數、每ー篇文檔的長度(即包含ニ元詞項的個數)和文檔集的總長度(即所有文檔長度之和)、與一篇文檔關聯的所有樹葉信息的個數丨Z/41等,索引統計信息還可包括有其他信息,不限于上述提及的統計信息。所述的步驟(4)輸入裁剪參數!^^,!^!^、^(^/^^,讓裁剪參數匕P分別和索引中與一篇文檔關聯的所有樹葉信息的個數丨進行比較、計算,控制動態后繼樹索引的裁剪規模,刪除ー篇文檔中排序靠后的ニ元詞項所對應的樹葉信息步驟為 ①輸入裁剪參數匕P; ②若丨LlLiI < k,轉步驟⑤; ③若μ/4Ι>λ且μ/41- PWLA >k,則裁剪掉排序靠后的Ρ| 4Ι個樹葉信息;ρ\π[ I表示的是對ρμ/41進行上取整,即當I為小數吋,則對其上取整,如,I的結果為8. 2時,則取整為9 ; ④若本文檔來自技高網...
【技術保護點】
一種基于擴展查詢似然模型的動態后繼樹索引裁剪方法,其特征在于:該方法依次包括以下步驟:(1)針對動態后繼樹索引結構,創建完整的動態后繼樹索引;(2)依次遍歷索引中每一篇文檔包含的不同二元詞項,提取索引統計信息;(3)利用重要性評分公式:?,其中:是二元詞項在文檔中的出現次數,是二元詞項在文檔集中的出現次數,是文檔集的長度,為文檔的長度,為平滑因子;計算索引中的二元詞項在其當前出現文檔中的重要性評分,然后對二元詞項進行排序;(4)輸入裁剪參數、,讓裁剪參數依次分別和索引中與一篇文檔關聯的所有樹葉信息的個數進行比較、計算,控制動態后繼樹索引的裁剪規模,刪除一篇文檔中排序靠后的二元詞項所對應的樹葉信息;(5)形成并輸出裁剪后的動態后繼樹索引。201210307005X100001dest_path_image002.jpg,201210307005X100001dest_path_image004.jpg,201210307005X100001dest_path_image006.jpg,201210307005X100001dest_path_image008.jpg,201210307005X100001dest_path_image010.jpg,898463dest_path_image006.jpg,201210307005X100001dest_path_image012.jpg,201210307005X100001dest_path_image014.jpg,807644dest_path_image012.jpg,201210307005X100001dest_path_image016.jpg,519248dest_path_image008.jpg,201210307005X100001dest_path_image018.jpg,201210307005X100001dest_path_image020.jpg,201210307005X100001dest_path_image022.jpg,201210307005X100001dest_path_image024.jpg,201210307005X100001dest_path_image026.jpg...
【技術特征摘要】
1.一種基于擴展查詢似然模型的動態后繼樹索引裁剪方法,其特征在于該方法依次包括以下步驟 (1)針對動態后繼樹索引結構,創建完整的動態后繼樹索引; (2)依次遍歷索引中每ー篇文檔包含的不同ニ元詞項,提取索引統計信息; (3)利用重要性評分公式2.根據權利要求I所述的基于擴展查詢似然模型的動態后繼樹索引裁剪方法,其特征在于所述的ニ元詞項由樹根詞項和與樹根詞項直接關聯的樹葉詞項組成的整體。3.根據權利要求I所述的基于擴展查詢似然模型的動態后繼樹索引裁剪方法,其特征在于所述的索引統計信息包括ニ元詞項在每ー篇文檔中出現的次數、含有某一個ニ元詞項的文檔數目、ニ元詞項在文檔集中總的出現次數、每ー篇文檔...
【專利技術屬性】
技術研發人員:霍林,鄒先澤,
申請(專利權)人:廣西大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。