當前位置: 首頁 > 專利查詢>白杰專利>正文

數據字典的生成方法技術

技術編號：30702977 閱讀：103 留言：0更新日期：2021-11-06 09:42

本發明專利技術提供了一種數據字典的生成方法，該方法從輸入的樣本數據S的一個起點位置按序增量取得索引數據串Ck，使用該索引數據串Ck掃描輸入數據S的剩余位，記錄Ck以及數據長度、重復次數等參數，最后得到重復數據段的集合，從所述集合中的數據段中找到最佳數據段，用所述最佳數據段及其標簽生成標簽數據庫。佳數據段及其標簽生成標簽數據庫。佳數據段及其標簽生成標簽數據庫。

全部詳細技術資料下載

【技術實現步驟摘要】
數據字典的生成方法

[0001]本專利技術涉及一種數據處理
，尤其是數據字典的生成方法。

技術介紹

[0002]在數據傳輸的各個層次，減少傳輸重復數據的傳輸都具有重要意義。而減少數據重復傳輸的關鍵，在于如何獲知哪些數據是重復的，以及在數據接收端迅速且無瑕疵地的恢復數據發送端的原始數據。對于靜態數據，即內容確定的數據集合，如果能夠獲知需要重復傳輸的數據或數據集合，為重復的數據分配一個標簽或標識，就可以用所述標簽替代重復的數據進行傳輸，從而減少數據的重傳以及在數據接收端恢復原始數據。而且，標簽的長度和重復數據長度的比值越小，數據傳輸效率就越高。而對于動態數據，即內容不確定的數據集合，則需要恰當地分割數據以獲得重復數據，以及為所述重復數據分配一個標簽。
[0003]因此，需要預先獲知重復概率高的數據段，將這些數據段和標識它們的互不重復的標簽綁定存儲到一個數據庫，就可以實現對任何數據段的標簽標識。
[0004]在傳統的方法中，一般利用某個特定領域的數據特性，根據經驗和大量數據試驗查找這樣的重復數據段。例如，采用滑動窗口技術從一個方向順序掃描樣本數據，就可以找到重復的數據段，但是這個數據段的大小和重復性受窗口大小的限制，難以在一個樣本數據中找到最優的重復數據段。這樣就難以生成高效率的標簽數據庫。

技術實現思路

[0005]本專利技術解決的問題是，提供一種生成高效率的標簽數據庫，即高效率的數據字典的方法及裝置。
[0006]為解決上述問題，本專利技術實施例提供的數據字典的生成方法，包...

【技術保護點】

【技術特征摘要】
1.數據字典的生成方法，其特征在于包括：A、對輸入的樣本數據S，從一個方向確定一個起點位置i；B、判斷位置i是否為輸入數據S的尾部，如果是，輸出失敗信息，結束；否則轉步驟C；C、使用位置i到數據S尾部的數據生成待處理數據串Si，Ck＝Si的前k位，1≤k≤[j/2]，令j等于Si的長度；其中，[]為取小數點前面整數部分的取整計算符號；D、使用Ck從Si的k+1位起掃描剩余位，記錄Ck，與Ck相同的數據段的起點位置Lm，以及數據長度、重復次數；令k＝k+1，Ck＝Si的前k位，其中，m為大于1的整數；E、判斷k是否小于[j/2],如果是，則轉步驟F；否則轉步驟G；F、使用Ck從Si大于k位的Lm位置起掃描k位數據，記錄Ck，與Ck相同的數據段的起點位置Lm，以及數據長度、重復次數；令k＝k+1，Ck＝Si的前k位，轉步驟E；G、根據掃描得到的結果，將數據長度和/或重復次數最佳的Ck、數據長度、重復次數，以及為其分配的標簽存儲到標簽數據庫。2.如權利要求1所述的數據字典的生成方法，其特征在于：如果標簽數據庫中已經存在一個與Ck相同的數據段，則將該數據段對應的重復次數計數器加1。3.如權利要求2所述的數據字典的生成方法，其特征在于：利用重復次數計數器的值和/或數據段的長度值優化標簽數據庫。4.數據字典的生成方法，其特征在于包括：A、對輸入的樣本數據S，從一個方向確定一個起點位置i；B、判斷位置i是否為輸入數據S的尾部，如果是，轉步驟H；否則轉步驟C；C、使用位置i到數據S尾部的數據生成待處理數據串Si，Ck...

【專利技術屬性】
技術研發人員：白杰，
申請(專利權)人：白杰，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術