• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>EMC公司專利>正文

    利用了數據段的相似度的高效數據存儲制造技術

    技術編號:8489818 閱讀:167 留言:0更新日期:2013-03-28 11:36
    本發明專利技術利用了數據段的相似度的高效數據存儲,其公開了利用數據段的相似度進行存儲。確定新段與先前存儲的段相似。所述先前存儲的段包括來自輸入數據流中的任何位置的先前存儲的段。確定所述新段與所述先前存儲的段之間的增量。至少部分地基于所述增量來存儲所述新段的表示。

    【技術實現步驟摘要】
    利用了數據段的相似度的高效數據存儲
    技術介紹
    一種高效地存儲數據的方法是防止對于在備份之間保持不變的數據的冗余拷貝。這種高效的存儲是通過把來自各數據源的數據流分成段(segment)并且把所述段以及所述段的標識符的索引存儲在存儲設備上來實現的。在后續的備份操作期間,再次對所述數據流進行分段,并且在所述索引中查找所述段以便確定某一數據段先前是否已被存儲過。如果找到完全相同的段,則不再存儲該數據段;否則就存儲所述新的數據段和新的索引標識符。遺憾的是,隨著將要備份的數據量的增加,所述段的數目(如果所述段的尺寸近似的話)以及所述索引條目的數目也會增加。所述段和索引條目的數目的增加會導致存取性能的降低對于寫入,必須把到來的段索引與所述索引中的所有條目進行比較;以及對于讀取,必須從較大數目的段當中檢索與某一文件相關聯的段。如果增大所述段的尺寸,則會減少所述段的數目,從而所述索引條目的數目也會減少,性能也可以得到保持;然而,由于出現較長的完全相同的段的幾率沒有那么高,因此存儲效率會降低。如果可以在不犧牲存儲效率的情況下保持存取性能,則將是有益的。附圖簡述在下面的詳細描述和附圖中公開了本專利技術的各種實施例。附圖說明圖1是示出利用數據段的相似度進行高效存儲的系統的一個實施例的方框圖。圖2是示出利用數據段的相似度進行高效存儲的處理的一個實施例的方框圖。圖3是示出寫入期間的內容存儲過程的一個實施例的流程圖。圖4是示出用于生成邏輯段以及計算概要特征集合的過程的一個實施例的流程圖。圖5是示出讀取期間的內容存儲過程的一個實施例的流程圖。圖6是示出寫入期間的段存儲過程的一個實施例的流程圖。圖7是示出相似度確定過程的一個實施例的流程圖。圖8是示出針對讀取的段存儲過程的一個實施例的流程圖。詳細描述可以按照多種方式來實施本專利技術,其中包括把本專利技術實施為一種過程、設備、系統、物質構成、計算機可讀介質(比如計算機可讀存儲介質)或者計算機網絡(其中通過光學或電子通信鏈路來發送程序指令)。在本說明書中,這些實施方式或者本專利技術所能采取的任何其他形式都可以被稱作技術。諸如被描述為被配置成執行任務的處理器或存儲器之類的組件包括通用組件或專用組件,其中所述通用組件在給定時間被臨時配置成執行所述任務,而所述專用組件是為了執行所述任務而被制造的。一般來說,在本專利技術的范圍內可以改變所公開的過程的各步驟的順序。在下面連同附圖一起提供對本專利技術的一個或多個實施例的詳細描述,所述附圖示出本專利技術的原理。下面將結合所述實施例來描述本專利技術,但是本專利技術不限于任何實施例。本專利技術的范圍僅僅由權利要求書來限定,并且本專利技術包含許多替換方案、修改和等效方案。為了提供對于本專利技術的透徹理解,在下面的描述中闡述了許多具體細節。提供這些細節是出于舉例的目的,并且可以在沒有一些或全部所述具體細節的情況下根據權利要求書來實踐本專利技術。為了清楚起見沒有描述本專利技術的相關
    內已知的技術材料,以免不必要地模糊本專利技術。公開了利用數據段的相似度來進行高效的存儲。確定一個新段與一個先前存儲的段相似,其中所述先前存儲的段包括來自某一輸入數據流中的任何位置的一個先前存儲的段。至少部分地基于增量來存儲所述新段的表示。存儲增量會提高存儲效率,尤其是在其中各段與先前存儲的段相比可能具有小的改變的情況下,這是因為與存儲新段相比,存儲小的增量更為高效。通過把第一段的概要特征集合與第二段的概要特征集合進行比較來確定相似度。在一些實施例中,所述第一段是從某一輸入數據流到達的段,而所述第二段是來自某一輸入數據流的先前已被存儲在備份存儲系統中的任何段。在一些實施例中,所述第一段與第一輸入數據流相關聯,而所述第二段與第二輸入數據流相關聯。在一些實施例中,所述相似度包括第一段與第二段之間的逐字節相似性的度量。通過以下操作來確定概要特征集合選擇第一段的多個固定長度或可變長度的子段;對于每一個子段,通過對于每一個子段應用一組函數來計算多個值;以及從對于所有所述子段所計算的所有所述值當中選擇第一值子集。在一些實施例中,所述第一值子集被用于確定所述第一段與第二段之間的相似度。在一些實施例中,在相似度壓縮的情況下(利用相似度高效地存儲數據段),在內容存儲中的處理期間把用戶寫入流(其對應于整個文件或者某一文件的地址范圍或者用于寫入的連續數據的地址范圍)分解成各邏輯段。把所述邏輯段發送到段存儲以供壓縮及存儲。內容存儲還接收具有段描述符的形式的段存儲反饋,其中的每一個所述描述符描述某一邏輯段在段存儲中如何被壓縮及表示。內容存儲保持所述地址范圍與其相應的從段存儲返回的邏輯段和段描述符之間的映射。內容存儲負責進行以下操作映射地址范圍與其相應的邏輯段和段描述符;把對應于用戶讀取流(其對應于整個文件或者某一文件的地址范圍或者用于讀取的連續數據的地址范圍)的段描述符遞送到段存儲;以及接收對應于邏輯段的數據。在相似度壓縮情況下的內容存儲的行為在很大程度上類似于在身份(identity)壓縮下的情況。在一些實施例中,在段存儲中把各段表示為多個物理段的復合。更為精確地說,每一個邏輯段被表示為一個基礎和一系列等級越來越高(或者說尺寸越來越小)的增量,其中每一個基礎或增量是一個完整物理段或者是某一物理段的一部分。基礎直接對應于內容存儲中的邏輯段,并且被標記為d0。一級增量是兩個(不同的)邏輯段之間的差異,并且被標記為dl。二級增量是兩個(不同的)dl之間的差異,并且被標記為d2。在各種實施例中,相似度壓縮使用一級增量編碼或者二級增量編碼。在一級增量編碼中,段存儲把每一個邏輯段表示為可以被共享的d0與不能被共享的可選的dl的復合;在二級增量編碼中,段存儲把每一個邏輯段表示為可以被共享的d0、可以被共享的可選的dl、以及與不能被共享的可選的d2的復合。如果某一邏輯段被表示為d0,則將其標記為eO ;如果某一邏輯段的相應的最高級增量是dl,則將其標記為el ;如果某一邏輯段的相應的最高級增量是d2,則將其標記為e2。身份壓縮可以被視為零級增量編碼,其中段存儲把每一個邏輯段表示為可以被共享的d0。在按照其壓縮形式來存儲所述輸入數據流時(例如在存儲來自所述輸入數據流的某一新段時)沒有信息損失。在一些實施例中,在二級增量編碼中,d0較大,d2較小,而dl是至為重要的,例如,d0是lMB,d2是10KB,以及dl是100KB。二級增量編碼平衡對于更激進的壓縮的需求(不僅在各邏輯段當中共享較大的d0,而且也共享顯著的dl差異)與對于更高性能和可伸縮性的需求(在各邏輯段當中不共享較小的d2差異,并且不對其進行各種處理和維護)。為了便于在二級增量編碼中檢測到可共享的各dl,所施加的附加約束是dl關于el是一對一的(這意味著對應于dl的段標識符可以與對應于el的段標識符互換)。這樣允許在系統中對新邏輯段與先前的eO和el之間的相似度進行比較而無需擔心物理段,其中所述系統使用邏輯段等級上的被稱作概要特征集合或概略(sketch)的概要技術。在檢測出所述相似度之后,把所述新邏輯段編碼為相應的各物理段的復合,其或者是可共享的d0,或者是可共享的d0加上可共享的dl加上可選的不可共享的d2。在一些實施例中,可以在被稱作增量組合的過程中在段存儲中把多個dl和d2組合到單個物理段中。增量組合本文檔來自技高網
    ...

    【技術保護點】
    一種利用數據段的相似度進行存儲的系統,包括:用于確定新段是否相似于先前存儲的段的部件,其中相似度包括第一段與第二段之間的逐字節相似性的度量,其中所述先前存儲的段包括多個在先存儲的段中的段,所述多個在先存儲的段通過使用錨定將輸入數據流打破為段而生成,其中所述錨定從所述輸入數據流生成可變尺寸的依賴于內容但是獨立于地址的段;用于在所述新段相似于所述先前存儲的段時確定所述新段與所述先前存儲的段之間的差異的部件;及用于在所述新段相似于所述先前存儲的段時至少部分基于所述差異和至少部分基于基礎而存儲所述新段的表示的部件。

    【技術特征摘要】
    ...

    【專利技術屬性】
    技術研發人員:K李MB朱U馬赫什沃里Z楊
    申請(專利權)人:EMC公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码专区6080yy国产电影| 久久av无码专区亚洲av桃花岛| 亚洲日韩中文字幕无码一区| 国产成人无码精品久久久露脸| 精品久久久无码中文字幕天天| 亚洲av永久无码精品秋霞电影影院| 日韩精品成人无码专区免费| 国产精品国产免费无码专区不卡| 无码国产精品一区二区免费16| 国内精品久久久久久无码不卡| 日韩精品无码一本二本三本| 亚洲av无码成人精品区| 免费无码又爽又刺激聊天APP | 亚洲人成影院在线无码观看| 国产成人无码精品一区二区三区| 日本精品人妻无码免费大全| 无码人妻丰满熟妇区五十路百度| 日韩精品无码久久一区二区三 | 曰韩无码无遮挡A级毛片| 人妻精品久久无码专区精东影业| 中国少妇无码专区| 成人免费无码精品国产电影| 久久亚洲精品无码AV红樱桃| 中文字幕无码久久久| 高清无码一区二区在线观看吞精 | 国产精品va在线观看无码| 亚洲av无码专区在线电影| 日韩亚洲AV无码一区二区不卡 | 久久午夜夜伦鲁鲁片免费无码| 久久久无码精品亚洲日韩软件| 无码一区二区三区中文字幕| 无码人妻精品丰满熟妇区| 亚洲中文无码永久免| 2021无码最新国产在线观看| 久久人妻内射无码一区三区| 久久人妻少妇嫩草AV无码专区| 亚洲av无码一区二区三区不卡| 无码人妻一区二区三区免费n鬼沢 无码人妻一区二区三区免费看 | 无码永久免费AV网站| 无码少妇丰满熟妇一区二区| 无码无套少妇毛多69XXX|