公開(kāi)了利用數(shù)據(jù)段的相似度進(jìn)行存儲(chǔ)。確定新段與先前存儲(chǔ)的段相似。所述先前存儲(chǔ)的段包括來(lái)自輸入數(shù)據(jù)流中的任何位置的先前存儲(chǔ)的段。確定所述新段與所述先前存儲(chǔ)的段之間的增量。至少部分地基于所述增量來(lái)存儲(chǔ)所述新段的表示。
【技術(shù)實(shí)現(xiàn)步驟摘要】
【國(guó)外來(lái)華專利技術(shù)】專利技術(shù)背景一種高效地存儲(chǔ)數(shù)據(jù)的方法是防止對(duì)于在備份之間保持不變的數(shù)據(jù)的冗余拷貝。這種高效的存儲(chǔ)是通過(guò)把來(lái)自各數(shù)據(jù)源的數(shù)據(jù)流分成段(segment)并且把所述段以及所述段的標(biāo)識(shí)符的索引存儲(chǔ)在存儲(chǔ)設(shè)備上來(lái)實(shí)現(xiàn)的。在后續(xù)的備份操作期間,再次對(duì)所述數(shù)據(jù)流進(jìn)行分段,并且在所述索引中查找所述段以便確定某一數(shù)據(jù)段先前是否已被存儲(chǔ)過(guò)。如果找到完全相同的段,則不再存儲(chǔ)該數(shù)據(jù)段;否則就存儲(chǔ)所述新的數(shù)據(jù)段和新的索引標(biāo)識(shí)符。遺憾的是,隨著將要備份的數(shù)據(jù)量的增加,所述段的數(shù)目(如果所述段的尺寸近似的話)以及所述索引條目的數(shù)目也會(huì)增加。所述段和索引條目的數(shù)目的增加會(huì)導(dǎo)致存取性能的降低:對(duì)于寫入,必須把到來(lái)的段索引與所述索引中的所有條目進(jìn)行比較;以及對(duì)于讀取,必須從較大數(shù)目的段當(dāng)中檢索與某一文件相關(guān)聯(lián)的段。如果增大所述段的尺寸,則會(huì)減少所述段的數(shù)目,從而所述索引條目的數(shù)目也會(huì)減少,性能也可以得到保持;然而,由于出現(xiàn)較長(zhǎng)的完全相同的段的幾率沒(méi)有那么高,因此存儲(chǔ)效率會(huì)降低。如果可以在不犧牲存儲(chǔ)效率的情況下保持存取性能,則將是有益的。附圖簡(jiǎn)述在下面的詳細(xì)描述和附圖中公開(kāi)了本專利技術(shù)的各種實(shí)施例。圖1是示出利用數(shù)據(jù)段的相似度進(jìn)行高效存儲(chǔ)的系統(tǒng)的一個(gè)實(shí)施例的方框圖。圖2是示出利用數(shù)據(jù)段的相似度進(jìn)行高效存儲(chǔ)的處理的一個(gè)實(shí)施例的方框圖。圖3是示出寫入期間的內(nèi)容存儲(chǔ)過(guò)程的一個(gè)實(shí)施例的流程圖。圖4是示出用于生成邏輯段以及計(jì)算概要特征集合的過(guò)程的一個(gè)實(shí)施例的流程圖。圖5是示出讀取期間的內(nèi)容存儲(chǔ)過(guò)程的一個(gè)實(shí)施例的流程圖。圖6是示出寫入期間的段存儲(chǔ)過(guò)程的一個(gè)實(shí)施例的流程圖。圖7是示出相似度確定過(guò)程的一個(gè)實(shí)施例的流程圖。-->圖8是示出針對(duì)讀取的段存儲(chǔ)過(guò)程的一個(gè)實(shí)施例的流程圖。詳細(xì)描述可以按照多種方式來(lái)實(shí)施本專利技術(shù),其中包括把本專利技術(shù)實(shí)施為一種過(guò)程、設(shè)備、系統(tǒng)、物質(zhì)構(gòu)成、計(jì)算機(jī)可讀介質(zhì)(比如計(jì)算機(jī)可讀存儲(chǔ)介質(zhì))或者計(jì)算機(jī)網(wǎng)絡(luò)(其中通過(guò)光學(xué)或電子通信鏈路來(lái)發(fā)送程序指令)。在本說(shuō)明書中,這些實(shí)施方式或者本專利技術(shù)所能采取的任何其他形式都可以被稱作技術(shù)。諸如被描述為被配置成執(zhí)行任務(wù)的處理器或存儲(chǔ)器之類的組件包括通用組件或?qū)S媒M件,其中所述通用組件在給定時(shí)間被臨時(shí)配置成執(zhí)行所述任務(wù),而所述專用組件是為了執(zhí)行所述任務(wù)而被制造的。一般來(lái)說(shuō),在本專利技術(shù)的范圍內(nèi)可以改變所公開(kāi)的過(guò)程的各步驟的順序。在下面連同附圖一起提供對(duì)本專利技術(shù)的一個(gè)或多個(gè)實(shí)施例的詳細(xì)描述,所述附圖示出本專利技術(shù)的原理。下面將結(jié)合所述實(shí)施例來(lái)描述本專利技術(shù),但是本專利技術(shù)不限于任何實(shí)施例。本專利技術(shù)的范圍僅僅由權(quán)利要求書來(lái)限定,并且本專利技術(shù)包含許多替換方案、修改和等效方案。為了提供對(duì)于本專利技術(shù)的透徹理解,在下面的描述中闡述了許多具體細(xì)節(jié)。提供這些細(xì)節(jié)是出于舉例的目的,并且可以在沒(méi)有一些或全部所述具體細(xì)節(jié)的情況下根據(jù)權(quán)利要求書來(lái)實(shí)踐本專利技術(shù)。為了清楚起見(jiàn)沒(méi)有描述本專利技術(shù)的相關(guān)
內(nèi)已知的技術(shù)材料,以免不必要地模糊本專利技術(shù)。公開(kāi)了利用數(shù)據(jù)段的相似度來(lái)進(jìn)行高效的存儲(chǔ)。確定一個(gè)新段與一個(gè)先前存儲(chǔ)的段相似,其中所述先前存儲(chǔ)的段包括來(lái)自某一輸入數(shù)據(jù)流中的任何位置的一個(gè)先前存儲(chǔ)的段。至少部分地基于增量來(lái)存儲(chǔ)所述新段的表示。存儲(chǔ)增量會(huì)提高存儲(chǔ)效率,尤其是在其中各段與先前存儲(chǔ)的段相比可能具有小的改變的情況下,這是因?yàn)榕c存儲(chǔ)新段相比,存儲(chǔ)小的增量更為高效。通過(guò)把第一段的概要特征集合與第二段的概要特征集合進(jìn)行比較來(lái)確定相似度。在一些實(shí)施例中,所述第一段是從某一輸入數(shù)據(jù)流到達(dá)的段,而所述第二段是來(lái)自某一輸入數(shù)據(jù)流的先前已被存儲(chǔ)在備份存儲(chǔ)系統(tǒng)中的任何段。在一些實(shí)施例中,所述第一段與第一輸入數(shù)據(jù)流相關(guān)聯(lián),而所述第二段與第二輸入數(shù)據(jù)流相關(guān)聯(lián)。在一些實(shí)施例中,所述相似度包括第一段與第二段之間的逐字節(jié)相似性的度量。通過(guò)以下操作來(lái)確定概要特征集合:選擇第一段的多個(gè)固定長(zhǎng)度或可變長(zhǎng)度-->的子段;對(duì)于每一個(gè)子段,通過(guò)對(duì)于每一個(gè)子段應(yīng)用一組函數(shù)來(lái)計(jì)算多個(gè)值;以及從對(duì)于所有所述子段所計(jì)算的所有所述值當(dāng)中選擇第一值子集。在一些實(shí)施例中,所述第一值子集被用于確定所述第一段與第二段之間的相似度。在一些實(shí)施例中,在相似度壓縮的情況下(利用相似度高效地存儲(chǔ)數(shù)據(jù)段),在內(nèi)容存儲(chǔ)中的處理期間把用戶寫入流(其對(duì)應(yīng)于整個(gè)文件或者某一文件的地址范圍或者用于寫入的連續(xù)數(shù)據(jù)的地址范圍)分解成各邏輯段。把所述邏輯段發(fā)送到段存儲(chǔ)以供壓縮及存儲(chǔ)。內(nèi)容存儲(chǔ)還接收具有段描述符的形式的段存儲(chǔ)反饋,其中的每一個(gè)所述描述符描述某一邏輯段在段存儲(chǔ)中如何被壓縮及表示。內(nèi)容存儲(chǔ)保持所述地址范圍與其相應(yīng)的從段存儲(chǔ)返回的邏輯段和段描述符之間的映射。內(nèi)容存儲(chǔ)負(fù)責(zé)進(jìn)行以下操作:映射地址范圍與其相應(yīng)的邏輯段和段描述符;把對(duì)應(yīng)于用戶讀取流(其對(duì)應(yīng)于整個(gè)文件或者某一文件的地址范圍或者用于讀取的連續(xù)數(shù)據(jù)的地址范圍)的段描述符遞送到段存儲(chǔ);以及接收對(duì)應(yīng)于邏輯段的數(shù)據(jù)。在相似度壓縮情況下的內(nèi)容存儲(chǔ)的行為在很大程度上類似于在身份(identity)壓縮下的情況。在一些實(shí)施例中,在段存儲(chǔ)中把各段表示為多個(gè)物理段的復(fù)合。更為精確地說(shuō),每一個(gè)邏輯段被表示為一個(gè)基礎(chǔ)和一系列等級(jí)越來(lái)越高(或者說(shuō)尺寸越來(lái)越小)的增量,其中每一個(gè)基礎(chǔ)或增量是一個(gè)完整物理段或者是某一物理段的一部分。基礎(chǔ)直接對(duì)應(yīng)于內(nèi)容存儲(chǔ)中的邏輯段,并且被標(biāo)記為d0。一級(jí)增量是兩個(gè)(不同的)邏輯段之間的差異,并且被標(biāo)記為d1。二級(jí)增量是兩個(gè)(不同的)d1之間的差異,并且被標(biāo)記為d2。在各種實(shí)施例中,相似度壓縮使用一級(jí)增量編碼或者二級(jí)增量編碼。在一級(jí)增量編碼中,段存儲(chǔ)把每一個(gè)邏輯段表示為可以被共享的d0與不能被共享的可選的d1的復(fù)合;在二級(jí)增量編碼中,段存儲(chǔ)把每一個(gè)邏輯段表示為可以被共享的d0、可以被共享的可選的d1、以及與不能被共享的可選的d2的復(fù)合。如果某一邏輯段被表示為d0,則將其標(biāo)記為e0;如果某一邏輯段的相應(yīng)的最高級(jí)增量是d1,則將其標(biāo)記為e1;如果某一邏輯段的相應(yīng)的最高級(jí)增量是d2,則將其標(biāo)記為e2。身份壓縮可以被視為零級(jí)增量編碼,其中段存儲(chǔ)把每一個(gè)邏輯段表示為可以被共享的d0。在按照其壓縮形式來(lái)存儲(chǔ)所述輸入數(shù)據(jù)流時(shí)(例如在存儲(chǔ)來(lái)-->自所述輸入數(shù)據(jù)流的某一新段時(shí))沒(méi)有信息損失。在一些實(shí)施例中,在二級(jí)增量編碼中,d0較大,d2較小,而d1是至為重要的,例如,d0是1MB,d2是10KB,以及d1是100KB。二級(jí)增量編碼平衡對(duì)于更激進(jìn)的壓縮的需求(不僅在各邏輯段本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
一種利用數(shù)據(jù)段的相似度進(jìn)行存儲(chǔ)的方法,包括: 確定新段與先前存儲(chǔ)的段相似,其中所述先前存儲(chǔ)的段包括來(lái)自輸入數(shù)據(jù)流中的任何位置的先前存儲(chǔ)的段; 確定所述新段與所述先前存儲(chǔ)的段之間的增量;以及 至少部分地基于所述增量來(lái)存儲(chǔ)所述 新段的表示。
【技術(shù)特征摘要】
【國(guó)外來(lái)華專利技術(shù)】US 2006-4-11 11/402,6311、一種利用數(shù)據(jù)段的相似度進(jìn)行存儲(chǔ)的方法,包括:
確定新段與先前存儲(chǔ)的段相似,其中所述先前存儲(chǔ)的段包括來(lái)自輸
入數(shù)據(jù)流中的任何位置的先前存儲(chǔ)的段;
確定所述新段與所述先前存儲(chǔ)的段之間的增量;以及
至少部分地基于所述增量來(lái)存儲(chǔ)所述新段的表示。
2、如權(quán)利要求1所述的方法,其中,所述增量包括所述新段與所述
先前存儲(chǔ)的段之間的差異。
3、如權(quán)利要求1所述的方法,其中,確定相似度包括:把所述新段
的概要特征集合與所述先前存儲(chǔ)的段的概要特征集合進(jìn)行比較。
4、如權(quán)利要求1所述的方法,還包括:如果新段與所述先前存儲(chǔ)的
段不相似,則存儲(chǔ)該新段。
5、如權(quán)利要求1所述的方法,其中,存儲(chǔ)所述新段的所述表示包括:
存儲(chǔ)所述增量以及所述先前存儲(chǔ)的段的指示。
6、如權(quán)利要求1所述的方法,其中,如果所述增量大于預(yù)定閾值則
存儲(chǔ)所述新段的所述表示包括:存儲(chǔ)所述新段。
7、如權(quán)利要求1所述的方法,其中,存儲(chǔ)所述新段的所述表示包括:
存儲(chǔ)所述增量與第二增量的組合。
8、如權(quán)利要求1所述的方法,其中,存儲(chǔ)所述新段的所述表示包括:
對(duì)所述新段進(jìn)行本地壓縮。
9、如權(quán)利要求1所述的方法,其中,存儲(chǔ)所述新段的所述表示包括:
對(duì)所述增量進(jìn)行本地壓縮。
10、如權(quán)利要求1所述的方法,其中,對(duì)于所述新段計(jì)算標(biāo)識(shí)符。
11、如權(quán)利要求1所述的方法,其中,對(duì)于所述新段計(jì)算標(biāo)識(shí)符,
并且所述標(biāo)識(shí)符包括指紋。
12、如權(quán)利要求1所述的方法,其中,對(duì)于所述新段計(jì)算標(biāo)識(shí)符,
并且所述標(biāo)識(shí)符包括順序生成的數(shù)字。
13、如權(quán)利要求1所述的方法,其中,對(duì)于所述增量計(jì)算標(biāo)識(shí)符。
14、如權(quán)利要求1所述的方法,其中...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:K李,MB朱,U馬赫什沃里,Z楊,
申請(qǐng)(專利權(quán))人:數(shù)據(jù)域公司,
類型:發(fā)明
國(guó)別省市:US[美國(guó)]
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。