• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    利用了數(shù)據(jù)段的相似度的高效數(shù)據(jù)存儲(chǔ)制造技術(shù)

    技術(shù)編號(hào):2912283 閱讀:319 留言:0更新日期:2012-04-11 18:40
    公開(kāi)了利用數(shù)據(jù)段的相似度進(jìn)行存儲(chǔ)。確定新段與先前存儲(chǔ)的段相似。所述先前存儲(chǔ)的段包括來(lái)自輸入數(shù)據(jù)流中的任何位置的先前存儲(chǔ)的段。確定所述新段與所述先前存儲(chǔ)的段之間的增量。至少部分地基于所述增量來(lái)存儲(chǔ)所述新段的表示。

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    【國(guó)外來(lái)華專利技術(shù)】專利技術(shù)背景一種高效地存儲(chǔ)數(shù)據(jù)的方法是防止對(duì)于在備份之間保持不變的數(shù)據(jù)的冗余拷貝。這種高效的存儲(chǔ)是通過(guò)把來(lái)自各數(shù)據(jù)源的數(shù)據(jù)流分成段(segment)并且把所述段以及所述段的標(biāo)識(shí)符的索引存儲(chǔ)在存儲(chǔ)設(shè)備上來(lái)實(shí)現(xiàn)的。在后續(xù)的備份操作期間,再次對(duì)所述數(shù)據(jù)流進(jìn)行分段,并且在所述索引中查找所述段以便確定某一數(shù)據(jù)段先前是否已被存儲(chǔ)過(guò)。如果找到完全相同的段,則不再存儲(chǔ)該數(shù)據(jù)段;否則就存儲(chǔ)所述新的數(shù)據(jù)段和新的索引標(biāo)識(shí)符。遺憾的是,隨著將要備份的數(shù)據(jù)量的增加,所述段的數(shù)目(如果所述段的尺寸近似的話)以及所述索引條目的數(shù)目也會(huì)增加。所述段和索引條目的數(shù)目的增加會(huì)導(dǎo)致存取性能的降低:對(duì)于寫入,必須把到來(lái)的段索引與所述索引中的所有條目進(jìn)行比較;以及對(duì)于讀取,必須從較大數(shù)目的段當(dāng)中檢索與某一文件相關(guān)聯(lián)的段。如果增大所述段的尺寸,則會(huì)減少所述段的數(shù)目,從而所述索引條目的數(shù)目也會(huì)減少,性能也可以得到保持;然而,由于出現(xiàn)較長(zhǎng)的完全相同的段的幾率沒(méi)有那么高,因此存儲(chǔ)效率會(huì)降低。如果可以在不犧牲存儲(chǔ)效率的情況下保持存取性能,則將是有益的。附圖簡(jiǎn)述在下面的詳細(xì)描述和附圖中公開(kāi)了本專利技術(shù)的各種實(shí)施例。圖1是示出利用數(shù)據(jù)段的相似度進(jìn)行高效存儲(chǔ)的系統(tǒng)的一個(gè)實(shí)施例的方框圖。圖2是示出利用數(shù)據(jù)段的相似度進(jìn)行高效存儲(chǔ)的處理的一個(gè)實(shí)施例的方框圖。圖3是示出寫入期間的內(nèi)容存儲(chǔ)過(guò)程的一個(gè)實(shí)施例的流程圖。圖4是示出用于生成邏輯段以及計(jì)算概要特征集合的過(guò)程的一個(gè)實(shí)施例的流程圖。圖5是示出讀取期間的內(nèi)容存儲(chǔ)過(guò)程的一個(gè)實(shí)施例的流程圖。圖6是示出寫入期間的段存儲(chǔ)過(guò)程的一個(gè)實(shí)施例的流程圖。圖7是示出相似度確定過(guò)程的一個(gè)實(shí)施例的流程圖。-->圖8是示出針對(duì)讀取的段存儲(chǔ)過(guò)程的一個(gè)實(shí)施例的流程圖。詳細(xì)描述可以按照多種方式來(lái)實(shí)施本專利技術(shù),其中包括把本專利技術(shù)實(shí)施為一種過(guò)程、設(shè)備、系統(tǒng)、物質(zhì)構(gòu)成、計(jì)算機(jī)可讀介質(zhì)(比如計(jì)算機(jī)可讀存儲(chǔ)介質(zhì))或者計(jì)算機(jī)網(wǎng)絡(luò)(其中通過(guò)光學(xué)或電子通信鏈路來(lái)發(fā)送程序指令)。在本說(shuō)明書中,這些實(shí)施方式或者本專利技術(shù)所能采取的任何其他形式都可以被稱作技術(shù)。諸如被描述為被配置成執(zhí)行任務(wù)的處理器或存儲(chǔ)器之類的組件包括通用組件或?qū)S媒M件,其中所述通用組件在給定時(shí)間被臨時(shí)配置成執(zhí)行所述任務(wù),而所述專用組件是為了執(zhí)行所述任務(wù)而被制造的。一般來(lái)說(shuō),在本專利技術(shù)的范圍內(nèi)可以改變所公開(kāi)的過(guò)程的各步驟的順序。在下面連同附圖一起提供對(duì)本專利技術(shù)的一個(gè)或多個(gè)實(shí)施例的詳細(xì)描述,所述附圖示出本專利技術(shù)的原理。下面將結(jié)合所述實(shí)施例來(lái)描述本專利技術(shù),但是本專利技術(shù)不限于任何實(shí)施例。本專利技術(shù)的范圍僅僅由權(quán)利要求書來(lái)限定,并且本專利技術(shù)包含許多替換方案、修改和等效方案。為了提供對(duì)于本專利技術(shù)的透徹理解,在下面的描述中闡述了許多具體細(xì)節(jié)。提供這些細(xì)節(jié)是出于舉例的目的,并且可以在沒(méi)有一些或全部所述具體細(xì)節(jié)的情況下根據(jù)權(quán)利要求書來(lái)實(shí)踐本專利技術(shù)。為了清楚起見(jiàn)沒(méi)有描述本專利技術(shù)的相關(guān)
    內(nèi)已知的技術(shù)材料,以免不必要地模糊本專利技術(shù)。公開(kāi)了利用數(shù)據(jù)段的相似度來(lái)進(jìn)行高效的存儲(chǔ)。確定一個(gè)新段與一個(gè)先前存儲(chǔ)的段相似,其中所述先前存儲(chǔ)的段包括來(lái)自某一輸入數(shù)據(jù)流中的任何位置的一個(gè)先前存儲(chǔ)的段。至少部分地基于增量來(lái)存儲(chǔ)所述新段的表示。存儲(chǔ)增量會(huì)提高存儲(chǔ)效率,尤其是在其中各段與先前存儲(chǔ)的段相比可能具有小的改變的情況下,這是因?yàn)榕c存儲(chǔ)新段相比,存儲(chǔ)小的增量更為高效。通過(guò)把第一段的概要特征集合與第二段的概要特征集合進(jìn)行比較來(lái)確定相似度。在一些實(shí)施例中,所述第一段是從某一輸入數(shù)據(jù)流到達(dá)的段,而所述第二段是來(lái)自某一輸入數(shù)據(jù)流的先前已被存儲(chǔ)在備份存儲(chǔ)系統(tǒng)中的任何段。在一些實(shí)施例中,所述第一段與第一輸入數(shù)據(jù)流相關(guān)聯(lián),而所述第二段與第二輸入數(shù)據(jù)流相關(guān)聯(lián)。在一些實(shí)施例中,所述相似度包括第一段與第二段之間的逐字節(jié)相似性的度量。通過(guò)以下操作來(lái)確定概要特征集合:選擇第一段的多個(gè)固定長(zhǎng)度或可變長(zhǎng)度-->的子段;對(duì)于每一個(gè)子段,通過(guò)對(duì)于每一個(gè)子段應(yīng)用一組函數(shù)來(lái)計(jì)算多個(gè)值;以及從對(duì)于所有所述子段所計(jì)算的所有所述值當(dāng)中選擇第一值子集。在一些實(shí)施例中,所述第一值子集被用于確定所述第一段與第二段之間的相似度。在一些實(shí)施例中,在相似度壓縮的情況下(利用相似度高效地存儲(chǔ)數(shù)據(jù)段),在內(nèi)容存儲(chǔ)中的處理期間把用戶寫入流(其對(duì)應(yīng)于整個(gè)文件或者某一文件的地址范圍或者用于寫入的連續(xù)數(shù)據(jù)的地址范圍)分解成各邏輯段。把所述邏輯段發(fā)送到段存儲(chǔ)以供壓縮及存儲(chǔ)。內(nèi)容存儲(chǔ)還接收具有段描述符的形式的段存儲(chǔ)反饋,其中的每一個(gè)所述描述符描述某一邏輯段在段存儲(chǔ)中如何被壓縮及表示。內(nèi)容存儲(chǔ)保持所述地址范圍與其相應(yīng)的從段存儲(chǔ)返回的邏輯段和段描述符之間的映射。內(nèi)容存儲(chǔ)負(fù)責(zé)進(jìn)行以下操作:映射地址范圍與其相應(yīng)的邏輯段和段描述符;把對(duì)應(yīng)于用戶讀取流(其對(duì)應(yīng)于整個(gè)文件或者某一文件的地址范圍或者用于讀取的連續(xù)數(shù)據(jù)的地址范圍)的段描述符遞送到段存儲(chǔ);以及接收對(duì)應(yīng)于邏輯段的數(shù)據(jù)。在相似度壓縮情況下的內(nèi)容存儲(chǔ)的行為在很大程度上類似于在身份(identity)壓縮下的情況。在一些實(shí)施例中,在段存儲(chǔ)中把各段表示為多個(gè)物理段的復(fù)合。更為精確地說(shuō),每一個(gè)邏輯段被表示為一個(gè)基礎(chǔ)和一系列等級(jí)越來(lái)越高(或者說(shuō)尺寸越來(lái)越小)的增量,其中每一個(gè)基礎(chǔ)或增量是一個(gè)完整物理段或者是某一物理段的一部分。基礎(chǔ)直接對(duì)應(yīng)于內(nèi)容存儲(chǔ)中的邏輯段,并且被標(biāo)記為d0。一級(jí)增量是兩個(gè)(不同的)邏輯段之間的差異,并且被標(biāo)記為d1。二級(jí)增量是兩個(gè)(不同的)d1之間的差異,并且被標(biāo)記為d2。在各種實(shí)施例中,相似度壓縮使用一級(jí)增量編碼或者二級(jí)增量編碼。在一級(jí)增量編碼中,段存儲(chǔ)把每一個(gè)邏輯段表示為可以被共享的d0與不能被共享的可選的d1的復(fù)合;在二級(jí)增量編碼中,段存儲(chǔ)把每一個(gè)邏輯段表示為可以被共享的d0、可以被共享的可選的d1、以及與不能被共享的可選的d2的復(fù)合。如果某一邏輯段被表示為d0,則將其標(biāo)記為e0;如果某一邏輯段的相應(yīng)的最高級(jí)增量是d1,則將其標(biāo)記為e1;如果某一邏輯段的相應(yīng)的最高級(jí)增量是d2,則將其標(biāo)記為e2。身份壓縮可以被視為零級(jí)增量編碼,其中段存儲(chǔ)把每一個(gè)邏輯段表示為可以被共享的d0。在按照其壓縮形式來(lái)存儲(chǔ)所述輸入數(shù)據(jù)流時(shí)(例如在存儲(chǔ)來(lái)-->自所述輸入數(shù)據(jù)流的某一新段時(shí))沒(méi)有信息損失。在一些實(shí)施例中,在二級(jí)增量編碼中,d0較大,d2較小,而d1是至為重要的,例如,d0是1MB,d2是10KB,以及d1是100KB。二級(jí)增量編碼平衡對(duì)于更激進(jìn)的壓縮的需求(不僅在各邏輯段本文檔來(lái)自技高網(wǎng)
    ...

    【技術(shù)保護(hù)點(diǎn)】
    一種利用數(shù)據(jù)段的相似度進(jìn)行存儲(chǔ)的方法,包括: 確定新段與先前存儲(chǔ)的段相似,其中所述先前存儲(chǔ)的段包括來(lái)自輸入數(shù)據(jù)流中的任何位置的先前存儲(chǔ)的段; 確定所述新段與所述先前存儲(chǔ)的段之間的增量;以及 至少部分地基于所述增量來(lái)存儲(chǔ)所述 新段的表示。

    【技術(shù)特征摘要】
    【國(guó)外來(lái)華專利技術(shù)】US 2006-4-11 11/402,6311、一種利用數(shù)據(jù)段的相似度進(jìn)行存儲(chǔ)的方法,包括:
    確定新段與先前存儲(chǔ)的段相似,其中所述先前存儲(chǔ)的段包括來(lái)自輸
    入數(shù)據(jù)流中的任何位置的先前存儲(chǔ)的段;
    確定所述新段與所述先前存儲(chǔ)的段之間的增量;以及
    至少部分地基于所述增量來(lái)存儲(chǔ)所述新段的表示。
    2、如權(quán)利要求1所述的方法,其中,所述增量包括所述新段與所述
    先前存儲(chǔ)的段之間的差異。
    3、如權(quán)利要求1所述的方法,其中,確定相似度包括:把所述新段
    的概要特征集合與所述先前存儲(chǔ)的段的概要特征集合進(jìn)行比較。
    4、如權(quán)利要求1所述的方法,還包括:如果新段與所述先前存儲(chǔ)的
    段不相似,則存儲(chǔ)該新段。
    5、如權(quán)利要求1所述的方法,其中,存儲(chǔ)所述新段的所述表示包括:
    存儲(chǔ)所述增量以及所述先前存儲(chǔ)的段的指示。
    6、如權(quán)利要求1所述的方法,其中,如果所述增量大于預(yù)定閾值則
    存儲(chǔ)所述新段的所述表示包括:存儲(chǔ)所述新段。
    7、如權(quán)利要求1所述的方法,其中,存儲(chǔ)所述新段的所述表示包括:
    存儲(chǔ)所述增量與第二增量的組合。
    8、如權(quán)利要求1所述的方法,其中,存儲(chǔ)所述新段的所述表示包括:
    對(duì)所述新段進(jìn)行本地壓縮。
    9、如權(quán)利要求1所述的方法,其中,存儲(chǔ)所述新段的所述表示包括:
    對(duì)所述增量進(jìn)行本地壓縮。
    10、如權(quán)利要求1所述的方法,其中,對(duì)于所述新段計(jì)算標(biāo)識(shí)符。
    11、如權(quán)利要求1所述的方法,其中,對(duì)于所述新段計(jì)算標(biāo)識(shí)符,
    并且所述標(biāo)識(shí)符包括指紋。
    12、如權(quán)利要求1所述的方法,其中,對(duì)于所述新段計(jì)算標(biāo)識(shí)符,
    并且所述標(biāo)識(shí)符包括順序生成的數(shù)字。
    13、如權(quán)利要求1所述的方法,其中,對(duì)于所述增量計(jì)算標(biāo)識(shí)符。
    14、如權(quán)利要求1所述的方法,其中...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:K李MB朱U馬赫什沃里Z楊
    申請(qǐng)(專利權(quán))人:數(shù)據(jù)域公司
    類型:發(fā)明
    國(guó)別省市:US[美國(guó)]

    相關(guān)技術(shù)
    網(wǎng)友詢問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: r级无码视频在线观看| 色综合久久久无码中文字幕波多| 国产午夜鲁丝无码拍拍| 亚洲AV无码一区二区三区系列| 亚洲av永久无码精品漫画| 无码国产成人午夜电影在线观看| 熟妇人妻无码中文字幕老熟妇| 亚洲AV永久无码精品成人| 日韩乱码人妻无码中文字幕久久| 免费无码肉片在线观看| 亚洲国产精品无码av| 国产成人精品无码一区二区老年人| 亚洲AV无码国产精品色午友在线| 精品无码成人网站久久久久久 | 日本精品无码一区二区三区久久久 | 韩国精品一区二区三区无码视频 | 精品无码成人片一区二区98| 亚洲AV无码一区二区三区鸳鸯影院 | 无码人妻丰满熟妇区96| 中文字幕人妻无码系列第三区| 亚洲Aⅴ在线无码播放毛片一线天| 亚洲真人无码永久在线| 亚洲va中文字幕无码 | 天码av无码一区二区三区四区| 69久久精品无码一区二区| 国产精品无码专区| 亚洲热妇无码AV在线播放| 精品国产性色无码AV网站| 在线观看成人无码中文av天堂| 无码AV中文一区二区三区| 久久午夜无码免费| 国产亚洲精品a在线无码| 18禁超污无遮挡无码免费网站| 亚洲精品无码久久毛片| 国产精品无码永久免费888| 日韩电影无码A不卡| 亚洲精品人成无码中文毛片| 亚洲Aⅴ无码一区二区二三区软件| 亚洲AV无码乱码在线观看| 国产成人精品无码一区二区| 国产真人无码作爱视频免费|