重復(fù)數(shù)據(jù)刪除技術(shù)
發(fā)布人:scutech 發(fā)布日期:2012-09-27 16:38:23 點擊數(shù):3986
1.什么是重復(fù)數(shù)據(jù)刪除技術(shù)?
首先,重復(fù)數(shù)據(jù)刪除技術(shù)不同于普通的壓縮技術(shù)。壓縮是通過壓縮算法消除文件內(nèi)的冗余數(shù)據(jù)來縮減文件大小,而重復(fù)數(shù)據(jù)刪除是通過算法消除分布在存儲系統(tǒng)中的相同文件或者數(shù)據(jù)塊。其次,重復(fù)數(shù)據(jù)刪除也不同于普通的增量備份。增量備份的要旨是只備份新產(chǎn)生的數(shù)據(jù),而重復(fù)數(shù)據(jù)刪除技術(shù)的關(guān)鍵是只保留唯一的數(shù)據(jù)實例,所以重復(fù)數(shù)據(jù)刪除技術(shù)在減少數(shù)據(jù)存儲量方面更加有效。大部分廠商聲稱其重復(fù)數(shù)據(jù)刪除產(chǎn)品能將數(shù)據(jù)縮減到正常容量的1/20。重復(fù)數(shù)據(jù)刪除技術(shù)的基本原理是將數(shù)據(jù)分塊篩選,找出相同的數(shù)據(jù)塊并以指向唯一實例的指針取代。重復(fù)數(shù)據(jù)刪除技術(shù)是一種數(shù)據(jù)縮減技術(shù),通常用于基于磁盤的備份系統(tǒng),旨在減少存儲系統(tǒng)中使用的存儲容量。它的工作方式是在某個時間周期內(nèi)查找不同文件中不同位置的重復(fù)可變大小數(shù)據(jù)塊。重復(fù)的數(shù)據(jù)塊用指示符取代。高度冗余的數(shù)據(jù)集(例如備份數(shù)據(jù))從數(shù)據(jù)重復(fù)刪除技術(shù)的獲益極大;用戶可以實現(xiàn)10比1至50比1的縮減比。而且,重復(fù)數(shù)據(jù)刪除技術(shù)可以允許用戶的不同站點之間進(jìn)行高效,經(jīng)濟的備份數(shù)據(jù)復(fù)制。
2.基于軟件的重復(fù)數(shù)據(jù)刪除和基于硬件的重復(fù)數(shù)據(jù)刪除的優(yōu)缺點
基于軟件的重復(fù)數(shù)據(jù)刪除旨在消除源的冗余,而基于硬件的重復(fù)數(shù)據(jù)刪除強調(diào)存儲系統(tǒng)本身的數(shù)據(jù)削減。雖然基于硬件的重復(fù)數(shù)據(jù)刪除無法提供帶寬補償,而在源中進(jìn)行重復(fù)數(shù)據(jù)刪除中有可能獲得帶寬補償,但是基于硬件的重復(fù)數(shù)據(jù)刪除的壓縮級別通常會更高,并且基于硬件的重復(fù)數(shù)據(jù)刪除產(chǎn)品需要的維護(hù)更少。硬件重復(fù)數(shù)據(jù)刪除設(shè)備以它們的高性能、可擴展性以及相對不間斷的部署而備受關(guān)注。正常情況下,備份軟件會將專用設(shè)備看作是一種一般的“磁盤系統(tǒng)”,并且完全不會發(fā)覺其內(nèi)部正在進(jìn)行的重復(fù)數(shù)據(jù)刪除進(jìn)程。小型企業(yè)或遠(yuǎn)程辦公通常會避免使用設(shè)備,因為這些設(shè)備的費用要比用軟件來實現(xiàn)重復(fù)數(shù)據(jù)刪除的費用高,但是,它們確實是企業(yè)級部署的理想選擇。基于硬件的重復(fù)數(shù)據(jù)刪除也可能融合到其它存儲(目標(biāo))平臺上。例如,重復(fù)數(shù)據(jù)刪除經(jīng)常是VTL系統(tǒng)的一項功能之一。VTL系統(tǒng)通過使用磁盤而不是磁帶進(jìn)行存儲,從而提高備份任務(wù)的速度,而且,添加重復(fù)數(shù)據(jù)刪除使VTL磁盤使用率達(dá)到最大。在很多情況下,VTL重復(fù)數(shù)據(jù)刪除是作為一種out-of-band進(jìn)程來執(zhí)行的。這是其一項優(yōu)勢,因為所有VTL的內(nèi)容都可以通過重復(fù)數(shù)據(jù)刪除技術(shù)以達(dá)到很好的壓縮比率。不好之處在于重復(fù)數(shù)據(jù)刪除不是實時的。然而,一些VTL系統(tǒng)在接收到備份服務(wù)器的數(shù)據(jù)之后,引入了in-band重復(fù)備份數(shù)據(jù)刪除的處理能力。
3.硬件的重復(fù)數(shù)據(jù)刪除產(chǎn)品中In-band和Out-of-band比較
基于硬件的重復(fù)數(shù)據(jù)刪除產(chǎn)品的好處:基于硬件的重復(fù)數(shù)據(jù)刪除產(chǎn)品能減輕與基于軟件的重復(fù)數(shù)據(jù)刪除產(chǎn)品相關(guān)的處理負(fù)擔(dān)。重復(fù)數(shù)據(jù)刪除功能還被融合到其它數(shù)據(jù)保護(hù)硬件中,如備份平臺、虛擬磁帶庫(VTL)系統(tǒng)甚至通用存儲系統(tǒng)像網(wǎng)絡(luò)附加存儲(NAS)等。通常這種方法并不旨在縮小備份窗口或恢復(fù)目標(biāo),但是一般而言,用戶能借此達(dá)到最高的壓縮級別,從而創(chuàng)造最大的可用存儲空間。in-band重復(fù)數(shù)據(jù)刪除在數(shù)據(jù)寫入存儲器時削減數(shù)據(jù)。盡管進(jìn)程處理需要額外的處理能力從而可能擴大備份窗口的大小,但是in-band重復(fù)刪除是有效率的,因為它只執(zhí)行一次。out-of-band重復(fù)數(shù)據(jù)刪除是在數(shù)據(jù)存儲完之后執(zhí)行。這種方法不會影響備份窗口的大小,并且能緩解對CPU進(jìn)程處理的關(guān)注,從而避免在備份服務(wù)器和存儲器之間產(chǎn)生瓶頸。然而,out-of-band重復(fù)數(shù)據(jù)刪除在執(zhí)行過程中使用稍微多一點的磁盤空間。還有,out-of-band重復(fù)數(shù)據(jù)刪除需要花費的時間可能要比實際的備份窗口長。磁盤競爭是另一個問題,因為用戶在重復(fù)數(shù)據(jù)刪除過程期間嘗試訪問存儲器,從而降低了磁盤性能。
4.兩種主要的重復(fù)數(shù)據(jù)刪除方法
目前有兩種主要的重復(fù)數(shù)據(jù)刪除方法:基于散列的方法和基于字節(jié)比較的方法?;谏⒘械姆椒ɡ靡环N算法對輸入數(shù)據(jù)進(jìn)行處理來創(chuàng)建很小的表達(dá)式和數(shù)據(jù)唯一的標(biāo)識符(即所謂的散列值)。然后,將其與保存在查尋表中的散列值進(jìn)行比較。但是,利用查尋表來確定重復(fù)的散列串會造成巨大的性能壓力,并且可能需要幾周時間才能取得最優(yōu)的重復(fù)刪除效率。效率更高的方法是在對象級上進(jìn)行比較。例如,將Word文檔與另一個Word文檔進(jìn)行比較,要么采用模式匹配算法;要么采用效率更高的智能分析技術(shù)。智能分析在更詳細(xì)地比較兩個文件之前會分析備份文件和參考數(shù)據(jù)集合來確定可能是冗余的文件。由于把處理重點放在可能的重復(fù)數(shù)據(jù)上,它可以更徹底地去除重復(fù)數(shù)據(jù)和避免不必要的處理新文件。一些技術(shù)在數(shù)據(jù)備份過程中進(jìn)行重復(fù)數(shù)據(jù)刪除。這種在線的重復(fù)數(shù)據(jù)刪除會降低備份性能,增加備份的復(fù)雜性。另一些技術(shù)執(zhí)行帶外的重復(fù)數(shù)據(jù)刪除,在執(zhí)行時,它們首先備份數(shù)據(jù),然后再執(zhí)行重復(fù)數(shù)據(jù)刪除。字節(jié)級重復(fù)數(shù)據(jù)刪除可提供高達(dá)25:1數(shù)據(jù)壓縮率。當(dāng)與典型的VTL特性,即壓縮技術(shù)配合使用時,企業(yè)無須增加存儲容量就可在同樣的空間中多保存50倍的數(shù)據(jù)。這種壓縮技術(shù)不僅使用戶可以在線保存更多的數(shù)據(jù),并使數(shù)據(jù)保持更長的在線時間,還帶來了將數(shù)據(jù)保存在硬盤上的優(yōu)勢。例如,把數(shù)據(jù)保存在硬盤上比保存在磁帶上占用更少的物理空間,并大大減少電源、冷卻、安全和其他運營與基礎(chǔ)設(shè)施費用。重復(fù)數(shù)據(jù)刪除技術(shù)通過使備份到VTL的費用大大低于純基于硬盤的數(shù)據(jù)保護(hù)解決方案,改進(jìn)了數(shù)據(jù)保護(hù)的經(jīng)濟性。同時,它也是數(shù)據(jù)中心應(yīng)對急劇增加的能源、勞動力和空間費用,以及管理即將出現(xiàn)的電源和冷卻容量短缺的重要的途徑。