解析分級存儲管理(HSM)

   衆所周知,企業的應用系統在線處理大量的數據,隨着數據量的不斷加大,如果都採用傳統的在線存儲方式,就需要大容量本地一級硬盤。這樣一來一方面投資會相當較大,而且管理起 來也相對較複雜;另一方面由於磁盤中存儲的大部分數據訪問率並不高,但仍然佔據硬盤空間,會導致存取速度下降。在這種情況下,層次化存儲管理軟件,或稱爲數據遷移軟件,可以在性能和價格間作出最好的平衡。這就是本文要與大家討論的分級存儲管理(HSM)。首先來了解一下分級存儲中所涉及的三種存儲方式。
    
一、  三種存儲方式

    所謂分級存儲,就是根據數據不同的重要性、訪問頻次等指標分別存儲在不同性能的存儲設備上,採取不同的存儲方式。這樣一方面可大大減少非重要性數據在一級本地磁盤所佔用的空間,還可加快整個系統的存儲性能。在這裏就涉及到幾種不同性能的存儲設備和不同的存儲形式了。
    目前常用於數據存儲的存儲設備主要有磁盤(包括磁盤陣列)、磁帶(包括磁帶機和磁帶庫)和光盤(包括一切CD-R、CD-RW、DVD-R、DVD-RW等光盤塔和光盤庫設備)。從性能上來說,磁盤當然是最好的,光盤次之,最差的是磁帶。而從價格上來說,單位容量成本上升磁盤最貴、光盤次之,磁帶最低。這就爲我們不同的應用追求最佳性價比提供了條件,因爲這些不同的存儲媒介可應用於不同的存儲方式中。這不同的存儲形式包括在線存儲(OnStore)、近線存儲(NearStore)和離線存儲(OffStore)。
    在線存儲
    在線存儲又稱工作級的存儲,存儲設備和所存儲的數據時刻保持“在線”狀態,是可隨意讀取的,可滿足計算平臺對數據訪問的速度要求。如我們PC機中常用的磁盤基本上都是採用這種存儲形式的。一般在線存儲設備爲磁盤和磁盤陣列等磁盤設備,價格相對昂貴,但性能最好。
    離線存儲
    離線存儲主要是用於對在線存儲的數據進行備份,以防範可能發生的數據災難,因此又稱備份級的存儲。離線海量存儲的典型產品就是磁帶或磁帶庫,價格相對低廉。離線存儲介質上的數據在讀寫時是順序進行的。當需要讀取數據時,需要把帶子捲到頭,再進行定位。當需要對已寫入的數據進行修改時,所有的數據都需要全部進行改寫。因此,離線海量存儲的訪問是慢速度、低效率的。
    近線存儲
    所謂近線存儲,就是指將那些並不是經常用到,或者說數據的訪問量並不大的數據存放在性能較低的存儲設備上。對這些的設備要求是尋址迅速、傳輸率高。因此,近線存儲對性能要求相對來說並不高,但由於不常用的數據要佔總數據量的大多數,這也就意味着近線存儲設備首先要保證的是容量。
    在分級數據存儲結構中,磁帶庫等成本較低的存儲資源用來存放訪問頻率較低的信息,而磁盤或磁盤陣列等成本高、速度快的設備,用來存儲經常訪問的重要信息。數據分級存儲的工作原理是基於數據訪問的局部性。通過將不經常訪問的數據自動移到存儲層次中較低的層次,釋放出較高成本的存儲空間給更頻繁訪問的數據,可以獲得更好的總體性價比。

二、  分級存儲的必要性和主要優點

    今天企業的數據中心非常複雜,數據保護是其關鍵。但是,並非所有的數據都具有同樣的價值,也並非所有的企業都具有同樣的需求。的確如此,通常認爲企業中的關鍵和非關鍵數據量也符合“二八原則”,就是隻有20%的關鍵數據,而80%都是非關鍵的。系統中60%至80%的數據經常在一個月,甚至一年中都不會被訪問。而在經常訪問的數據中,重要性差別也十分突出,有的數據與用戶的業務聯繫緊密,可靠性、可用性及性能要求都很高,有的儘管經常使用但是與業務聯繫不是特別緊密。一般來說,重用數據的概率自數據創建3天之後就會下降50%,當數據創建30天后,重用的概率通常會降至很低,而高達90%的數據超過90天后就不會或很少被讀取。爲了提供良好的數據保護,IT部門通常都保留巨大的空餘空間,用以防止出現容量不足的現象。
    IT企業總是要面對增長起來無休無止的數據量。各種應用都在創建越來越大的文件,用戶也很少刪除數據和存檔,這就導致要訪問舊一些的文件已經變得非常困難。之所以要採取分組存儲,是因爲它既能最大限度地滿足用戶隨時訪問所有需要經常使用的數據,又可使存儲成本最小化。綜合起來,可以得出分級存儲的優點主要體現在以下兩個方面:
    1、  減少總體存儲成本
    在傳統的在線存儲中,所有數據都存儲在一線磁盤存儲設備上,而由於絕大多數數據的訪問率並不高,佔住了大量寶貴的磁盤空間,在一定程度上是一種浪費。如果把這些數據轉移到存儲性能稍低的磁盤(如IDE或SATA接口磁盤)或光盤存儲設備上,存儲成本可得以大幅降低。
    2、  提高整體系統性能
    由於絕大部分數據轉移到下級存儲設備上,那需要時刻保持在線的數據就少了,系統資源的佔用也就少了許多,整體系統性能自然也就提高了。如果採用了離線存儲方式對很少使用的數據保存在像磁帶這樣的離線存儲媒體上時,則不僅可提高系統性能,還可確保數據的安全性。
   
三、  分級存儲的管理
    分級存儲管理(Hierarchical Storage Management,HSM)就是要將用戶擁有的所有存儲資源統一管理,提高每種存儲設備的利用率,節約了成本。在分級存儲中,存儲的分級是十分明顯的,僅從設備上說,就有磁帶機、磁帶庫、NAS、中低端盤陣、高端存儲系統等等。而且在線、近線與離線存儲存放的數據價值不同,如何根據用戶數據的不同價值合理利用好每種存儲資源是一個不小的挑戰。
    分級存儲管理起源於1978年,首先使用於IBM的大型機系統。近10年來,HSM被廣泛應用於開放系統的Unix和Windows平臺。其中最關鍵的技術就是近線存儲和數據遷移技術。
    分級存儲管理是一種將離線存儲與在線存儲融合的技術。它將高速、高容量的非在線存儲設備作爲磁盤設備的下一級設備,然後將磁盤中常用的數據按指定的策略自動遷移到磁帶庫等二級大容量存儲設備上。當需要使用這些數據時,分級存儲系統會自動將這些數據從下一級存儲設備調回到上一級磁盤上。對於用戶來說,上述數據遷移操作完全是透明的,只是在訪問磁盤的速度上略有怠慢,而在邏輯磁盤的容量上明顯感覺大大提高了。通俗地講,數據遷移是一種可以把大量不經常訪問的數據存放在磁帶庫、光盤庫等離線介質上,只在磁盤陣列上保存少量訪問頻率高的數據的技術。當那些磁帶等介質上數據被訪問時,系統自動地把這些數據回遷到磁盤陣列中;同樣,磁盤陣列中很久未訪問的數據被自動遷移到磁帶介質上,從而大大降低投入和管理成本。
    HSM應用也具備監測磁盤容量並在關鍵容量情況下做出反應的能力。這種軟件經過配置後可以爲某個卷設定一個最小的剩餘空間,當達到這個極限後自動向用戶發出警告,提示用戶或自動進行數據遷移。這樣便可以立即釋放空間,管理員也可以在今後有空閒時再來解決空間的問題。
    由此可見,分級存儲管理更多從降低成本、不影響數據應用效果的角度解決數據的存儲問題。事實上,降低成本、提高效率已成爲IT廠商追逐技術進步的一個目標。近線存儲就是這種進步的產物。伴隨單盤成本的下降,近線存儲市場漸熱,有業內專家預測,不久的將來,近線存儲技術將取代數據遷移技術,用戶將以模擬海量空間的、更爲安全可靠的磁盤介質保存歷史數據。而成熟完善的數據遷移軟件技術將更爲恰到好處的融入到近線存儲設備中,爲近線存儲技術的發展起到推波助瀾的作用。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章