事實上,數據也是具有生命周期的,不同時期有其存在的不同意義。數據剛生成時,訪問頻率最高,數據的價值也最高;隨著時間的推移,訪問頻率降低,數據的價值也隨之下降,低訪問頻率的數據量遠遠超過高訪問頻率的數據量。如果全部用高性能存儲設備來存儲所有數據,費用非常高,管理也復雜,也沒有必要。
一般對企業來說,數據從產生到存儲、利用、歸檔,最后超過存儲期限被刪除,數據被讀取的頻率逐漸下降,數據存儲的位置也應該隨之變化,以提高存儲設備的使用率,降低存儲成本。因此有必要進行分級存儲,企業在存儲其關鍵業務數據時,采用昂貴的存儲設備、存儲技術和存儲方式。
存儲設備包括高性能的磁盤或磁盤陣列,存儲技術如RAID磁盤、復制、定時拷貝、多級備份等。當數據已經不再為企業帶來效益時,將這類數據遷移到較便宜的存儲介質上;最后,當數據過時或一段時期不再訪問時,應考慮將其刪除或者遷移,如果是法律要求或政府規定要保留多年的數據,應將其遷移到近線磁盤或者離線磁帶上進行歸檔,既安全又節省費用。
同時,信息量的急劇增長,也使存儲管理復雜性增加,數據的分級存儲也是簡化存儲管理的需要。通過設定優化的數據遷移規則,能使重要數據和常用數據在最短的時間內訪問到,使極少使用的數據備份在廉價的海量存儲器中供以后使用。
概念
分級存儲是根據數據的重要性、訪問頻率、保留時間、容量、性能等指標,將數據采取不同的存儲方式分別存儲在不同性能的存儲設備上,通過分級存儲管理實現數據客體在存儲設備之間的自動遷移。數據分級存儲的工作原理是基于數據訪問的局部性。通過將不經常訪問的數據自動移到存儲層次中較低的層次,釋放出較高成本的存儲空間給更頻繁訪問的數據,可以獲得更好的性價比。這樣,一方面可大大減少非重要性數據在一級本地磁盤所占用的空間,還可加快整個系統的存儲性能。
在分級數據存儲結構中,存儲設備一般有磁帶庫、磁盤或磁盤陣列等,而磁盤又可以根據其性能分為FC磁盤、SCSI磁盤、SATA磁盤等多種,而閃存存儲介質(非易失隨機訪問存儲器)(NVRAM)也因為較高的性能可以作為分級數據存儲結構中較高的一級。一般,磁盤或磁盤陣列等成本高、速度快的設備,用來存儲經常訪問的重要信息,而磁帶庫等成本較低的存儲資源用來存放訪問頻率較低的信息。
信息生命周期管理(InformationLifecycleManagement,ILM)是StorageTek公司針對不斷變化的存儲環境推出的先進存儲管理理念,ILM試圖實現根據數據在整個生命周期過程中不斷變化的數據訪問需求而進行數據的動態分布。分級存儲和ILM在存儲體系結構上基本相同,目標也都是使不同級別的數據在給定時間和不同級別的存儲資源能夠更好的匹配。二者本質差別是數據分級的標準不同:前者標準為數據近期被訪問的概率;后者標準為數據近期對企業的價值。
存儲方式
傳統的數據存儲一般分為在線(On-line)存儲和離線(Off-line)存儲兩級存儲方式。
而在分級存儲系統中,一般分為在線(On-line)存儲、近線(Near-line)存儲和離線(Off-line)存儲三級存儲方式。
在線存儲是指將數據存放在高速的磁盤系統(如閃存存儲介質、FC磁盤或SCSI磁盤陣列)等存儲設備上,適合存儲那些需要經常和快速訪問的程序和文件,其存取速度快,性能好,存儲價格相對昂貴。在線存儲是工作級的存儲,其最大特征是存儲設備和所存儲的數據時刻保持“在線”狀態,可以隨時讀取和修改,以滿足前端應用服務器或數據庫對數據訪問的速度要求。
近線存儲是指將數據存放在低速的磁盤系統上,一般是一些存取速度和價格介于高速磁盤與磁帶之間的低端磁盤設備。近線存儲外延相對比較廣泛,主要定位于客戶在線存儲和離線存儲之間的應用。就是指將那些并不是經常用到(例如一些長期保存的不常用的文件歸檔),或者說訪問量并不大的數據存放在性能較低的存儲設備上。但對這些設備的要求是尋址迅速、傳輸率高。因此,近線存儲對性能要求相對來說并不高,但又要求相對較好的訪問性能。同時多數情況下由于不常用的數據要占總數據量的較大比重,這也就要求近線存儲設備在需要容量上相對較大。近線存儲設備主要有SATA磁盤陣列、DVD-RAM光盤塔和光盤庫等設備。
離線存儲則指將數據備份到磁帶或磁帶庫上。大多數情況下主要用于對在線存儲或近線存儲的數據進行備份,以防范可能發生的數據災難,因此又稱備份級存儲。離線存儲通常采用磁帶作為存儲介質,其訪問速度低,但價格低廉的海量存儲。
分級存儲設備是根據具體應用可以變化的,這種存儲級別的劃分是相對的,可以分為多種級別。如可以采取FC磁盤-SCSI磁盤-SATA磁盤這種三級存儲結構,也可以采取SSD盤-FC磁盤-SCSI磁盤-SATA磁盤-磁帶這種五級存儲結構,具體采用哪些存儲級別需要根據具體應用而定。
管理的關鍵技術
分級存儲管理(HierarchicalStorageManagement,HSM)起源于1978年,首先使用于大型機系統。存儲實現分級以后,在線存儲、近線存儲和離線存儲存放的數據價值不同,在同一級別存儲內部(比如在線存儲和離線存儲),存放的數據也應該不同,實現每一級別內的“分級存儲”。如何將各個級別存儲中數據統一管理起來便成了最為關鍵的問題。
分級存儲管理是將離線存儲、近線存儲和在線存儲融為一體的技術。在分級存儲系統中涉及許多技術,如數據增量掃描技術、基于多指標的數據分級策略、在線遷移中的一致性保證技術、數據自動遷移存儲技術、存儲虛擬化技術、分級存儲管理技術等等。這里主要就幾個關鍵技術進行討論。
增量掃描技術
在一個文件數為10億級的大規模文件系統中,選擇分級存儲管理操作的候選對象可能是非常耗費資源的,一般須掃描整個文件系統的名字空間。而每秒大約能掃描5000個文件,掃描10億個文件大約需要27小時。現有的分級存儲管理工具一種是集成到文件系統之中,一種是存在于文件系統之外。無論是哪一種,能夠獲得文件訪問情況并利用這一特性,大幅度減少文件掃描規模,減少維護文件訪問信息的開銷是非常重要的。
如于一個20萬個文件的文件系統,每天只有不到1%的文件被訪問。隨著文件系統規模增加,訪問百分比期內所有被訪問文件的訪問統計(包括訪問次數和文件大小)、總訪問熱度等信息,通過增量掃描技術,元數據服務器不必掃描整個文件系統,而通過定期獲取近期訪問過的文件信息,這樣就可大大減少維護文件訪問信息的開銷。
基于多指標的數據分級策略
分級存儲采用的存儲方式與選擇的存儲設備的依據是數據的重要性、訪問頻次等多個指標。多指標的數據信息分級策略,是指根據基于數據的生命周期、上次訪問時間、大小、數據信息的關聯性等多個參數對數據的價值進行分級;如果數據一創建就能預測其訪問特性進而給出相應級別,將能夠減少不必要的遷移顛簸。因為數據分級變化意味著數據要在不同級別的存儲設備間遷移,以保證合適的數據在合適的時間存放在合適的存儲級別上。
在實際應用中,如能充分挖掘數據的靜態特征和訪問的動態特征為基礎的分級將能獲得更好的效果。如以文件分級為例,第一,文件系統的靜態特征,如大小文件的分布;第二,文件系統的宏觀訪問規律,如大小文件的訪問次數分布;第三,文件個體的訪問模式,如是否具有訪問局部性;第四,文件之間的訪問關聯特征,如同一作業中的一個文件被訪問,另一個文件何時被訪問。根據這些文件特征和存儲設備的分級情況,確定文件分級標準及文件分級變化的觸發條件,從而可以在合適的時間把合適的文件存放在合適的存儲級別上。
在線遷移中的一致性保證技術
在分級存儲系統中,不可避免地要在不同存儲設備上進行數據遷移,數據遷移可分為升級遷移和降級遷移。升級遷移是指數據由慢速存儲設備和低一級存儲設備往快速存儲設備或高一級的存儲設備遷移,降級遷移正好相反。但由于遷移目的不同,這兩種遷移有不同的特征。對于降級遷移來說,很可能在遷移的過程中并不會有I/O請求發生;但對于升級遷移來說,遷移幾乎是發生在I/O最密集的時候,如何保證在遷移過程中,盡可能減小遷移進程對前臺I/O的影響,這是分級存儲系統需要解決的問題之一。
目前可以采用讀寫鎖來保證數據一致性,以數據塊為調度粒度來減小對前臺I/O性能的影響。遷移進程為當前數據塊申請讀寫鎖,以保證遷移進程與寫操作進程之間的數據一致性。
數據自動遷移存儲技術
分級存儲中數據需要在線遷移,這就需要考慮數據移動對前臺I/O負載的性能影響。數據自動遷移技術是指最大限度的降低數據遷移動作本身對計算結點的I/O性能影響,且對前端透明,它根據前臺I/O負載的變化,來調整數據遷移速率,使得數據遷移動作本身對存儲系統的QoS的影響非常小,同時使得數據遷移任務能夠盡快完成。數據自動遷移存儲涉及的主要技術有:數據遷移的速率控制與調度、數據遷移對應用的延遲隱藏、文件訪問塊位置序列預測等等。
在實際應用中,當數據信息達到遷移觸發條件時,數據遷移結點自動遷移數據,從而實現數據信息的降級或升級存儲,如數據升級遷移對用戶的延遲隱藏技術使得應用程序感受不到數據升級遷移的延遲,并使整個存儲系統的性能與最高性能級別的存儲設備相當。
目前,分級存儲管理更多從降低成本、不影響數據應用效果、提高效率的角度解決數據的存儲問題。隨著單盤成本的下降,有業內專家預測,不久的將來,近線存儲技術將取代數據遷移技術,用戶將以模擬海量備中,為分級存儲的發展起到關鍵的推動作用。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.lukmueng.com/
本文標題:分級存儲與管理及數據自動遷移存儲技術