引言
隨著社會發(fā)展和科技進步,企業(yè)信息系統(tǒng)面臨的風險和威脅越來越大,保證信息系統(tǒng)的業(yè)務連續(xù)運營是IT人員在建設企業(yè)IT架構(gòu)中首先要考慮的問題。信息系統(tǒng)要保持業(yè)務連續(xù),最大的威脅不是來自于火災、地震等小概率、大影響的災難,更多地受到諸如人為錯誤、流程缺陷等事件的威脅。這些威脅時刻潛伏在企業(yè)的周圍,隨時一觸即發(fā),會影響信息系統(tǒng)的業(yè)務連續(xù)性,使企業(yè)造成重大損失。
本文從保證業(yè)務連續(xù)的視角出發(fā),對信息系統(tǒng)的業(yè)務連續(xù)性框架和關鍵技術(shù)進行研究,以期指導信息系統(tǒng)的業(yè)務連續(xù)性建設。
一 風險分析
影響信息系統(tǒng)業(yè)務連續(xù)性的風險有許多,圖1列出了主要的風險。
根據(jù)風險可能造成破壞的程度不同,將風險分為兩大類:一類是災難,即可能會對數(shù)據(jù)中心產(chǎn)生巨大破壞的風險;另一類是故障,不會對數(shù)據(jù)中心產(chǎn)生巨大破壞,但是會影響信息系統(tǒng)的正常運行。保證信息系統(tǒng)的業(yè)務連續(xù)性,要有應對這兩類風險自動調(diào)整和快速反應的能力。
二 業(yè)務連續(xù)性框架
考慮災難和故障這兩類風險,為信息系統(tǒng)提供業(yè)務連續(xù)性應該包括以下兩個方面:
2.1 高可用性:是指提供在本地故障情況下能繼續(xù)訪問應用的能力,不論這個故障是業(yè)務流程、物理設施、IT軟/硬件的故障。另外,當所有設備無故障時應能保持業(yè)務連續(xù)運行,用戶不需要僅僅因為正常的備份或維護而需要停止應用。
2.2 災難恢復:是指當災難破壞數(shù)據(jù)中心時在不同地點、不同硬件設備上恢復數(shù)據(jù)的能力。
上述兩個方面不是相互孤立的,而是相互關聯(lián)、有交叉的。為保證信息系統(tǒng)的業(yè)務連續(xù)性,高可用性和災難恢復要映射到信息系統(tǒng)的各個層面,從用戶終端到服務器、存儲器,甚至包括機房環(huán)境。在映射時,不能僅僅從技術(shù)的角度出發(fā),還要考慮管理因素。
圖2為信息系統(tǒng)業(yè)務連續(xù)性框架,包括管理、技術(shù)和IT系統(tǒng)3個域,管理和技術(shù)域映射到IT系統(tǒng)域。
三 IT系統(tǒng)域
首先從高可用和災難恢復兩個方面出發(fā)對信息系統(tǒng)的各個層次進行分析。
3.1 高可用
3.1.1 用戶終端
用戶終端的故障風險主要有硬件故障、操作系統(tǒng)故障、病毒攻擊等。目前應對上述風險常用的技術(shù)是用戶數(shù)據(jù)異地存儲,通過數(shù)據(jù)可靠來保證用戶終端高可用性。另外,可采用用戶終端安全管理措施和安全技術(shù)(例如病毒防護),以抵御用戶終端的安全風險。
3.1.2 業(yè)務系統(tǒng)
例如ERP(企業(yè)資源計劃),一般可以分為服務器端和數(shù)據(jù)端兩個方面。在業(yè)務系統(tǒng)層面,為了保持業(yè)務連續(xù)性,可從這兩個方面考慮:
(1)服務器端:IT應用系統(tǒng)的關鍵部分是服務器端應用程序,如果服務器端應用程序出現(xiàn)故障或軟件升級,需要實時切換到備份服務器端應用程序。
(2)數(shù)據(jù)端:數(shù)據(jù)是業(yè)務系統(tǒng)的核心,為避免數(shù)據(jù)出現(xiàn)問題,需要進行數(shù)據(jù)備份與恢復。
同時,業(yè)務系統(tǒng)也需要安全措施來保障業(yè)務的高可用,例如進行訪問控制和數(shù)據(jù)加密。
3.1.3 中間件、數(shù)據(jù)庫、服務器
業(yè)務連續(xù)性要求服務器、中間件、數(shù)據(jù)庫必須具備高可用性。數(shù)據(jù)中心的服務器(包括上面部署的中間件和數(shù)據(jù)庫)建設需要采用集群(單機出錯,群集中的備機也能迅速接管)、負載均衡等辦法,保證服務器的高可用性。隨著業(yè)務需求的變化,服務器性能需要滿足不斷增長的業(yè)務需要,數(shù)據(jù)中心服務器資源設計上,可將服務器集中放置管理,并通過虛擬化的思想動態(tài)地調(diào)整服務器的資源,使各種服務與應用都能得到所需資源,保障各項服務與應用的順利完成。安全措施包括訪問控制、用戶權(quán)限管理以及訪問審計等。
3.1.4 網(wǎng)絡
核心交換機應分布于物理位置不同的地點,互為冗余備份,以避免單點故障或者意外災害而引起的網(wǎng)絡癱瘓。不同的接人層可以就近掛接到距離較近的核心交換機,而且為了鏈路冗余,接入層可以上聯(lián)到多臺核心交換機,鏈路路徑是不同的,不再處于共享風險組中,進一步提高了可靠性和安全性。安全措施主要有網(wǎng)絡接人控制、防火墻和病毒防護等。
3.1.5 存儲
應充分考慮數(shù)據(jù)保護,構(gòu)建快速可靠的數(shù)據(jù)備份系統(tǒng),通過SATA磁盤和磁帶構(gòu)建多級數(shù)據(jù)保護機制。在備份系統(tǒng)方面需要引入新的技術(shù),實現(xiàn)快速備份,避免長時間備份工作對核心業(yè)務系統(tǒng)運行的影響。針對核心業(yè)務,必須保證在發(fā)生嚴重故障時也能夠快速恢復業(yè)務的正常運行,因此需要考慮使用應用容災手段,實現(xiàn)高水平的業(yè)務連續(xù)性能力。
存儲系統(tǒng)需要支持FC、ISCSI和NAS等多種存儲訪問方式,但數(shù)據(jù)應集中存儲以簡化容災備份的結(jié)構(gòu)。備份系統(tǒng)除傳統(tǒng)的備份軟件加備份設備的方式外,還應該采用快照、塊級增量備份、數(shù)據(jù)防改寫等新的手段,提供備份/恢復的性能,提高數(shù)據(jù)保護效果,減少對生產(chǎn)系統(tǒng)的影響。可以考慮在磁盤陣列復制技術(shù)的基礎上,建立應用容災系統(tǒng)。存儲通過冗余鏈路分別連接在光纖交換機(SAN)和千兆IP網(wǎng)絡(通過NAS設備)交換機上,實現(xiàn)存儲連接的虛擬化。
3.1.6 機房
機房的基礎環(huán)境包括配電、空調(diào)等系統(tǒng),需要保證這些系統(tǒng)的高可用性,可采用設備冗余的方法,例如雙路配電以及UPS。機房的安全措施主要是針對環(huán)境安全,例如采取電子門控實現(xiàn)身份鑒別。
3.2 災難恢復
為了保證當災難發(fā)生時,信息系統(tǒng)能夠連續(xù)運行,需要備用的數(shù)據(jù)處理系統(tǒng)、備用網(wǎng)絡系統(tǒng)、數(shù)據(jù)備份系統(tǒng)、備用基礎設施、運行維護管理能力、專業(yè)技術(shù)支持能力以及災難恢復預案。需要做出的第一個決策是選擇一個與數(shù)據(jù)中心同樣可用的物理環(huán)境,為災難恢復提供備用物理場所。
四 管理域
管理域是從IT服務管理以及安全管理的角度來考慮IT系統(tǒng)業(yè)務連續(xù)性。依據(jù)的標準主要是信息技術(shù)-服務管理標準ISO/IEC 20000、IT服務管理信息技術(shù)基礎設施庫ITIL、信息系統(tǒng)安全保密標準BMB17-2006、BMB 20-2007等。
IT業(yè)務連續(xù)性管理主要負責:評估在一次災難發(fā)生后IT服務被中斷的風險和影響;確認需要制定額外的預防措施、對業(yè)務有關鍵性影響的服務;確定服務恢復的時間限定;采取措施來預防、檢測和應對災難的發(fā)生,從而減緩或減輕災難的影響;確定恢復服務的方法;制定、測試和維持一個足夠詳細的恢復計劃,從而保證能夠承受災難的發(fā)生并在規(guī)定的時間內(nèi)恢復正常的服務運作。其中的核心組成部分為:
(1)日常運維管理的制度
流程構(gòu)建合理的日常維護流程,使日常維護和事故處理成為支撐運維體系重要的環(huán)節(jié),是提供優(yōu)質(zhì)服務、簽訂服務級別協(xié)議的基礎。日常維護流程包括日常巡檢、性能分析、系統(tǒng)優(yōu)化、安全加固流程。日常維護與變更管理、配置管理有接口,一些日常維護流程將觸發(fā)變更流程,變更的內(nèi)容將在配置庫中體現(xiàn)。根據(jù)運維體系人員分工,制定日常維護策略,指定責任人和日常維護職責。日常維護應形成維護報告,用于對系統(tǒng)狀況等的評估。
(2)故障處理的預案
相關人員在發(fā)現(xiàn)信息系統(tǒng)相關故障發(fā)生或?qū)⒁l(fā)生時,應首先判斷故障的類別,然后參照對應的故障處理預案進行處理。
經(jīng)過完整測試和演練的故障處理預案應主要包括以下組成部分:目標和范圍、組織和職責、聯(lián)絡和通信、具體的故障處理流程、預案的保障條件和預案附錄。具體的故障處理流程是故障處理預案的重要組成部分。
(3)災難恢復的預案
經(jīng)過完整測試和演練的災難恢復預案主要包括以下組成部分:目標與范圍、組織和職責、聯(lián)絡與通信、災難恢復流程、預案的保障條件以及預案附錄。災難恢復流程又包括突發(fā)事件響應流程、恢復及重續(xù)運行流程,是災難恢復預案的重要組成部分。
突發(fā)事件響應流程為:
(a)事件通告:任何人員在發(fā)現(xiàn)信息系統(tǒng)相關突發(fā)災難事件發(fā)生或即將發(fā)生時,應按預定的流程報告相關人員,并由相關人員進行初步判斷、通知和處置。
(b)人員疏散:提供指定的集合地點和替代的集合地點,還包括通知人員撤離的辦法、撤離的組織和步驟等。
(c)損害評估:在突發(fā)事件發(fā)生后,應由應急響應組的損害評估人員確定事態(tài)的嚴重程度。由災難恢復責任人召集相應的專業(yè)人員對突發(fā)事件進行慎重評估,確定突發(fā)事件對信息系統(tǒng)造成的影響程度,確定下一步將要采取的行動。一旦系統(tǒng)的影響被確定,應將最新信息按照預定的通告流程通知給相應的團隊。
(d)災難宣告:應預先制定災難恢復預案啟動的條件。當損害評估的結(jié)果達到一項或多項啟動條件時,組織將正式發(fā)出災難宣告,宣布啟動災難恢復預案,并根據(jù)宣告流程通知各有關部門。
(e)恢復:按照業(yè)務影響分析中確定的優(yōu)先順序,在災難備份中心恢復支持關鍵業(yè)務功能的數(shù)據(jù)、數(shù)據(jù)處理系統(tǒng)和網(wǎng)絡系統(tǒng)。描述時間、地點、人員、設備和每一步的詳細操作步驟,同時還包括特定情況發(fā)生時各團隊之間進行協(xié)調(diào)的指令,以及異常處理流程。
(f)重續(xù)運行:災難備份中心的系統(tǒng)替代主系統(tǒng),支持關鍵業(yè)務功能的提供。這一階段包含主系統(tǒng)運行管理所涉及的主要工作,包含重續(xù)運行的所有操作流程和規(guī)章制度。
(4) 安全管理
業(yè)務連續(xù)性管理與安全管理具有密切的聯(lián)系。安全管理中3個基本的問題是保密性、完整性、可用性。安全管理主要包括安全保密策略、組織人員管理、技術(shù)管理、場地管理以及應急響應計劃。
五 技術(shù)域
為保證IT系統(tǒng)的高可用性,技術(shù)域中提出以下幾項關鍵技術(shù)。
(1) 虛擬化技術(shù)虛擬化技術(shù)的應用遠不止虛擬機和虛擬內(nèi)存,到目前已經(jīng)有了網(wǎng)絡虛擬化、服務器虛擬化、微處理器虛擬化、文件虛擬化和存儲虛擬化等技術(shù)。通過服務器虛擬化技術(shù)將服務器資源分配到多個虛擬機,支持不同的應用、甚至不同的操作系統(tǒng)在同一企業(yè)級服務器上同時運行。利用虛擬技術(shù),管理員可以在服務器之間移動正在運行的虛擬機,保證系統(tǒng)的高可用。
(2) 集群及負載均衡技術(shù)高可用集群采用集群技術(shù)來實現(xiàn)計算機系統(tǒng)的高可用性,致力于提供高度可靠的服務。高可用集群通常又可分為以下兩種工作方式:
(a)容錯集群:通常是主從服務器方式。從服務器檢測主服務器的狀態(tài),當主服務工作正常時,從服務器并不提供服務。但是一旦主服務器失效,從服務器就開始代替主服務器向客戶提供服務。
(b)負載均衡集群:集群中所有的節(jié)點都處于活動狀態(tài),它們分攤系統(tǒng)的工作負載。一般Web服務器集群、數(shù)據(jù)庫集群和應用服務器集群都屬于這種類型。
(3) 數(shù)據(jù)備份和復制技術(shù)
數(shù)據(jù)備份和復制技術(shù)是容災系統(tǒng)的關鍵技術(shù)。按對系統(tǒng)的保護程度,容災系統(tǒng)可分為數(shù)據(jù)容災和應用容災。數(shù)據(jù)容災是指建立一個異地的數(shù)據(jù)系統(tǒng),該系統(tǒng)是本地關鍵應用數(shù)據(jù)的一個可用復制。該數(shù)據(jù)可以是與本地生產(chǎn)數(shù)據(jù)的完全實時復制,也可以比本地數(shù)據(jù)略微落后,但一定是可用的。采用的主要技術(shù)是數(shù)據(jù)備份和數(shù)據(jù)復制。數(shù)據(jù)復制按模式可分為同步復制、異步復制、周期性復制;按復制技術(shù)可分為磁盤卷鏡像、硬件復制、數(shù)據(jù)庫復制和基于主機的復制、應用復制。應用容災是在數(shù)據(jù)容災的基礎上,在異地建立一套完整的與本地生產(chǎn)系統(tǒng)相當?shù)膫浞輵孟到y(tǒng)。建立這樣一個系統(tǒng)是相對比較復雜的,不僅需要一份可用的數(shù)據(jù)復制,還要有包括網(wǎng)絡、主機、應用、甚至IP等資源,以及各資源之間的良好協(xié)調(diào)。采用的主要技術(shù)包括上面提到的集群及負載均衡技術(shù)。
(4) 安全技術(shù)
通過安全域劃分以及安全防護手段以保證IT系統(tǒng)的安全性。主要防護手段包括:安全域邊界防護系統(tǒng)、漏洞掃描、統(tǒng)一身份鑒別系統(tǒng)、計算機病毒與惡意代碼防護系統(tǒng)、審計系統(tǒng)、服務器加固系統(tǒng)、電子文檔安全保密系統(tǒng)、安全管理系統(tǒng)。
六 結(jié)束語
當今企業(yè)業(yè)務的正常運作越來越依賴信息系統(tǒng),因此構(gòu)建一個可連續(xù)運行的信息系統(tǒng)是IT人員面臨的重要問題。本文從業(yè)務連續(xù)的視角出發(fā),提出了信息系統(tǒng)業(yè)務連續(xù)性通用框架,并分別對該框架中的IT系統(tǒng)域、管理域和技術(shù)域進行了分析研究,通過映射到IT系統(tǒng)域的管理措施和技術(shù)手段相結(jié)合來保證信息系統(tǒng)的業(yè)務連續(xù)性。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.lukmueng.com/
本文標題:信息系統(tǒng)的業(yè)務連續(xù)性研究
本文網(wǎng)址:http://www.lukmueng.com/html/consultation/1083954641.html