隨著金融業的發展和改革,金融業務的運行和創新對于信息化建設的要求變得越來越高,在不斷升級和擴充信息系統和機房改造的同時,管理難度和總體成本成為制約金融業務發展的障礙。虛擬化技術由于具有提高資源利用率以及節能環保、可進行大規模數據整合等特點,對推進信息化的發展具有重大戰略意義。
工商銀行浙江分行從2010年9月開展PC服務器虛擬化工作,利用虛擬化技術對機房的服務器與應用系統進行整合,充分利用服務器的有效資源,提高系統的運行速度和系統運行可靠性,同時降低能耗,提高對機房資源的集中管理能力并
且摸索出了一整套的虛擬化管理、監控、維護流程,為工商銀行的
IT運維自動化管理奠定了扎實的基礎,目前160余套虛機穩定運行在16臺高性能PC服務器上,保障業務可持續運行。
一旦虛擬機規模增長到一定程度,依賴手工管理自然已無力確保系統穩定運行,挑戰也隨之而來。如何在虛擬化環境下對服務器進行高效管理,保障系統的高可用和業務的連續性,成為企業面臨的巨大挑戰,需要在虛擬化環境下實施IT運維自動化方能解決。
一、虛擬化技術和IT運維技術
1.虛擬化及其優點
為改變IT運維管理日益顯現的被動局面,需要利用有效的手段來保障系統安全、可持續運行并可降低能耗,提高資源利用率,從而提高IT部門的運維管理水平。隨著虛擬化技術的不斷進步,基于虛擬化技術的管理解決方案也日趨熟,特別是虛擬化技術在安全、易部署、節能等方面的特點,可以有效緩解IT運維管理的壓力。
虛擬化技術將物理硬件與操作系統分開, 用戶訪問的是邏輯資源,用虛擬化技術來實現和管理物理資源的訪問,從而提高IT資源利用率和靈活性。虛擬化允許具有不同操作系統的多個虛擬機在同一臺物理機上獨立并行運行。每個虛擬機都有自己的一套虛擬硬件(例如內存、CPU、存儲,網卡等),可以在這些硬件中加載操作系統和應用程序。無論實際采用了什么物理硬件組件,操作系統都將它們視為一組標準化的硬件。虛擬計算中心的物理拓撲結構如圖1所示。
圖1 虛擬計算中心的物理拓撲結構
(1)虛擬化技術的主要特點
①封閉。虛擬單元的所有的環境被存放在一個單獨的文件中;為應用展現的是標準化的虛擬硬件,確保兼容性;整個磁盤分區被存儲為一個文件,易于備份、轉移和拷貝。
②隔離。虛擬化能夠提供理想化的物理機, 每個虛擬機互相隔離;數據不會在虛擬機之間泄露;應用只能在配置好的網絡連接上進行通信。
③分區。大型的、擴展能力強的硬件能夠被用來作為多臺獨立的服務器使用;在一個單獨的物理系統上可以運行多個操作系統和應用;計算資源可以被放置在資源池中,并能夠被有效地控制。
④虛擬技術支持高可用性,動態資源調整,極大地提高系統的可持續運行能力。
(2)虛擬化技術的優點
虛擬化技術為IT環境提供集中化管理,實現操作自動化、快速部署、資源優化和高可用性,同時降低了管理的復雜度。虛擬化技術的這些特點,非常適合在企業IT運維管理中加以利用。通過虛擬化平臺的搭建,企業IT運維管理可實現以下優勢:
①提高運維自動化能力。日常工作中對舊服務器上應用系統的維護,往往因年久資料缺失而花費大量的人力,而服務器更換產生的系統遷移工作更困難;通過虛擬技術可將原有獨立服務器上的操作系統整體遷移至虛擬環境,極大地提高系統的可維護性。隨著物理設備的減少,有效地減少單點故障的發生率,管理人員可以有更多的時間管理有限的幾臺服務器。
②提高了單服務器的資源利用率,降低了總體能耗。多臺服務器通過整合歸并至少量服務器后,原有的舊服務器可順利退役,節約了機房空間、UPS資源、空調資源等機房輔助設施的開銷。
③低成本備份和恢復方案。虛擬操作系統的備份是以文件形式存放的,備份和恢復非常方便。
④ 對于一些臨時用的測試環境、開發環境等, 可進行快速部署,提高系統部署效率,節省人力成本和運維成本。
2.IT運維自動化
IT運維自動化是指將IT運維中日常的、大量的重復性工作自動化, 把過去的手工執行轉為自動化操作。自動化是IT運維工作的升華,IT運維自動化不單純是一個維護過程, 更是一個管理的提升過程,是IT運維的最高層次,也是未來的發展趨勢。
虛擬化技術構建了一個堅實的IT運維基礎,確保IT運維的安全性、可用性, 為業務穩定、持續健康發展創造良好的條件。虛擬化與云計算,已被IT運維部門廣泛采用,在享受IT技術帶來喜悅的同時,對虛擬化主機構成的數據中心的運維難度,要提前做好規劃。開始虛擬化之前,IT運維部門應盡量開展、保持IT標準化管理,需要站在IT運維管理者的角度去考慮問題, 需要在資源配置管理、實體機容量規劃、虛機和實體機性能監控、虛機的自動維護, 以及IT服務流程等諸多方面進行穩固和調整。
隨著運維技術的進步以及運維體系的完善, 自動化運維也隨著規模、場景的變遷迎來新的挑戰和變化。運維的活動范圍更多介于硬件與操作系統之上、應用之下,其與基礎架構也像是人的兩條腿,相輔相成,總是一前一后交替往前推進。基礎架構決定運維方向,同樣運維體系又使得基礎架構發揮最大收益。故而自動化運維平臺的根本,不是僅僅把操作界面化,讓人們簡單地在界面點擊按鈕就能管理系統,而是在底層的基礎架構與上層的業務系統之間搭建一個良好的橋梁,使得業務系統能夠充分、穩定而又不必過度關注底層架構特性。
自動化運維的目標已不再僅是消除故障、打掃設備的后置服務,而是能夠在業務開發時期介入、伴隨整個業務共同運行的一種特殊服務。應用本身就能滿足對應基礎架構下的可靠運維,無論是統一的運維狀態接口,還是災備、自動縮擴容,以及變更時的關系調整,都能夠很好地應對。
3.虛擬化環境下IT維護面臨的挑戰
虛擬化實施是一個循序漸進的長期工程,不能一蹴而就。隨著時間推移,主機的虛擬機越來越多,虛擬化會出現各種問題,給虛擬化基礎環境的穩定運行帶來隱患,也給IT運維自動化帶來巨大的挑戰,主要包括以下三個方面:
一是數據中心的虛擬機不受控制地蔓延。每個虛擬機都會占用系統資源,如果沒有刪除不再使用的虛擬機,它們就會繼續占用資源。這將最終導致系統資源的短缺,因此需要管理員尋找合適的管理工具和流程管理程序幫助解決虛擬機蔓延問題,理解和掌握虛擬機如何部署、管理和維護。
二是如何在虛擬化環境下對服務器進行性能監控管理。虛擬化面臨的一個長期挑戰是將邏輯負載與底層硬件隔離的抽象層。幾乎無法獲知哪臺物理服務器正運行哪臺虛擬機負載,導致無法在虛擬化環境中直接進行優化與故障排查。同時,物理服務器故障會影響該宿主上運行的所有虛擬機,這將提高快速解決問題與主動防范的成本。因此,虛擬化對服務器監控與管理提出了新的要求, 需通過持續監控虛擬機負載, 發現那些長期占用CPU性能或性能不足需要增加資源的虛擬機, 發現未充分使用、可以釋放回資源池供其他虛擬機使用的資源。
三是如何在虛擬化環境下實現IT運維自動化。當公司的服務器跨入幾百甚至上千臺規模,腳本化、批量化管理占據非常大的比例。運維主要精力需要放在監控(采集、報警、展現圖表)、部署上線(配置管理)、數據備份方面,因為機器數量龐大,所以集中式的操作平臺是必備的。如何選擇適合企業環境并具備所需管理功能的工具,是部署虛擬化平臺需要最終確定的關鍵點。
二、規劃及其實施
工商銀行浙江分行對虛擬化解決方案進行了充分的評估和測試之后,最終決定采用VMware數據中心虛擬化解決方案,利用VMware虛擬化技術有助于物理服務器的整合和優化,能夠打造一個可以隨需應變的IT基礎架構,并在實施過程中,克服虛擬化的各種挑戰,最終形成比較完整的虛擬化運行管理、系統備份、性能監控、性能調優等全生
命周期流程的解決方案。以“云計算”發展為指導,以IT基礎設施虛擬化為基礎,構建銀行內部“私有云” , 最終實現基礎設施即服務(Infrastructure as a Service,IaaS)的工作目標。
1 . 虛擬化的資源集中化管理,實現IT運維自動化,避免虛擬機蔓延
首先,根據目前各應用系統的使用情況,結合服務器虛擬化技術規范,制定PC服務器虛擬化實施的應用實施原則、部署架構、虛擬機命名規范、用戶權限管理以及日常管理規范等。
其次,對目前環境梳理,在推廣準備中需要按照虛擬化策略來確定哪些應用系統的物理機需要進行虛擬化遷移, 確定物理機遷移的準入條件和優先原則。經過環境梳理, 得到需要虛擬化服務器的范圍。設定準入條件, 確認優先原則,收集虛擬化應用系統信息表,最后申請資源,包括物理機資源、存儲資源、ip地址資源等。
最后,虛擬化生命周期管理是有助于管理虛擬機的一種策略,確保只有授權的管理員能夠創建所需的虛擬機, 這些虛擬機能激活使用,并且最終能刪除以釋放計算資源給其他虛擬機, 避免虛擬機蔓延。虛擬化生命周期管理需要做好以下兩方面:
(1)明確所有者及責任人。每當一套新系統被創建出來,最重要的是弄清楚系統是應誰的要求創建出來,誰又最終為這套系統的運作負責。通過為每套系統指派唯一負責人——可以是系統應用程序分析師,也可以是系統的直接服務對象——將虛擬機一一落實到具體持有者身上,這樣當系統的生產狀態發生轉變時(包括開發、測試、生產、衰退并最終淘汰等過程),才能始終使其處于有人在管的良性運行軌道上。而一旦缺乏實際責任人,多年以后很可能根本不知道某套虛擬機系統是否需要進行備份或者能否直接停止運行。
(2)制定命名規則并堅持執行。隨著企業虛擬化環境的不斷擴展,應該密切關注如何為自己的虛擬機命名并加以分類。對于VMwarevSphere的用戶,可以使用vCenter中的字段定義和搜索功能,更方便地追蹤虛擬機信息。通過這種方式,能夠在一大堆虛擬機系統中成功找到自己需要的用戶接觸點、創建日期、預計關閉日期、備份方案/進度甚至是供應商支持信息。
2.虛擬化性能監控和調優
如果虛擬化整合的比率過高,那么最終用戶體驗到的虛擬化性能將會很差。隨著添加的虛擬機越來越多,管理員必須密切監控服務器的性能。虛擬化監控與管理工具對服務器整合項目的成功至關重要,虛擬化監控與管理工具的功能不相同。有些工具對性能進行實時監控,有些工具提供歷史性能數據,有些工具提供歷史統計數據以排除誤報并能夠為性能監控以及診斷性能問題提供幫助。
虛擬化性能監控能從幾方面降低成本, 管理員能利用它決定某臺物理機的負載,以便決定是否讓更多服務器整合在一個硬件上。監控性能也能檢測是否出現可用性問題,管理員就能在不影響數據中心有效性之前解決問題。對于實際的服務器容量規劃也很必要,通過觀察趨勢,管理員能對未來升級做出預測,以適應業務的長期發展。
工商銀行浙江分行在研究比較各種虛擬化管理工具后,采用一組管理工具集合,部署一套完整的性能監控方案, 確保能實時性能監控、報警,并定期進行健康檢查。根據性能監控結果,實現不停機實時調整資源,保障應用對外服務的可持續性。
(1)定期進行虛擬化環境的全局健康檢查
如果有問題,通知相關負責人調整,具體包括:
①管理工具RV Tools提供虛擬架構的小型報告和分類引擎。對于每臺子虛擬機,都有一個關于虛擬CPU、虛擬內存、虛擬磁盤、虛擬網絡、虛擬CD、虛擬快照和虛擬工具的報告,每個報告里的圓柱圖能夠顯示哪臺虛擬機使用了最多的主機內存。重點檢查快照、磁盤、分區等使用情況。
②利用Veeam Monitor free的儀表盤功能,明確每個群集的實用情況和后續擴展能力;并利用VClient和Ve eam Moni tor f re e的性能分析,分析一天、一周、一月、一年的信息。
(2)進行實時虛擬化性能監控和優化
確保應用的對外服務的持續性,具體包括:
①先利用Veeam Monitor free的Email/SNMP陷阱報警功能,當關鍵資源超出設置參數時會發生警報,識別資源使用里的瞬間警告轉移能夠較早發出警告,而且該警告可通過郵件服務器發到管理員和機房值班人員的郵箱,這對于快速做出決定是必要的,更能最小化生產環境的損失。
②再使用VMware公司的虛擬機客戶端VcClient登錄虛擬化的數據管理中心,對整個虛擬化環境的物理主機和虛擬機的資源進行統一調整,實現在終端用戶知道之前發現問題并解決。
3 .負載均衡提供高可用性,保持業務可連續服務
在虛擬化群集方面,首先要保障已經部署虛擬化的服務器可持續運行;其次要考慮物理服務器宕機引起虛擬機重啟時,如何確保業務的對外服務不中斷。
為保障系統可用性,工商銀行浙江分行將多臺高性能服務器連接后端到高端存儲,通過VMware的VMotion、HA、DRS技術實現應用自動負載遷移,即當其中某臺物理服務器上的資源不夠用時,運行在上面的部分虛擬機可以平滑遷移到另一臺物理服務器, 實現虛擬機服務器的負載均衡, 并方便網絡調整。
通過設置HA集群,實現了任何一臺生產服務器發生物理故障時,其上運行的所有虛擬機在集群的另一臺物理服務器自動重啟。同時為了確保故障切換的順利完成,根據群集里服務器數量N,來保持服務器的利用率在50%~80%之間,計算公式為:服務器的利用率=(N-1)/N×100%。同時考慮到群集HA的“心跳”檢測機制的效率,控制一個群集的服務器數量在2至8臺。
對于關鍵的應用,物理機故障導致虛擬機重啟,還是無法滿足應用的7×24小時對外持續服務。工商銀行浙江分行在對系統架構、存儲、負載均衡、虛擬化與云計算等多種技術深入研究的基礎上,實現應用的負載均衡方案。外部采用F5負載均衡器,為客戶訪問提供統一的接入訪問地址;內部采用應用群集,支持并發,把同一個應用的虛擬機部署在不同的物理機,任何一臺物理機的宕機都不影響應用群集的對外連續服務能力。
三、實施后的運行效果
虛擬化是系統管理和設備管理的趨勢,也是今后工商銀行實施云計算的基礎。通過實施VMware數據中心虛擬化解決方案,工商銀行浙江分行簡化了服務器管理工作,實現業務的高可用性和資源集中化管理,降低了管理復雜度,提高了服務水平。通過虛擬化及其整合的服務管理,工商銀行浙江分行實現了一個簡化、擴展、高效的 IT 基礎架構,從而靈活適應業務目標的需求,并交付更高質量的服務,為成功實現云計算打下強大的基礎,利用更加高效、靈活而且經濟的“IT 即服務”模式為業務部門提供服務。
1.資源共享、統一管理
在各類虛擬資源池基礎上,實現IT資源的統一管理、快速擴展。提高IT服務提供能力,簡化運維管理操作,提高系統運維的效率,最大化利用現有的軟硬件資源,節省軟硬件采購方面的投資。
2.IT資源自動化的統一運營管理
在資源統一管理的基礎上,實現運營自動化, 實時監控, 簡化運維管理操作,提高系統運維的效率。以IT基礎設施虛擬化整合作為切入點,啟動系統優化整改的相關工作。通過采用硬件設備的虛擬化,軟件版本的標準化,系統管理的集中化、自動化和一體化等手段,建立一個資源共享、服務集中和自動化的動態系統架構,把傳統IT系統基礎設施改建成為一個以服務為中心的運行平臺,資源的使用方式從專有獨占方式轉變為完全共享方式,運行環境可以自動部署和調整資源分配,隨需掌控資源。
3.提高服務水平
虛擬化消除計劃內停機時間,對硬件設備進行例行維護的同時不會對業務運行造成影響(或只需短暫停機),大大提高應用系統的業務連續性。利用負載均衡提供高可用性,保障應用的7×24小時對外持續服務。
虛擬數據中心的資源集中管理、自動容災以及資源可伸縮調度的特點,容易實現IT運維自動化,保障服務的高可用性;而且運維自動化后,管理員會有更多精力關注各平臺之間的聯動性,更關注運維的本質,即真正的自動化,不是自動發現問題,更能自動協助解決問題,以保障服務的穩定。IT運維關注的重點也由可用性發展到易用性、靈活性,最終實現自動容災以及資源可伸縮調度,最終自動化運維平臺不但能滿足常規的監控、部署備份等需求,更能站在服務的角度關注其最終狀態。IT運維自動化不單純是一個維護過程, 也是一個管理的提升過程, 未來的發展趨勢。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.lukmueng.com/
本文標題:虛擬化環境下IT運維自動化管理探索
本文網址:http://www.lukmueng.com/html/support/11121510063.html