隨著中國(guó)工商銀行(以下簡(jiǎn)稱“工行”)數(shù)據(jù)大集中工程的完成,數(shù)據(jù)中心對(duì)全行的業(yè)務(wù)影響力日益提高。截至目前,數(shù)據(jù)中心運(yùn)行的各類應(yīng)用系統(tǒng)已達(dá)200多套,各類服務(wù)器3000多臺(tái),部分應(yīng)用系統(tǒng)支撐著全球范圍7×24小時(shí)的連續(xù)業(yè)務(wù)運(yùn)營(yíng)。在此情況下,如何確保工行應(yīng)用系統(tǒng)的穩(wěn)定可靠、高交易成功率和高峰訪問(wèn)條件下的高性能是數(shù)據(jù)中心生產(chǎn)管理必須面對(duì)的課題。擁有一個(gè)高度自動(dòng)化的應(yīng)用監(jiān)控管理工具,特別是全面建成覆蓋各應(yīng)用系統(tǒng)的端到端業(yè)務(wù)級(jí)監(jiān)控,是成為國(guó)際一流數(shù)據(jù)中心的必備條件。
一、應(yīng)用監(jiān)控需求分析及目標(biāo)定位
從2003年1月正式啟動(dòng)的ECC工程集中監(jiān)控子項(xiàng)目至今,工行監(jiān)控體系的建設(shè)已經(jīng)走過(guò)了8年時(shí)間,中間相繼以CA公司Unicenter和IBM公司的TIVOLI等主流產(chǎn)品為基礎(chǔ),經(jīng)過(guò)軟件開(kāi)發(fā)中心客戶化開(kāi)發(fā)并補(bǔ)充完善,逐步形成了由硬件監(jiān)控、主機(jī)監(jiān)控、網(wǎng)絡(luò)監(jiān)控、開(kāi)放平臺(tái)系統(tǒng)監(jiān)控組成的綜合監(jiān)控格局,基本實(shí)現(xiàn)了系統(tǒng)監(jiān)控自動(dòng)化,各項(xiàng)IT系統(tǒng)環(huán)境指標(biāo)均能被實(shí)時(shí)監(jiān)控。作為支撐全行業(yè)務(wù)運(yùn)營(yíng)的生產(chǎn)管理中心,數(shù)據(jù)中心只有系統(tǒng)資源監(jiān)控工具是不夠的,日常運(yùn)維過(guò)程中經(jīng)常出現(xiàn)系統(tǒng)資源正常而交易異常緩慢的情況。應(yīng)用監(jiān)控提出應(yīng)該以業(yè)務(wù)為中心管理監(jiān)控對(duì)象和事件,通過(guò)對(duì)交易響應(yīng)時(shí)間、交易成功率、交易吞吐量等關(guān)鍵指標(biāo)進(jìn)行跟蹤和分析,配合交易仿真和交易模擬,不但做到故障發(fā)生時(shí)及時(shí)報(bào)警,幫助運(yùn)維人員盡快定位故障源頭,還應(yīng)該對(duì)應(yīng)用目前可用但狀況變壞的趨勢(shì)提前預(yù)警,讓運(yùn)維人員未雨綢繆,及時(shí)防范,避免故障發(fā)生。同時(shí),應(yīng)用監(jiān)控管理要能做到根據(jù)不同運(yùn)維人員關(guān)注的不同側(cè)重點(diǎn)來(lái)展示監(jiān)控對(duì)象和指標(biāo)。
二、應(yīng)用監(jiān)控建設(shè)歷程及現(xiàn)狀分析
1.分行外圍應(yīng)用監(jiān)控系統(tǒng)
工行首次投產(chǎn)的應(yīng)用監(jiān)控工具是在2006年4月啟用的NOVA2.0版本,當(dāng)時(shí)主要是為了實(shí)現(xiàn)對(duì)分行綜合前置、中間業(yè)務(wù)平臺(tái)和新終端平臺(tái)的監(jiān)控。
2.數(shù)據(jù)中心應(yīng)用監(jiān)控系統(tǒng)
數(shù)據(jù)中心在2009年3月正式啟動(dòng)應(yīng)用監(jiān)控系統(tǒng)的建設(shè)及應(yīng)用掛接工程項(xiàng)目。截至目前,數(shù)據(jù)中心已有128個(gè)應(yīng)用掛接了應(yīng)用監(jiān)控系統(tǒng),包含主機(jī)和開(kāi)放平臺(tái)應(yīng)用,占比已經(jīng)超過(guò)60%。目前應(yīng)用監(jiān)控系統(tǒng)實(shí)現(xiàn)的監(jiān)控范圍已經(jīng)涵蓋聯(lián)機(jī)交易、批量運(yùn)行、應(yīng)用可用性三大類指標(biāo),在數(shù)據(jù)中心生產(chǎn)運(yùn)維過(guò)程中發(fā)揮了重要作用,同時(shí),極大減輕了運(yùn)維人員的監(jiān)控壓力與操作風(fēng)險(xiǎn),運(yùn)維人員只需通過(guò)單一界面就能實(shí)現(xiàn)對(duì)全行應(yīng)用運(yùn)行狀況的監(jiān)控。
3.應(yīng)用產(chǎn)品綜合統(tǒng)計(jì)分析平臺(tái)
針對(duì)數(shù)據(jù)中心開(kāi)放平臺(tái)應(yīng)用在業(yè)務(wù)聯(lián)機(jī)交易和批量運(yùn)行情況監(jiān)控統(tǒng)計(jì)分析方面的不足,2008年初,數(shù)據(jù)中心啟動(dòng)應(yīng)用產(chǎn)品綜合統(tǒng)計(jì)分析平臺(tái)自主研發(fā)工作,截至目前,已經(jīng)完成69個(gè)開(kāi)放平臺(tái)應(yīng)用各項(xiàng)運(yùn)行指標(biāo)數(shù)據(jù)的自動(dòng)采集及匯總分析展現(xiàn),涵蓋聯(lián)機(jī)交易統(tǒng)計(jì)、性能管理、批量時(shí)效性分析、重點(diǎn)數(shù)據(jù)服務(wù)等多個(gè)功能模塊,對(duì)于數(shù)據(jù)中心運(yùn)維人員掌握應(yīng)用運(yùn)行狀況以及向總行安全生產(chǎn)管理部門報(bào)送各類應(yīng)用運(yùn)行統(tǒng)計(jì)數(shù)據(jù)發(fā)揮了重要作用。
4.應(yīng)用監(jiān)控現(xiàn)狀分析及改進(jìn)建議
(1)分行的應(yīng)用監(jiān)控管理還比較薄弱。目前,工行應(yīng)用監(jiān)控系統(tǒng)采用分布式系統(tǒng)架構(gòu),數(shù)據(jù)中心和各一級(jí)分行獨(dú)立部署應(yīng)用監(jiān)控工具,分別對(duì)本地運(yùn)維的應(yīng)用進(jìn)行監(jiān)控,各應(yīng)用監(jiān)控系統(tǒng)之間沒(méi)有關(guān)聯(lián)關(guān)系。數(shù)據(jù)中心作為全行生產(chǎn)運(yùn)行管理中心,需要對(duì)分行關(guān)鍵業(yè)務(wù)系統(tǒng)可用率指標(biāo)進(jìn)行監(jiān)控。分行應(yīng)用報(bào)警事件可以按現(xiàn)有模式在分行應(yīng)用監(jiān)控系統(tǒng)展現(xiàn),但數(shù)據(jù)中心應(yīng)用監(jiān)控要有專用視圖以監(jiān)控分行發(fā)生了哪些報(bào)警事件,具體報(bào)警信息可以通過(guò)鏈接到分行的應(yīng)用監(jiān)控模塊進(jìn)行查詢。另外,數(shù)據(jù)中心應(yīng)用監(jiān)控系統(tǒng)應(yīng)該能主動(dòng)發(fā)起模擬交易,探測(cè)分行關(guān)鍵業(yè)務(wù)系統(tǒng)的可用性,然后通過(guò)概率統(tǒng)計(jì)測(cè)算分行關(guān)鍵業(yè)務(wù)的可用率。
(2)監(jiān)控指標(biāo)數(shù)據(jù)采集周期過(guò)長(zhǎng)。當(dāng)前,國(guó)內(nèi)外先進(jìn)數(shù)據(jù)中心的監(jiān)控?cái)?shù)據(jù)采集周期基本以秒級(jí)為單位,比如韓國(guó)國(guó)民銀行數(shù)據(jù)中心每秒采集一次,銀聯(lián)數(shù)據(jù)中心也已達(dá)到每10秒采集一次。而工行應(yīng)用監(jiān)控系統(tǒng)目前的采樣周期還處于分鐘級(jí):主機(jī)OMEGAMON可以達(dá)到每分鐘刷新一次,而開(kāi)放平臺(tái)采樣周期基本是5分鐘、10分鐘一次,報(bào)警的實(shí)效性有待提高。為了避免盲目縮短采集周期影響生產(chǎn),同時(shí)又能提高報(bào)警實(shí)效性,可以結(jié)合開(kāi)放平臺(tái)高可用性和災(zāi)備技術(shù)進(jìn)行。比如,監(jiān)控?cái)?shù)據(jù)的采集完全可以在備用數(shù)據(jù)庫(kù)上進(jìn)行,利用OracleDataGuard使備用數(shù)據(jù)庫(kù)保持為與生產(chǎn)數(shù)據(jù)庫(kù)在事務(wù)上一致的副本,備用數(shù)據(jù)庫(kù)以只讀方式打開(kāi),然后對(duì)其運(yùn)行查詢。
(3)計(jì)劃性重啟引起虛警過(guò)多。服務(wù)器例行重啟或版本投產(chǎn)可能引發(fā)報(bào)警問(wèn)題,盡管可以通過(guò)事先設(shè)置維護(hù)期來(lái)規(guī)避,但存在人工操作過(guò)多以及屏蔽時(shí)間和實(shí)際停機(jī)時(shí)間不完全吻合的缺陷。工行已經(jīng)在實(shí)施HPSA無(wú)縫重啟以及HPSA自動(dòng)化版本投產(chǎn),完全可以在HPSA中嵌入兩段腳本,分別用于向應(yīng)用監(jiān)控發(fā)布屏蔽報(bào)警的指令以及啟用報(bào)警的指令,以實(shí)現(xiàn)計(jì)劃性重啟報(bào)警事件屏蔽的自動(dòng)化。
三、應(yīng)用監(jiān)控未來(lái)發(fā)展規(guī)劃與思路
1.面向業(yè)務(wù)和服務(wù)的監(jiān)控
2010年7月,工行提出“面向業(yè)務(wù)、面向服務(wù)”的監(jiān)控管理要求。根據(jù)數(shù)據(jù)中心生產(chǎn)運(yùn)維管理面臨的實(shí)際問(wèn)題,可以從三個(gè)維度來(lái)定義“面向業(yè)務(wù)、面向服務(wù)”的監(jiān)控內(nèi)涵。
(1)面向客戶服務(wù)維度。監(jiān)控應(yīng)該監(jiān)測(cè)用戶是否能夠訪問(wèn)目標(biāo)應(yīng)用;監(jiān)測(cè)用戶訪問(wèn)目標(biāo)應(yīng)用的響應(yīng)性能;監(jiān)測(cè)用戶整個(gè)交易流程中哪個(gè)環(huán)節(jié)發(fā)生了異常。
(2)面向應(yīng)用支持維度。監(jiān)控應(yīng)該使運(yùn)維人員先于客戶知曉應(yīng)用系統(tǒng)的健康狀況;盡可能提供對(duì)各級(jí)運(yùn)維人員(一線運(yùn)維人員、二線支持人員、三線應(yīng)用開(kāi)發(fā)測(cè)試人員)有價(jià)值的診斷信息,盡快隔離問(wèn)題。
(3)面向生產(chǎn)管理維度。監(jiān)控應(yīng)該提供關(guān)于應(yīng)用運(yùn)行狀況的統(tǒng)計(jì)數(shù)據(jù)并對(duì)各類考核評(píng)估提供總體性數(shù)據(jù)支持;更好地制定服務(wù)水平管理標(biāo)準(zhǔn);提供真正的業(yè)務(wù)影響視圖。
2.指標(biāo)聚合及業(yè)務(wù)影響關(guān)聯(lián)分析
圖1 綜合監(jiān)控系統(tǒng)框架
根據(jù)規(guī)劃,工行未來(lái)的綜合監(jiān)控系統(tǒng)框架如圖1所示。其中,應(yīng)用監(jiān)控和綜合監(jiān)控的關(guān)系表述如下:應(yīng)用監(jiān)控負(fù)責(zé)集中采集各應(yīng)用的性能數(shù)據(jù),并將重要的性能數(shù)據(jù)通過(guò)性能數(shù)據(jù)接口實(shí)時(shí)上送給綜合監(jiān)控系統(tǒng);綜合監(jiān)控系統(tǒng)負(fù)責(zé)匯總各專業(yè)上送的事件和性能數(shù)據(jù),實(shí)現(xiàn)面向業(yè)務(wù)可用性的個(gè)性化監(jiān)控指標(biāo)展示視圖。
在上述框架中,最有價(jià)值的部分是業(yè)務(wù)影響和關(guān)聯(lián)分析以及端到端業(yè)務(wù)監(jiān)控。數(shù)據(jù)中心應(yīng)用系統(tǒng)數(shù)量大、復(fù)雜性高,大量的監(jiān)控指標(biāo)和告警信息都上送給綜合監(jiān)控平臺(tái)后,如何保障運(yùn)維管理人員或更高級(jí)的管理人員在短時(shí)間內(nèi)方便快捷地了解業(yè)務(wù)系統(tǒng)整體的運(yùn)行情況并作出評(píng)價(jià)與判斷,將在一定程度上影響監(jiān)控系統(tǒng)在企業(yè)中的價(jià)值。指標(biāo)聚合是針對(duì)這一問(wèn)題的有效方法。可以借助建模技術(shù),將與業(yè)務(wù)服務(wù)相關(guān)聯(lián)的對(duì)象組織在一起,通過(guò)影響分析將底層的可用性及健康情況逐級(jí)傳遞上去,形成類似金字塔型的KPI指標(biāo)體系,從而使管理人員能夠通過(guò)關(guān)注幾個(gè)較少的指標(biāo)完成對(duì)系統(tǒng)整體運(yùn)行情況的把握。通過(guò)對(duì)韓國(guó)國(guó)民銀行材料的研究得知,韓國(guó)國(guó)民銀行就通過(guò)與咨詢公司合作,分別建立“業(yè)務(wù)分類樹(shù)”和“系統(tǒng)分類樹(shù)”模型,實(shí)現(xiàn)了業(yè)務(wù)影響度的分析和規(guī)劃。
3.端到端監(jiān)控的實(shí)現(xiàn)思路
目前,工行應(yīng)用監(jiān)控系統(tǒng)已經(jīng)初具規(guī)模,為了進(jìn)一步實(shí)現(xiàn)“面向業(yè)務(wù)、面向服務(wù)”的監(jiān)控管理要求,要求我們必須建立覆蓋各應(yīng)用系統(tǒng)的端到端業(yè)務(wù)級(jí)監(jiān)控,可以遵循以下兩種思路來(lái)實(shí)施。
(1)主動(dòng)監(jiān)控。主動(dòng)監(jiān)控包括主動(dòng)執(zhí)行仿真交易來(lái)檢查應(yīng)用系統(tǒng)的性能和可用性。可以考慮在所有一級(jí)分行抽取部分重要網(wǎng)點(diǎn)部署探測(cè)腳本,定時(shí)發(fā)起模擬用戶行為的仿真交易,記錄整個(gè)交易流程(例如ATM→綜合前置→通用網(wǎng)關(guān)→主機(jī))的響應(yīng)時(shí)間,與相關(guān)交易的平均響應(yīng)時(shí)間進(jìn)行比較,如果超過(guò)平均交易響應(yīng)時(shí)間,則進(jìn)行報(bào)警,從而為關(guān)鍵業(yè)務(wù)交易的可用性問(wèn)題提供優(yōu)先的早期預(yù)警。同時(shí),這還可以幫助數(shù)據(jù)中心運(yùn)維人員判斷是分行的問(wèn)題還是數(shù)據(jù)中心的問(wèn)題,是所有分行問(wèn)題還是個(gè)別分行問(wèn)題。
通過(guò)引入支持HTTP協(xié)議的客戶端編程工具包HttpClient,我們利用HttpClientAPIs實(shí)現(xiàn)了基于POST表單模式模擬用戶自動(dòng)登錄BS應(yīng)用的監(jiān)控工具,該工具每隔5分鐘定時(shí)運(yùn)行,可以從終端用戶角度主動(dòng)探測(cè)部署在數(shù)據(jù)中心的BS應(yīng)用的可用性。
(2)被動(dòng)監(jiān)控。被動(dòng)監(jiān)控主要用于測(cè)量實(shí)際最終用戶執(zhí)行交易時(shí)的響應(yīng)時(shí)間。實(shí)現(xiàn)被動(dòng)監(jiān)控的方法可以通過(guò)基于國(guó)際標(biāo)準(zhǔn)的應(yīng)用程序響應(yīng)評(píng)測(cè)(ApplicationResponseMeasurement,ARM)接口,在應(yīng)用程序源代碼中包含對(duì)ARMAPI的調(diào)用,通過(guò)ARM可以實(shí)現(xiàn)對(duì)貫穿整個(gè)應(yīng)用架構(gòu)的交易路徑實(shí)施跟蹤,包括端對(duì)端交易響應(yīng)時(shí)間的度量,ARM的工作原理如圖2所示。
圖2 ARM工作原理
ARM是一個(gè)應(yīng)用程序接口(API),它可以監(jiān)控不同應(yīng)用和系統(tǒng)下的業(yè)務(wù)交易的可用性和性能。要監(jiān)測(cè)應(yīng)用程序的響應(yīng)時(shí)間,可以在應(yīng)用程序開(kāi)發(fā)階段根據(jù)ARM標(biāo)準(zhǔn)將ARMAPI調(diào)用嵌入應(yīng)用程序代碼,主要是在需要監(jiān)控性能的應(yīng)用交易代碼前后添加ARM調(diào)用,然后可以通過(guò)專用軟件工具進(jìn)行監(jiān)控。現(xiàn)在業(yè)界領(lǐng)先的軟件提供商如IBM、HP、SAS等已在自己的軟件中內(nèi)置了ARM。工行應(yīng)該盡早組織開(kāi)發(fā)人員深入研究ARM標(biāo)準(zhǔn),以推動(dòng)工行在應(yīng)用監(jiān)控程序功能實(shí)現(xiàn)方面的標(biāo)準(zhǔn)化,這不但可以提高數(shù)據(jù)中心的運(yùn)維管理水平,同時(shí)可以提高測(cè)試中心對(duì)應(yīng)用程序性能的檢測(cè)能力,最終保障應(yīng)用系統(tǒng)的穩(wěn)定高效運(yùn)行,從而能夠?yàn)榭蛻籼峁﹥?yōu)質(zhì)的產(chǎn)品和服務(wù),持續(xù)提升銀行在國(guó)際金融市場(chǎng)的競(jìng)爭(zhēng)力。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.lukmueng.com/
本文標(biāo)題:數(shù)據(jù)大集中模式下的應(yīng)用監(jiān)控分析
本文網(wǎng)址:http://www.lukmueng.com/html/support/1112159072.html