早期云計算的典型部署是,一兩個員工使用幾臺服務器針對某個特定需求搭建一個小規模私有云。然而,隨著整個企業中越來越多的員工使用各種云服務模型(IaaS,PaaS,SaaS)中的大量功能,我們已經看到越來越多的公有云采用案例。
隨著更多的組織擴展對公有云服務的使用,它們小到初創企業,大到全球最大的企業和政府。同時,大規模云計算的各種問題也開始不斷出現。
大規模公有云的潛在問題
毋庸置疑,各類企業通過采用公有云都獲益匪淺,不過大規模的采用公有云也伴隨著很多挑戰和風險。最主要的有如下幾方面:
成本
最初使用公有云時,僅允許有限的少數幾個人訪問,這時跟蹤成本相對簡單。然而,隨著更多(通常是相互獨立的)部門中越來越多的人獲得訪問權限,你可能會遇到功能重復,過度供應、未經授權的采購、未使用的“僵尸”實例、多余的帶寬和存儲費用、以及其他一些不必要的影響因素,不斷蠶食著預期的成本節省。
未經授權的訪問
對小規模的公有云服務訪問的管理相對簡單,但是隨著公有云的采用規模逐漸增加,管理將很快失控。公司的前雇員在離職后可能仍然留有訪問權限,員工的角色變化后,并沒有相應的更新訪問權限,新員工難以訪問到其所需要的資源等。由于多數云服務提供者無法提供企業級的安全保障,隨著逐步擴大公有云的采用規模,你將很快成為未經授權的訪問的犧牲品。
惡意入侵
比員工的訪問權限控制問題更嚴重的是,外部對云服務的惡意入侵。密碼丟失,共享的用戶ID,數據泄漏,簡單密碼,社會工程學,網絡釣魚和惡意軟件都有可能使公有云服務暴露在數據丟失,篡改,攻擊,拒絕服務和其他惡意入侵的影響之下。
人為失誤
公有云服務規模較小時通過人工就可以容易地管理,但隨著規模的不斷擴大,不可能持續地增加人力資源以維持其可管理性。這就意味著更少的人有更多的工作要做,均衡法則告訴我們最終肯定會有人犯錯誤。進而可能會導致大規模的故障,盡管這并不是云服務獨有的問題。
可見性
當只有少數幾個服務時,管理可以很細致,只要一兩個人就可以了解這些服務的部署位置,配置方式,成本花費,使用情況,所屬關系,問題原因,解決方案,服務關閉時間,恢復辦法等。然而,在規模較大的系統中,隨著公有云部署規模的不斷擴大和更多用例的訪問放開,云的使用情況將變得越來越不清楚。
分類診斷
可見性差導致的其中一個后果就是問題的分類診斷也變得更加困難。例如,如果不知道系統運行在哪里或者它如何與其他的服務連接,基本上就無法確定事務流變慢的原因。系統思維方面的專家W. Edwards Deming曾經說過,“不可衡量者不可管理,”也許更恰當的說法是,不可見者不可管理。
可審核性
可見性差的另外一個副作用就是,隨著越來越多的系統和服務被抽象到云服務中,追蹤誰在訪問什么,何時,如何以及為什么訪問就變得越來越困難,與可審核性有關的關鍵問題也就隨之而來。如果沒有自動化的工具,在大規模云環境下,跟蹤,記錄和審查訪問、變更,、故障、曝光率、利用率等信息將會變得非常困難。
可恢復性
盡管嚴重的停機故障并非云所獨有,但是幾乎每周我們都會聽到新的令人關注的公有云故障的報道。然而多數云服務提供者,特別是商品化服務,并未內置恢復功能;即便是更加健壯的服務,也可能無法提供及時的恢復服務或優先考慮你的業務需求。如果沒有系統可用于備份、故障轉移和恢復,停機故障將會導致災難性的后果。
用自動化解決所有這些問題
所有這些問題的解決辦法就是IT自動化。當然,自動化并不是銀彈;而且對有缺陷的流程進行自動化只能讓壞事在沒有控制的情況下執行得更快。不過,如果實施得當,各種形式的自動化工具可以讓你在擴大公有云部署規模的同時避免上述諸多問題。
例如:
•流程自動化可以在更大的范圍、更廣的區域、以更低的成本快速地執行和整合已有的任務和工作流,并且能夠為人們提供比預期更完善的審計和控制。
•供應自動化可以控制何人,何時,為何及如何創建和發布何種云服務,從而減少錯誤,消除僵尸服務,并使得成本跟蹤和細粒度的審計和控制成為可能。
•配置自動化可以確保系統補丁得到及時安裝,無用的端口得到及時關閉,系統漏洞得到及時消除,超支得到及時控制,系統是可重用的,并且能夠減少錯誤的發生。
•即使在最大型的云計算部署中,事件監控也可以跟蹤到錯誤,并且可以確保觸發事件是清晰可見的,根本原因能夠被盡早確定,警報得到及時升級,并且能夠在問題變得致命之前,及時發現并解決這些問題。
•容器化可以提供更高層級的抽象,將用戶從某個云計算基礎設施或平臺的細節中抽離出來。這樣用戶就可以快速地完成從一個服務到另一個服務的低接觸(low-touch)遷移,從而更好地滿足災難恢復和成本控制需求。
•具有自動檢測、通知、升級及分類診斷問題能力的性能監控工具,可以為提供必要的可視性,避免糟糕的體驗,預防由于問題診斷不善導致在云容量上花費過高而造成的成本超支。
•備份和恢復自動化可以讓故障對終端用戶完全透明,特別是當它們與事件和性能監測工具相連,或用于在云應用中構建容錯和災難恢復機制時。
•發布自動化可以在不需要人工干預的情況下將云環境中的新應用和更新應用自動從開發環境轉到生產環境,從而加速在大型部署環境中的創新,同時降低人為失誤,確保可審核性并消除惡意代碼。
•身份及訪問管理可以在需要時為用戶提供必要的云服務訪問權限,在不需要時回收相應的權限,從而達到防止惡意入侵,消除數據丟失,啟用審計和控制,提升可見性以及控制使用成本的目的。
•容量管理可以讓云平臺的消費者更準確地預測他們的服務增長情況和峰值需求,以及何時應該釋放資源,從而做到在幫助控制云資源的成本的同時,減少潛在的服務問題。
此外,自動化讓公有云具有了之前通過傳統的手工方式無法具有的新的能力。例如,使用諸如DevOps之類的新手段加速大規模應用程序的交付,可以說這只有在具有自助式供應、配置管理、測試自動化和發布自動化等解決方案的前提下才是可行的。與此類似,如果沒有API訪問自動化、身份管理、資源運用、和成本控制的解決方案,新興的云API經濟中大量極好的機會就會演變成巨大的風險,甚至可能導致災難性事件。
最關鍵的自動化工具
上述這些自動化工具和原則在公有云部署最佳實踐中都發揮了不同的作用。在沒有了解具體部署案例的目標和限制之前,就輕言哪些自動化工具更加關鍵并不是非常合理。當然,在多數情況下,一些工具確實要比另外一些工具更加重要,如果非要讓我選擇最重要的前三個自動化工具,我會選擇如下三個:
•身份及訪問管理——如果不能保證正確的人在正確的時間能夠獲取到正確的資源,那么其他一切都是空談。假如對你來說,保護基于云環境的數據和服務是最大的顧慮,那么身份及訪問管理就是必需的自動化解決方案之一。
•供應自動化——對于許多云服務來說,供應自動化是非常基礎的功能,但是這一功能的粒度是非常關鍵的,特別是對審計和控制來說。手工供應可能是造成公有云部署中人為失誤和成本超支的最大原因。
•性能和可用性監測——這也許是所有部署的終極武器,即使在最大型的大規模和高性能的云部署環境下,也能夠讓你了解問題發生的時間和原因,以及如何有效的修復這些問題。
總結
對于現有的公有云服務來說,自動化能力是必不可少的。任何像樣一點的云服務肯定都會包含一些基礎的自動化能力——例如自助式供應,利用率監測或退單拒付(chargeback)。
然而,正如我之前曾經寫過的,目前可能沒有哪一個云服務提供者能夠提供更加高級的自動化能力,特別是商品化的云服務。
在了解了采用公有云的機會和風險之后,需要根據自身的工作量和目標合理選擇正確的服務提供商并使用適當的自動化工具對其進行補充。
只有正確地集成了自動化解決方案,為用戶提供并增強了信心,安全,性能,速度和控制,才能夠完全發揮公有云的潛能。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.lukmueng.com/
本文標題:大規模公有云的自動化工具