組織通過IT服務(wù)的可用性為其日常業(yè)務(wù)運營提供支持。大多數(shù)組織利用技術(shù)為最終用戶和客戶提供各種服務(wù),如果沒有功能性IT基礎(chǔ)架構(gòu),將無法實現(xiàn)這一目標。隨著云計算的激增,許多組織依靠第三方云供應(yīng)商來運營和提供IT基礎(chǔ)架構(gòu)服務(wù)。雖然供應(yīng)商承諾提供足夠的服務(wù)可靠性,例如服務(wù)水平協(xié)議(SLA),以確保99.999%的可用性,但云服務(wù)的中斷是現(xiàn)代企業(yè)IT行業(yè)的一個嚴峻現(xiàn)實。
什么是云中斷?
云中斷僅指云基礎(chǔ)架構(gòu)服務(wù)無法使用的持續(xù)時間。例如,中斷可能僅部分影響數(shù)據(jù)中心的事件可能導致供應(yīng)商執(zhí)行必要的維護和恢復措施。在根據(jù)商定的SLA標準完全恢復服務(wù)之前,可能會將其視為最終用戶的停機時間。
云中斷的常見原因
云中斷可能是由云供應(yīng)商控制范圍內(nèi)外的一系列原因引起的。以下列表簡要介紹了云供應(yīng)商考慮的問題,以確保服務(wù)始終在SLA上提供足夠的可接受性:
停電:導致云服務(wù)中斷的最常見原因之一是無法獲得為底層數(shù)據(jù)中心供電的電能。云供應(yīng)商固有地大規(guī)模運營 - 單個數(shù)據(jù)中心可能消耗10到100兆瓦的電力,而這些數(shù)據(jù)中心通常依賴于由第三方獨立運營的國家電網(wǎng)或發(fā)電廠。這使得充足電力的持續(xù)可用性成為數(shù)據(jù)中心公司面臨的挑戰(zhàn),特別是因為快速增長和可擴展的市場需求需要可擴展的電源,否則只能以有限的數(shù)量提供。
網(wǎng)絡(luò)安全:分布式拒絕服務(wù)(DDoS)等網(wǎng)絡(luò)攻擊會導致數(shù)據(jù)中心因傳入流量而過載,從而阻止合法用戶通過相同的網(wǎng)絡(luò)通道訪問服務(wù)。盡管有適當?shù)谋Wo系統(tǒng),但黑客傾向于利用隱藏的漏洞,這些漏洞要么觸發(fā)保護機制,將服務(wù)與合法用戶隔離,泄漏數(shù)據(jù)或完全關(guān)閉服務(wù)。
人為錯誤:盡管存在嚴格的協(xié)議和系統(tǒng)以避免此類無法預料的問題,但單個不正確的命令可能會降低整個IT基礎(chǔ)架構(gòu)服務(wù)的負擔。即使是最大的云供應(yīng)商也會發(fā)生這種情況,如2017年全球互聯(lián)網(wǎng)因AWS數(shù)據(jù)中心設(shè)施出現(xiàn)人為錯誤而中斷時所見。雖然系統(tǒng)能夠盡早檢測到異常行為,但許多受影響的數(shù)據(jù)中心的基礎(chǔ)架構(gòu)需要完全恢復和重新啟動。
軟件和技術(shù)問題:云基礎(chǔ)架構(gòu)由復雜的硬件和軟件技術(shù)系統(tǒng)組成。在為各種規(guī)模和垂直行業(yè)的組織提供動力的企業(yè)級數(shù)據(jù)中心中,可能會出現(xiàn)毛刺和錯誤。這些技術(shù)問題可能會被忽視或被忽視,直到它轉(zhuǎn)化為影響最終用戶的實際服務(wù)事件。當這些問題的解決方案不明顯或不適用于立即解決問題時,該服務(wù)可能仍處于停機狀態(tài)。
網(wǎng)絡(luò)問題:云供應(yīng)商可能與長途運營通信網(wǎng)絡(luò)的電信服務(wù)提供商和政府組織合作。與組織之外的網(wǎng)絡(luò)相關(guān)的問題,尤其是跨境的網(wǎng)絡(luò),可能遠遠超出服務(wù)提供商的控制范圍,尤其是在解決連接問題方面。在這種情況下,云供應(yīng)商和客戶依賴其電信合作伙伴來確保服務(wù)得以恢復。為了解決這一限制,大多數(shù)大型云供應(yīng)商在多個國家/地區(qū)運營,能夠在地理位置不同的數(shù)據(jù)中心之間動態(tài)平衡工作負載。這使得公司可以繼續(xù)向最終用戶提供服務(wù),即使在解決網(wǎng)絡(luò)問題超出其內(nèi)部控制范圍時也是如此。
維護:云供應(yīng)商負責其IT基礎(chǔ)架構(gòu)的運營,維護和管理。最終用戶只需為所消費的服務(wù)付費,而供應(yīng)商則持續(xù)投資于服務(wù)改進。這包括計劃和非計劃的維護和升級。維護過程可能需要服務(wù)中斷,跨數(shù)據(jù)中心傳輸工作負載或需要完全重新啟動系統(tǒng)的常規(guī)修復。在此期間,該服務(wù)可能仍然無法供最終用戶使用,并被視為云中斷。
在投資云解決方案時,云服務(wù)的客戶應(yīng)考慮類似的權(quán)衡。如果中斷對特定持續(xù)時間的影響對于健康的業(yè)務(wù)運營是不可接受的,那么投資高可用性SLA可能是合適的。同樣,部分客戶可能需要額外的監(jiān)控,可見性和控制功能,以確??赡艿脑浦袛鄬ζ錁I(yè)務(wù)影響最小。
原文鏈接:http://changyoufood.cn/hangyeguanzhu/184.html