自新冠疫情爆發(fā)以來,谷歌、微軟、Facebook的云服務使用量均以倍數(shù)級大幅提升,使得服務器計算、存儲和網(wǎng)絡資源的需求急劇上升。數(shù)據(jù)中心管理人員的任務是維持數(shù)據(jù)中心正常運行和提高可用性,以提供給此刻所急需的網(wǎng)絡和計算服務。然而,數(shù)據(jù)中心管理人員對停電或極端天氣事件等各種災難有明確的應急預案,但前所未有的新冠疫情為數(shù)據(jù)中心運維工作提出了更高的新要求。
高規(guī)格的硬件,是否能確保數(shù)據(jù)中心的安全運維?根據(jù)Uptime Institute統(tǒng)計數(shù)據(jù)顯示,數(shù)據(jù)中心七成的事故都是人為因素造成的。人為因素屬于數(shù)據(jù)中心運維管理范疇。數(shù)據(jù)中心運維管理包括運維組織、運維基本制度、運維流程和運維價值提升等。而運維流程又包括事件管理、問題管理、變更管理、維護管理、故障管理、場地配置管理、設備生命周期管理、應急管理、質(zhì)量管理、成本管理和安全管理等。 也許你會認為運維管理上的疏忽,也許沒什么影響。畢竟大部分數(shù)據(jù)中心配電系統(tǒng)是2N架構,通過高冗余可以使可用性達到4個9以上。然而,沒有經(jīng)過系統(tǒng)培訓的運維工程師在應急處置情況下容易犯錯,就可能導致停電宕機。宕機意味著什么?對于金融等特定行業(yè)而言,就是以秒計算的損失,時間就是金錢。
在整個數(shù)據(jù)中心生命周期中,數(shù)據(jù)中心運維管理是歷時最長的一個階段。運維管理是數(shù)據(jù)中心業(yè)務的重中之重,然而,在實際工作中卻有諸如人才、技術、需求等多重阻礙因素,極大地影響了運維管理的工作效率。 首先,數(shù)據(jù)中心市場近年來蓬勃發(fā)展,數(shù)據(jù)中心服務商對專業(yè)化人才的需求量迅速擴大,專業(yè)化人才供不應求的矛盾十分突出。一方面,行業(yè)迅速發(fā)展,新技術快速更新,而部分早期從業(yè)人員知識結構老化,缺乏業(yè)內(nèi)相關專業(yè)資質(zhì)認證,以至于部分人員不適應新的行業(yè)環(huán)境要求;另一方面,新增人才補給速度跟不上行業(yè)快速發(fā)展形勢。數(shù)據(jù)中心服務商如無法招聘到合適的專業(yè)化人才,勢必對其數(shù)據(jù)中心運營產(chǎn)生不利影響。
其次,隨著互聯(lián)網(wǎng)發(fā)展的不斷深入和互聯(lián)網(wǎng)應用的不斷多元化,互聯(lián)網(wǎng)數(shù)據(jù)規(guī)模呈指數(shù)級增長,對互聯(lián)網(wǎng)數(shù)據(jù)中心的需求也將呈現(xiàn)指數(shù)級的增長。為滿足當前互聯(lián)網(wǎng)基礎設施的需求,數(shù)據(jù)中心還將不斷進行擴建,數(shù)據(jù)中心規(guī)模仍將保持上升的態(tài)勢,這就對數(shù)據(jù)中心建設規(guī)模、承載業(yè)務以及存儲與計算等技術提出了更高的要求,運維管理負擔重等問題凸顯。與此同時,數(shù)據(jù)中心承載業(yè)務的業(yè)務流量高速增長,對數(shù)據(jù)中心內(nèi)部網(wǎng)絡管理和性能提出了更高要求。 從數(shù)據(jù)中心運維機制來看萬國數(shù)據(jù),萬國數(shù)據(jù)基于20年管理大量大規(guī)模數(shù)據(jù)中心的經(jīng)驗積累,搭載自主研發(fā)了13年的軟件平臺,能駕馭2000-3000MW體量數(shù)據(jù)中心的指揮控制中心,萬國數(shù)據(jù)將數(shù)據(jù)中心整體架構進行了立體化的分化,構建起全球運營指揮中心、區(qū)域運營指揮中心、單座數(shù)據(jù)中心三道防線,以幫助指揮調(diào)度、秒級定位和應急機測和預測,推動數(shù)據(jù)中心進一步走向智能化。 在疫情防控的特殊時期,創(chuàng)新型技術的應用必不可少。
數(shù)據(jù)中心穩(wěn)定性不僅受限于運維管理水平,也受系統(tǒng)架構、設備品牌等因素影響。因此,實力雄厚的數(shù)據(jù)運營商如今大都按照T3及以上級別規(guī)劃數(shù)據(jù)中心基礎設施系統(tǒng)架構;在設備品牌方面優(yōu)選國際一線品牌、國內(nèi)一線品牌設備供應商,從設備端降低故障發(fā)生率;在測試驗證方面,則通過綜合測試驗證數(shù)據(jù)中心可用性,排除建設過程中的缺陷,減少運維過程中的隱患。 有行業(yè)專家表示,以北京為例,當前已有很多數(shù)據(jù)中心已經(jīng)進入“中老年期”。對于這一類數(shù)據(jù)中心而言,可能存在以下兩方面問題:其一,是當初的規(guī)劃設計已經(jīng)不滿足目前市場環(huán)境需求的問題。
目前,市場環(huán)境所需要的數(shù)據(jù)中心,應當是單機柜供電密度相對更高、能效利用水平更好的數(shù)據(jù)中心,然而,很多中老年數(shù)據(jù)中心就輸在了起跑線上。同時,能效利用水平的較低會導致企業(yè)經(jīng)營成本的升高。其二,是設備的折舊問題。甚至有可能是因為運維管理的不足,導致設備提前折舊,而這種情況并不鮮見,運維可靠性很難得到保障。 因此,想要保障業(yè)務的高效順暢運轉,選擇擁有豐富運維經(jīng)驗的大牌數(shù)據(jù)中心廠商是必選項,與此同時,選用一家按照行業(yè)高標準傾力打造的最新數(shù)據(jù)中心亦是大有裨益。
田鑫,專業(yè)的企業(yè)組網(wǎng)服務商,致力于為企業(yè)提供企業(yè)組網(wǎng)(SD-WAN、MPLS、云互聯(lián)),業(yè)務云化、數(shù)據(jù)中心、網(wǎng)絡安全、行業(yè)IT解決方案等相關服務。