在過(guò)去的十年,數(shù)據(jù)中心的設(shè)計(jì)已經(jīng)得到了很大的改進(jìn)和優(yōu)化。數(shù)據(jù)中心設(shè)施的規(guī)模不斷擴(kuò)大,以滿足超大規(guī)模的需求。數(shù)據(jù)中心設(shè)施的復(fù)雜性不斷增加,以充當(dāng)各種云計(jì)算服務(wù)和光纖運(yùn)營(yíng)商的互連點(diǎn);數(shù)據(jù)中心設(shè)施的數(shù)量不斷增加,以滿足對(duì)空間不斷增長(zhǎng)的需求。
用于運(yùn)行數(shù)據(jù)中心的工廠通常部署2N冗余或更高級(jí)別的冗余,以確保滿足可用性和正常運(yùn)行時(shí)間指標(biāo)。雖然曾經(jīng)有過(guò)發(fā)電機(jī)組在需要時(shí)無(wú)法啟動(dòng)和承擔(dān)生產(chǎn)負(fù)荷的情況,但隨著數(shù)據(jù)中心運(yùn)營(yíng)商對(duì)冗余系統(tǒng)進(jìn)行更徹底和定期的測(cè)試,這些情況正在減少。
在這種情況下,越來(lái)越多的故障被認(rèn)為是導(dǎo)致數(shù)據(jù)中心中斷的原因,而數(shù)據(jù)中心中斷又會(huì)導(dǎo)致云計(jì)算服務(wù)和應(yīng)用程序的損失,這些服務(wù)和應(yīng)用程序使用的服務(wù)器耗盡了這些數(shù)據(jù)中心設(shè)施的資源,這可能會(huì)讓人感到有些驚訝。
但是,對(duì)于這些工廠故障的增加,有一些看似合理的解釋。
氣候是一個(gè)顯而易見(jiàn)的解釋:在過(guò)去的一年里,數(shù)據(jù)中心設(shè)施的停電往往與高溫或風(fēng)暴等極端天氣事件同時(shí)發(fā)生。
在極端高溫期間,電網(wǎng)普遍存在壓力。對(duì)于數(shù)據(jù)中心運(yùn)營(yíng)商來(lái)說(shuō),這可能會(huì)導(dǎo)致電力質(zhì)量波動(dòng),例如浪涌和限電,并且可能需要使用現(xiàn)場(chǎng)工廠自己產(chǎn)生一些電力,以平穩(wěn)供應(yīng)并繼續(xù)為IT設(shè)備提供服務(wù)。冷水機(jī)組也必須更加努力地將數(shù)據(jù)地板溫度保持在指定的安全范圍內(nèi)。
另一方面,風(fēng)暴帶來(lái)了一系列不同的問(wèn)題。雷擊可以摧毀現(xiàn)場(chǎng)變電站和一個(gè)或多個(gè)電力來(lái)源。也有冰雹或暴雨導(dǎo)致水進(jìn)入設(shè)備層,損壞設(shè)備并使受影響地區(qū)的配電裝置短路的情況發(fā)生。
高性能的要求
雖然天氣狀況可以解釋一些數(shù)據(jù)中心的中斷,但其他中斷似乎是另一種現(xiàn)象的結(jié)果:在這些數(shù)據(jù)中心處理的計(jì)算密集型、數(shù)據(jù)驅(qū)動(dòng)的工作負(fù)載的增加。對(duì)于較舊的數(shù)據(jù)中心,這些工作量使機(jī)架密度遠(yuǎn)遠(yuǎn)超過(guò)現(xiàn)有規(guī)格,導(dǎo)致正在進(jìn)行冷卻器和其他數(shù)據(jù)中心設(shè)施升級(jí)和更換項(xiàng)目的此類設(shè)施數(shù)量增加。
一些數(shù)據(jù)中心運(yùn)營(yíng)商通過(guò)將密集的工作負(fù)載分離到更小的、專門建造的、高密度的數(shù)據(jù)中心來(lái)應(yīng)對(duì)。以前,在規(guī)模較大的托管數(shù)據(jù)中心設(shè)施中,密集的工作負(fù)載將在滿足更高機(jī)架設(shè)備密度的指定房間或數(shù)據(jù)大廳中運(yùn)行。傳統(tǒng)的機(jī)架密度傳統(tǒng)上最大約為7kW,高密度區(qū)域迎合機(jī)架高達(dá)50kW。但在當(dāng)前數(shù)據(jù)驅(qū)動(dòng)的環(huán)境中,機(jī)架的最大密度不再是50kW:有些數(shù)據(jù)中心的功率密度正在向200kW以上的極端密度發(fā)展。
顯然,不建議使用舊的或更通用的托管數(shù)據(jù)中心設(shè)施來(lái)支持這類密集的計(jì)算工作負(fù)載。將它們托管在專門建造的數(shù)據(jù)中心設(shè)施中更有意義,這些數(shù)據(jù)中心設(shè)施的設(shè)計(jì)目的是為了做好一件事:通過(guò)擁有相匹配的技術(shù)空間和設(shè)備來(lái)支持極端的計(jì)算需求。
然而,將密集的工作負(fù)載集中到一個(gè)較小空間中也不能保證正常運(yùn)行時(shí)間。密集的工作負(fù)載并行運(yùn)行給設(shè)施運(yùn)營(yíng)商帶來(lái)了更大的壓力,以確保數(shù)據(jù)中心的正常運(yùn)行時(shí)間。這樣的環(huán)境包含大量IT設(shè)備,這些設(shè)備對(duì)電力可用性或冷卻能力的微小變化更加敏感,任何故障都可能降低或損壞為世界上一些關(guān)鍵基礎(chǔ)設(shè)施提供數(shù)據(jù)驅(qū)動(dòng)決策的計(jì)算能力。
將密集的工作負(fù)載集中到較小空間中不能保證正常運(yùn)行時(shí)間
數(shù)據(jù)中心故障不斷增加的另一個(gè)可能的解釋是,基礎(chǔ)設(shè)施被從消費(fèi)者中抽象出來(lái)。應(yīng)用程序的架構(gòu)決策是孤立發(fā)生的,不需要很好地理解底層基礎(chǔ)設(shè)施需求。
這是因?yàn)槠脚_(tái)即服務(wù)(PaaS)和無(wú)服務(wù)器架構(gòu)的提升意味著開(kāi)發(fā)人員可以專注于編寫代碼;他們不一定需要了解底層基礎(chǔ)設(shè)施的來(lái)龍去脈,包括如何限制應(yīng)用程序代碼運(yùn)行所需的處理強(qiáng)度。
此外,應(yīng)用程序現(xiàn)在經(jīng)常利用第三方通過(guò)API來(lái)完成功能。這將把更多的處理需求轉(zhuǎn)移到其他方,并有效地依賴于使用底層基礎(chǔ)設(shè)施的這些方法。低效的代碼意味著基礎(chǔ)設(shè)施沒(méi)有有效利用。很明顯,這可能會(huì)給數(shù)據(jù)中心帶來(lái)不適當(dāng)?shù)膲毫Γ詽M足更高的處理需求。
在當(dāng)今的環(huán)境中,為了避免猝不及防,有能力檢測(cè)云服務(wù)或應(yīng)用程序所依賴的數(shù)據(jù)中心站點(diǎn)上發(fā)生的任何降級(jí)是至關(guān)重要的。這不僅對(duì)確保即時(shí)正常運(yùn)行很重要,而且通過(guò)減少對(duì)任何單個(gè)數(shù)據(jù)中心的依賴來(lái)改進(jìn)云服務(wù)或應(yīng)用程序的設(shè)計(jì)也很重要。
為了確保無(wú)縫的用戶體驗(yàn),云服務(wù)和基于web的應(yīng)用程序的運(yùn)營(yíng)商需要能夠理解支撐它們的一切。這可能包括對(duì)底層基礎(chǔ)設(shè)施的額外考慮,包括其(數(shù)據(jù)中心所在位置,以及該數(shù)據(jù)中心在其設(shè)計(jì)和冗余設(shè)備方面的能力。
田鑫,專業(yè)的企業(yè)組網(wǎng)服務(wù)商,致力于為企業(yè)提供企業(yè)組網(wǎng)(SD-WAN、MPLS、云互聯(lián)),業(yè)務(wù)云化、數(shù)據(jù)中心、網(wǎng)絡(luò)安全、行業(yè)IT解決方案等相關(guān)服務(wù)。
更多相關(guān)內(nèi)容推薦:
云計(jì)算數(shù)據(jù)中心的可持續(xù)發(fā)展優(yōu)勢(shì)
2112機(jī)柜 重慶兩江云計(jì)算數(shù)據(jù)中心二期試運(yùn)營(yíng)
鋰電已逐步成為數(shù)據(jù)中心供備用電源優(yōu)選
智算時(shí)代 新一代高端基礎(chǔ)設(shè)施前瞻布局
上海新政:1000億,為算力基礎(chǔ)設(shè)施等領(lǐng)域進(jìn)行貼息
一周超20個(gè)項(xiàng)目 智算中心如何實(shí)現(xiàn)可持續(xù)發(fā)展?