如今的數據中心行業與十年之前頗有不同,這主要是受過去幾年間諸多現實因素的影響:AI技術的大規模擴散、摩爾定律有所放緩,以及令人頭痛的可持續性問題等。
Uptime Institute預計,隨著運營商對于供電、冷卻、管理、高密度與監管壓力等問題的關注和規劃,整個數據中心行業將在2024年內迎來又一波重大變化。
雖然未能在Uptime的清單中位列頭名,但考慮到人人都關注AI問題,所以我們就由此入手。在過去12個月中,各大主要云服務商和超大規模基礎設施運營商紛紛部署起體量可觀的GPU集群。Uptime預計,英偉達單在2023年一年就售出了60萬張H100(我們推測可能接近71萬張)。而截至2024年底,這家芯片制造巨頭的GPU出貨量有望進一步增長至150萬至200萬張。
不必擔心,AI基礎設施的建設并不像大家想象中那么麻煩。
但也必須承認,面對如此規模的部署以及市場對于生成式AI支持技術似乎永無止境的需求,數據中心行業正在、也必須做好應對需求暴增,特別是支持大規模GPU及其他加速器部署所帶來的散熱與功耗問題。
雖然HPC專業人士對越來越高的加速器性能和供電密度并不陌生,但與典型的雙插槽系統相比,新設施明顯把這兩項指標推向了新的水平。
英偉達的H100和即將發布的H200在額定功率方面均超過700瓦,而這還僅僅是單片的功耗。一個AI集群通常安裝有四到八張GPU,這就讓熱設計功率直接攀升到千瓦級別。
但Uptime估計,AI基礎設施浪潮對于大多數運營商其實影響有限。這主要是因為芯片產能仍無法滿足需求,而能夠掌握巨量部署資源的企業也相對較少。
無論如何,大規模部署此類系統的數據中心必然面臨供電與熱管理方面的雙重挑戰。好在有幾種方法能夠解決這些具體問題,而最簡單的辦法之一就是將系統分散到更大的占地面積當中,這也是對設施環境變動最小的解決方案。
舉例來說,假設現有基礎設施能夠容納每機架25千瓦的供電與相應發熱負載,那么運營商可能會嘗試把DGX節點分散在兩倍的機架當中。這當然會導致機柜中出現大量留空區域,但對于某些特定工作負載來說,只要空間成本不是太高,那這反而是最簡單、實施難度最低的選項。
可正如我們之前從Digital Realty公司首席技術官Chris Sharp的分享中所知,盡管分散系統的確解決了發熱量和電力傳輸的問題,但卻不太適合那些基于專用互連結構的訓練類工作負載。比如說NVLink的覆蓋范圍有限,所以最好能配合密度更大的部署方案。
第二種選擇是將設施升級為液體冷卻,特別是直接液冷(DLC)設計。Uptime分析師們預測,面對芯片發熱量、系統密度以及可持續性等方面的巨大壓力,運營商們將在2024年內更廣泛地部署直接液冷方案,用短期安裝便利性換取更強的硬件性能表現。
直接液冷在效率上通常高于傳統風冷,畢竟液體是熱量的更好導體,而且這項技術也在很大程度上消除了對機柜風扇的需求。據我們了解,采用液冷技術能夠將系統功耗降低達20%。但Uptime同時提到,由于液冷功耗會與整體IT系統功耗混雜一處,所以具體量化將極為困難。
而且發揮直接液冷的節能潛力也絕不是嘴上說說這般簡單。Uptime解釋稱,不少設施運營商可能傾向于先把冷卻液維持在較低溫度,借此改善對基礎設施的冷卻效果。據我們了解,這樣能夠減輕基礎設施設計負載,有利于延長IT硬件的使用壽命。但在能效角度看,這種作法卻不及使用溫度較高的室溫冷卻液,因為需要額外消耗電力來主動降低冷卻液溫度。
必須承認,低溫直接液冷確實具有性能優勢。液溫較低意味著CPU和加速器將始終維持更低的工作溫度,從而能夠以更高的超頻水平(以及相應的運行功率)運行更長時間。
人們真正擔心的,是采用直接液冷系統所節約的成本會被更高的系統負載所抵消,導致改造缺乏回報。
Uptime還指出,直接液冷很可能無助于可持續發展目標的實現,而迫在眉睫的監管要求則讓運營商們別無選擇。
原則上,每家主要云服務商和超大規模數據中心運營商在過去幾年間都做出了類似凈零排放的可持續發展承諾。至于微軟和谷歌等科技大廠,距離他們提出的首個主要里程碑就只剩下幾年時間了。
Uptime預測,如果數據中心運營商真想要兌現自己的承諾,就必將面臨一段艱難的時期。由于數據中心的部署區域并不一定擁有豐富的可再生能源供應,所以風能、太陽能和潮汐能等新能源類型的落地也往往于事無補。
不止如此,全球各國政府還一直在敦促各服務器農場提升電力消耗與碳足跡的透明度。
去年九月通過的歐盟企業可持續發展報告指令,以及加州氣候企業數據責任法案等規定,將很快要求更多企業上報碳排放及業務運營引發的氣候相關風險。
Uptime報告稱,美國證券交易委員會(SEC)也開始重視這一問題,并要求大型上市企業在其季度報告中披露部分排放數據。
毫無疑問,一眾監管要求中最為嚴苛的當數去年秋季發布的歐盟能源效率指令。這份文件列出了針對數據中心及其他IT與網絡運營商的報告要求。但需要強調的是,該指令旨在獲取關于使用模式的數據,暫不對數據中心設施的運營方式做規范性約束。
雖然這些監管要求的本意是好的,但Uptime通過調查發現,參與調查的數據中心運營商中已經開始實際追蹤碳排放等指標的比例只有不到一半。
多年以來,Uptime一直呼吁在數據中心領域廣泛引入數據驅動自動化方案。分析師們認為,2024年可能就是全面實現這個目標的時間節點。
問題的根源在于,盡管數據中心內的硬件設備發生了根本性變化,但管理工具的發展卻陷入了停滯。大多數樓宇管理系統(BMS)和數據中心基礎設施管理(DCIM)軟件所能提供的自動化分析功能仍相對有限。
可以想見,只要在管理層面做出適度改進,運營商們即可顯著提高能效,同時降低后續監管和排放上報要求的執行門檻。此類系統運營自動化的典型用例,就是在需求低價階段調整環境系統,避免浪費電力去冷卻那些根本沒有高強度運行的閑置系統。
Uptime還認為,更高級的自動化技術將基于由設施數據集訓練而成的AI模型,以預測性方式靈活調整數據中心的運行模式。
將這種類似AIOps的功能應用于數據中心整體當然好處多多,但Uptime分析師對于現有DCIM軟件供應商的適應能力卻持悲觀態度。相反,分析師們預計這些功能將率先誕生于新一代初創公司之手。Uptime目前正在關注六家處于不同發展階段的此類廠商,并認為他們的研發成果有望解決基礎設施的智能運營難題。
雖然報告沒有具體給出名稱,但我們懷疑其中之一很可能是Oxide Computer。該公司由前Sun Microsystems軟件工程師Bryan Cantrill與Joyent總裁Steve Tuck共同創立,專注于機架級計算場景,甚至內部原研了基板管理控制器(BMC)以避免使用Aspeed等行業標準控制器。
一系列現實趨勢,特別是為了應對AI需求持續增長而形成的算力密度提升,正推動運營商們投資建立由多個數據機房構成的超大規模服務器園區。
根據Uptime的介紹,這些園區可能占地數百萬平方米,旨在滿足多租戶的電力與連接需求,而且往往會在設計之初就強調使用更多清潔能源。
此類新園區的核心特征就是實現千兆瓦級容量。作為設施規劃中的關鍵詞,這些新園區肯定不會在初期運行時就達到這樣的功率水平,但為了避免在生命周期內遭遇擴展瓶頸,其很可能會預留出容量空間以承載后續設施。
去年,我們還看到不少更為激進的探索案例,包括利用氫燃料電池或小型模塊化反應堆等新型能源來提供數千兆瓦電力。
而且除了共享供電設施這個優勢之外,相互競爭的數據中心運營商也可能出于另一個理由而選擇彼此抱團,這就是設施之間的低延遲通信。
Uptime提出的這些數據中心(未來可能更適合稱其為數據城市)趨勢性預測將有助于降低托管與連接成本、提高設施彈性并提高運營可持續性。
這些預測最終能否落地還要留給時間來證明,但可以肯定的是,數據中心必將向著更大、更多、更費電的方向一路狂奔。