構建任何復雜系統都是其各部分的總和,但最基礎的元素是將它們綁定在一起的東西。在磚塊中,是砂漿;在木材中,是釘子;而在數據中心中,則是網絡。去年,英偉達 CEO 黃仁勛宣稱"數據中心是新的計算單元"。這意味著整個數據中心應被視為單一系統,就像芯片系統 (SoC) 或服務器一樣。將所有這些獨立元素(包括處理、內存和存儲)組合到一個平臺中,需要一個復雜、高性能、低延遲的網絡。
披露:我的公司 Tirias Research 曾為英偉達和本文提到的其他公司提供咨詢服務。
2024 年,英偉達推出了新的 Blackwell GB200 GPU AI 加速器,與 Grace CPU 結合在新的 NVL72 機架服務器配置中。雖然 GPU 和機架配置是且仍然是行業領先的解決方案,但真正的明星是 NVLink 交換機,它允許所有 72 個 GPU 互連并作為單一 GPU 運行,本質上是服務器和機架的基礎。因為它都在同一個機架中,所以被稱為縱向擴展解決方案。2025 年,英偉達正尋求通過新的同封裝光學網絡解決方案在整個數據中心橫向擴展網絡。
據英偉達稱,它與多家行業合作伙伴合作開發了 Quantum-X InfiniBand 和 Spectrum-X 以太網硅光子網絡交換機,在網絡模塊上采用同封裝光學技術。此外,英偉達還推出了三款新的液冷光學網絡交換機。由于 AI 數據中心(尤其是 AI 工廠)的高網絡需求,光學網絡已經很常見。雖然它在性能提升和延遲減少方面提供了顯著優勢,但在功耗、空間、復雜性和成本方面也帶來了代價。據英偉達稱,一個 AI 工廠可使用多達 240 萬個光學收發器,消耗高達 24MW 的功率,可能占到整個數據中心功耗的 10% 以上。
與傳統光學收發器相比,英偉達聲稱 Spectrum-X 硅光子網絡交換機可將激光器數量減少 4 倍,功率效率提高 3.5 倍,信號完整性提高 63 倍,網絡彈性提高 10 倍,網絡部署時間縮短 1.3 倍。這些改進對于滿足智能代理 AI 的需求至關重要,智能代理 AI 可能需要比分布在數據中心資源上的生成式 AI 工作負載多出數百倍的資源。英偉達新的網絡解決方案將使數據中心能夠繼續隨著 AI 需求的增長而擴展。
雖然這一公告對英偉達是一個提振,但對整個行業來說是一個里程碑。同封裝光學解決方案自 2000 年以來一直在開發中,但由于技術和制造挑戰(如光纖耦合和光源集成)而未進入大規模生產。雖然業界一致認為同封裝光學技術是不可避免的,但許多人仍然認為大規模生產的解決方案可能還需要幾年時間。然而,在其合作伙伴的協助下,英偉達聲稱已經克服了這些挑戰,并準備從今年晚些時候開始批量生產。英偉達的合作伙伴包括 Browave、Coherent、Corning、Fabrinet、富士康、Lumentum、Senko、SPIL、住友電氣、TFC 和臺積電。
除了新的網絡解決方案外,英偉達還發布了大量其他公告,包括:
英偉達宣布了數據中心 GPU 的未來三代產品 - Blackwell Ultra、Rubin 和 Rubin Ultra
面向 AI 開發者的新型 DGX Spark(前身為 Project Digits)和 DGX Station 系統
Blackwell DGX SuperPOD,一個開箱即用的 AI 工廠
用于開發和最大化智能代理 AI 解決方案的多種新模型/庫和軟件解決方案
即使有所有這些其他公告,網絡仍然是黃仁勛主題演講和 GTC 連續第二年的亮點。它不僅提高了數據中心的性能效率,還推進了對整個行業至關重要的技術。雖然今天的目標是機架到機架的橫向擴展連接,但隨著行業推動銅互連的極限,未來可能會針對內部機架縱向擴展網絡。