Arm 的使命在於協助因應 AI 永無止盡的能源需求

推動 AI 資料中心工作負載的挑戰(和機會)


作者:Arm 執行長 Rene Haas

 

 

AI 擁有超越上個世紀所有顛覆性創新的潛力,在醫療保健、生產力、教育等許多領域為社會帶來的助益,將超乎我們的想像。為了讓這些複雜的 AI 工作負載得以運作,全球資料中心所需的運算量也將急速成長。然而,這永無止盡的運算需求反映了一大挑戰:資料中心需要無比龐大的電力,才能推動這項突破性技術。

 

當前資料中心的用電量已經十分驚人:全球每年需要 460 太瓦/時(TWh)的電力,相當於德國全國的用電量。預計在 2030 年前,AI 的崛起將讓這個數值成長 3 倍,超過印度這個全球人口最多國家的總用電量。

 

未來的 AI 模型將持續擴大且更加聰明,進而刺激對更多運算的需求,對電力的需求也將隨之增加,形成互相推升的循環。如何找到降低大型資料中心用電量的方法,對於如何突破社會發展與實踐 AI 承諾來說相當關鍵。

 

換句話說,沒有電力就沒有 AI。

 

企業必須重新審視全局以因應能源效率問題。

 

重新構想 AI 未來:由 Arm 驅動的未來

 

追求能源效率是 Arm 的 DNA。Arm 最早推出的產品即是運用電池供電,並啟動了手機革命。這讓業界重新思考如何打造晶片,以滿足對 AI 日益成長的需求。

 

在一個傳統的伺服器機櫃中,光是運算晶片就可消耗超過 50% 的電力預算。工程師們正在設法減少這個數值,每一瓦電力都很重要。

 

在探尋解方的過程中,全球最大的 AI 超大規模運算業者紛紛改採 Arm 解決方案來降低用電量,這並不令人意外。相較於市場上的其他方案,Arm 最新的 Neoverse CPU 是效能最高、能源效率最佳的雲端資料中心處理器。Neoverse 提供超大規模運算業者客製化晶片的彈性,將要求嚴苛的工作負載最佳化,同時提供業界領先的效能和能源效率,省下的每一度電都可以投入更多的運算。這就是現在 Amazon、Microsoft、Google 和 Oracle 都採用 Arm Neoverse 技術,來處理通用型運算,與進行基於 CPU 的 AI 推論和訓練的原因。Arm Neoverse 正成為各雲端資料中心的實質標準。

 

請參考近期發表訊息中的數據:

 

  • AWS 基於 Arm 架構的 Graviton:相較於市場競品,Amazon Sagemaker 的 AI 推論效能高出 25%,Web 應用程式效能高出30%,資料庫效能高出 40%,能源效率則提升 60%。
  • Google Cloud 基於 Arm 架構的 Axion:支援基於 CPU 的 AI 推論和訓練、YouTube、Google Earth等服務,相較於競品的傳統式架構,效能高出 50%,能源效率提升 60%。
  • Microsoft Azure 基於 Arm 架構的 Cobalt:效能比市場競品高出 40%,支援 Microsoft Teams 等服務,並與 Maia 加速晶片結合,推動 Azure 的端對端 AI 架構。
  • Oracle Cloud 基於 Arm 架構的 Ampere Altra Max:相較於傳統的競爭者,每機櫃伺服器的效能高出 2.5 倍,用電量降低 2.8 倍,並已用於生成式 AI 推論模型:LLM 訓練的資料彙整、標記,以及批次推論使用場景。

 

顯然 Arm Neoverse 已大幅提高雲端通用型運算的效能和能源效率。然而,客戶現在發現加速運算也能帶來同樣的效益。大規模 AI 訓練需要獨特的加速運算架構,例如 NVIDIA Grace Blackwell 平台(GB200),它將 NVIDIA 的 Blackwell GPU 架構與基於 Arm 架構的 Grace CPU 相結合。相較於使用同級 LLM 架構的 NVIDIA H100 GPU,基於 Arm 的運算架構可實現系統級設計的最佳化,將用電量降低 25 倍,並將每個 GPU 的效能提高達 30 倍。這些最佳化能夠帶來顛覆性的效能和節能效果,歸功於 Arm Neoverse 能實現前所未有的客製化晶片的彈性。

 

隨著 Arm 部署規模的擴大,這些企業在資料中心總用電量可望節省高達 15%。省下的龐大電量,將可用於在相同的功耗範圍內提升AI 能力,而無需增加用電。具體來看,這些省下的電力可以用來執行 20 億次 ChatGPT 查詢,支持四分之一的日常網路搜尋流量,照亮 20% 的美國家庭,或者為與哥斯大黎加面積相仿的國家提供電力。

 

這對能源消耗和環境永續產生了驚人的影響。

 

從基礎面來看,Arm CPU 正在驅動 AI 革命,同時造福地球。

 

AI 運算的未來建構於 Arm 之上。