為何 AI 資料中心的系統架構師首選 Arm 平台
隨著 AI 負載將基礎設施推向機架級極限,系統架構師正重新思考底層架構設計,且越來越傾向以 Arm 平台建構系統。
過去十多年,雲端基礎設施透過「抽象化」實現擴展,借助標準化伺服器、虛擬化資源及軟體層,有效減少硬體層面的差異。這種模式之所以有效,是因為部分工作負載能夠容忍一定程度的低效率。然而,人工智慧 (AI) 工作負載無法容忍低效率,也因此暴露出了傳統架構在供電、散熱、算力密度、記憶體頻寬及系統整體效能上的不足。
本質上,AI 重新定義了「優異」基礎設施的標準。因此,平台設計的重心也從注重單一的晶片或伺服器,轉向了打造機架級、可擴展的系統,在功耗和預算均有限的前提下來實現高效擴展。而此一轉變的原因在於,推論與代理式AI 工作負載持續增加且不間斷運行,對高密度、全天連線的算力需求正快速提升。
Futurum 在《Arm 處於 AI 和資料中心變革的中心》報告中,將此一轉變稱為邁向「系統級協同」。設計關鍵不再是堆出多少算力,而是平台能不能有效地把加速器、CPU、記憶體、網路和軟體協同運行。
正因如此,業界正加速邁向客製化機架級系統設計:即針對 AI 負載特性、功耗波動和持續利用率,進行端到端設計的平台。越來越多的架構師開始重新思考運算底層設計,選擇基於 Arm 架構來解決現代 AI 平台面臨的多重約束。
AI 促使產業重新建構:轉向客製化機架級系統
此一轉變的關鍵原因,並非通用型標準化基礎設施無法承載 AI,而是碎片化的系統設計,這在 AI 規模化部署時,終將轉化為真實有感的成本代價。
AI 工作負載在運算、記憶體、網路、儲存及軟體各環節緊密整合。如果CPU 運作落後,昂貴的加速器就會空等;功耗和散熱波動,利用率就會下滑;資料管道、調度、編排未能針對平台調校,輸送量就不可預測。峰值效能依然重要,但穩定性、每瓦效能和系統整體平衡性更是關鍵。
Futurum 指出,超大規模雲端服務提供者正進行結構性調整,以獲得算力的指數級成長,同時也要避免能耗的同步激增。Futurum 引用 Arm 的資料指出,到 2025 年末,出貨到領先的超大規模雲端服務提供者的算力中,有近 50% 是基於 Arm 架構。
架構師現在不再只注重書面的跑分成果,而是更關心 AI 平台在實際應用中能否長期可靠地運行代理式 AI 和連續的推論工作負載,例如:
- 長時間高負載下,系統表現如何?
- 在實際環境中,功耗限制和散熱條件如何影響效能曲線?
- 在機架級系統中,運算層如何確保加速器能持續獲得穩定的資料供給,而非僅停留在書面的參數上?
當能源效率、可擴展性與系統平衡性成為首要原則時,重新審視 CPU 底層架構也就順理成章。正因如此,Arm 憑藉領先的架構和完善的生態系,正是這場產業變革的核心所在。
在資料中心領域,Arm Neoverse 平台是推動這一轉型的核心引擎。亞馬遜網路服務 (AWS)、Google、微軟、NVIDIA 等領先的超大規模雲端服務提供者與 AI 領軍企業,都在基於 Arm 架構或採用 Arm 運算平台進行產品研發。Arm 的模式既能支援客製化系統設計,又能保持跨平台、跨生態系、跨軟體的一致性。對於想要建構高整合度平台、又不願被單一技術路徑綁定的團隊而言,這種靈活性’ 相當重要。
代理式AI 與持續推論,重塑規模化算力的經濟邏輯
隨著 AI 與通用運算工作負載的融合,AI 工作負載正在發生變化,基礎設施也需隨之調整,以支援多樣化的工作負載特性。
產業重心正在轉向至代理式 AI,而代理式AI 本質上就是一個連續推論系統。代理式AI 並不是簡單地給出一個答案, 而是會規劃、調度工具、檢索資料、驗證結果,周而復始的作業。於是便形成了連續推論模式:穩定且不間斷的詞元 (token) 生成任務,請求類型趨於多元化,針對加速器的編排和資料移轉任務變得更為繁重。
在代理式 AI 裡,CPU 不再是配角, 而是整個 AI 系統的控制中樞。CPU 負責協調控制、調度任務、管理 IO、處理網路與儲存服務、執行安全性原則,並在模型、上下文及工具鏈不斷演進的過程中,維持整個系統的平衡。
以大語言模型 (LLM) 服務為例,它可能同時處理成百上千的請求。就算加速器負責核心運算,CPU 也要承擔請求許可權控制、分詞和預處理、批次處理和佇列調度、資料移轉編排,以及針對模型權重與 KV 快取的資料路徑協調等。到了代理式的工作流,CPU 的工作負擔進一步擴展,還要承擔工具使用、檢索流程、結構化輸出驗證、多步調度等持續運行的任務。
這一切都說明,CPU的重要性遠超過許多團隊的預期。如果 CPU 跟不上編排節奏,資料移轉、處理流程和加速器都會被「卡住」,而面臨結構性的閒置風險。
融合型 AI 資料中心的建設,彰顯 Arm 架構的強勁態勢
Arm 的發展態勢正在加速。領先的整合式 AI 系統中,基於 Neoverse 平台的 CPU 被廣泛用於代理式、推論密集型系統的編排層,尤其適合追求高能源效率、可預測擴展能力和大規模部署的應用場景。
獨立測試也印證了現代 CPU 基礎平台在「AI 相關」工作負載中的價值。Futurum 旗下 Signal65 的獨立基準測試對比了基於 Arm Neoverse 平台的 Amazon Graviton4 與同級的 AMD 和 Intel EC2 執行個體。結果顯示,在生成式 AI (Llama-3.1-8B)、資料庫 (Redis)、機器學習 (XGBoost)、網路 (Nginx) 等測試的各種工作負載中,基於 Neoverse 平台的 Graviton4 在效能和性價比方面大幅領先。
測試結果直接反映了代理式 AI 資料中心的現狀:LLM、檢索層、快取、Web/API、傳統機器學習等全都處於代理式系統的關鍵路徑上,只有當 CPU 兼具速度與能源效率時,整體才能更好地擴展。
最新的機架級 AI 系統在架構設計上,均採用客製化加速器層以及基於 Arm 架構的 CPU 層的組合,由後者承擔調度編排、資料移轉與代理式AI推論預處理等關鍵任務。NVIDIA Grace Hopper、Grace Blackwell 等系列產品,將 NVIDIA GPU 與基於 Neoverse 架構的 Grace CPU 深度融合。而其最新機架級平台 Vera Rubin NVL72,更是在系統內整合72 顆 Rubin GPU 與 36 顆基於 Arm 架構的 Vera CPU,專為互動式、深度推論型的代理式 AI 最佳化,顯著降低推論成本。
亞馬遜網路服務 (AWS) 也在走同樣的系統級路線:Amazon Trainium3 UltraServer 把 Trainium3 加速器晶片與 Graviton CPU 結合,強化了「融合型」設計理念:將加速器與客製的高效能、高能效 CPU 相匹配,以實現高效擴展。
「提供更優選擇」不再是偏好,而是剛性需求
AI 系統反覆運算太快,固定架構已無法符合其發展節奏,因此為客戶提供更優選擇已成為風險管理的必要舉措。
系統架構師想要的是:
- 平台能適應不同代別的硬體、多樣的工作負載配置及各不相同的部署環境 ;
- 軟體可移植,以降低系統變更成本。
同時,系統架構師希望避免因過度依賴單一廠商,而導致在模型組合變化、業務規模擴張或新需求出現時陷入被動局面。在代理式AI時代尤其如此:推論形態不斷變化,上下文更長、工具調度更多、多模態輸入更頻繁、全天候工作負載更普遍,效率和平衡遠比峰值跑分重要。
Arm 架構在提升系統效能的同時,保持跨平台一致性。Arm 架構不僅導入現代 AI 基礎設施所需的關鍵特性,而且擁有強大的軟體生態支援。Arm 運算子系統 (CSS) 提供經過驗證的基礎設施級模組,既加速了晶片開發,又保留了合作夥伴間的差異化與選擇權。對於所有基於 Arm 架構的平台,能一致地貫穿始終,雲端工作負載遷移至 Arm 平台也極為便捷。同時,在軟體層面,Arm 生態系協助團隊在不同環境與平台間擁有一致連貫的基礎,進而加速開發進程,無需重寫所有程式碼。
代理式 AI 經濟重塑 CPU 選擇格局,Arm Neoverse 平台成為主要領導廠商首選
系統架構師之所以傾向於 Arm 平台,因為它精準匹配客製化AI 系統的核心需求:能源效率、可擴展性及每瓦效能。能源效率重要,因為功耗和預算有其上限;系統平衡和 CPU 效能重要,因為加速器閒置成本極高;一致性重要,因為 AI 基礎設施變化快、跨環境部署日益增加。
在融合型代理式 AI 資料中心裡,面對持續推論的應用需求,上述優先事項成為一上線就得需滿足的必要指標。代理式系統不只需要能生成詞元的加速器,更需要以 CPU 為核心的編排能力,在網路、儲存、調度、安全層面,持續、高效率、大規模地把資源妥善運用。
當前Arm 的強勁成長動能正源自於此:Neoverse 正成為代理式時代的 CPU 基礎平台,做為運算的主節點,是讓 AI 系統保持高效率、一致並針對未來的核心控制中樞。
關於 Arm
Arm 是業界效能最高且最節能的運算平台,其無可比擬的應用範疇觸及全球所有連網使用者。為因應全球對運算永無止境的需求,Arm 提供先進的解決方案,使全球領先的科技公司得以釋放前所未有的 AI 體驗與功能。透過與全球最大的運算生態系及 2,200 萬名軟體開發者的共同努力,我們正在 Arm 平台上建構 AI 的未來。
所有資訊都「依目前情況」提供,且並不帶保證或代表性。此文件可以自由分享,但不得修改且必須註明出處。Arm 是 Arm Limited(或其子公司與附屬機構)的註冊商標。所有品牌或產品名稱均為所屬公司之財產。© 1995-2026 Arm Limited.