Arm 攜手 Google Cloud,以 Axion 處理器重新定義代理式 AI 基礎設施

April 28, 2026

專為 Google Cloud 打造的 Arm CPU,為最新一代 Google TPU 提供基礎支援,並透過 GKE 代理式沙盒實現具成本效益的高吞吐量 AI代理協同運作。

Google Cloud 正透過多項升級措施,穩健地推進代理式人工智慧 (Agentic AI) 的規模化落地。此次更新包含全新 TPU 8t 和 TPU 8i 系統,同時在 Google Kubernetes Engine (GKE) 推出代理沙盒 (Agent Sandbox)。做為客製化部署框架,它能夠高效率地、安全地運行複雜的多步驟 AI 系統。這套全新的代理式基礎設施,搭載 Google 基於 Arm Neoverse 平台打造的 Axion 處理器,充分展現出產業的核心趨勢:次世代 AI 工作負載正加速轉向客製化 CPU 架構。

隨著代理式 AI 從技術試驗邁向商用部署,基礎設施的需求正在反覆運算變革。傳統推論僅依賴單次模型調度,而代理式系統需要持續編排調度邏輯推論鏈、工具調度和即時資料讀取。這大幅提升了並行處理能力、對延遲的敏感度,以及整體運算需求,使 CPU 成為成功關鍵中不可或缺的一環。

這正是 Arm 架構基礎設施的核心優勢所在。Arm Neoverse 平台專為高吞吐量、高能源效率運算場景打造,Google Axion 便是典型代表,已成為規模化部署代理式 AI 的堅實基礎。

規模化代理式 AI: Axion 走在尖端

Google Cloud 正式發佈第八代 TPU 系統,延續了其長期深耕客製晶片設計的技術累積。本次新品針對訓練與推論應用做出差異化,推出 TPU 8t 與 TPU 8i 兩款型號;同時首次搭載 Google Axion CPU 做為運算主要節點 (header)。該設計有效降低資料預處理延遲,保障 TPU 算力引擎滿載運行、杜絕算力閒置卡頓。

當然,TPU 並非全部佈局。Google Cloud 正全力推動 “AI Hypercomputer” 協同設計願景,另一項關鍵發表是 GKE 代理沙盒 (Agent Sandbox)。它提供可擴展、低延遲的基礎設施,使 AI 代理能夠在不犧牲效能的前提下,安全地執行非可信任程式碼和工具調度。借助 Google Axion,用戶可以在領先的基礎設施之上建構 AI 代理,同時兼顧成本效益與技術選擇的靈活性。

運行在 Google Axion 處理器之上、基於 gVisor 打造,且支持 Kata Containers 的 GKE 代理沙盒,可實現以下效能指標:

  • 每個叢集每秒支持 300 個沙盒
  • 第一個指令執行延遲低於 1 秒

要維持如此高的沙盒吞吐能力和低延遲執行表現,底層基礎設施始終承受著持續壓力。隨著代理式 AI 逐步成為主流部署模式,其所依賴的基礎設施必須在吞吐能力、回應速度與能源效率方面同步提升,才能在大規模場景下可靠運行 AI 代理工作負載。Axion 正是為滿足這一需求而設計。

隨著 AI 代理系統不斷擴張,推論效率的重要性愈發凸顯。低效率的推論能力會直接導致 AI 代理無法正常運轉;而缺少 AI 代理的編排,推論算力也將長期處於閒置狀態。將兩大核心任務部署到基於 CPU 的基礎設施之上,企業即可在嚴控成本的前提下,實現高效能 AI 代理的規模化擴展。

Axion 上的 AI 推論:重新改寫經濟效益的效能表現

C4A 虛擬機器搭載基於 Arm Neoverse V2 平台的 Axion CPU,經過深度最佳化,可與專用加速器形成能力互補。在處理這類具高並行性且對延遲敏感的工作負載時,透過通用運算提供高吞吐量的 AI 推論能力,得以高效率地執行。

該優勢已在實際部署環境中得到充分驗證。歐洲線上旅遊平台 loveholidays 需在 PB 級數據之上,穩定運行大規模向量嵌入與推論工作負載;規模化部署場景下,純加速器方案成本高昂,實行門檻極高。

loveholidays 工程負責人 Dimitri Lerko 表示:「業務高速發展下,我們的詞元 (token) 處理需求增加的速度已遠超預算擴充的節奏。面對現有海量資料規模,依靠 GPU 承載大規模嵌入與推論負載成本已難以為繼,因此提升 CPU 能源效率成為核心訴求。憑藉著Axion 系列的 C4A 和 N4A 虛擬機器,我們獲得相當的性價比優勢,得以基於 CPU 建構即時 AI 決策管線,運行客製化模型與開源模型推論。這在之前幾乎不可能。」

實測資料顯示,在多種 AI 推論工作負載中,C4A 始終優於當前一代的 x86 執行個體:



Axion 上的 AI 推論:重新改寫經濟效益的效能表現



Axion 產品組合擴展

對於需要更高控制力的工作負載,Axion 產品系列也延伸至 C4A Metal,這是一項原生裸機執行個體 (目前為預覽版),將相同的 Arm 架構從雲端延伸至邊緣。它可在不同環境之間實現一致的開發、驗證與部署,並透過直接存取硬體、無需虛擬機監控程式 (hypervisor),提供可預測且穩定的效能。這特別適用於要求嚴苛的應用情境,例如汽車 vHIL、原生 Android CI/CD,以及需要更高控制力、效能與架構一致性的專用企業基礎設施。

松下汽車系統北美公司技術長 Andrew Poliak 表示:「松下正在打造次世代橫跨雲端與車端的車載體驗。在 C4A Metal 執行個體預覽階段,我們採用與邊緣端架構完全一致的 Arm 裸機環境,研發團隊可以統一平台,完成車載應用的全流程開發、測試與驗證。這讓我們能在雲端與車端之間實現位元一致性 (bit parity)——在兩種環境中執行相同的二進位檔,而無需在架構上做出任何妥協。」

此外,Axion 產品系列的最新成員 N4A,為橫向擴展型工作負載 (例如網站服務、API 與資料管線) 提供具備成本效益的基礎。

C4A、C4A Metal 與 N4A 共同構成了一個統一、針對不同工作負載最佳化的產品組合,既能進行 AI 推論,也能支援橫向擴展型應用,並貫穿雲端到邊緣環境,幫助團隊在 Arm 運算平台上同時實現效能與成本的最佳化。

Arm 優先部署,構築領先生態系

Arm 已支撐起產業中規模龐大、成長幅度領先的軟體生態系,持續推動雲端與邊緣端向以 Arm 架構優先的運算轉型。Google 已在 Axion 處理器上運行包括 YouTube、Gmail、BigQuery、Spanner、Bigtable、Google Earth Engine、Google Compute Engine、GKE Dataflow、Cloud Batch 等多項正式上線的服務,並在其部署環境中完成超過 30,000 款內部應用的架構遷移

對於剛剛啟動遷移作業的企業,Arm 的雲端遷移資源中心 (Cloud Migration Resource Hub) 提供了 100 多條 Learning Path,包括 Google Axion 上的常見工作負載模式。在整個 Neoverse 生態系中,Arm 軟體生態系總覽 (Arm Software Ecosystem Dashboard) 可用於追蹤已驗證的軟體及其推薦版本;同時,遵循 SystemReady VE 標準,可確保軟體從部署第一天起即可實現無縫互動操作。Elastic、MongoDB、Palo Alto Networks、Redis Labs 以及 Couchbase 等領先的獨立軟體開發商 (ISV) 均已在基於 Axion 的基礎設施上完成全面驗證。

開始使用 Google Axion

無論是透過 GKE 代理沙盒部署 AI 代理工作負載,在 C4A 上最佳化推論效能,還是借助 N4A 擴展通用運算能力,Axion 都為現代 AI 基礎設施提供了一個一致、基於 Arm 運算平台的堅實基礎。

開始在 Google Cloud 上使用 Google Axion

更多資源:

關於 Arm

Arm 是 AI 時代的基礎平台,其兼具卓越效能與節能優勢的運算能力,觸及全球所有連網使用者。為因應對運算永無止境的需求,Arm 平台橫跨核心 IP、先進運算子系統及專用晶片,使國際頂尖的科技公司能靈活設計、打造並大規模部署 AI 應用。透過與規模最大的運算生態系及業界超過 2,200 萬名開發者的共同努力,我們正於 Arm 平台上建構 AI 的未來。


所有資訊都「依目前情況」提供,且並不帶保證或代表性。此文件可以自由分享,但不得修改且必須註明出處。Arm 是 Arm Limited(或其子公司與附屬機構)的註冊商標。所有品牌或產品名稱均為所屬公司之財產。© 1995-2026 Arm Limited.