從雲端到邊緣：系統級智慧為何是 AI 發展的基礎

April 10, 2026

AI 的效能正由整個系統在運算、記憶體與資料流動各層面之間，如何智慧協同運作所決定。

邁入人工智慧 (AI) 時代，系統效能越來越受到功耗、散熱、記憶體頻寬和資料傳輸等多重因素限制，而且影響所有運算場景，從千兆瓦級超大規模資料中心到毫瓦級邊緣裝置，無一例外。

正如 Futurum 的報告《Arm 處於 AI 和資料中心變革的中心》中所述：「AI 並非單一工作負載，也不存在單一理想化的基礎設施。相反的，AI 是一系列工作負載的集合，需要一套連貫的策略，兼顧成本效益與效能，滿足多樣化需求。」

代理式 AI 的興起，進一步催生了上述需求。此類模型不再僅對單條提示詞做出回應，而是以多個自主代理的協作運行，完成規劃、推論並執行各類任務。與單獨的推論調度不同，代理式 AI 系統會生成持續的工作流，涉及記憶體檢索、工具調度、跨模型與跨服務協同調度，對算力、記憶體頻寬和系統編排提出源源不斷的要求。

在此一趨勢的影響下，運算基礎設施的設計思路正在發生根本性的轉變。AI 系統不再是各種晶片的簡單堆砌，而是一體化的整體，CPU、加速器、記憶體與網路元件全都協同運行。由此，系統級智慧如今已成為決定晶片效能、與可擴展性的重中之重。

追求可持續的系統級表現，而非不計成本的極致效能

在現代 AI 資料中心的建設中，客戶不再單純選購「最強 CPU」或「最快加速器」，而是著重於最佳化機架能源效率，重點關注每瓦效能，尤其看重在持續、真實工作負載下的表現，而非短時間的峰值跑分成績。如今單個機架的設計功耗可達 50kW 至 300kW 以上，因此不得不從整體層面進行權衡，單晶片「極限」效能指標的重要性因此下降。

系統平衡變得更為關鍵：

在各個運算元件之間高效率地傳輸資料；
在機架層面，每瓦功耗產出更多有效算力；
讓 CPU、GPU、NPU、記憶體池與互聯架構協同一致、整體運行。

Futurum 報告也指出，產業關注焦點已從「能堆多少原始算力」轉向「如何在系統層面，針對多樣化的需求與環境，更加智慧地編排算力？」。

這一轉變重新建構了晶片的定位。加速器決定了原始算力吞吐能力，而系統編排 (包括任務調度、記憶體管理、安全管控與資料傳輸) 則決定了這種吞吐能力可否在大規模下持續。若缺少高效率的系統編排，從機架層面，受制於記憶體、網路或控制面瓶頸，即便最強大的加速器也可能陷入閒置狀態，無法充分發揮效能。

在代理式 AI 工作負載場景中，這種現象會更加明顯。數百萬軟體代理同步運行，查詢資料、調用工具、生成輸出、跨服務協作，算力需求從「突發式」供給，轉變為結構性持續供給。因此，基礎設施必須能夠支撐持續不間斷的系統編排與資料傳輸，而非僅滿足模型暫時性的峰值吞吐需求。

CPU 在 AI 時代的重要性更為凸顯

隨著 AI 模型、工作負載與部署環境的多樣化發展，CPU 正逐漸地成為 AI 的主要節點，即系統的控制中樞，負責對整個系統進行協調與編排。

在大規模 AI 平台中，CPU 主要負責：

在各種異質加速器之間分派與調度任務；
管理記憶體一致性、資料在地性，以及針對 KV 快取與向量資料庫等工作負載進行主機記憶體卸載；
處理純矩陣運算之外的資料預處理與後處理任務；
在整個系統中執行控制層 (control plane) 作業，並確保安全性與隔離機制。

簡而言之，加速器負責執行驅動 AI 模型的運算，而 CPU 則是將算力轉化為可靠、可擴展、具備實際應用價值的核心。

CPU 的重要性已得到產業領先企業的驗證和認可。在彭博 (Bloomberg) 的一次採訪中，NVIDIA 創辦人暨執行長黃仁勳證實，全新 Vera Rubin 平台所搭載的基於 Arm 架構的 Vera CPU 將做為獨立產品推出。此舉清楚表示，CPU 在 AI 系統設計中的重要性正與日俱增。

此外，隨著 AI 基礎設施日益多元化，CPU 架構憑藉靈活性、高能源效率和系統協同能力，價值和重要性將大幅提升。Arm 的優勢也由此可見。Futurum 的研究報告明確指出：「GPU 和 TPU 等專用加速器通常會與基於 Arm 架構的CPU 搭配使用，以承擔通用控制與資料管理任務，同時有效避免高昂的成本與功耗開銷。」

Arm 引領系統級基礎設施的發展

Arm 的運算優勢在於效能、能源效率、可擴展性以及廣泛的生態系。對系統架構師而言，這樣的選擇有助於在快速變動的 AI 環境中更有效地管理風險，並與現代機櫃層級 AI 系統的需求高度契合。

以上優勢已在全球主要的超大規模雲端服務提供者的實作中得到驗證：

亞馬遜網路服務 (AWS) 將基於 Arm 架構的 Graviton CPU 與 Nitro DPU 及 Trainium 加速器相結合，最佳化機架級能源效率；
Google 基於 TPU 的系統正逐漸搭配整合 Arm CPU 核心的 Google Axion 處理器，承擔編排與控制任務；
NVIDIA 的 Grace、Grace-Hopper 和即將推出的 Vera 平台，均將 GPU 與基於 Arm 架構的 CPU，以及 DPU 配對，打造高度整合化的 AI 系統。

Arm 運算平台逐漸成為系統基礎，將加速器、記憶體與網路元件整合在一起，構成一套能協同、一致化、高能源效率的整體系統。

AI 正邁向以推論為先的發展階段

儘管模型訓練經常成為新聞焦點，但推論才是 AI實現規模化的核心。代理式 AI 的興起進一步提升了推論的重要性，因為代理需要持續運行，執行一連串推論操作，而非單次的使用模型。

從眾多路線圖來看，未來十年內推論工作負載將超越訓練工作負載，而推論對系統的要求，與訓練截然不同，主要在於：

需要更低的延遲；
對記憶體頻寬更為敏感；
需要持續不間斷運行；
功耗與散熱限制嚴格。

上述要求不僅針對資料中心，同樣也適用於邊緣端場景，包括我們日常生活中的消費電子裝置與物聯網系統。與雲端一樣，邊緣運算同樣遵循相同的系統級設計原則：

效能由加速能力與系統間的資料傳輸效率共同決定；
安全防護依賴系統級協同，實現跨工作負載與記憶體間的全域防護；
整合速度直接影響產品上市時間。

在邊緣 AI 系統中，如果加速器與記憶體、互連沒有緊密耦合，系統就會迅速陷入頻寬、功耗及軟體複雜度等多重瓶頸。只有將 CPU 加速、記憶體與互連進行深度整合，才能提供更穩定的效能、更高效的擴展能力，也更利於開發者使用。

Futurum 研究報告指出：「以往需要憑藉雲端完成的任務，如今可借助 Arm 高能源效率核心與整合的 AI 引擎在本地實現。」

規模化系統設計

隨著系統複雜度不斷攀升，整合與驗證環節 (而非電晶體設計) 正成為成本與風險的主要來源。因此，產業開始轉向採用預整合的運算子系統和標準化系統介面。

在此產業趨勢下，Arm 運算子系統 (Compute Subsystems, CSS) 應運而生，市場需求持續增加。CSS 提供經過預先驗證的子系統，為客製化系統設計提供了明確路徑，在降低整合風險的同時，協助合作夥伴實現產品差異化。CSS 不再僅提供獨立的 IP 模組，而是提供預先驗證的系統設計方案，涵蓋 CPU、互連、一致性協定與記憶體管理機制，實現各元件原生協同。

此外，Arm 的系統 IP 產品組合涵蓋互連控制器、記憶體控制器與一致性互連架構，能夠幫助合作夥伴以更低風險、更快速度，設計出全方位針對 AI 最佳化的系統。在 AI 工作負載同時對頻寬、延遲與功耗提出嚴苛要求的趨勢下，系統級基礎平台的重要性更為凸顯。

核心價值與意義

隨著 AI 從單一模型推論逐步演進至由代理驅動的系統，運算基礎架構所面臨的關鍵挑戰，轉向如何進行有效協調，並確保各類處理器、記憶體系統與網路能夠如同一個整體般協同運作。

AI 領域的核心競爭力將聚焦於系統層面的四大能力：

在功耗限制下建構高能源效率系統；
整合異質運算資源，避免碎片化；
以最低的能耗完成資料傳輸；
將安全與效能內化為系統原生屬性，而非附加功能。

Futurum 研究報告總結：「產業格局的重塑，不僅取決於誰能製造出效能最強的晶片，更取決於誰能打造出涵括全場景、高度整合化且高能源效率的系統。」

憑藉系統層面的客製化、高能源效率與多樣化選擇，Arm 架構正支持著越來越多高可擴展性 AI 運算環境，包括從超大規模資料中心到邊緣裝置全場景。

AI 的未來，並非單純追求晶片算力提升，而是憑藉 Arm 架構打造更智慧、具備更高效率、更具擴展性的整體系統。

關於 Arm

Arm 是 AI 時代的基礎平台，其兼具卓越效能與節能優勢的運算能力，觸及全球所有連網使用者。為因應對運算永無止境的需求，Arm 平台橫跨核心 IP、先進運算子系統及專用晶片，使國際頂尖的科技公司能靈活設計、打造並大規模部署 AI 應用。透過與規模最大的運算生態系及業界超過 2,200 萬名開發者的共同努力，我們正於 Arm 平台上建構 AI 的未來。

Arm 帳號

從雲端到邊緣：系統級智慧為何是 AI 發展的基礎