整合一週年,Arm KleidiAI 與 XNNPack 實現無縫且透明性 AI 效能

August 18, 2025

Arm KleidiAI 首次整合到 XNNPack 已整整一年。KleidiAI 是一款高度最佳化的軟體函式庫,以加速 Arm CPU 上的 AI 推論。在過去一年中,從推出 INT4 矩陣乘法 (matmul) 最佳化以強化 Google Gemma 2 模型效能開始,到後續完成多項底層技術強化,Arm 在 XNNPack 上實現顯著的效能提升。

更值得注意的是,開發者對此無需進行任何改動。這些提升均實現了完全透明化,既不用修改程式碼,也無需額外的依賴項。只要像往常一樣基於 XNNPack 建構並運行應用,就能自動享受 Arm 透過 KleidiAI 導入最新的底層最佳化。

XNNPack 中的最新 KleidiAI 最佳化

針對 SDOT 和 i8mm 的 F32 x INT8 矩陣乘法

在先前 INT4 最佳化基礎上,這次最佳化聚焦於透過動態量化加速 INT8 矩陣乘法,拓寬效能提升的覆蓋範圍,以支援各類 AI 模型。從卷積神經網路到先進的生成式 AI 模型(例如 2025 年 5 月發表的 Stable Audio Open Small),這項最佳化帶來確實可見的效能提升。例如,該最佳化使擴散模組 (diffusion module) 的效能提升了 30% 以上。

與之前的 INT4 強化功能相同,INT8 最佳化借助 SDOT 指令和 i8mm 指令,在各類 CPU 上,提升動態量化效能。

針對 F32、F16 和 INT8 矩陣演算法的 SME2 最佳化

近期最令人振奮的進展之一,是 Armv9 架構上對可擴展矩陣延伸指令集 2 (SME2) 的支援。這為 F32 (Float32)、F16 (Float16) 和 INT8 矩陣乘法帶來顯著的效能躍升,為新的高效能應用做好準備。因此,無論是對於當前還是未來的 AI 工作負載,都能從一開始實現無縫加速,且無需任何額外投入。

什麼是 SME2?

SME2 是 Armv9-A CPU 架構中導入的一項全新 Arm 技術。SME2 基於可擴展向量延伸指令集2 (SVE2) 技術建構,並透過新增功能擴展其應用範圍,為人工智慧、電腦視覺、線性代數等多種領域帶來效益。

SME2 的一項突出特性是矩陣外積累加 (MOPA) 指令,該指令能夠帶來高效率的外積運算。

如下圖所示,外積與點積的區別在於,點積的運算結果是一個標量,而外積則由兩個輸入向量生成一個矩陣。

 

向量矩陣

 

透過以下矩陣乘法範例來瞭解這個區別:

 

矩陣乘法範例

 

該矩陣乘法可分解為一系列外積運算,如下圖所示:

 

矩陣乘法一系列外積運算

 

清楚瞭解這個概念後,再深入探討構成最佳化的矩陣乘法常式核心的 SME2 彙編指令:

FMOPA za0.s, p0/m, p1/m, z1.s, z3.s

各運算元的含義如下:

  • FMOPA:浮點矩陣外積累加指令
  • ZA0.s:用於儲存和累積外積結果的 ZA 暫存器
  • p0/m 和 p1/m:用於定義有效運算通道 (遮罩操作) 的 Predicate 暫存器
  • z1.s 和 z3.s:參與外積運算的輸入向量

該指令支援多種資料類型,涵蓋浮點格式 (如 F32 和 F16) 及整數類型 (如 INT8)。受惠於 SVE 技術的應用,它具備向量長度無關性,這代表其能隨硬體向量尺寸自動適配擴展,無需修改任何程式碼。

為展現 SME2 的效能潛力,可參考它在 Google Gemma 3 模型中透過 INT8 外積指令加速 INT4 矩陣乘法的效果。相比同一裝置未啟用 SME2 的情況,當 Gemma 3 模型部署在支援 SME2 的硬體上時,在聊天機器人應用場景的 AI 回應速度最高可提升六倍。

此外,借助單一 CPU 核心上的 SME2 加速,Gemma 3 能在一秒內開始對一篇四段文字的文本內容生成摘要,充分印證了該架構在回應速度與運行效率上的提升。

最佳化所帶來的實際意義

透過這些更新,XNNPack 成為第一個支援 SME2 的 AI 推論函式庫,能夠在 Arm CPU 上進一步實現前所未有的效能表現。

無論是專注於生成式 AI 還是基於 CNN 神經網路的開發者,都能在無需修改任何程式碼的情況下,在其應用上實現顯著的效能提升。

展望 Arm KleidiAI 的未來

過去一年的實踐證明,透明化加速不僅確實可行,更已具備實際應用價值。隨著 KleidiAI 不斷突破 XNNPack 上的效能表現,開發者可專注於打造出色的 AI 體驗,而 runtime 效能也將持續提升。

關於 Arm

Arm 是業界效能最高且最節能的運算平台,其無可比擬的應用範疇觸及全球所有連網使用者。為因應全球對運算永無止境的需求,Arm 提供先進的解決方案,使全球領先的科技公司得以釋放前所未有的 AI 體驗與功能。透過與全球最大的運算生態系及 2,200 萬名軟體開發者的共同努力,我們正在 Arm 平台上建構 AI 的未來。


所有資訊都「依目前情況」提供,且並不帶保證或代表性。此文件可以自由分享,但不得修改且必須註明出處。Arm 是 Arm Limited(或其子公司與附屬機構)的註冊商標。所有品牌或產品名稱均為所屬公司之財產。© 1995-2025 Arm Limited.