使用 Arm SME2 加速裝置端人工智慧
SME2 是 Arm Lumex CSS Platform 的最新 CPU 擴充,也是次世代裝置的先進子系統,專門設計用於直接在裝置上加速矩陣導向運算工作負載。可提升人工智慧及機器學習模型的效能,特別是依賴矩陣乘法等操作的模型,這在轉換器、卷積神經網路 (CNN) 及大型語言模型 (LLM) 中常見。
SME2 為什麼如此重要?
提供更順暢且迅速回應的裝置端使用者體驗。
減少對雲端服務的依賴,進而提升使用者隱私,並將延遲降至最低。
在 PyTorch、LiteRT、ExecuTorch、ONNX、MNN 中以原生方式透過 Arm KleidiAI 運作,無需變更程式碼。
目前於 iPhone 16 及 Apple M4 晶片提供使用,並且即將推出 Android 支援。
*在相同條件下與前代 CPU 叢集比較。
專為現代人工智慧打造
加速複雜的人工智慧運算,例如即時推論關鍵的矩陣-矩陣乘法與外積運算。
推出專屬 predicate-as-counter 機制,可最佳化向量暫存器使用,並提升資料吞吐量。
高效處理壓縮的低精度類神經網路資料格式,降低記憶體頻寬及提升效能。
提供從入門級到旗艦級行動裝置的彈性效能,確保開發人員及使用者在各種裝置之間享有一致的體驗。
專為開發人員打造
SME2 已於 iPhone 16 及 M4 架構裝置上線,協助開發人員立即開始最佳化人工智慧應用。
由於原生 SME2 支援各種頂尖的人工智慧框架及執行階段函式庫 (包括 PyTorch、ONNX Runtime、XNNPACK 及 llama.cpp),開發人員無需變更任何一行程式碼即可獲得 SME2 效益。SME2 強化效能也可在 Arm 架構平台 (從 iOS、iPadOS 到 macOS 及即將支援的 Android) 之間移植。
探索全新適用於 SME2 的 Arm Developer Launchpad,瞭解 SME2 的加速和使用場景、逐步教學內容,以及實作學習路徑。
最新消息及資源
- 最新消息及部落格
常見問題:SME2
SME2 (可擴展矩陣延伸指令集 2) 是 Armv9.3-A 架構的進階 CPU 指令集,加速人工智慧及機器學習工作負載,特別是 LLM 及電腦視覺等矩陣密集型任務。透過 Arm KleidiAI 與熱門的人工智慧框架無縫整合,無需變更程式碼即可提供更高的效能與效率。
SME2 直接在 CPU 上執行矩陣運算,協助大型語言模型加快 6 倍的推論速度,並提升 3 倍的視覺及音訊處理能力,無需獨立的 NPU 或雲端資源。
SME2 已部署在 iPhone 16 及 Apple M4 晶片中,即將推出 Android 裝置支援。從入門級到旗艦級裝置都可擴展,確保一致的效能。
SME2 可自動與 Pytorch、ONNX Runtime 及 XNNPACK 等框架整合,協助開發人員在不重寫程式碼的情況下加速人工智慧工作負載。開發人員可使用行動資源探索 Arm 人工智慧,適用於工具鏈、SDK 及訓練課程,以便快速開始使用。
是的,SME2 可直接在裝置端加速生成式人工智慧任務 (例如即時翻譯、相片/影片強化、音訊產生及動作分析)。這可實現更快速、更私密及更節能的使用者體驗。開發人員可瞭解如何利用 Arm 人工智慧在行動資源實作這些功能。