ExecuTorch 1.0 正式版發佈!重塑基於 Arm 運算平台的邊緣 AI 開發體驗
作者:Arm AI 與開發者平台副總經理 Sharbani Roy
新聞重點:
- 透過一致的 PyTorch 工作流程,開發者可在數十億個基於 Arm 平台的邊緣裝置上無縫部署 PyTorch 模型,打造速度更快、功能更先進的裝置端 AI 應用和體驗。
- 針對基於 Arm CPU、GPU 和 NPU 建構的裝置,開發者可透過 ExecuTorch 中整合的 Arm KleidiAI、TOSA 和 CMSIS-NN 後端,讓工作負載自動獲得效能與效率提升。
- 無論是針對行動裝置、PC、可穿戴裝置、邊緣感測器還是高效能物聯網裝置開發,開發者現在都能從 ExecuTorch 1.0 正式版中受惠,而且 Arm 和 Meta 還在此處提供了豐富資源。
試想這樣的場景:專用的裝置端人工智慧 (AI) 助理與語音互動無需連接雲端即可運行,且回應延遲極低;聊天機器人能在使用者輸入時即時推薦回覆內容;遊戲體驗可根據玩家操作即時調整;可穿戴裝置與物聯網裝置中,更智慧的 always-on 高能效感測器能以低功耗實現強大的智慧功能。
這類 AI 體驗均可透過 ExecuTorch (Meta 針對 PyTorch 打造的裝置端 runtime) 與 Arm 共同協助開發者實現。二者結合能透過一致的 PyTorch 工作流程帶來最佳化的效能與更高效率的開發流程,數十億個基於 Arm 架構的邊緣端裝置上可在該工作流程上無縫運行。如今,ExecuTorch 建立了重要里程碑——發佈正式版,該版本將「AI 無處不在」的願景,轉化為可供數百萬開發者落地的規模化方案。
協助設立一套工作流程,涵蓋數十億邊緣端裝置
ExecuTorch 1.0 正式版徹底改變開發者規模化落地 PyTorch 模型的方式。以往,開發者需要針對不同裝置類型,單獨調整模型版本、管線或框架;如今,只需一套 PyTorch 工作流程,開發者即可完成從模型創建、匯出、最佳化、量化到部署的端到端操作,且覆蓋行動裝置端、嵌入式與邊緣端裝置,不僅大幅減少開發碎片化問題,同時縮短了產品上市時間。
借助這套工具集,開發者可無縫部署應用與工作負載,在從超高能效微控制器到旗艦智慧手機等各類搭載 Arm CPU、GPU 和 Arm Ethos-U NPU 的邊緣端裝置上,充分釋放更先進、更快速的 AI 體驗與特性。Meta 近期發佈的部落格文章中提到,已有多款由 ExecuTorch 支援的裝置端 AI 特性,在 Facebook、Instagram、Messenger 和 WhatsApp 平台上為數十億個使用者提供服務,例如提升視訊通話品質、最佳化音樂推薦和豐富創意故事呈現體驗等。
協助 ExecuTorch 的 Arm 技術
Arm KleidiAI、CMSIS-NN 與張量運算子集架構 (TOSA) 透過在 ExecuTorch 中整合後端,共同建構一致的最佳化框架。這代表當應用與工作負載是針對基於 Arm 架構的邊緣端裝置時,開發者無需修改程式碼或模型,即可自動獲得效能與效率的提升。
KleidiAI 可提供 Arm 核心整合,為當前及未來的 Arm CPU 平台加速 AI 工作負載。目前,該技術已整合到多個框架和運行 runtime 中,包括 ExecuTorch 使用的 XNNPACK 運行時。同時,CMSIS-NN ExecuTorch 後端整合相當於 Arm Cortex-M 系列微控制器的效能加速器,能為資源受限的邊緣端裝置提供高效率、直接整合的推論支援。
ExecuTorch 中的 TOSA 整合為在 Arm GPU 和 Ethos-U NPU 上運行的邊緣 AI 與機器學習 (ML) 工作負載,提供一致的執行介面。TOSA 可將模型轉換為獨立於硬體的標準化描述,既能確保在這些技術平台上實現一致的部署、移植和驗證,又能減少工程開發工作量。
ExecuTorch 1.0 正式版為行動端和邊緣 AI 市場帶來價值
行動裝置端
在行動裝置端,ExecuTorch 1.0 正式版可幫助開發者,在當前數十億個基於 Arm 架構的智慧手機及次世代行動裝置上,更快、更高效率地部署更智慧的裝置端 AI 體驗。
主要優勢包括:
- 與 Android 應用工作流程無縫整合,且從模型開發到裝置端部署均全面支援 PyTorch,大幅縮短產品上市時間。
- 借助 KleidiAI 最佳化實現內建效能提升,為文本生成、音訊生成、即時語音互動和虛擬助理等各類先進裝置端 AI 功能和體驗,帶來更快的啟動速度、更低的延遲以及更少的記憶體佔用。例如,Stable Audio Small 文本轉音訊模型在基於 Arm CPU 的裝置端運行時,生成 11 秒音訊僅需 7 到 8 秒,而在啟用 SME2 的消費性電子裝置上,生成時間可縮短至 4 秒以內。
- 廣泛的 Arm 技術支援,確保 AI 模型可在當前及未來的各類 Arm CPU 和 GPU 上運行,具體內容包括:
- Arm Cortex-A CPU 及新一代 Arm CPU(包括啟用 SME2 的 Arm C1 CPU),可透過 XNNPACK 中的 KleidiAI 整合來實現支援,詳情可參考此 Arm Community 部落格;
- 當前的 Arm Mali 和 Arm Immortalis GPU 可透過 Vulkan 路徑進行支援;
- 2026 年推出的搭載 Arm 類神經技術的 Arm Mali GPU,可透過 Vulkan 和 VGF 後端進行支援,協助開發者在行動裝置上提升即時 4K 遊戲的 AI 效能,詳情可參考此 Arm Community 部落格。
邊緣 AI 與高效能物聯網
Arm Ethos-U 處理器系列為物聯網市場的各類邊緣 AI 應用提供出色的加速能力,是 ExecuTorch 1.0 正式版廣泛支援的關鍵生產後端。
這將帶來以下價值:
- 借助提前 (AoT) 編譯、runtime 支援,以及虛擬平台的可用性,開發者可在基於 Ethos-U 的硬體上市前,提前開始建構應用與工作負載,進而縮短產品上市時間。例如,透過 Arm Corstone 子系統,開發者可先在固定虛擬平台 (FVP) 上類比 Ethos-U 目標裝置,再遷移至 FPGA 原型,最終落地到基於 Corstone 建構的晶片實現方案。
- 為開發者提供豐富的產品組合,包含 100 多個預先驗證的 AI 模型(其中多款模型可在這裡和這裡查看),涵蓋圖像分類、關鍵字識別等場景。開發者可直接透過 ExecuTorch 在 Ethos-U NPU 上完成端到端部署。
- 透過 TOSA 標準提升可移植性,這代表為一個在 Arm 平台建構的模型,可部署到多個平台上。
- 整合 Arm Vela 編譯器簡化模型編譯流程。該編譯器可為 Ethos-U NPU 最佳化並分配 AI 工作負載,無需額外人工作業,即可自動提升效率、降低延遲。
- 即便在功耗預算極其受限的場景下,也能實現高效率的 AI 推論。這歸功於強大的運算子支援、量化工具,以及回退路徑(比如針對基於 Cortex-M 的微控制器的 CMSIS-NN 支援)。
此外,在高效能物聯網領域,KleidiAI 與主流 AI 框架的整合,還可提升 Arm CPU 上關鍵模型(包括 Meta Llama 3 和 Phi-3)的效能與效率。
如需詳細瞭解 ExecuTorch 1.0 正式版對邊緣端 AI 與高效能物聯網市場開發者的具體價值,請參考此 Arm Community 部落格。
現在開發者可獲取 ExecuTorch 1.0 正式版的各項優勢
開發者即日起即可體驗 ExecuTorch 1.0 正式版的各項優勢。瀏覽 developer.arm.com 探索 ExecuTorch 的所有學習路徑(Learning Path)、查看相關文件和教育課程,並將工作流程整合到模型匯出、編譯和部署管線中。此外,開發者還可在 PyTorch 頁面查看 ExecuTorch 的更多詳細資訊,以及獲取 XNNPACK、Ethos-U、VGF 和 Vukan 裝置的開發者文檔。無論是針對行動裝置、PC、可穿戴裝置還是邊緣感測器開發,開發流程均一致且無縫。
讓邊緣 AI 無處不在,使每個人因此受惠
ExecuTorch 1.0 正式版再次印證 Arm 的願景——讓 AI 在硬體生態系的每一個層面,都能一致且無縫地運行。憑藉 Arm 運算平台的強大效能與廣泛的生態系,ExecuTorch 1.0 不僅釋放了規模化部署、高效能表現與創新能力,也將協助次世代邊緣 AI 體驗無處不在,使每個人都因此受惠。
關於 Arm
Arm 是業界效能最高且最節能的運算平台,其無可比擬的應用範疇觸及全球所有連網使用者。為因應全球對運算永無止境的需求,Arm 提供先進的解決方案,使全球領先的科技公司得以釋放前所未有的 AI 體驗與功能。透過與全球最大的運算生態系及 2,200 萬名軟體開發者的共同努力,我們正在 Arm 平台上建構 AI 的未來。
所有資訊都「依目前情況」提供,且並不帶保證或代表性。此文件可以自由分享,但不得修改且必須註明出處。Arm 是 Arm Limited(或其子公司與附屬機構)的註冊商標。所有品牌或產品名稱均為所屬公司之財產。© 1995-2025 Arm Limited.