ExecuTorch 1.0 正式版發佈！重塑基於 Arm 運算平台的邊緣 AI 開發體驗

November 24, 2025

作者：Arm AI 與開發者平台副總經理 Sharbani Roy

新聞重點：

透過一致的 PyTorch 工作流程，開發者可在數十億個基於 Arm 平台的邊緣裝置上無縫部署 PyTorch 模型，打造速度更快、功能更先進的裝置端 AI 應用和體驗。
針對基於 Arm CPU、GPU 和 NPU 建構的裝置，開發者可透過 ExecuTorch 中整合的 Arm KleidiAI、TOSA 和 CMSIS-NN 後端，讓工作負載自動獲得效能與效率提升。
無論是針對行動裝置、PC、可穿戴裝置、邊緣感測器還是高效能物聯網裝置開發，開發者現在都能從 ExecuTorch 1.0 正式版中受惠，而且 Arm 和 Meta 還在此處提供了豐富資源。

試想這樣的場景：專用的裝置端人工智慧 (AI) 助理與語音互動無需連接雲端即可運行，且回應延遲極低；聊天機器人能在使用者輸入時即時推薦回覆內容；遊戲體驗可根據玩家操作即時調整；可穿戴裝置與物聯網裝置中，更智慧的 always-on 高能效感測器能以低功耗實現強大的智慧功能。

這類 AI 體驗均可透過 ExecuTorch (Meta 針對 PyTorch 打造的裝置端 runtime) 與 Arm 共同協助開發者實現。二者結合能透過一致的 PyTorch 工作流程帶來最佳化的效能與更高效率的開發流程，數十億個基於 Arm 架構的邊緣端裝置上可在該工作流程上無縫運行。如今，ExecuTorch 建立了重要里程碑——發佈正式版，該版本將「AI 無處不在」的願景，轉化為可供數百萬開發者落地的規模化方案。

協助設立一套工作流程，涵蓋數十億邊緣端裝置

ExecuTorch 1.0 正式版徹底改變開發者規模化落地 PyTorch 模型的方式。以往，開發者需要針對不同裝置類型，單獨調整模型版本、管線或框架；如今，只需一套 PyTorch 工作流程，開發者即可完成從模型創建、匯出、最佳化、量化到部署的端到端操作，且覆蓋行動裝置端、嵌入式與邊緣端裝置，不僅大幅減少開發碎片化問題，同時縮短了產品上市時間。

借助這套工具集，開發者可無縫部署應用與工作負載，在從超高能效微控制器到旗艦智慧手機等各類搭載 Arm CPU、GPU 和 Arm Ethos-U NPU 的邊緣端裝置上，充分釋放更先進、更快速的 AI 體驗與特性。Meta 近期發佈的部落格文章中提到，已有多款由 ExecuTorch 支援的裝置端 AI 特性，在 Facebook、Instagram、Messenger 和 WhatsApp 平台上為數十億個使用者提供服務，例如提升視訊通話品質、最佳化音樂推薦和豐富創意故事呈現體驗等。

協助 ExecuTorch 的 Arm 技術

Arm KleidiAI、CMSIS-NN 與張量運算子集架構 (TOSA) 透過在 ExecuTorch 中整合後端，共同建構一致的最佳化框架。這代表當應用與工作負載是針對基於 Arm 架構的邊緣端裝置時，開發者無需修改程式碼或模型，即可自動獲得效能與效率的提升。

KleidiAI 可提供 Arm 核心整合，為當前及未來的 Arm CPU 平台加速 AI 工作負載。目前，該技術已整合到多個框架和運行 runtime 中，包括 ExecuTorch 使用的 XNNPACK 運行時。同時，CMSIS-NN ExecuTorch 後端整合相當於 Arm Cortex-M 系列微控制器的效能加速器，能為資源受限的邊緣端裝置提供高效率、直接整合的推論支援。

ExecuTorch 中的 TOSA 整合為在 Arm GPU 和 Ethos-U NPU 上運行的邊緣 AI 與機器學習 (ML) 工作負載，提供一致的執行介面。TOSA 可將模型轉換為獨立於硬體的標準化描述，既能確保在這些技術平台上實現一致的部署、移植和驗證，又能減少工程開發工作量。

ExecuTorch 1.0 正式版為行動端和邊緣 AI 市場帶來價值

行動裝置端

在行動裝置端，ExecuTorch 1.0 正式版可幫助開發者，在當前數十億個基於 Arm 架構的智慧手機及次世代行動裝置上，更快、更高效率地部署更智慧的裝置端 AI 體驗。

主要優勢包括：

與 Android 應用工作流程無縫整合，且從模型開發到裝置端部署均全面支援 PyTorch，大幅縮短產品上市時間。
借助 KleidiAI 最佳化實現內建效能提升，為文本生成、音訊生成、即時語音互動和虛擬助理等各類先進裝置端 AI 功能和體驗，帶來更快的啟動速度、更低的延遲以及更少的記憶體佔用。例如，Stable Audio Small 文本轉音訊模型在基於 Arm CPU 的裝置端運行時，生成 11 秒音訊僅需 7 到 8 秒，而在啟用 SME2 的消費性電子裝置上，生成時間可縮短至 4 秒以內。
廣泛的 Arm 技術支援，確保 AI 模型可在當前及未來的各類 Arm CPU 和 GPU 上運行，具體內容包括：
- Arm Cortex-A CPU 及新一代 Arm CPU（包括啟用 SME2 的 Arm C1 CPU），可透過 XNNPACK 中的 KleidiAI 整合來實現支援，詳情可參考此 Arm Community 部落格；
- 當前的 Arm Mali 和 Arm Immortalis GPU 可透過 Vulkan 路徑進行支援；
- 2026 年推出的搭載 Arm 類神經技術的 Arm Mali GPU，可透過 Vulkan 和 VGF 後端進行支援，協助開發者在行動裝置上提升即時 4K 遊戲的 AI 效能，詳情可參考此 Arm Community 部落格。

邊緣 AI 與高效能物聯網

Arm Ethos-U 處理器系列為物聯網市場的各類邊緣 AI 應用提供出色的加速能力，是 ExecuTorch 1.0 正式版廣泛支援的關鍵生產後端。

這將帶來以下價值：

借助提前 (AoT) 編譯、runtime 支援，以及虛擬平台的可用性，開發者可在基於 Ethos-U 的硬體上市前，提前開始建構應用與工作負載，進而縮短產品上市時間。例如，透過 Arm Corstone 子系統，開發者可先在固定虛擬平台 (FVP) 上類比 Ethos-U 目標裝置，再遷移至 FPGA 原型，最終落地到基於 Corstone 建構的晶片實現方案。
為開發者提供豐富的產品組合，包含 100 多個預先驗證的 AI 模型（其中多款模型可在這裡和這裡查看），涵蓋圖像分類、關鍵字識別等場景。開發者可直接透過 ExecuTorch 在 Ethos-U NPU 上完成端到端部署。
透過 TOSA 標準提升可移植性，這代表為一個在 Arm 平台建構的模型，可部署到多個平台上。
整合 Arm Vela 編譯器簡化模型編譯流程。該編譯器可為 Ethos-U NPU 最佳化並分配 AI 工作負載，無需額外人工作業，即可自動提升效率、降低延遲。
即便在功耗預算極其受限的場景下，也能實現高效率的 AI 推論。這歸功於強大的運算子支援、量化工具，以及回退路徑（比如針對基於 Cortex-M 的微控制器的 CMSIS-NN 支援）。

此外，在高效能物聯網領域，KleidiAI 與主流 AI 框架的整合，還可提升 Arm CPU 上關鍵模型（包括 Meta Llama 3 和 Phi-3）的效能與效率。

如需詳細瞭解 ExecuTorch 1.0 正式版對邊緣端 AI 與高效能物聯網市場開發者的具體價值，請參考此 Arm Community 部落格。

現在開發者可獲取 ExecuTorch 1.0 正式版的各項優勢

開發者即日起即可體驗 ExecuTorch 1.0 正式版的各項優勢。瀏覽 developer.arm.com 探索 ExecuTorch 的所有學習路徑（Learning Path）、查看相關文件和教育課程，並將工作流程整合到模型匯出、編譯和部署管線中。此外，開發者還可在 PyTorch 頁面查看 ExecuTorch 的更多詳細資訊，以及獲取 XNNPACK、Ethos-U、VGF 和 Vukan 裝置的開發者文檔。無論是針對行動裝置、PC、可穿戴裝置還是邊緣感測器開發，開發流程均一致且無縫。

讓邊緣 AI 無處不在，使每個人因此受惠

ExecuTorch 1.0 正式版再次印證 Arm 的願景——讓 AI 在硬體生態系的每一個層面，都能一致且無縫地運行。憑藉 Arm 運算平台的強大效能與廣泛的生態系，ExecuTorch 1.0 不僅釋放了規模化部署、高效能表現與創新能力，也將協助次世代邊緣 AI 體驗無處不在，使每個人都因此受惠。

關於 Arm

Arm 是業界效能最高且最節能的運算平台，其無可比擬的應用範疇觸及全球所有連網使用者。為因應全球對運算永無止境的需求，Arm 提供先進的解決方案，使全球領先的科技公司得以釋放前所未有的 AI 體驗與功能。透過與全球最大的運算生態系及 2,200 萬名軟體開發者的共同努力，我們正在 Arm 平台上建構 AI 的未來。

Arm 帳號

ExecuTorch 1.0 正式版發佈！重塑基於 Arm 運算平台的邊緣 AI 開發體驗