全新 Arm Lumex CSS 平台加速開發週期,實現可擴展的高效能裝置端 AI

September 10, 2025

全新平台緊密整合硬體與軟體,不僅加速產品上市時間,同時滿足整個生態系日益成長的裝置端 AI 體驗需求。

作者:Arm 終端產品事業部產品管理資深總監 Kinjal Dave

行動裝置正逐步演進為由人工智慧 (AI) 所驅動的工具,能夠調適、預測並提升人們與世界互動的方式。而隨著裝置端 AI 變得更加先進和成熟,行動晶片所面臨的壓力也不斷加劇。

加速產品週期 (即每新一代旗艦行動裝置的推出速度都快於前一代) 代表晶片供應商和 OEM 廠商必須在更緊迫的時間內實現創新,幾乎沒有出錯餘地。要在行動裝置的面積和散熱均受限的條件下,實現為保持 AI 效能而採用的先進封裝技術,是一項極具挑戰的任務。同時,也為往 3 奈米等更小製程節點的發展帶來複雜的設計難題。

這正是 Arm 推出整合平台的原因,透過將 Arm CPU 和 GPU IP,與實體實作和部署就緒的軟體堆疊相結合,進而加快產品上市進程,並在最新的先進製程節點上實現業界領先的效能。而 Arm Lumex 就是 Arm 全新的專用運算子系統 (Compute Subsystem, CSS) 平台,以滿足旗艦行動裝置和 PC 上持續成長的裝置端 AI 體驗需求。

為 AI 優先時代重新設計

Lumex 為模組化且高度可配置的平台,提供最新的共同設計、協同最佳化的 Arm 運算 IP 和先進特性:

  • 新的 Armv9.3 C1 CPU 叢集:提供領先的每時脈週期指令數 (IPC) 效能,並內建第二代可擴展矩陣延伸指令集 (SME2) 單元,在 CPU 叢集上帶來回應更迅速的加速 AI 體驗。
  • 新的 Arm Mali G1-Ultra:在實現更快的 AI 推論能力的同時,透過新一代的光線追蹤功能,帶來桌機級的視覺效果與更豐富的遊戲體驗。
  • 新的系統 IP 包含 SI L1 系統互連與 Arm MMU L1 系統記憶體管理單元:消除系統效能瓶頸,以及降低推論密集型和運算密集型工作負載中的延遲。
  • 3 奈米就緒的 CPU 和 GPU 實體實作:專為實現業界領先的功耗、效能與面積 (PPA) 而打造,並加速在晶片上實現旗艦級效能的進程。


跨 CPU 和 GPU 技術加速實際應用場景的 AI 效能

在 CPU 方面,啟用 SME2 技術的 Armv9.3 C1 CPU 叢集結合 Arm KleidiAI 對主流框架和 Runtime 函式庫的原生支援,在包括典型機器學習 (ML) 推論、語音及生成式 AI 等在內的廣泛 AI 工作負載中,相較於前一代 CPU 叢集,在相同條件下實現顯著的速度提升。同時帶來五倍的 AI 效能提升,以及三倍的能效最佳化。這些基於 SME2 的改進,使得使用者能在其常用的消費性電子產品上,享受更流暢的 AI 互動體驗,並獲得更長的續航時間。



此外,受惠於微架構最佳化和核心間更緊密的整合,Arm C1 CPU 叢集在效能與能效方面樹立了新標竿,具體表現為:

  • 在六項產業領先效能基準測試中,相較於前一代 CPU 叢集,在相同條件下的效能水準,平均提升 30%
  • 在主流應用 (包括遊戲和影片串流媒體) 中,相較於前一代 CPU 叢集,在相同條件下平均速度提升了 15%
  • 在影片播放、社群媒體和網頁瀏覽等日常行動工作負載中,相較於前一代 CPU 叢集,在相同條件下的功耗,平均降低 12%
  • 相較於前一代 Arm Cortex-X925 CPUArm C1-Ultra CPU 帶來雙位數的 IPC 效能提升

Mali G1-Ultra 進一步提升了 AI 效能與效率,相較於前一代 Arm Immortalis-G925 GPU,其在 AI 和 ML 網路中的推論速度加快了 20%

在遊戲方面,受惠於新的 Arm 光線追蹤單元 v2 (Ray Tracing Unit v2, RTUv2),Mali G1-Ultra 將光線追蹤效能提升了兩倍,為行動裝置帶來了高階桌機級的視覺效果;在主流產業基準測試與遊戲應用 (包括《暗區突圍》、《要塞英雄》、《原神》、《崩壞:星穹鐵道》 等) 中,Mali G1-Ultra 實現 20% 的圖像效能成長

Lumex 的可擴展系統主幹

要支援 AI 優先體驗,不能只侷限於運算 IP,行動系統單晶片 (SoC) 必須在整個互連和記憶體架構層面持續演進。

正因如此,Arm 推出新的可擴展系統互連,專為滿足要求嚴苛的 AI 和其他運算密集型工作負載的頻寬與延遲需求進行最佳化,可確保在 Lumex 上保持效能領先,同時不影響系統回應速度。新的SI L1系統互連配備業內先進的,且具有出色面積效率的系統級快取 (SLC),相比於標準編譯的 RAM,其洩漏功耗降低 71%,大幅減少待機功耗。

該系統互連技術提供高度靈活的可擴展解決方案,可針對各類手機和消費性電子產品最佳化 PPA 需求。SI L1 系統互連針對旗艦行動裝置,具備完全整合的可選 SLC, 並支援 Arm 記憶體標籤擴充 (Memory Tagging Extension, MTE) 特性,可提供一流的安全性;而 Arm NoC S3 片上網路互連則針對注重成本且非一致性的行動系統。

More Scalability

除了新的互連技術外,Arm 還推出了次世代 Arm MMU L1 系統記憶體管理單元,該技術可在各類手機及消費性電子產品上實現安全,且具成本效率的可擴展虛擬化。

透過實體實作釋放業界領先的 PPA

Lumex 提供針對 3奈米製程最佳化、生產就緒的 CPU 和 GPU 實作,已獲得多家晶圓代工廠支持,如此一來,Arm 的晶片合作夥伴和 OEM 廠商能夠:

  • 將這些實作做為靈活的建構模組,以便專注於 CPU 和 GPU 叢集層面的差異化設計;
  • 實現卓越的頻率和 PPA;
  • 在向最新 3 奈米製程節點過渡時,協助其確保晶片一次設計定案成功。

開發者即刻享用 Lumex 優勢

為充分釋放 Lumex 效能潛力,開發者需在實際裝置上市前提前獲取該項功能。為此,Arm 推出全新系列的軟體與工具,協助開發者即刻著手原型設計、建構 AI 工作負載,並且充分運用 Lumex CSS 平台的完整 AI 功能。包括:

  • 完整的 Android 16 就緒軟體堆疊,涵蓋可信任韌體至應用程式層;
  • 完整且免費的支援 SME2 的 KleidiAI 軟體函式庫;
  • 全新的由上而下的遙測解決方案,用於分析應用效能、識別瓶頸並最佳化演算法。

KleidiAI 在推出的第一年即大獲成功,現已整合至所有主流的 AI 框架,並廣泛應用於各類應用程式、裝置,以及 Android 等系統服務。這為接下來開展的工作鞏固基礎,當基於 Lumex 的裝置在未來數月上市時,應用程式即刻就能在其 AI 工作負載上實現效能和效率提升。

在圖像處理方面,隨著未來的 Android 版本將支援 RenderDoc,以及透過 Lumex 提供 Vulkan 計數器、Streamline 和 Perfetto 等聯合的可觀測性工具,開發者能夠即時分析工作負載、調校延遲,並精確平衡電池續航與視覺效果。

The Future of Mobile Compute is Built on Arm Lumex

為新一代行動智慧奠定基礎

行動運算正邁入一個全新的時代,而智慧的建構、擴展與提供方式正在定義這個新時代。隨著 AI 成為所有體驗的基礎,平台必須具備預測、調適、擴展和加速未來發展的能力。

Lumex 正是基於這一未來願景而設計,讓整個生態系全面受惠。無論是打造、擴展創新裝置的 OEM 廠商,還是建構次世代應用的開發者,Lumex 都能協助 Arm 生態系更輕鬆地提供差異化的 AI 優先平台與體驗——以更智慧的效能實現更快速的大規模部署。

關於 Arm

Arm 是業界效能最高且最節能的運算平台,其無可比擬的應用範疇觸及全球所有連網使用者。為因應全球對運算永無止境的需求,Arm 提供先進的解決方案,使全球領先的科技公司得以釋放前所未有的 AI 體驗與功能。透過與全球最大的運算生態系及 2,200 萬名軟體開發者的共同努力,我們正在 Arm 平台上建構 AI 的未來。


所有資訊都「依目前情況」提供,且並不帶保證或代表性。此文件可以自由分享,但不得修改且必須註明出處。Arm 是 Arm Limited(或其子公司與附屬機構)的註冊商標。所有品牌或產品名稱均為所屬公司之財產。© 1995-2025 Arm Limited.