全新 Arm Lumex CSS 平台加速開發週期,實現可擴展的高效能裝置端 AI
全新平台緊密整合硬體與軟體,不僅加速產品上市時間,同時滿足整個生態系日益成長的裝置端 AI 體驗需求。
作者:Arm 終端產品事業部產品管理資深總監 Kinjal Dave
行動裝置正逐步演進為由人工智慧 (AI) 所驅動的工具,能夠調適、預測並提升人們與世界互動的方式。而隨著裝置端 AI 變得更加先進和成熟,行動晶片所面臨的壓力也不斷加劇。
加速產品週期 (即每新一代旗艦行動裝置的推出速度都快於前一代) 代表晶片供應商和 OEM 廠商必須在更緊迫的時間內實現創新,幾乎沒有出錯餘地。要在行動裝置的面積和散熱均受限的條件下,實現為保持 AI 效能而採用的先進封裝技術,是一項極具挑戰的任務。同時,也為往 3 奈米等更小製程節點的發展帶來複雜的設計難題。
這正是 Arm 推出整合平台的原因,透過將 Arm CPU 和 GPU IP,與實體實作和部署就緒的軟體堆疊相結合,進而加快產品上市進程,並在最新的先進製程節點上實現業界領先的效能。而 Arm Lumex 就是 Arm 全新的專用運算子系統 (Compute Subsystem, CSS) 平台,以滿足旗艦行動裝置和 PC 上持續成長的裝置端 AI 體驗需求。
為 AI 優先時代重新設計
Lumex 為模組化且高度可配置的平台,提供最新的共同設計、協同最佳化的 Arm 運算 IP 和先進特性:
- 新的 Armv9.3 C1 CPU 叢集:提供領先的每時脈週期指令數 (IPC) 效能,並內建第二代可擴展矩陣延伸指令集 (SME2) 單元,在 CPU 叢集上帶來回應更迅速的加速 AI 體驗。
- 新的 Arm Mali G1-Ultra:在實現更快的 AI 推論能力的同時,透過新一代的光線追蹤功能,帶來桌機級的視覺效果與更豐富的遊戲體驗。
- 新的系統 IP 包含 SI L1 系統互連與 Arm MMU L1 系統記憶體管理單元:消除系統效能瓶頸,以及降低推論密集型和運算密集型工作負載中的延遲。
- 3 奈米就緒的 CPU 和 GPU 實體實作:專為實現業界領先的功耗、效能與面積 (PPA) 而打造,並加速在晶片上實現旗艦級效能的進程。

跨 CPU 和 GPU 技術加速實際應用場景的 AI 效能
在 CPU 方面,啟用 SME2 技術的 Armv9.3 C1 CPU 叢集結合 Arm KleidiAI 對主流框架和 Runtime 函式庫的原生支援,在包括典型機器學習 (ML) 推論、語音及生成式 AI 等在內的廣泛 AI 工作負載中,相較於前一代 CPU 叢集,在相同條件下實現顯著的速度提升。同時帶來五倍的 AI 效能提升,以及

此外,受惠於微架構最佳化和核心間更緊密的整合,Arm C1 CPU 叢集在效能與能效方面樹立了新標竿,具體表現為:
- 在六項產業領先效能基準測試中,相較於前一代 CPU 叢集,在相同條件下的效能水準,平均提升 30%;
- 在主流應用 (包括遊戲和影片串流媒體) 中,相較於前一代 CPU 叢集,在相同條件下平均速度提升了 15%;
- 在影片播放、社群媒體和網頁瀏覽等日常行動工作負載中,相較於前一代 CPU 叢集,在相同條件下的功耗,平均降低 12%;
- 相較於前一代 Arm Cortex-X925 CPU,Arm C1-Ultra CPU 帶來雙位數的 IPC 效能提升。
Mali G1-Ultra 進一步提升了 AI 效能與效率,相較於前一代 Arm Immortalis-G925 GPU,其在 AI 和 ML 網路中的推論速度加快了 20%。
在遊戲方面,受惠於新的 Arm 光線追蹤單元 v2 (Ray Tracing Unit v2, RTUv2),Mali G1-Ultra 將光線追蹤效能提升了兩倍,為行動裝置帶來了高階桌機級的視覺效果;在主流產業基準測試與遊戲應用 (包括《暗區突圍》、《要塞英雄》、《原神》、《崩壞:星穹鐵道》 等) 中,Mali G1-Ultra 實現 20% 的圖像效能成長。
Lumex 的可擴展系統主幹
要支援 AI 優先體驗,不能只侷限於運算 IP,行動系統單晶片 (SoC) 必須在整個互連和記憶體架構層面持續演進。
正因如此,Arm 推出新的可擴展系統互連,專為滿足要求嚴苛的 AI 和其他運算密集型工作負載的頻寬與延遲需求進行最佳化,可確保在 Lumex 上保持效能領先,同時不影響系統回應速度。新的SI L1系統互連配備業內先進的,且具有出色面積效率的系統級快取 (SLC),相比於標準編譯的 RAM,其洩漏功耗降低 71%,大幅減少待機功耗。
該系統互連技術提供高度靈活的可擴展解決方案,可針對各類手機和消費性電子產品最佳化 PPA 需求。SI L1 系統互連針對旗艦行動裝置,具備完全整合的可選 SLC, 並支援 Arm 記憶體標籤擴充 (Memory Tagging Extension, MTE) 特性,可提供一流的安全性;而 Arm NoC S3 片上網路互連則針對注重成本且非一致性的行動系統。

除了新的互連技術外,Arm 還推出了次世代 Arm MMU L1 系統記憶體管理單元,該技術可在各類手機及消費性電子產品上實現安全,且具成本效率的可擴展虛擬化。
透過實體實作釋放業界領先的 PPA
Lumex 提供針對 3奈米製程最佳化、生產就緒的 CPU 和 GPU 實作,已獲得多家晶圓代工廠支持,如此一來,Arm 的晶片合作夥伴和 OEM 廠商能夠:
- 將這些實作做為靈活的建構模組,以便專注於 CPU 和 GPU 叢集層面的差異化設計;
- 實現卓越的頻率和 PPA;
- 在向最新 3 奈米製程節點過渡時,協助其確保晶片一次設計定案成功。
開發者即刻享用 Lumex 優勢
為充分釋放 Lumex 效能潛力,開發者需在實際裝置上市前提前獲取該項功能。為此,Arm 推出全新系列的軟體與工具,協助開發者即刻著手原型設計、建構 AI 工作負載,並且充分運用 Lumex CSS 平台的完整 AI 功能。包括:
- 完整的 Android 16 就緒軟體堆疊,涵蓋可信任韌體至應用程式層;
- 完整且免費的支援 SME2 的 KleidiAI 軟體函式庫;
- 全新的由上而下的遙測解決方案,用於分析應用效能、識別瓶頸並最佳化演算法。
KleidiAI 在推出的第一年即大獲成功,現已整合至所有主流的 AI 框架,並廣泛應用於各類應用程式、裝置,以及 Android 等系統服務。這為接下來開展的工作鞏固基礎,當基於 Lumex 的裝置在未來數月上市時,應用程式即刻就能在其 AI 工作負載上實現效能和效率提升。
在圖像處理方面,隨著未來的 Android 版本將支援 RenderDoc,以及透過 Lumex 提供 Vulkan 計數器、Streamline 和 Perfetto 等聯合的可觀測性工具,開發者能夠即時分析工作負載、調校延遲,並精確平衡電池續航與視覺效果。

為新一代行動智慧奠定基礎
行動運算正邁入一個全新的時代,而智慧的建構、擴展與提供方式正在定義這個新時代。隨著 AI 成為所有體驗的基礎,平台必須具備預測、調適、擴展和加速未來發展的能力。
Lumex 正是基於這一未來願景而設計,讓整個生態系全面受惠。無論是打造、擴展創新裝置的 OEM 廠商,還是建構次世代應用的開發者,Lumex 都能協助 Arm 生態系更輕鬆地提供差異化的 AI 優先平台與體驗——以更智慧的效能實現更快速的大規模部署。
關於 Arm
Arm 是業界效能最高且最節能的運算平台,其無可比擬的應用範疇觸及全球所有連網使用者。為因應全球對運算永無止境的需求,Arm 提供先進的解決方案,使全球領先的科技公司得以釋放前所未有的 AI 體驗與功能。透過與全球最大的運算生態系及 2,200 萬名軟體開發者的共同努力,我們正在 Arm 平台上建構 AI 的未來。
所有資訊都「依目前情況」提供,且並不帶保證或代表性。此文件可以自由分享,但不得修改且必須註明出處。Arm 是 Arm Limited(或其子公司與附屬機構)的註冊商標。所有品牌或產品名稱均為所屬公司之財產。© 1995-2025 Arm Limited.