探索在 Arm 平台運行的 Llama 4,攜手塑造智慧互聯的 AI 未來

June 18, 2025

Meta Llama 4 在 Arm 高能源效率平台上採用 MoE 架構,實現出眾效能且更易於部署

AI 正在加速發展,也越來越智慧化。當今的開源大型語言模型不僅功能強大,而且在設計時也已充分考慮了實際部署的需求,因此具有輕量化和成本效益的特點,可大規模地部署到數十億台裝置上。簡而言之,對於開發人員可能想到的各種情形,當前的開源大型語言模型幾乎都能滿足其需求。

Meta 近期發佈的 Llama 4 就充分地印證了上述觀點,它在基於 Arm 架構的平台上能夠充分發揮其效能潛力。Llama 4 採用創新的混合專家模型 (MoE) 架構,在多模態推論、工具使用等方面表現出色。而 Llama 4 最大的亮點在於能輕鬆部署到各種實際場景中,在相當程度上,即是受惠於 Arm 平台。


效能最佳化,隨時部署

憑藉 Arm 靈活且高效率的運算平台,Llama 4 可在基於 Arm 架構的雲端基礎設施上高效率地運行,讓開發人員能在多樣化的雲端環境中部署效能更強、能耗更低,且可擴展性更高的大型語言模型。

整體而言,整個產業正呈現出一種很有趣的轉變。儘管產業仍在追求更大、更智慧的多模態模型,但 Llama 4 代表著一種新興趨勢,部分模型正朝著更小型、更實用的方向演進,便於企業和客戶在自己的雲端或本地基礎設施上運行 AI 模型。Llama 4,尤其是其中的 Scout 模型,兼具高效性與專注性,基於智慧代理和 MoE 架構打造,與 Arm 這樣的高性價比、可擴展的平台高度契合。

自 Llama 2 發表以來,Arm 一直致力於最佳化其平台對模型的相容性,進而確保開發人員和最終使用者可以高效部署 Meta 新推出的每一代 Llama 模型。Llama 4 Scout 模型正是上述最佳化措施的直接體現,能夠在 Arm 生態系中流暢運行。


Llama 4 Scout 模型: Arm 架構系統的新里程碑

Llama 4 Scout 模型現可在基於 Arm 架構的基礎設施上高效率地運行。為了驗證相容性,團隊使用開源推論引擎 llama.cpp ,在搭載 Arm 架構的 AWS Graviton4 上成功部署了 Llama 4 Scout 模型。部署操作簡單快捷,開發人員無需專用硬體或特有軟體,就可以無縫整合先進的 AI 功能。在部署到生產環境中時,借助 llama.cpp 這樣的垂直整合框架,和 PyTorch 這樣的通用機器學習 (ML) 工具,整個過程變得清晰且更易於實現。


MoE 架構適合 Arm 平台的原因

  • 智慧高效:MoE 模型可智慧地將輸入分發到專用子網路,進而動態分配算力資源。這種自我調整策略與 Arm 廣受好評的高效率和資源感知型工作負載管理機制可謂相得益彰。
  • 可擴展設計:基於 Arm 架構的平台(例如 AWS Graviton、Google Axion 和 Microsoft Cobalt 等)具備可擴展的核心數量和執行緒能力,非常適合 MoE 模型的並行特性,可有效管理工作負載,進而大幅提升吞吐量與整體效率。
  • 針對各種工作負載進行最佳化:Arm 的架構理念著重在不同應用中都能實現高效能與高效率,這與 MoE 對任務進行劃分並交由專用子網路進行處理的能力非常契合。
  • 具前瞻性的協同模式:Arm 平台與 MoE 架構的結合,代表一種具前瞻性的協同模式,能夠滿足今後對更智慧、更節省資源的 AI 解決方案的動態需求。

探索在 Arm 平台運行的 Llama 4

在 Arm 平台上運行的 Llama 4 Scout 模型是 Arm致力於打造開放、協作式 AI 的有力證明。Llama 4 Scout 模型可在 AWS Graviton 等基於 Arm 架構的基礎設施上運行,提供現代 AI 工作負載所需的效能、效率和可擴展性。

歡迎您一起探索相關工具,共同參與社群交流互動。發掘由 Arm 技術驅動的人工智慧廣大潛能,從雲端部署一路延伸至邊緣運算,打造更智慧、更緊密連結的未來。

關於 Arm

Arm 是業界效能最高且最節能的運算平台,其無可比擬的應用範疇觸及全球所有連網使用者。為因應全球對運算永無止境的需求,Arm 提供先進的解決方案,使全球領先的科技公司得以釋放前所未有的 AI 體驗與功能。透過與全球最大的運算生態系及 2,200 萬名軟體開發人員的共同努力,我們正在 Arm 平台上建構 AI 的未來。


所有資訊都「依目前情況」提供,且並不帶保證或代表性。此文件可以自由分享,但不得修改且必須註明出處。Arm 是 Arm Limited(或其子公司與附屬機構)的註冊商標。所有品牌或產品名稱均為所屬公司之財產。© 1995-2025 Arm Limited.