概述

利用 Arm SME2 加速端侧 AI

AI Summary

SME2 是 Arm Lumex CSS 上的最新 CPU 扩展指令集,Lumex CSS 是面向新一代设备的高级子系统,用于直接在设备上加速以矩阵为导向的计算工作负载。它提高了 AI 和 ML 模型的性能,特别是依赖矩阵乘法等运算的模型,比如 Transformer、卷积神经网络 (CNN) 和大语言模型 (LLM)。

优势

为什么 SME2 如此重要?

  AI 性能提升 5 倍*

提供更流畅、反应更快的端侧用户体验。

完全端侧 AI 推理

减少对云服务的依赖,从而加强用户隐私保护并显著降低延迟。

无缝框架支持

通过 Arm KleidiAI,可在 PyTorch、LiteRT、ExecuTorch、ONNX、MNN 中原生运行,无需更改代码。

可跨平台

现已在 iPhone 16 和搭载 M4 芯片芯片的设备上提供,即将支持 Android

*在相同条件下与上一代 CPU 集群比较。

特性

专为现代 AI 而打造

高级矩阵处理

加速复杂的 AI 计算,例如矩阵乘法和外积运算,此类运算对于实时推理至关重要。

增强型数据处理

引入专门的“谓词作为计数器”机制,优化向量寄存器的使用,提高数据吞吐量。

支持压缩神经网络 (NPU)

高效处理适用于 NPU 的压缩、低精度神经网络数据格式,降低内存带宽占用并提升性能。

原生可扩展性

从入门级到旗舰级移动端设备,都能提供灵活的性能,确保开发者和用户享有一致的跨设备体验。

请参阅 SME2 文档
开发者

专为开发者打造

SME2 已在 iPhone 16 和基于 M4 的设备上启用,使开发者能够立即开始优化 AI 应用。

 

得益于一系列前沿的 AI 框架和运行时库(包括 PyTorch、ONNX Runtime、XNNPACK 和 llama.cpp)对 SME2 的原生支持,开发者无需改动任何代码,即可享受 SME2 带来的优势。SME2 带来的性能增强还可移植到基于 Arm 架构的平台上,从 iOS 和 iPadOS 到 macOS,很快也将扩展到 Android。

 

浏览全新的 Arm SME2 开发者入门指南,了解 SME2 加速和典型用例,并通过分步教程和实践学习路径进行上手。

使用 SME2 开始构建阅读开发者博客
Google Android AI SME2 Promo banner
成功案例

借助 Arm SME2 与 Google Android 提升移动端 AI 性能

了解 Arm SME2 如何帮助 Android 智能手机实现更快、更高效的 AI 功能,从而在视觉、语音和生成式 AI 场景中支持低延迟的实时应用。

阅读全文

掌握最新动态

订阅即可了解最新新闻、案例研究和行业洞察。

订阅通讯电子邮件

常见问题:SME2

1.什么是 SME2?

SME2(可伸缩矩阵扩展 2)Armv9.3-A 架构 中的一组高级 CPU 指令,旨在加速 AI 和 ML 工作负载,特别是矩阵密集型任务,如 LLM 和计算机视觉。它通过 Arm KleidiAI , 与热门 AI 框架无缝集成,无需更改代码即可实现更高的性能和效率。

2. SME2 如何提升设备的 AI 性能?

SME2 通过在 CPU 上直接执行矩阵运算,使大语言模型 (LLM) 的推理速度提高 6 倍,视觉和音频处理速度提高 3 倍,而无需单独的 NPU 或云资源。

3.哪些设备将支持 SME2?

SME2 已部署在 iPhone 16 和 Apple M4 芯片中,with 即将支持 Android 设备。它可从入门级设备扩展到旗舰级设备,确保性能始终如一。

4. SME2 对开发者有何益处?

SME2 可自动与 Pytorch, ONNX Runtime 和 XNNPACK 等框架集成,因此开发者无需重写代码即可加速 AI 工作负载。开发者可以浏览 Arm 移动端 AI 工具链、SDK 和培训资源,以便快速入门。

5. SME2 能否为生成式 AI 应用提供帮助?

绝对适合。SME2 可直接在端侧加速生成式 AI 任务,例如实时翻译、照片/视频增强、音频生成和运动分析。这将带来更快、更私密、更高能效的用户体验。开发者可以借助 Arm 移动端 AI 资源,学习如何实现这些功能。