利用 Arm SME2 加速端侧 AI
AI Summary
SME2 是 Arm Lumex CSS 上的最新 CPU 扩展指令集,Lumex CSS 是面向新一代设备的高级子系统,用于直接在设备上加速以矩阵为导向的计算工作负载。它提高了 AI 和 ML 模型的性能,特别是依赖矩阵乘法等运算的模型,比如 Transformer、卷积神经网络 (CNN) 和大语言模型 (LLM)。
为什么 SME2 如此重要?
提供更流畅、反应更快的端侧用户体验。
减少对云服务的依赖,从而加强用户隐私保护并显著降低延迟。
通过 Arm KleidiAI,可在 PyTorch、LiteRT、ExecuTorch、ONNX、MNN 中原生运行,无需更改代码。
现已在 iPhone 16 和搭载 M4 芯片芯片的设备上提供,即将支持 Android。
*在相同条件下与上一代 CPU 集群比较。
专为现代 AI 而打造
加速复杂的 AI 计算,例如矩阵乘法和外积运算,此类运算对于实时推理至关重要。
引入专门的“谓词作为计数器”机制,优化向量寄存器的使用,提高数据吞吐量。
高效处理适用于 NPU 的压缩、低精度神经网络数据格式,降低内存带宽占用并提升性能。
从入门级到旗舰级移动端设备,都能提供灵活的性能,确保开发者和用户享有一致的跨设备体验。
专为开发者打造
SME2 已在 iPhone 16 和基于 M4 的设备上启用,使开发者能够立即开始优化 AI 应用。
得益于一系列前沿的 AI 框架和运行时库(包括 PyTorch、ONNX Runtime、XNNPACK 和 llama.cpp)对 SME2 的原生支持,开发者无需改动任何代码,即可享受 SME2 带来的优势。SME2 带来的性能增强还可移植到基于 Arm 架构的平台上,从 iOS 和 iPadOS 到 macOS,很快也将扩展到 Android。
浏览全新的 Arm SME2 开发者入门指南,了解 SME2 加速和典型用例,并通过分步教程和实践学习路径进行上手。
借助 Arm SME2 与 Google Android 提升移动端 AI 性能
了解 Arm SME2 如何帮助 Android 智能手机实现更快、更高效的 AI 功能,从而在视觉、语音和生成式 AI 场景中支持低延迟的实时应用。
最新新闻和资源
- 新闻和博客
常见问题:SME2
SME2(可伸缩矩阵扩展 2)Armv9.3-A 架构 中的一组高级 CPU 指令,旨在加速 AI 和 ML 工作负载,特别是矩阵密集型任务,如 LLM 和计算机视觉。它通过 Arm KleidiAI , 与热门 AI 框架无缝集成,无需更改代码即可实现更高的性能和效率。
SME2 通过在 CPU 上直接执行矩阵运算,使大语言模型 (LLM) 的推理速度提高 6 倍,视觉和音频处理速度提高 3 倍,而无需单独的 NPU 或云资源。
SME2 已部署在 iPhone 16 和 Apple M4 芯片中,with 即将支持 Android 设备。它可从入门级设备扩展到旗舰级设备,确保性能始终如一。
SME2 可自动与 Pytorch, ONNX Runtime 和 XNNPACK 等框架集成,因此开发者无需重写代码即可加速 AI 工作负载。开发者可以浏览 Arm 移动端 AI 工具链、SDK 和培训资源,以便快速入门。
绝对适合。SME2 可直接在端侧加速生成式 AI 任务,例如实时翻译、照片/视频增强、音频生成和运动分析。这将带来更快、更私密、更高能效的用户体验。开发者可以借助 Arm 移动端 AI 资源,学习如何实现这些功能。