概述

为全球开发者提供无缝 AI 性能加速

软件是 Arm 计算平台的核心组成部分,因为它能帮助开发者在任意模型或工作负载中最大限度发挥 AI 性能。通过 Kleidi 库、框架集成和生态系统合作,Arm 可在各类 Arm 硬件上实现无缝加速。这种方法可确保实现快速部署、工作负载优化部署和一致的性能,助力助开发者在云端、边缘侧和设备环境中高效扩展 AI 应用。

合作伙伴

助力开发者连接强大的 AI 软件生态系统

Arm Kleidi 的目标是与主流 AI 框架、云服务提供商和机器学习 (ML) ISV 社区合作,为数十亿工作负载提供完整的 ML 堆栈及开箱即用的推理性能提升,开发者无需额外投入工作或具备专业知识。

PyTorch

Arm 与 PyTorch 社区紧密合作,助力确保在 PyTorch 上运行的模型能够直接适配 Arm 平台,即使面对最严苛的 AI 工作负载,也能实现无缝加速。

BERT-Large

Arm 一直致力于提升 Arm CPU 上 PyTorch 的推理性能,包括优化 Eager Mode 和 Graph Mode 这两种主要执行模式。

集成 Kleidi 后,Llama 模型推理速度最高可提升 18 倍,Gemma 2 2B 可提升 15 倍,自然语言处理 (NLP) 模型性能也显著提高,其中 Bert-Large 性能提升 2.2 倍。

Llama 3.1 8B

采用基于 Arm Neoverse V2 平台的 Graviton4 处理器,并将 KleidiAI 优化应用于 PyTorch 后,我们可以将聊天机器人演示的词元生成速度提高约 12 倍。

该演示不仅展示了使用 LLM 构建 AI 应用的便捷性,还利用了现有基于 Arm 架构的计算能力。

RoBERTa

AWS 与 Arm 合作,借助 oneDNN,为搭载 Arm Compute Library (ACL) 内核、基于 Neoverse V1 的 Graviton3 处理器,优化了 PyTorch torch.compile 功能。

此次优化使 Hugging Face 上最热门 NLP 模型的推理性能最高可提升 2 倍。

FunASR Paraformer-Large

FunASR 是阿里巴巴达摩院研发的一款先进开源自动语音识别 (ASR) 工具包。

通过 oneDNN 将 ACL 与 PyTorch 集成后,在基于 Neoverse N2 的阿里云 Yitian710 处理器上运行 Paraformer 模型时,性能提升了 2.3 倍。

ExecuTorch

Arm 携手轻量级 ML 框架 ExecuTorch,实现了边缘侧高效的端侧推理能力。

Stable Audio Open

Stability AI 和 Arm 合作,加速端侧生成式 AI 发展,无需互联网连接即可解锁实时音频生成能力。

通过模型蒸馏技术及 Arm KleidiAI 的应用,Stable Audio Open 如今在基于 Arm 架构的智能手机上,文本转音频生成速度较以前快 30 倍,用户可在边缘侧几秒内创建高质量音频。

Llama 3.2 1B

得益于 Arm 与 Meta 的协作,AI 开发者如今在 Arm CPU 上运行量化版 Llama 3.2 模型时,速度较以往提升高达 20%。

通过将 KleidiAI 与 ExecuTorch 集成,并开发优化的量化方案,我们在移动端生成 AI 工作负载的预填充阶段实现了每秒超过 350 个词元的处理速度。

Llama.cpp

为了展示基于 Arm 架构的 CPU 在 LLM 推理领域的强大能力,Arm 及其合作伙伴正优化 llama.cpp 中实现的 int4 和 int8 内核,以充分利用这些新指令。

Virtuoso-Lite 10B

Virtuoso-Lite 10B

Arcee AI Virtuoso-Lite 模型采用 4 位量化技术并在 llama.cpp 上运行,每秒可生成 40 个词元,在企业环境中运行 SLM 时可实现 4.5 倍的性价比优势。这得益于借助 Arm Kleidi 技术实现的开箱即用优化。

定制 SLM

AWS 与 Arm 对 TinyLlama 1.1B SLM 进行了微调,开发出一款用于汽车手册查询的聊天机器人,使驾驶员能够直接与汽车交互。借助 KleidiAI,在 Arm Cortex-A76 CPU 上运行 SLM 时,推理速度较以往快 10 倍,响应时间仅需 3 秒。

Llama 3.3 70B

与 Meta 合作并采用搭载 4 位量化技术的 KleidiAI 后,这款 SLM 实现了与更大规模 Llama 3.1 405B 模型相当的性能。部署在基于 Arm Neoverse 平台的 Google Axion 处理器上时,性能稳定维持在每秒 50 个词元。

TinyLlama 1.1B

VicOne 结合使用 llama.cpp 与 KleidiAI,显著提升了性能,让预填充速度翻倍,并将编码速度提升 60%。我们的合作通过减少对云端的依赖、降低成本和确保车载数据安全,实现了车载网络安全威胁的快速检测。

TinyStories

TinyStories 是一个数据集,包含典型 3 岁儿童能理解的词汇。该数据集可用于训练和评估参数规模在 1,000 万以下的小型模型。在 Arm Cortex-A320 CPU 上运行 TinyStories 时,性能提升超过了 70%。

Llama 3 8B

在经过我们优化的 Graviton3 处理器上运行文本生成演示应用,可让 TTFT 性能提升 2.5 倍,并在文本生成阶段实现每秒 35 个以上词元,完全足以满足实时用例的需求。

其他主流框架

为了在整个 Arm 计算平台上充分提升 AI 性能,我们致力于优化所有主流 AI 和 ML 框架的推理工作负载。

ONNX

ONNX

ONNX Runtime 是业界应用最广泛的的开源框架之一,适用于在移动端、桌面端和云端部署生成式 AI。

Arm 与微软合作,将 KleidiAI 集成至 ONNX 运行时,借助 Phi-3 Mini 3.8B 模型,Windows 和 Android 上的 AI 推理速度提升多达 2.6 倍。

LiteRT

LiteRT

KleidiAI 现已通过 XNNPACK 与 LiteRT 集成,其中 XNNPACK 是 Google 推出的端侧 AI 高性能运行时,其前身为 TensorFlow Lite。

此次合作以及我们对 Stability AI Open Stable Audio Small 模型的优化,成功实现了端侧音频生成功能,且运行时峰值 RAM 占用从 6.5GB 降至 3.6GB。

MNN

MNN 是阿里巴巴研发的开源深度学习框架。双方合作有效提升了端侧多模态用例的运行性能与能效。

以经过多语言指令微调的 Qwen2-VL 2B 模型为例,将 Kleidi 与 MNN 集成后,预填充性能提升 57%,解码性能提升 28%。

OpenCV

随着边缘侧对先进高能效计算机视觉 (CV) 技术的需求持续增长,KleidiCV 可助力确保 Arm CPU 上 CV 应用的性能达到最优。

如今与 OpenCV 4.11 集成后,开发者在处理模糊、滤波、旋转和尺寸调整等关键图像处理任务时,处理速度可提高至原来的四倍。这种性能加速可帮助提升图像分割、对象检测和识别用例的运行效率。

MediaPipe

Arm 与 Google AI Edge 在 MediaPipe 和 XNNPACK 领域展开合作,正加速当前及未来 Arm CPU 上 AI 工作负载的运行效率。这让开发者能够借助 Gemma 和 Falcon 等众多 LLM,为移动端、网页端、边缘侧和物联网场景提供出色的 AI 性能。

借助 Kleidi 通过 XNNPACK 与 MediaPipe 的集成,在基于 Arm 架构的高端智能手机上运行 Gemma 1 2B LLM 聊天机器人演示时,TTFT 实现了 30% 的加速。

Angel

腾讯的 Angel ML 框架支持混元 LLM,其参数规模范围从 10 亿到超过 3,000 亿。该框架支持在智能手机和 Windows on Arm (WoA) 等各种设备上实现 AI 功能。

双方合作于 2024 年腾讯全球数字生态大会正式宣布,通过在腾讯的众多应用中为用户提供更强大、更高效的端侧 AI 服务,对实际工作负载性能产生了积极影响。

技术

加速 CPU 性能的关键开发者技术

Arm Kleidi 整合了最新的开发者支持技术,旨在提升 AI 模型的能力、准确性和运行速度。这有助于确保 AI 工作负载充分发挥底层 Arm Cortex-A、Arm Cortex-X 或 Arm Neoverse CPU 的性能潜力。

KleidiAI 和 KleidiCV 库均为轻量级内核,旨在助力机器学习 (ML) 和计算机视觉 (CV) 框架轻松实现最佳性能目标,并利用最新特性提升基于 Arm CPU 设计的 AI 和 CV 能力。

功能全面且高度灵活的库,可助力独立软件供应商 (ISV) 获取针对 Cortex-A 和 Neoverse CPU 优化的 ML 功能。该库完全独立于操作系统 (OS),可移植到 Android、Linux 和“裸机”系统。

开发者资源

最新新闻和资源

  • 开发者
  • 新闻和博客
  • 指南
  • 电子书
  • 白皮书
AI 工作负载

CPU 上的 AI 推理详解指南

在 CPU 上运行 AI 工作负载的需求日益旺盛。本实用指南剖析了 CPU 推理在各个领域的技术优势,并梳理了应用时的考量因素。

生成式 AI

生成式 AI 在业务转型中的角色

探索如何充分发挥生成式 AI 的潜力,了解 Arm 在推动这一转型中的作用。

软件 AI 加速

为什么软件对于充分发挥 AI 的潜力至关重要

了解为什么软件是实现 AI 的关键,以及如何加速创建高性能的安全 AI 应用。

生成式 AI

灵活快速地扩展生成式 AI

在新型生成式 AI 功能的规模化实现过程中,创新与挑战始终并存。了解如何克服这些挑战,并在各种基于 Arm 平台的设备上成功部署 AI。

关键要点

  • Arm 提供经优化的软件库和工具,可在各类 Arm 硬件上加速 AI 工作负载运行。
  • Kleidi 已与主流框架集成,开发者无需额外投入,即可获得稳定的性能表现。
  • 该平台支持根据特定工作负载的需求定制快速部署方案,从而实现高效扩展。
  • 在自然语言处理 (NLP)、计算机视觉和生成式 AI 等各类 AI 用例中,开发者均能获得无缝加速体验。
  • Arm 软件生态系统可在从云端到边缘侧设备的各种场景中,实现广泛的可移植性与性能优化。

掌握最新动态

订阅即可了解最新新闻、案例研究和行业洞察。

订阅通讯电子邮件