概述

为全球开发者提供无缝 AI 性能加速

软件是 Arm 计算平台的核心组成部分，因为它能帮助开发者在任意模型或工作负载中最大限度发挥 AI 性能。通过 Kleidi 库、框架集成和生态系统合作，Arm 可在各类 Arm 硬件上实现无缝加速。这种方法可确保实现快速部署、工作负载优化部署和一致的性能，助力助开发者在云端、边缘侧和设备环境中高效扩展 AI 应用。

PyTorch

Arm 与 PyTorch 社区紧密合作，助力确保在 PyTorch 上运行的模型能够直接适配 Arm 平台，即使面对最严苛的 AI 工作负载，也能实现无缝加速。

ExecuTorch

Arm 携手轻量级 ML 框架 ExecuTorch，实现了边缘侧高效的端侧推理能力。

Llama.cpp

为了展示基于 Arm 架构的 CPU 在 LLM 推理领域的强大能力，Arm 及其合作伙伴正优化 llama.cpp 中实现的 int4 和 int8 内核，以充分利用这些新指令。

其他主流框架

为了在整个 Arm 计算平台上充分提升 AI 性能，我们致力于优化所有主流 AI 和 ML 框架的推理工作负载。

MediaPipe

Arm 与 Google AI Edge 在 MediaPipe 和 XNNPACK 领域展开合作，正加速当前及未来 Arm CPU 上 AI 工作负载的运行效率。这让开发者能够借助 Gemma 和 Falcon 等众多 LLM，为移动端、网页端、边缘侧和物联网场景提供出色的 AI 性能。

借助 Kleidi 通过 XNNPACK 与 MediaPipe 的集成，在基于 Arm 架构的高端智能手机上运行 Gemma 1 2B LLM 聊天机器人演示时，TTFT 实现了 30% 的加速。

技术

加速 CPU 性能的关键开发者技术

Arm Kleidi 整合了最新的开发者支持技术，旨在提升 AI 模型的能力、准确性和运行速度。这有助于确保 AI 工作负载充分发挥底层 Arm Cortex-A、Arm Cortex-X 或 Arm Neoverse CPU 的性能潜力。

关键要点

Arm 提供经优化的软件库和工具，可在各类 Arm 硬件上加速 AI 工作负载运行。
Kleidi 已与主流框架集成，开发者无需额外投入，即可获得稳定的性能表现。
该平台支持根据特定工作负载的需求定制快速部署方案，从而实现高效扩展。
在自然语言处理 (NLP)、计算机视觉和生成式 AI 等各类 AI 用例中，开发者均能获得无缝加速体验。
Arm 软件生态系统可在从云端到边缘侧设备的各种场景中，实现广泛的可移植性与性能优化。