概述

为代理式 AI 系统时代编排计算资源

AI Summary

在持续推理与代理式 AI 兴起的驱动下,AI 与通用计算正深度融合。随着模型从开发阶段走向企业及云端生产环境,数据中心必须成为协同运转的整体环境,针对持续吞吐量、能效、机架级性能及系统集成进行优化。在这一变革的核心,Arm 提供了专为代理式 AI 系统以及跨云 AI 与边缘数据中心的 AI 头节点部署而优化的 CPU 架构与计算平台。

性能

系统效率决定性能

随着代理式 AI 系统规模不断扩大,整体性能取决于平台如何高效编排代理式 AI,并在整机架范围内协同调度 CPU、网络与加速器。机架密度、计算利用率以及总体拥有成本是由电源效率、内存带宽和系统级集成共同决定的,而不仅仅是峰值吞吐量。

 

基于 Arm 架构的平台专为融合型 AI 数据中心而设计,能够在持续的 AI 工作负载下,提供更高的机架级性能、显著提升的能效,以及更低的总体拥有成本。

Industry level leading performance

性能

每机架实现突破性的性能表现。

Arm icon - Scale

扩展性

专为代理式 AI 驱动的千兆瓦级规模执行而设计。

Arm icon - Compute Density

能效

更低功耗,更高性能密度。

基础设施

AI 系统的应用领域

  • Datacenter AI
    数据中心 AI
  • Cloud Computing icon
    云计算
  • Telco and Networking icon
    电信与网络
  • HPC icon
    高性能计算

赋能可扩展的数据中心 AI

随着 AI 系统在数据中心内规模化扩展,基于 Arm 架构的 CPU 在编排工作负载、为加速器输送数据以及维持整个机架的效率方面发挥着核心作用。凭借出色的效能比和可扩展的系统设计,Arm 帮助客户在降低功耗和整体基础设施成本的同时,提高 AI 吞吐量。

Datacenter AI

升级性能,让云计算效能倍增

随着 AI 与云原生工作负载不断融合,基于 Arm 架构的 CPU 提供了在分布式云环境中扩展所需的性能与效率。Arm Neoverse 平台处理器在各类云工作负载中均能提供出色的性能与能效,助力实现大规模的云 AI 服务。

Cloud Computing

赋能下一代电信和网络基础设施

随着 AI 系统愈发分布化,网络和控制平面发挥着至关重要的作用。Arm 提供云原生、软件定义的网络基础设施,支持分布式 AI 工作负载的低延迟数据移动和系统协调。

Telco and networking

为 HPC 铺平道路

科研环境正日益将仿真、分析与 AI 推理相结合。Arm 凭借高效的架构以及专为持续、大规模运行而设计的成熟软件生态系统,为这类工作负载提供支持。

HPC
计算平台

用于大规模 AI 编排的计算平台

随着 AI 系统对编排能力的需求增加,CPU 成为了现代 AI 数据中心的控制和数据管理引擎。面向云 AI 的 Neoverse 计算平台能够实现跨工作负载的可扩展协调,同时保留合作伙伴在 IP、计算子系统和 CPU 方面的选择权。

合作伙伴

领先的超大规模云服务提供商正在基于 Arm 平台构建云 AI 的未来

在云和数据中心基础设施领域,NVIDIA、AWS、Google Cloud 和微软正在推进基于 Arm 架构的平台开发,为下一波可扩展、节能型 AI 创新浪潮提供助力。

Arm and NVIDIA

NVIDIA Grace Blackwell 平台和下一代 Vera Rubin CPU 均采用基于 Arm 架构的 CPU 创新技术打造。Vera 拥有 88 个基于 Arm 架构的核心,旨在为数据中心和高性能计算环境中的代理式 AI 和推理提供支持。

Arm AWS lockup logo

AWS 通过推出 Graviton5 扩展了其基于 Arm 架构的产品组合,与上一代相比,性能提升高达 25%,延迟降低 33%。Graviton CPU 同样为 Trainium3 UltraServer 提供强大支持,该服务器旨在为大规模 AI 工作负载提供可扩展且成本效益高的基础设施。1

Arm and Google Cloude

基于 Google Cloud Axion 的 C4A 和 N4A 实例将 Arm 架构引入通用工作负载,其中 N4A 的性价比较 x86 产品高出 2 倍,每瓦性能提高了 80%。2

Arm and Microsoft

基于 Arm Neoverse 平台的微软 Cobalt 100 和 Cobalt 200 处理器扩展了 Azure 中基于 Arm 架构的计算技术,以更高的能效和性能支持企业、云原生和 AI 驱动的工作负载。

软件

专为规模化而构建的生态系统

超过 50,000 家公司的 2200 多万名开发者在基于 Arm 架构的环境中构建和运行软件。成熟的生态系统使得云 AI 工作负载能够更快地扩展、更容易地迁移,并在各种环境中保持一致的运行。

Arm 云迁移计划

基于 Arm 平台构建和扩展云原生工作负载,以实现更高的性能、更低的成本和无缝的可移植性。

Arm 开发者

获取开发者资源,助您更快打造基于 Arm 架构的云 AI 基础设施解决方案。

资源

最新新闻和资源

  • 新闻和博客
  • 成功案例
  • 电子书
Generic Solutions_Dark Mode

通过 Arm 技术推动积极变革

我们的合作伙伴正塑造未来,赋能 AI 无处不在,惠及每一个人,欢迎了解详情。

Generic Guides

在数据中心 AI 领域获得竞争优势

依托 Arm Neoverse 平台,企业能够对基础设施进行现代化升级,全方位提升性能、能效与灵活性,广泛覆盖云端和本地部署环境,既能满足当今需求,又能推动未来的创新。

FAQs

常见问题

什么是融合型 AI 数据中心?

融合型 AI 数据中心将计算、加速器、内存和网络集成到一个协调一致的系统中,旨在高效运行大规模的 AI 工作负载。与传统架构不同,融合架构将 AI 视为一个系统级问题,而非孤立组件的集合。

为什么 CPU 在融合型 AI 数据中心占据核心地位?

加速器负责驱动模型计算,而 CPU 则作为将 AI 转化为实际服务的系统的基础。无论是用于训练还是推理,每个 AI 数据中心都依赖于基于 CPU 的头节点来协调加速器、管理内存、操作预处理和后处理以及维护系统控制。

随着推理变得更加持久化并基于代理式 AI,这些协调任务也在不断扩展。AI 系统越来越依赖 CPU 来安排工作、管理状态、支持键值缓存和向量数据库,并处理与数据及服务的持续交互。在这种环境下,能效和核心密度变得与峰值性能同等重要。

Arm 如何提高云 AI 场景的效能比?

Arm CPU 专为高效能而设计,能够在固定的功耗和散热限制内实现更高的可用计算能力。这使得云服务提供商能够在扩展 AI 算力的同时,避免能耗同比增加。

Arm 与 x86 在云 AI 方面相比如何?

对于大规模云 AI,基于 Arm 架构的平台提供了优化机架级效率和控制总体拥有成本所需的效能比与核心密度。Arm 专为持续推理、代理式 AI 编排和加速器协调而设计,能够在超大规模环境中实现更高的工作负载密度和更低的功耗。这种效率、可扩展性以及云原生生态系统支持的结合,使得 Arm 相比传统的 x86 平台更适合作为现代云 AI 基础设施。

Arm 架构能否供各企业用于云 AI 数据中心,还是仅适用于超大规模云服务提供商?

虽然基于 Arm 架构的云 AI 平台由超大规模云服务提供商率先采用,但目前正日益普及到各种规模的企业,并有一个广泛的软件和硬件生态系统提供支持。