云端级 AI 现已落地桌面端
AI Summary
从超大规模云到显示器下方的桌面端,一种搭载 20 核 Arm 配置和 NVIDIA GB10 Grace Blackwell 超级芯片的新型 AI 工作站正在兴起。这些工作站提供千万亿次级算力和统一内存,最高支持 2,000 亿参数模型,重新定义了 AI 工作站的可能性。在主要 OEM 厂商的引领下,搭配生态系统合作伙伴的原生软件支持,基于 Arm 架构的 AI 工作站将性价比、架构效率和开发者就绪能力提升到了大屏幕计算的前沿水平。
从云端到桌面:基于 Arm 架构的 AI 工作站带来超凡性能
专为桌面级性能而打造
Arm 架构可为当今繁重的工作负载提供工作站级别的性能。
从云端到桌面,实力不减
过去为云端赋能的架构如今成为 AI 工作站创新的驱动力。
可扩展的性价比
基于 Arm 架构的台式机突破性价比天花板。
Arm 技术为高性能 AI 工作站赋能
Arm Cortex-X925
Cortex-X925 核心用于驱动计算密集型工作负载,例如 AI 训练、仿真和 3D 渲染,同时管理数据流和编排,以防止 GPU 资源不足,并在大模型中保持高吞吐量。
Arm Cortex-A725
Cortex-A725 核心负责预处理、分词和推理,与 Cortex-X925 协同工作,在统一的内存池中运行,以减少瓶颈并支持更大的模型在本地运行。
专为现代工作负载而打造
AI 研究人员
基于 Arm 架构的 AI 工作站助力研究人员在本地训练和微调大模型,支持多达 2,000 亿个参数。凭借云端级性能,AI 工作站可加快实验进程,降低基础设施成本,并加强对敏感数据集的控制。
医疗保健
基于 Arm 架构的 AI 工作站支持对诊断和医学影像进行本地模型微调,在保障患者数据安全的同时加快获得洞察。通过摆脱对云的依赖,医疗机构既能达到合规,又能加快生命科学和临床研究领域的迭代进程。
建筑与 3D
从实时渲染到大规模仿真,基于 Arm 架构的 AI 工作站为建筑师、设计师和工程师提供了不折不扣的性能。统一内存和高核心效率避开了云队列瓶颈,实现 3D 建模、CAD 和可视化工作流加速。
企业 AI
企业可在端侧安全地进行 AI 模型原型设计、训练和部署,在降低云成本的同时,保持对敏感数据的控制。凭借 NVIDIA GB10 的性能和原生软件兼容性,采用 Arm 架构的工作站直接为企业环境赋予敏捷性和可扩展性。
最新新闻和资源
- 新闻和博客
关键要点
Key Takeaways
- 基于 Arm 架构的 AI 工作站可实现千万亿次级 AI 性能,最高支持 2,000 亿参数模型,提供高能效和高性价比。
- 包括戴尔、惠普、联想和华硕在内的主要 OEM 厂商纷纷推出了 Arm AI 工作站,搭载 NVIDIA GB10 并针对大屏幕计算进行了优化。
- Arm Cortex-X925 和 Arm Cortex-A725 CPU 搭配统一内存,可驱动从 AI 训练到 3D 渲染和仿真等繁重的工作负载。
- NVIDIA AI 技术栈基于 Arm 平台原生运行,为 PyTorch、TensorFlow、Docker 和 Hugging Face 打造无缝开发体验。
- 基于 Arm 架构的 AI 工作站非常适合 AI 研究、医疗保健和企业应用,可实现快速迭代、数据隐私和 AI 模型本地开发。
常见问题
基于 Arm 架构的 NVIDIA GB10 Grace Blackwell 超级芯片有哪些主要特性?
- 20 核 Arm CPU 配置将 Arm Cortex-X925 与 Arm Cortex-A725 核心强强联合,支持包括编排、分词和强化学习在内的多种 AI 任务。
- 统一内存架构无需使用单独的 CPU 和 GPU 内存,降低了开销,并支持在边缘侧运行最高 2,000 亿参数的 AI 模型。
- 凭借原生工具链可移植性,开发者能够跨云端和边缘环境使用 NVIDIA 的 AI 软件栈和 CNCF 工具,如 Docker 和 Kubernetes。
为什么开发者或企业希望在本地 AI 工作站上运行 AI 模型?
在本地运行 AI 模型有助于提高响应速度、增强数据隐私和运营独立性。对于开发者和企业而言,本地推理有助于降低延迟,增强对敏感数据的控制,并确保在连接能力有限甚至无连接的环境下获得可靠性能。
AI 工作站能够运行大规模 AI 模型靠的是什么?
诸如 GBX 等 AI 工作站的核心基于一种全新的系统设计,将 CPU、GPU 和内存整合到统一、连贯的架构中。GBX 平台由基于 Arm 架构的 NVIDIA Grace Blackwell 超级芯片提供支持,将 20 个 Arm 核心与下一代 Blackwell GPU 相融合,可提供超过 1,000 万亿次运算/秒 (TOPS) 的算力和 128 GB 的统一 LPDDR5x 内存。
有了这种统一内存,庞大的模型(单个系统上最多 2,000 亿个参数)可完全加载至本地内存,从而消除了限制传统 x86 工作站的数据传输瓶颈。GBX 还可基于 Arm 平台运行 NVIDIA 的完整 AI 软件栈(CUDA、TensorRT、PyTorch、TensorFlow 和 DGX OS),这也正是 DGX 数据中心和云基础设施中使用的软件栈。
本质上,GBX 将以前需要服务器机架才能承载的算力压缩到 6 英寸、200 瓦 USB-C 供电的立方体设备中,让本地 AI 开发真正成为云端租用 GPU 之外的可行替代方案。
对研究人员、科学家或企业来说,在工作站上运行 AI 有什么实际价值?
如今,以 GBX 为代表的 AI 工作站,使得超大模型的运行与微调不再只依赖云端,而能实现本地操作。这类工作站的端侧性能足以支撑实际的实验和迭代,同时将数据保持在本地,确保成本可预测。此举并非为了追平云端算力,而是将切实可用的 AI 能力直接带到桌前端。
我可以在基于 Arm 架构的 AI 工作站上原生运行 PyTorch 或 TensorFlow 吗?
是的。NVIDIA AI 软件栈(包括 PyTorch、TensorFlow、Docker 和其他广泛使用的框架)无需仿真即可基于 Arm 平台原生运行。开发者可继续使用已有的工具链,在基于 Arm 架构的 AI 工作站上构建、训练和部署模型,确保工作流无缝衔接并加快迭代进程。