世界中の開発者のためのシームレスなAIアクセラレーション
AIの機会を最大限に活用するため、開発者は、それぞれの特定のワークロードに最適なパフォーマンスが必要であるほか、最速のAI導入方法にアクセスできる必要があります。Armは、Armプラットフォーム全体にわたるAIパフォーマンスを最大化し、すべての開発者、すべてのモデル、すべてのワークロードにシームレスなアクセラレーションを確約することに専念しています。
開発者を堅牢なAIソフトウェアエコシステムにつなぐ
Arm Kleidiは、主要なAIフレームワーク、クラウドサービスプロバイダー、機械学習ISVコミュニティとのコラボレーションを通じ、開発者による追加作業や専門知識を必要とすることなく、数十億のワークロードにフルMLスタック、即時の推論性能改善を提供することを目的としています。
PyTorch
ArmはPyTorchコミュニティと緊密に連携し、PyTorchで動作するモデルがArmで動作するよう確約することで、最も過酷なAIワークロードにもシームレスなアクセラレーションを実現します。
BERT-Large
Armは、主要な実行モード、Eager Mode、Graph Modeの最適化を含め、Arm CPUでのPyTorchの推論性能向上に取り組んでいます。
Kleidiの統合により、Llamaモデルの推論を最大18倍、Gemma 2 2Bを15倍、そしてBert-Largeでの2.2倍向上を含む自然言語処理(NLP)モデルのパフォーマンスを向上させます。
Llama 3.1 8B
Arm Neoverse V2ベースのGraviton4プロセッサーを使用し、PyTorchに適用したKleidiAIの最適化で、チャットボットのデモではトークン生成率が12倍向上されると見積もられています。
このデモは、既存のArmベースのコンピュート能力を利用し、LLMを使用したAIアプリケーションを容易に構築できることを示しています。
RoBERTa
AWSはArmと連携し、oneDNNを使用してArmコンピューティングライブラリ(ACL)カーネルで、Neoverse V1ベースのGraviton3プロセッサー向けにPyTorch torch.compile機能を最適化しました。
この最適化により、Hugging Faceで最も一般的なNLPモデルの推論性能が最大2倍になります。
FunASR Paraformer-Large
FunASRは、Alibaba DAMO Academyにより開発された高度なオープンソース自動音声認識(ASR)ツールキットです。
oneDNNを介してACLをPyTorchと統合することで、Neoverse N2ベースのAliCloud Yitian710プロセッサーにおけるParaformerモデルの実行時、2.3倍のパフォーマンス向上を実現しました。
ExecuTorch
Armと軽量MLフレームワークであるExecuTorchを組み合わせることで、エッジでの効率的なオンデバイス推論機能が実現します。
Stable Audio Open
Stability AIとArmのパートナーシップにより、デバイス上の生成AIを加速し、インターネット接続を必要とすることなくリアルタイムのオーディオ生成機能を実現します。
Stable Audio Openは、モデル蒸留とArm KleidiAIの活用により、Armベースのスマートフォンでのテキストからオーディオへの生成を従来より30倍高速化し、ユーザーがエッジで数秒以内に高品質のサウンドを作成できるようになりました。
Llama 3.2 1B
ArmとMetaの協力により、AI開発者は量子化されたLlama 3.2モデルをArm CPU上でこれまでより最大20%速く実行できるようになりました。
KleidiAIをExecuTorchと統合し、最適化された量子化スキームを開発することで、モバイル上の生成AIワークロードのプリフィルステージで350トークン/秒を超える速度を達成しました。
Llama.cpp
LLM推論に関するArmベースCPUの能力を示すために、Armとそのパートナーは、llama.cppで実装されているint4カーネルとint8カーネルを最適化し、これらのより新しい命令を活用できるようにしています。
Virtuoso-Lite 10B
4ビットの量子化とllama.cppでの実行により、Arcee AI Virtuoso-Liteモデルは1秒で40トークを生成し、エンタープライズ環境でのSLMの実行で4.5倍のコストパフォーマンスを達成します。これは、Arm Kleidiテクノロジーを用いた、すぐに利用可能な最適化によるものです。
カスタムSLM
AWSとArmは、TinyLlama 1.1B SLMを微調整し、自動車マニュアル用のチャットボットを作成することで、ドライバーが車両と直接対話できるようにしました。KleidiAIの使用により、SLM推論はArm Cortex-A76 CPU上で従来より10倍高速化し、応答時間が3秒になりました。
Llama 3.3 70B
Metaとパートナーシップを結び、4ビット量子化を備えたKleidiAIを活用することで、SLMは、より大きなLlama 3.1 405Bモデルと同様のパフォーマンスを実現しました。Arm Neoverse搭載のGoogle Axionプロセッサーに展開した場合、パフォーマンスは毎秒50トークンで安定しています。
TinyLlama 1.1B
KleidiAIでllama.cppを使用することで、VicOneはパフォーマンスを加速し、プリフィルを2倍に、エンコードを60%向上させました。当社とのパートナーシップにより、クラウドへの依存を減らし、コストを削減し、車載データの安全性を維持することで、車載サイバーセキュリティの脅威を迅速に検出することができます。
他の主要なフレームワーク
Armコンピューティングプラットフォーム全体にわたるAIパフォーマンスを最大化するために、すべての主要なAIおよびMLフレームワークにわたって推論ワークロードを最適化することに専念しています。
ONNX
ONNX Runtimeは、モバイル、デスクトップ、クラウド上で生成AIを導入するためのオープンソースフレームワークで、業界で最も広く使用されています。
ArmはMicrosoftと提携してKleidiAIをONNX Runtimeに統合し、Phi-3 Mini 3.8Bモデルを使用して、WindowsとAndroid上でAI推論を最大2.6倍高速化しました。
LiteRT
KleidiAIは現在、XNNPACKを介して、GoogleのオンデバイスAI向け高性能ランタイム(旧称:TensorFlow Lite)、LiteRTと統合されています。
このパートナーシップとArmのStability AI Open Stable Audio Smallモデルの最適化により、デバイス上でのオーディオ生成が可能になり、そして実行時のピーク時のRAM使用量が6.5 GBから3.6 GBに削減しました。
MNN
MNNは、Alibabaが開発したオープンソースのディープディープラーニングフレームワークです。当社とのパートナーシップにより、デバイス上のマルチモーダルユースケースのパフォーマンスと効率を向上させています。
多言語命令チューニング済みのQwen2-VL 2Bモデルで実証されているように、KleidiをMNNと統合することで、プリフィルパフォーマンスが57%、デコードが28%高速化されます。
OpenCV
エッジでの高度でエネルギー効率の高いコンピュータービジョン(CV)に対する需要が高まっている中、KleidiCVはArm CPU上のCVアプリケーションのパフォーマンス最適化を確約するために役立ちます。
OpenCV 4.11と統合することで、開発者はぼかし、フィルター、回転、サイズ変更などの主要な画像処理タスクの処理が4倍高速化するというメリットを活用できます。この加速化は、画像のセグメンテーション化、物体検出および認識のユースケースのパフォーマンス向上に役立ちます。
MediaPipe
MediaPipeとXNNPACKでのArmとGoogle AI Edgeのパートナーシップは、現在そして未来のArm CPUでAIワークロードを加速させています。これは、開発者がGemmaやFalconなど数多くのLLMを使用して、モバイル、ウェブ、エッジ、そしてIoTで卓越したAIパフォーマンスを実現することを可能にします。
XNNPACKを通じたKleidiとMediaPipeの統合により、ArmベースのプレミアムスマートフォンにおけるGemma 1 2B LLMでのチャットボットデモ実行時、TTFTの30%加速が達成されました。
Angel
TencentのAngel MLフレームワークは、10億から3,000億を超えるパラメータまでのサイズで利用可能なHunyuan LLMをサポートしています。スマートフォンやWindows on Arm PCを含む幅広いデバイスでAI機能を実現します。
2024 Tencent Global Digital Ecosystem Summitで発表されたパートナーシップは、Tencentの多くのアプリケーションにわたって、よりパワフルで効率的なオンデバイスAIサービスをユーザーに提供することで、実世界のワークロードにポジティブな影響を与えています。
CPUのパフォーマンスを加速させるための重要な開発者向けテクノロジー
Arm Kleidiは、AIモデルの能力、正確性、スピードを進化させる最新の開発者向けイネーブルメントテクノロジーを含んでいます。AIワークロードがベースとなるArm Cortex-A、Arm Cortex-X、またはArm Neoverse CPUから最大限の性能を引き出せるよう確約するために役立ちます。
KleidiAIおよびKleidiCVライブラリは、機械学習(ML)やコンピュータービジョン(CV)フレームワークを容易にし、Arm CPUベースの設計において最適なパフォーマンスを目指すとともに、AIとCVを強化する最新機能を活用するために設計された軽量カーネルです。
Cortex-AおよびNeoverse CPUに最適化されたML機能の独立系ソフトウェアベンダーによるソーシングを可能にする、包括的かつ柔軟なライブラリです。このライブラリはOSに依存せず、Android、Linux、ベアメタルシステムに移植できます。
最新のニュース・関連情報
- 開発者
- ニュースとブログ
- ガイド
- eBook
- ホワイトペーパー
AIワークロード
CPUでのAI推論を理解するためのガイド
AIワークロードをCPU上で実行したいという需要が高まっています。この役立つガイドでは、幅広い分野にわたりCPU推論に関するメリットと留意点を説明しています。
ソフトウェアAIの加速化
AIの可能性を最大限に引き出すためにソフトウェアが重要である理由
AIの実装にソフトウェアが重要な理由と、パフォーマンスが高くセキュアなAIアプリケーションの作成を加速する方法をご覧ください。
生成AI
柔軟性とスピードを備えた生成AIの展開
新しい生成AI機能の拡張をめぐる競争により、イノベーションの機会と課題の両方が生まれています。これらの課題を克服して、あらゆる場所にArm上のAIをうまく展開する方法をご覧ください。