この記事は、2024/10/08に公開された「Deploy and Scale AI Applications With Cloudera AI Inference Service」の翻訳です。
Cloudera は、NVIDIA AI Enterpriseプラットフォームの一部であるNVIDIA NIMマイクロサービスを利用したCloudera AI Inferenceサービスの一般提供を発表いたしました。これによって、企業の AI 導入の加速が可能になります。このサービスは、最適化されたさまざまなAIモデルをサポートし、シームレスでスケーラブルなAI推論を可能にします。
生成 AI の状況は、爆発的な成長と業界全体への広範な採用を背景に、急速なペースで進化しています。2022年にリリースされた ChatGPT は、わずか2ヶ月で1億人以上のユーザーが参加しました。そして、技術へのアクセシビリティとさまざまなスキルレベルのユーザーに影響を与えることを実証しました。
2023年までに AI 活用のフォーカスは「実験」に移りました。開発者は、API サービスやLlama 2 や Mistral などのオープンモデルを活用して、生成AIアプリケーションの概念実証 (PoC) を模索し始めました。そしてこれらのイノベーションは、生成 AI が実現できることの限界を押し広げていきました。
2024年、生成AIは多くの企業にとって、本番環境への導入段階に移行しつつあります。企業は現在、本番環境でのAIアプリケーションをサポートするための専用予算を割り当て、インフラを構築しています。しかし、この移行には大きな課題があります。企業は、知的財産 (IP) の保護、ブランドの完全性の維持、規制要件を遵守しながら顧客の機密性を保護することにさらなる関心を寄せています。
主なリスクはデータの漏洩です。AIシステムは、機能を損なうことなく、企業倫理に沿い、厳格な規制基準を満たすように設計されなければなりません。これらのリスクを軽減するためには、AIシステムが顧客の機密性、個人を特定できる情報 (PII)、データセキュリティへの侵害を確実に防止することが重要です。
企業はまた、AI の開発と配備を異種環境間で制御し続けるという課題にも直面しています。PoC から本番稼動まで、AI のライフサイクル全体を通じて強固なセキュリティ、オーナーシップ、ガバナンスを提供するソリューションが求められています。さらに、厳しいセキュリティ要件を満たしながら、この移行を合理化するエンタープライズグレードのソフトウェアに対するニーズもあります。
生成 AI の可能性を安全に最大限に活用するためには、これらの課題に正面から取り組む必要があります。一般的に、企業が生成 AI の PoC に取り組むには、サードパーティのサービスを利用する方法 (プライベートデータを外部と共有することになる) と、オープンソースと商用ツールを組み合わせて、自社でホストするソリューションを開発する方法の2つがあります。
Cloudera では、本番環境アプリケーション向けの生成 AI モデルの開発とデプロイの簡素化に重点を置いています。当社のアプローチは、エンタープライズグレードのセキュリティとガバナンスとともに、高速でスケーラブルかつ効率的なインフラストラクチャを提供します。この組み合わせにより、企業は知的財産、ブランドの評判、および規制基準へのコンプライアンスを保護しながら、自信を持って生成 AI を導入することができます。
新しい Cloudera AI Inference サービスは、高速化されたモデルサービングを提供し、企業が AI アプリケーションを、強化された速度と効率で展開および拡張できるようにします。NVIDIA NeMo プラットフォームと、Llama 3 や Mistral などのオープンソースモデルの最適化バージョンを活用することで、自然言語処理、コンピュータビジョン、その他の AI 領域における最新の進歩を活用することができます。
Cloudera AI Inference サービスは、最新の AI アプリケーション向けに設計されたパフォーマンス、セキュリティ、スケーラビリティの強力な組み合わせを提供します。NVIDIA NIM を搭載した Cloudera AI Inferenceサービスならば、大幅な時間とコストの削減とともに、市場をリードするパフォーマンスを提供できます。ハードウェアとソフトウェアの最適化により、NVIDIA アクセラレーテッドコンピューティングでは最大36倍の推論速度、CPUスループットは約4倍となり、意思決定を加速します。
そして、NVIDIA Triton Inference Server との統合により、サービスはさらに強化されます。オープンプロトコルをサポートすることで、標準化された効率的なデプロイメントを実現し、時間祝と複雑さの軽減ができます。
セキュリティの面では、Cloudera AI Inferenceサービスは、堅牢な保護と制御を提供します。お客様は、クラウド内の機密データに対する厳格なプライバシーと制御を維持しながら、仮想プライベートクラウド (VPC) 内に AI モデルを展開することができます。アプリケーションとモデルのエンドポイント間のすべての通信は、お客様の安全な環境内に残ります。
また、認証と認可を含む包括的なセーフガードにより、設定されたアクセス権を持つユーザーのみがモデルエンドポイントとやり取りできます。このサービスはまた、エンタープライズグレードのセキュリティとコンプライアンス基準を満たし、ガバナンスと監査のためにモデルとのやり取りをすべて記録します。
Cloudera AI Inference サービスは、卓越したスケーラビリティと柔軟性も提供します。ハイブリッド環境をサポートし、オンプレミスとクラウド間のシームレスな移行を可能にし、運用の柔軟性を高めます。
CI/CD パイプラインとのシームレスな統合は、MLOps ワークフローを強化し、動的スケーリングと分散サービングはリソースの使用を最適化します。これらの機能により、パフォーマンスを損なうことなくコストを削減できます。高可用性とディザスタリカバリ機能で、継続的な運用と最小限のダウンタイムを実現します。
ハイブリッドとマルチクラウドのサポート:オンプレミス*、パブリッククラウド、ハイブリッド環境での展開が可能で、企業の多様なインフラニーズに柔軟に対応します。
モデルレジストリの統合:モデルを保存、バージョン管理、管理するための一元化されたリポジトリである Cloudera AI Registry とシームレスに統合することで、一貫性を保ち、異なるバージョンのモデルに簡単にアクセスすることができます。
詳細なデータとモデルの系譜の追跡*:データ変換とモデル・ライフサイクル・イベントの包括的な追跡と文書化を保証し、再現性と監査可能性を強化します。
エンタープライズグレードのセキュリティ:認証、承認*、データ暗号化など、堅牢なセキュリティ対策を導入し、データおよびモデルの移動時および保存時の保護を保証します。
リアルタイム推論機能:低レイテンシーでのリアルタイム予測と大規模データセットのバッチ処理を提供し、さまざまなニーズに応じて AI モデルを柔軟に提供します。
高可用性と動的スケーリング:高可用性構成と動的スケーリング機能を備え、継続的なサービスを提供しながら、さまざまな負荷に効率的に対応します。
高度な言語モデル:さまざまな最先端の LLM アーキテクチャに最適化されたエンジンを事前に生成してサポートします。
柔軟な統合:既存のワークフローやアプリケーションと簡単に統合できます。開発者には、従来の ML モデル用のオープンな推論プロトコル API と、LLM 用のOpenAI 互換APIが提供されます。
複数のAIフレームワークのサポート:TensorFlow、PyTorch、Scikit-learn、Hugging Face Transformers などの人気のある機械学習フレームワークとシームレスに統合されているため、さまざまな種類のモデルを簡単に導入できます。
高度なデプロイメントパターン:カナリアデプロイメントやブルーグリーンデプロイメント*、A/B テスト*などの高度なデプロイメント戦略をサポートし、新バージョンの安全かつ段階的な展開を可能にします。
オープンAPI:CI/CD パイプラインや、他の MLOps ツールとの統合を促進するだけでなく、オンラインモデルやアプリケーション*のデプロイ、管理、モニタリングのための標準準拠のオープン API を提供します。
パフォーマンスの監視とロギング:包括的なモニタリングとロギング機能を提供し、レイテンシー、スループット、リソース利用率、モデルの健全性などのパフォーマンスメトリクスを追跡し、トラブルシューティングと最適化をサポートします。
ビジネスの監視*:モデルの品質とパフォーマンスを維持するために重要な、センチメント、ユーザーフィードバック、ドリフトなどの主要な生成 AI モデルメトリクスの継続的な監視をサポートします。
NVIDIA NIM マイクロサービスを採用した Cloudera AI Inference サービスは、オンプレミス環境とクラウド環境にまたがるシームレスで高性能な AI モデル推論を実現します。オープンソース・コミュニティ・モデル、NVIDIA AI Foundation モデル、カスタム AI モデルをサポートし、多様なビジネスニーズに対応する柔軟性を提供します。このサービスは、プライバシーとセキュリティに重点を置きながら、大規模な生成 AI アプリケーションの迅速な展開を可能にし、本番環境で AI モデルを使用してデータの可能性を最大限に引き出したいと考えている企業をご支援いたします。
*2024年10月段階では、搭載が予定の機能です。ご不明な点がございましたら、お気軽にお問い合わせください。
This may have been caused by one of the following: