概要
パブリッククラウドに幅広い分析を素早く簡単に展開
Cloudera Data Hub は、クラウド上の Cloudera に関する効果的な分析サービスで、使い慣れたクラウドのクラスタモデルでエッジから AI までの価値の高い分析を行えます。ストリーミング、ETL、データマート、データベース、AI などきわめて幅の広い分析ワークロードを備えた Data Hub なら、既存のワークロードをオンプレミスからクラウドへ移行する、またはクラウドで直接構築するなどの作業を簡単に行えるようになります。
この包括的なクラウドベースのソリューションは、統合された一連のオープンソーステクノロジーの Cloudera Runtime によって動作し、SDX をベースに構築されています。クラスタの形状、ワークロードの種類、事前構築されたテンプレート、設定オプションに幅広い選択肢があることで、従来型のアーキテクチャーを使い慣れているユーザーが直感的に使用できる、カスタマイズ可能なエクスペリエンスを提供します。
Data Hub ユースケース
クラウドへの移行を容易に
パブリックとプライベート両方のクラウドをカバーするプラットフォームにより、オンプレミスの Cloudera ワークロードをパブリッククラウドへ容易にリフト&シフトでき、さらに以下のメリットをもたらします。
- パフォーマンスの向上、確実なガバナンス、パブリッククラウドの可用性
- 両方の導入モデルで貴社ワークロードを最適化する柔軟性
- 従来のクラスタモデルに類似したフォームファクタの利点により、クラウドへの移行がスムーズに
- Cloudera のコンテナ化されたエクスペリエンスへのシームレスな移行パス
複雑なマルチ分析ワークロードを迅速に展開
以下の特長により、データライフサイクル全体にわたって、パブリッククラウドへの複雑なワークロードの展開を高速化します。
- 幅広い柔軟なカスタム分析ワークロードを展開可能なクラウドベースのアーキテクチャー
- テンプレートの活用と独自のワークロード構築のいずれでも、使い慣れたノードベースクラスタを使用できる、直感的なエクスペリエンス
- 特定のビジネス要件に合わせてワークロードを展開可能な高度なカスタマイズ
ワークロードを選択
- リアルタイムのデータマート
- 複雑なパイプライン向けのデータエンジニアリング
- ハイブリッドクラウドでのストリーミング
- オペレーショナルデータベース
リアルタイムのデータマート
高速で受信する大量のデータの分析を可能に。
Data Hub のリアルタイムデータマートテンプレートは、毎秒数百万件の記録の取り込みが可能で、必要に応じて所定のアップデートを行います。データはただちに、クエリ実行に最適なフォーマットで利用可能になります。このパターンは時系列アプリケーション、イベント分析、CDC の調整、リアルタイムのデータ処理パイプラインに最適です。テンプレートには、Apache Kudu 分析ストレージエンジン、迅速な SQL 実行のための Apache Impala、SQL デプロイメントと分析用の Hue、ストリーム処理と分析用の Apache Spark Streaming などがあります。
複雑なパイプライン向けのデータエンジニアリング
データの強化、変換、読み込みを実行。
Data Hub でデータの強化、変換、クレンジングを行うことで、柔軟性とカスタマイズ性に優れたエンドツーエンドのデータパイプラインの作成、実行、管理が可能になります。Data Engineering テンプレートにより、Apache Spark と Hive を使用したバッチ処理とリアルタイムストリーム処理など、幅広いデータ処理ワークロードを実行できます。
ハイブリッドクラウドでのストリーミング
リアルタイム分析データの収集、処理、構築を実現。
DataFlow for Data Hub は、エッジからクラウドまでカバーする包括的なストリーミングデータプラットフォームです。Apache NiFi と Kafka を活用し、ハイブリッド環境全体にわたるストリーミングデータの課題に対応します。Cloudera DataFlow のオンプレミスのストリーミングと同一の機能を、データの構築、設定、維持に莫大なリソースを消費することなくクラウドへ拡張できます。
オペレーショナルデータベース
信頼性の高いエンタープライズクラスのアプリケーションを構築。
Data Hub では、ANSI SQL 対応のハイパフォーマンスな NoSQL データベースを実行できます。Apache Hbase を使用した業務上不可欠なオペレーショナルアプリケーションで、比類ない拡張性とパフォーマンスを実現します。Operational Database の進化的なスキーマサポートの提供により、開発者はアプリケーション設計の際に柔軟性を保ちながら、データの力を活用できます。また、クラスタのワークロード使用率に基づいた自動拡張が可能で、インフラストラクチャーの使用率とコストを最適化します。
Data Hub は柔軟性、拡張性、使いやすさを求めるユーザーにとって最適です。ユーザーは、ワーカーロールの再配置や GPU サポートの設定、リソース管理設定の調整、大規模で複雑なマルチファンクション分析のユースケースに対応するクラスタのチューニングを行えます。
Data Hub クラスタでは、インフラストラクチャーの事前設定やカスタム設定オプションを使って、迅速なプロビジョニングや削除が可能です。クラウドプロバイダー固有の設定により事前設定されたクラスタ定義と、Cloudera Runtime サービス設定によるクラスタテンプレートが、所定のユースケースに適するワークロードクラスタの迅速なプロビジョニングを実現します。また、将来の再利用に備えて、独自のクラスタ定義とテンプレートを保存することも可能です。
Data Hub により、従来のクラスタモデルに類似したフォームファクタでレガシーワークロードをクラウドモデルへ簡単に移動できます。クラウドベースのアーキテクチャーはデータをコンピュートインフラストラクチャーから分離し、データ送信レイヤが未加工データから抽象化されます。この分離アーキテクチャーによって、柔軟性や俊敏性、データ保護、拡張性が大幅に向上します。
Data Hub によって複数のクラスタを共有データに対して容易にプロビジョニングすることが可能となるため、既存の業務アプリケーションに与える影響を心配することなく、適切なセキュリティとガバナンスで完全に分離可能な新しいアプリケーションを立ち上げることができます。
Data Hub を支える Cloudera SDX は専用の管理用統合インターフェースを備えており、プラットフォームデータとメタデータのセキュリティ、ガバナンス、コントロール機能を実行できます。データセキュリティ、ガバナンスおよびコントロールポリシーを設定すると、利用場所に関わらず一貫した適用を行え、運用コストの削減とビジネスリスクの低減に加え、自由で柔軟なインフラストラクチャーの選択が可能となります。
Data Hub は、Cloudera Runtime で構築されています。Cloudera Runtime は、Cloudera プラットフォーム内の中核的なオープンソースのソフトウェアディストリビューションで、約50のオープンソースプロジェクトが含まれています。Runtime の活用により、最適なオープンソースツールセットを使用したワークロードとアプリケーションの構築が可能になります。