エンタープライズデータエンジニアリングのオープンスタンダード
Data Engineering を利用することで、エンタープライズチームはオープンレイクハウスを基盤として、データパイプラインを安全に構築、自動化、スケーリングできます。あらゆる場所のデータに多機能分析と AI を活用できます。
Apache Spark で Iceberg テーブルを処理して、構造化データと非構造化データを統合し、Airflow によってデータパイプラインのオーケストレーションを実現。すべてオープンソースを基盤とすることでベンダーロックインを回避。
コンテナ化による柔軟性と統合されたガバナンスにより、クラウド、データセンター、ハイブリッド環境など、あらゆる場所でデータパイプラインを構築、実行、管理。
リソースを最適化する財務ガバナンスツールでワークロードレベルのオブザーバビリティ、自動拡張、ゼロ ETL のデータ共有を実現し、コスト効率を最大化。
エンドツーエンドのデータパイプラインを構築して、AI と分析を加速
-
あらゆる場所のデータに対応する拡張性の高いパイプラインを構築
クラウドとオンプレミスの両方で、ワークロードのポータビリティ、オープンスタンダード、および拡張性を実現します。
-
オーケストレーションで DataOps を加速
ワークフローを自動化し、パイプラインを継続的に改善し、コラボレーションを簡素化します。
-
ゼロ ETL のデータ共有
安全性と信頼性の高いデータアクセスを社内外で実現します。
-
パイプラインコストの監視と最適化
オブザーバビリティと効率的なコンピューティングで、TCO を削減します。
-
あらゆる場所のデータに対応する拡張性の高いパイプラインを構築
クラウドとオンプレミスの両方で、ワークロードのポータビリティ、オープンスタンダード、および拡張性を実現します。
-
オーケストレーションで DataOps を加速
ワークフローを自動化し、パイプラインを継続的に改善し、コラボレーションを簡素化します。
-
ゼロ ETL のデータ共有
安全性と信頼性の高いデータアクセスを社内外で実現します。
-
パイプラインコストの監視と最適化
オブザーバビリティと効率的なコンピューティングで、TCO を削減します。
20%
データチームの効率を向上
オンプレミスの Cloudera で、ポータビリティ、オーケストレーション、統合データアクセスを実現して、効率性を向上
クラウドネイティブのデータエンジニアリングエクスペリエンスにより、あらゆる場所で Spark、Iceberg、Airflow を実行できます。
エンタープライズレベルのセキュリティを備えた直感的なツールで、実務者の生産性を向上
Sessions と Apache Airflow で、パイプラインを構築、テスト、オーケストレーションできます。
オープンデータレイクハウスを基盤として、コンテナ環境で Spark を使って Iceberg テーブルを処理し、スケーラブルでガバナンスの効いたパイプラインを実行します。オンプレミスやクラウド環境全体で、Iceberg のスキーマ進化、タイムトラベル、外部データ共有を活用できます。
複雑なワークフローをドラッグアンドドロップでオーケストレーションできるため、タスク管理、依存関係の統制、および外部ツールの接続が簡素化されます。
オンデマンドでセッションを開始し、テストと反復をすばやく実行できます。Spark Connect により、VSCode や Jupyter Notebook など任意の IDE で、リモートで安全に開発作業を進めることができます。
ソースシステムから行レベルの変更をキャプチャし、データを常に最新の状態に保ちます。継続的な更新の自動化により、信頼性の高いデータパイプラインを構築できます。
リネージとメタデータ管理の統合により、データパイプラインをエンドツーエンドで監視できます。Cloudera Shared Data Experience (SDX) と Cloudera Octopai Data Lineage を活用して、ハイブリッド環境全体で自動的な可視化、ガバナンス、信頼できる洞察を実現します。
SQL、Java、Scala、Python など、どの言語を使用する場合でも、堅牢な API によってあらゆるサービスのパイプラインワークフローを自動化できます。リアルタイムの視覚的プロファイリングと、組み込みの監視およびアラート機能をライフサイクルの各段階で活用することで、パフォーマンス問題を迅速に診断し、解決できます。
Cloudera Data Engineering クラスタの種類別の機能
| コアクラスタ | 汎用クラスタ | ||
インフラストラクチャー |
自動拡張クラスタ | ||
| スポットインスタンス | |||
| Cloudera Shared Data Experience | |||
| Iceberg によるオープンレイクハウス | |||
Spark |
ジョブライフサイクル管理 | ||
| 一元的なモニタリング | |||
| ワークフローのオーケストレーション (Airflow) | |||
| Spark Streaming | |||
開発用エンドポイント |
インタラクティブセッション | ||
| 外部 IDE の連携 | |||
| JDBC コネクター (近日公開) | |||
Cloudera Data Engineering の導入オプション
オープンでハイブリッドなデータレイクハウス上に統合された処理レイヤーを提供
クラウドの Cloudera
- マルチクラウドの柔軟性: コンテナ化された API ファーストのサービスにより、複数のパブリッククラウドに展開できます。ベンダーロックインのない完全な相互運用性が実現します。
- モジュール型の開発環境: Apache Airflow、マネージド Spark、API、IDE を活用し、反復的なコラボレーションで開発を加速します。
- エラスティックな拡張性: Spark ワークロードを動的に自動拡張し、使用状況に基づいてコストを最適化します。
オンプレミスの Cloudera
- 自社でデプロイ: コンテナ化された API ファーストのサービスにより、複数のパブリッククラウドに展開できます。ベンダーロックインのない完全な相互運用性が実現します。
- クラウド対応の環境: クラウドと同様のモジュール型のコンテナ化されたサービスを利用できます。これらのサービスは、ハイブリッド環境のポータビリティと拡張性を重視して構築されています。
- エンタープライズ向けの設計: 迅速なオンボーディング、外部 IDE へのアクセス、きめ細かなアクセス統制といった機能を標準で備えています。
次のステップへ
Cloudera Data Engineering の強力な機能について、詳しくご紹介します。
Data Engineering 製品ツアー
製品ツアーで Cloudera Engineering の詳しい情報をご覧ください。
Data Engineering のドキュメント
Cloudera Data Engineering を導入および運用する方法について、詳しくご紹介します。
