Cloudera Data Engineering

Apache Spark で Iceberg テーブルを処理することで、エンタープライズグレードのデータパイプラインを構築、オーケストレーション、管理できます。クラウドからデータセンターまで、拡張性の高い AI と多機能分析を実現します。

概要

エンタープライズデータエンジニアリングのオープンスタンダード

Data Engineering を利用することで、エンタープライズチームはオープンレイクハウスを基盤として、データパイプラインを安全に構築、自動化、スケーリングできます。あらゆる場所のデータに多機能分析と AI を活用できます。

Apache Spark で Iceberg テーブルを処理して、構造化データと非構造化データを統合し、Airflow によってデータパイプラインのオーケストレーションを実現。すべてオープンソースを基盤とすることでベンダーロックインを回避。

コンテナ化による柔軟性と統合されたガバナンスにより、クラウド、データセンター、ハイブリッド環境など、あらゆる場所でデータパイプラインを構築、実行、管理。

リソースを最適化する財務ガバナンスツールでワークロードレベルのオブザーバビリティ、自動拡張、ゼロ ETL のデータ共有を実現し、コスト効率を最大化。

ユースケース

エンドツーエンドのデータパイプラインを構築して、AI と分析を加速

あらゆる場所のデータに対応する拡張性の高いパイプラインを構築

クラウドとオンプレミスの両方で、ワークロードのポータビリティ、オープンスタンダード、および拡張性を実現します。

オーケストレーションで DataOps を加速

ワークフローを自動化し、パイプラインを継続的に改善し、コラボレーションを簡素化します。

ゼロ ETL のデータ共有

安全性と信頼性の高いデータアクセスを社内外で実現します。

パイプラインコストの監視と最適化

オブザーバビリティと効率的なコンピューティングで、TCO を削減します。

あらゆる場所のデータに対応する拡張性の高いパイプラインを構築

クラウドとオンプレミスの両方で、ワークロードのポータビリティ、オープンスタンダード、および拡張性を実現します。

オーケストレーションで DataOps を加速

ワークフローを自動化し、パイプラインを継続的に改善し、コラボレーションを簡素化します。

ゼロ ETL のデータ共有

安全性と信頼性の高いデータアクセスを社内外で実現します。

パイプラインコストの監視と最適化

オブザーバビリティと効率的なコンピューティングで、TCO を削減します。

20%

データチームの効率を向上

オンプレミスの Cloudera で、ポータビリティ、オーケストレーション、統合データアクセスを実現して、効率性を向上

クラウドネイティブのデータエンジニアリングエクスペリエンスにより、あらゆる場所で Spark、Iceberg、Airflow を実行できます。

ウェビナーを見る

エンタープライズレベルのセキュリティを備えた直感的なツールで、実務者の生産性を向上

Sessions と Apache Airflow で、パイプラインを構築、テスト、オーケストレーションできます。

業界の事例を読む

ワークロードレベルのコストガバナンスで、よりスマートな拡張を実現

組み込みの分析機能から得られる洞察とエネルギー効率の高い AWS Graviton プロセッサで、コストを最適化します。

業界の事例を読む

Apache® Iceberg への移行 - 初心者向けガイド

Apache Iceberg へのワークロード移行に関するステップバイステップのガイドをお読みください。

主な特長

オープンデータレイクハウスを基盤として、コンテナ環境で Spark を使って Iceberg テーブルを処理し、スケーラブルでガバナンスの効いたパイプラインを実行します。オンプレミスやクラウド環境全体で、Iceberg のスキーマ進化、タイムトラベル、外部データ共有を活用できます。

複雑なワークフローをドラッグアンドドロップでオーケストレーションできるため、タスク管理、依存関係の統制、および外部ツールの接続が簡素化されます。

オンデマンドでセッションを開始し、テストと反復をすばやく実行できます。Spark Connect により、VSCode や Jupyter Notebook など任意の IDE で、リモートで安全に開発作業を進めることができます。

ソースシステムから行レベルの変更をキャプチャし、データを常に最新の状態に保ちます。継続的な更新の自動化により、信頼性の高いデータパイプラインを構築できます。

リネージとメタデータ管理の統合により、データパイプラインをエンドツーエンドで監視できます。Cloudera Shared Data Experience (SDX) と Cloudera Data Lineage を活用して、ハイブリッド環境全体で自動的な可視化、ガバナンス、信頼できる洞察を実現します。

SQL、Java、Scala、Python など、どの言語を使用する場合でも、堅牢な API によってあらゆるサービスのパイプラインワークフローを自動化できます。リアルタイムの視覚的プロファイリングと、組み込みの監視およびアラート機能をライフサイクルの各段階で活用することで、パフォーマンス問題を迅速に診断し、解決できます。

Cloudera Data Engineering クラスタの種類別の機能

		コアクラスタ	汎用クラスタ
インフラストラクチャー	自動拡張クラスタ
	スポットインスタンス
	Cloudera Shared Data Experience
	Iceberg によるオープンレイクハウス
Spark	ジョブライフサイクル管理
	一元的なモニタリング
	ワークフローのオーケストレーション (Airflow)
	Spark Streaming
開発用エンドポイント	インタラクティブセッション
	外部 IDE の連携
	JDBC コネクター (近日公開)

Cloudera Data Engineering の導入オプション

オープンでハイブリッドなデータレイクハウス上に統合された処理レイヤーを提供

クラウドの Cloudera

マルチクラウドの柔軟性: コンテナ化された API ファーストのサービスにより、複数のパブリッククラウドに展開できます。ベンダーロックインのない完全な相互運用性が実現します。
モジュール型の開発環境: Apache Airflow、マネージド Spark、API、IDE を活用し、反復的なコラボレーションで開発を加速します。
エラスティックな拡張性: Spark ワークロードを動的に自動拡張し、使用状況に基づいてコストを最適化します。

オンプレミスの Cloudera

自社でデプロイ: コンテナ化された API ファーストのサービスにより、複数のパブリッククラウドに展開できます。ベンダーロックインのない完全な相互運用性が実現します。
クラウド対応の環境: クラウドと同様のモジュール型のコンテナ化されたサービスを利用できます。これらのサービスは、ハイブリッド環境のポータビリティと拡張性を重視して構築されています。
エンタープライズ向けの設計: 迅速なオンボーディング、外部 IDE へのアクセス、きめ細かなアクセス統制といった機能を標準で備えています。