概要
Stream Processing とは
Cloudera Stream Processing は、ストリーミングデータを分析し、複雑なパターンを特定して実用的なインテリジェンスを取得する機能を提供することで、ストリームをデータ製品に変えることを可能にします。
Stream Processing には Apache Flink と Kafka が搭載されており、包括的なエンタープライズグレードのストリーム管理およびステートフル処理ソリューションを提供します。開発者、データアナリスト、データサイエンティストは、ストリーミングのストレージ基盤として Kafka を、コアストリーミング処理エンジンとして Flink を、そして SQL や REST といった業界標準インターフェースのトップレベルのサポートを組み合わせて活用できます。そうすることで、リアルタイムデータ製品、ダッシュボード、ビジネスインテリジェンスアプリケーション、マイクロサービス、データサイエンスノートブックを強化するハイブリッドストリーミングデータパイプラインを簡単に構築できます。
不正行為の検知、ネットワーク脅威分析、製造インテリジェンス、コマースの最適化、リアルタイムのサービス提供、ローンの即時承認などのユースケースには、データ処理コンポーネントをストリーム上に移動することで、これらのニーズにリアルタイムで対応できるようになりました。
Stream Processing による
ハイブリッドストリーミングデータパイプライン
Stream Processing のユースケース
不正行為の検知
カスタマー分析
市場モニタリング
ログ分析
Stream Processing の機能
-
Apache Flink によるストリーミング分析
-
Apache Kafka による Streams Messaging
SQL Stream Builder (SSB) は、最適化された Flink ジョブに変換される SQL を使用してステートフルなストリーム処理ジョブを作成する包括的でインタラクティブなユーザーインターフェースです。SQL を使用することで、ストリーミングデータのフィルタリング、集約、ルーティングなどを行う式をシンプルかつ簡単に宣言できます。SSB は、ストリーム上で SQL を構成して実行し、その結果に対して永続データ API を作成するために使用できるジョブ管理インターフェースです。
エラーや再試行が発生していても、常に一度だけデータが処理されるようにします。例えば、住宅ローンの支払い処理で、何百ものバックオフィストランザクションシステムを調整するのにストリーム処理を使用する必要がある金融サービス会社で役立ちます。
順序が入れ替わっているストリーミングイベントを検出して処理します。例えば、リアルタイムの不正サービスでは、データが遅れて到着しても、データを正しい順序で処理する必要があります。
一度に1つずつのインメモリストリーム処理のパフォーマンスを実現します。例えば、3,000万人のアクティブユーザーによるクレジットカードの支払い、送金、残高照会などのリクエストを、ミリ秒単位のレイテンシで処理できます。
数百のストリーミングソースと1ストリームあたり毎秒数百万イベントを処理する際に、イベントをトリガーできます。例えば、患者が救急外来を受診すると、システムが外部システムにアクセスして数百のソースから患者固有のデータを取得し、患者が診察室に到着するまでに EMR で利用できるようにします。
ストリーミングデータは、ウェアハウス、リレーショナルデータベース、データレイクなど、保存されている他のデータソースと簡単に統合、結合、メッシュ化できなければほとんど価値がありません。すぐに使用できるコネクターや独自のコネクターを使用して、データプロバイダーをあらゆるデータソースに対して設定できます。データプロバイダーを作成すれば、DDL を使用して簡単に仮想テーブルを構築できます。結合や集合などの広く知られた SQL 構文を使用することで、複数のストリームやバッチデータソース間の複雑な統合を容易に行えます。
低レイテンシかつ高スループットで毎秒数百万件のメッセージに対応します。ダウンタイムなしの弾力的かつ透過的な拡張も可能です。ストリーミングデータのイニシアティブに幅広く対応できるため、企業は顧客の要求に応え、より良いサービスを提供し、リスクをプロアクティブに管理することができます。
Streams Messaging Manager は、Kafka クラスタ間 (プロデューサー、ブローカー、トピック、コンシューマー間) でのデータの移動をエンドツーエンドで単一画面上に可視化します。エッジからクラウドまでのデータリネージとガバナンスを追跡できます。また、インテリジェントなフィルタリングとソートにより、Kafka 環境のトラブルシューティングが容易になります。
Mirrormaker 2をベースとする Streams Replication Manager は、クラスタ間で耐障害性、拡張性、堅牢性に優れた Kafka トピックレプリケーションを行う他、クラスタおよびトピックレベルでのレプリケーション監視とメトリクスを提供します。高可用性、ディザスタリカバリ、クラウド移行、地理的近接性など、多くのことを実現できます。
スキーマレジストリを使用すると、共有スキーマリポジトリ内のすべてのプロデューサースキーマとカスタマースキーマの変化を管理、共有、サポートできます。これにより、Kafka 環境全体でアプリケーション同士が柔軟に連携できます。スキーマの不一致による中断を安全に軽減します。
クルーズコントロールを使用すると、大規模な Kafka 環境の管理と負荷分散を行い、異常を自動的に検出して修復できます。ハードウェアや仮想マシンの頻繁な障害、クラスタの拡張や縮小、ブローカー間の負荷の偏りといった難題に対処します。
Cloudera SDX は、すべてのコンポーネントに対し、一元化されたセキュリティ、統制ポリシー、ガバナンス、データリネージを提供します。1度設定するだけで自動的に適用され、特定ベンダーにも依存しないため、マルチクラウド戦略やハイブリッドクラウド戦略を安心して導入できます。ID、アクセス、データ保護、可視性というセキュリティの4本柱をサポートします。
柔軟なデプロイオプションで、あらゆるデータと場所に対応
クラウドでのストリーム処理
Cloudera は、パブリッククラウドにデプロイして効率的に拡張できる、包括的な統合型ストリーム処理機能を搭載しています。
Cloudera Stream Processing は、Apache Kafka や Apache Flink エンジンをベースに構築されており、デプロイと管理を簡素化するエンタープライズクラスのツールを備えています。
Streams Messaging Manager は、スキーマガバナンスと監視、ディザスタリカバリ、インテリジェントなリバランス、堅牢なアクセス制御と監査に対応する一連の機能で、Apache Kafka を強化します。
SQL Stream Builder は、強力な SQL コンソールで Apache Flink を拡張します。このコンソールでは、SQL を使用するアナリストがストリーミングデータにクエリを実行したり、下流のアプリケーション用に処理ロジックに関してコラボレーションやバージョン管理を行ったりすることができます。
オンプレミスでの Stream Processing
ストリーミングデータに対応するために Cloudera をオンプレミスに導入すれば、リアルタイムでパイプラインとアプリケーションのコストを管理し、レイテンシを最小限に抑制できます。Cloudera Stream Processing は、Apache Kafka と Apache Flink を統合し、これらのデプロイの管理に必要なエンタープライズクラスのツールを提供します。
Cloudera Streaming - Kubernetes Operator
Cloudera Stream Processing 機能は、既存の Kubernetes クラスタを通じて独立してデプロイできる Kubernetes Operator としても利用でき、Kafka のデプロイと拡張をとても簡単に行えます。Kubernetes Operator は、Kafka、Cruise Control、Zookeeper と併せてデプロイされ、堅牢なメッセージブローカーサービスを利用したストリーミングユースケースが Kubernetes で実現します。さらに Flink の最新の分散ストリーム処理エンジンと SQL Stream Builder を活用すれば、コンテナ上でネイティブに稼動するリアルタイムのストリーミングアプリケーションを構築できます。
Cloudera Stream Processing の Community Edition
CSP Community Edition を利用すると、ストリームプロセッサの開発を、デスクトップやその他の開発ノードから直接簡単に実行できます。
アナリスト、データサイエンティスト、および開発者は、新機能の評価、SQL ベースのストリームプロセッサのローカル開発、Kafka コンシューマー/プロデューサーおよび Kafka Connect コネクターの開発を、本番環境に移行する前にすべてローカルで行えるようになりました。
Stream Processing の Community Edition なら、5分で利用を開始できます。
GigaOm Radar のストリーミングデータプラットフォーム部門
Cloudera は、2024年ストリーミングデータプラットフォーム部門でマーケットリーダーに認定されました。
始める準備はできましたか?