概要
Stream Processing とは
Cloudera Stream Processing (CSP) は、ストリーミングデータを分析し、複雑なパターンを特定して実用的なインテリジェンスを取得する機能を提供することで、ストリームをデータ製品に変えることを可能にします。
CSP には Apache Flink と Kafka が搭載されており、包括的なエンタープライズグレードのストリーム管理およびステートフル処理ソリューションを提供します。開発者、データアナリスト、データサイエンティストは、ストリーミングのストレージ基盤として Kafka を、コアストリーミング処理エンジンとして Flink を、そして SQL や REST といった業界標準インターフェースのトップレベルのサポートを組み合わせて活用できます。そうすることで、リアルタイムデータ製品、ダッシュボード、ビジネスインテリジェンスアプリケーション、マイクロサービス、データサイエンスノートブックを強化するハイブリッドストリーミングデータパイプラインを簡単に構築できます。
不正行為の検知、ネットワーク脅威分析、製造インテリジェンス、コマースの最適化、リアルタイムのサービス提供、ローンの即時承認などのユースケースには、データ処理コンポーネントをストリーム上に移動することで、これらのニーズにリアルタイムで対応できるようになりました。
Cloudera Stream Processing による
ハイブリッドストリーミングデータパイプライン
Cloudera Stream Processing (CSP) のユースケース
不正行為の検知
カスタマー分析
市場モニタリング
ログ分析
Cloudera Stream Processing (CSP) の機能
-
Apache Flink によるストリーミング分析
-
Apache Kafka による Streams Messaging
SQL Stream Builder (SSB) は、最適化された Flink ジョブに変換される SQL を使用してステートフルなストリーム処理ジョブを作成する包括的でインタラクティブなユーザーインターフェースです。SQL を使用することで、ストリーミングデータのフィルタリング、集約、ルーティングなどを行う式をシンプルかつ簡単に宣言できます。SSB は、ストリーム上で SQL を構成して実行し、その結果に対して永続データ API を作成するために使用できるジョブ管理インターフェースです。
エラーや再試行が発生していても、常に一度だけデータが処理されるようにします。例えば、住宅ローンの支払い処理で、何百ものバックオフィストランザクションシステムを調整するのにストリーム処理を使用する必要がある金融サービス会社で役立ちます。
順序が入れ替わっているストリーミングイベントを検出して処理します。例えば、リアルタイムの不正サービスでは、データが遅れて到着しても、データを正しい順序で処理する必要があります。
一度に1つずつのインメモリストリーム処理のパフォーマンスを実現します。例えば、3,000万人のアクティブユーザーによるクレジットカードの支払い、送金、残高照会などのリクエストを、ミリ秒単位のレイテンシで処理できます。
数百のストリーミングソースと1ストリームあたり毎秒数百万イベントを処理する際に、イベントをトリガーできます。例えば、患者が救急外来を受診すると、システムが外部システムにアクセスして数百のソースから患者固有のデータを取得し、患者が診察室に到着するまでに EMR で利用できるようにします。
ストリーミングデータは、ウェアハウス、リレーショナルデータベース、データレイクなど、保存されている他のデータソースと簡単に統合、結合、メッシュ化できなければほとんど価値がありません。すぐに使用できるコネクターや独自のコネクターを使用して、データプロバイダーをあらゆるデータソースに対して設定できます。データプロバイダーを作成すれば、DDL を使用して簡単に仮想テーブルを構築できます。結合や集合などの広く知られた SQL 構文を使用することで、複数のストリームやバッチデータソース間の複雑な統合を容易に行えます。
低レイテンシかつ高スループットで毎秒数百万件のメッセージに対応します。ダウンタイムなしの弾力的かつ透過的な拡張も可能です。ストリーミングデータのイニシアティブに幅広く対応できるため、企業は顧客の要求に応え、より良いサービスを提供し、リスクをプロアクティブに管理することができます。
Streams Messaging Manager は、Kafka クラスタ間 (プロデューサー、ブローカー、トピック、コンシューマー間) でのデータの移動をエンドツーエンドで単一画面上に可視化します。エッジからクラウドまでのデータリネージとガバナンスを追跡できます。また、インテリジェントなフィルタリングとソートにより、Kafka 環境のトラブルシューティングが容易になります。
Mirrormaker 2をベースとする Streams Replication Manager は、クラスタ間で耐障害性、拡張性、堅牢性に優れた Kafka トピックレプリケーションを行う他、クラスタおよびトピックレベルでのレプリケーション監視とメトリクスを提供します。高可用性、ディザスタリカバリ、クラウド移行、地理的近接性など、多くのことを実現できます。
スキーマレジストリを使用すると、共有スキーマリポジトリ内のすべてのプロデューサースキーマとカスタマースキーマの変化を管理、共有、サポートできます。これにより、Kafka 環境全体でアプリケーション同士が柔軟に連携できます。スキーマの不一致による中断を安全に軽減します。
クルーズコントロールを使用すると、大規模な Kafka 環境の管理と負荷分散を行い、異常を自動的に検出して修復できます。ハードウェアや仮想マシンの頻繁な障害、クラスタの拡張や縮小、ブローカー間の負荷の偏りといった難題に対処します。
Cloudera SDX は、すべてのコンポーネントに対し、一元化されたセキュリティ、統制ポリシー、ガバナンス、データリネージを提供します。1度設定するだけで自動的に適用され、特定ベンダーにも依存しないため、マルチクラウド戦略やハイブリッドクラウド戦略を安心して導入できます。ID、アクセス、データ保護、可視性というセキュリティの4本柱をサポートします。
クラウドでのストリーム処理
完全にセキュアで管理されたエラスエティックなクラスタにより、クラウド構成とインフラストラクチャー設定の複雑さを解消し、AWS、Azure、GCP 上で10分以内に稼動できます。
Data Hub の Streaming Analytics
Data Hub の Streaming Analytics はパブリッククラウドで Apache Flink と SQL Stream Builder を起動し、SQL またはアプリケーションコードを介して、ハイブリッドクラウド環境でリアルタイムデータのストリーム処理を可能にします。
Data Hub の Streams Messaging
Data Hub の Streams Messaging は、スキーマガバナンス、監視、ディザスタリカバリ、インテリジェントなリバランス、堅牢なアクセス制御と監査に対応する包括的なエンタープライズ管理機能を使用し、パブリッククラウドで Kafka クラスタを稼動させることで、オンプレミスの Apache Kafka への投資を拡大します。