Evolve logo オンデマンド配信 Evolve 2023 Tokyo|AI、データと分析の先進事例を紹介
  • Cloudera Cloudera
  • GigaOm が Cloudera DataFlow をストリーミングデータプラットフォームのリーダーとして評価
    概要

    Stream Processing とは

    Cloudera Stream Processing (CSP) は、ストリーミングデータを分析し、複雑なパターンを特定して実用的なインテリジェンスを取得する機能を提供することで、ストリームをデータ製品に変えることを可能にします。

    CSP には Apache Flink と Kafka が搭載されており、包括的なエンタープライズグレードのストリーム管理およびステートフル処理ソリューションを提供します。開発者、データアナリスト、データサイエンティストは、ストリーミングのストレージ基盤として Kafka を、コアストリーミング処理エンジンとして Flink を、そして SQL や REST といった業界標準インターフェースのトップレベルのサポートを組み合わせて活用できます。そうすることで、リアルタイムデータ製品、ダッシュボード、ビジネスインテリジェンスアプリケーション、マイクロサービス、データサイエンスノートブックを強化するハイブリッドストリーミングデータパイプラインを簡単に構築できます。

    不正行為の検知、ネットワーク脅威分析、製造インテリジェンス、コマースの最適化、リアルタイムのサービス提供、ローンの即時承認などのユースケースには、データ処理コンポーネントをストリーム上に移動することで、これらのニーズにリアルタイムで対応できるようになりました。

    Cloudera Stream Processing による
    ハイブリッドストリーミングデータパイプライン

    ハイブリッドストリーミングパイプラインの図

    ユースケース

    • 不正行為の検知
    • カスタマー分析
    • 市場モニタリング
    • ログ分析

    不正行為の検知


    金融詐欺を先回りして検出し、数百万ドルの損失を回避。

    小売や金融サービスなどの企業では、顧客データの保護、金融詐欺の発生防止が課題となっています。Cloudera Stream Processing の機能は、顧客トランザクションのリアルタイムストリームを処理し、パターンを特定し、予測的アラートを生成し、実用的なインテリジェンスを明らかにすることで、不正行為を未然に防止します。

    PT Bank Rakyat Indonesia 社: ビッグデータ、AI、機械学習を使用して顧客の理解を深める

    不正行為を40% 削減。

    ケーススタディを読む

    カスタマー分析


    リアルタイムな顧客分析により、エンゲージメント、定着率、満足度が向上します。

    顧客エンゲージメントを向上させるために、あらゆる組織がリアルタイム分析を必要としていますが、データ量が多すぎるため、その実現には苦心しています。Cloudera Stream Processing は1秒以下のレイテンシで大量のデータを処理することで、顧客分析を行いながら、顧客とのコミュニケーションも検出し、より良い商品やサービスをリアルタイムに推奨します。

    大手航空会社: データ駆動の自動化で顧客体験を改善

    データストリームのコストが1度の送信分のみとなり、データ量の50パーセント削減を達成。

    ケーススタディを読む

    市場モニタリング


    1秒間に数百万の取引を処理し、ペタバイト規模の財務情報にも対応。

    金融証券取引所は、リアルタイムレポートを求める顧客の声、そして SLA 要件の高速化という課題に直面しています。しかし、これらのサービスを提供するためには、ペタバイト規模のデータを処理しなければなりません。Cloudera Streams Messaging では大量のデータを簡単にストリーミングできるため、証券取引所は市場に連動したリアルタイム分析を迅速に生成し、厳しさを増す SLA も満たすことができます。

    ボンベイ証券取引所: 世界最速の証券取引所がリアルタイム分析を活用してデータガバナンスと業界の SLA を向上

    運用コストを95% 削減。

    ケーススタディを読む

    ログ分析


    ロギングのインフラストラクチャーを最新化してリアルタイム分析を実現。

    企業におけるログデータの価値は高まるばかりです。しかし IT 部門は、ログ収集プロセスの効率化、アップストリームへの関連情報の提供、主要指標の生成に苦労しています。Cloudera Stream Processing の機能は、ログ処理のスケールアップ、企業全体のリアルタイムな洞察の提供、運用コストの大幅な削減に役立ちます。

    グローバルテレコム :最新の分析環境を使って、モバイル顧客のデジタルライフサイクルを実現

    600PB(ペタバイト)のモバイルデータを管理

    ケーススタディを読む

    機能

    • Apache Flink によるストリーミング分析
    • Apache Kafka による Streams Messaging

    Streaming Analytics

    Cloudera Streaming Analytics では Apache Flink と SQL Stream Builder を活用して、以下を実現します。

    • 低レイテンシのストリーム処理機能
    • 業界標準の SQL と APIS を使用し、REST エンドポイントを介してストリーミングアプリケーションを作成できるようにすることで開発を簡素化
    • 高度なイベントドリブン型分析を構築するための高度なウィンドウ技術
    • マルチクラウドおよびハイブリッドクラウドモデルをサポート

    主な特長

    SQL Stream Builder (SSB) は、最適化された Flink ジョブに変換される SQL を使用してステートフルなストリーム処理ジョブを作成する包括的でインタラクティブなユーザーインターフェースです。SQL を使用することで、ストリーミングデータのフィルタリング、集約、ルーティングなどを行う式をシンプルかつ簡単に宣言できます。SSB は、ストリーム上で SQL を構成して実行し、その結果に対して永続データ API を作成するために使用できるジョブ管理インターフェースです。

    エラーや再試行が発生していても、常に一度だけデータが処理されるようにします。例えば、住宅ローンの支払い処理で、何百ものバックオフィストランザクションシステムを調整するのにストリーム処理を使用する必要がある金融サービス会社で役立ちます。

    順序が入れ替わっているストリーミングイベントを検出して処理します。例えば、リアルタイムの不正サービスでは、データが遅れて到着しても、データを正しい順序で処理する必要があります。

    一度に1つずつのインメモリストリーム処理のパフォーマンスを実現します。例えば、3,000万人のアクティブユーザーによるクレジットカードの支払い、送金、残高照会などのリクエストを、ミリ秒単位のレイテンシで処理できます。

    数百のストリーミングソースと1ストリームあたり毎秒数百万イベントを処理する際に、イベントをトリガーできます。例えば、患者が救急外来を受診すると、システムが外部システムにアクセスして数百のソースから患者固有のデータを取得し、患者が診察室に到着するまでに EMR で利用できるようにします。

    ストリーミングデータは、ウェアハウス、リレーショナルデータベース、データレイクなど、保存されている他のデータソースと簡単に統合、結合、メッシュ化できなければほとんど価値がありません。すぐに使用できるコネクターや独自のコネクターを使用して、データプロバイダーをあらゆるデータソースに対して設定できます。データプロバイダーを作成すれば、DDL を使用して簡単に仮想テーブルを構築できます。結合や集合などの広く知られた SQL 構文を使用することで、複数のストリームやバッチデータソース間の複雑な統合を容易に行えます。

    Streams Messaging

    Cloudera Streams Messaging では Apache Kafka を活用して、以下を実現します。

    • Streams Messaging Manager によるクラスタの監視/操作
    • Streams Replication Manager で HA/DR 環境を構築
    • スキーマレジストリによる集中型のスキーマ管理
    • Kafka Connect によるシンプルなデータ移動と変更データのキャプチャ、Cruise Control によるインテリジェントなリバランスと自己復旧
    • マルチクラウドおよびハイブリッドクラウドモデルをサポート

    主な特長

    低レイテンシかつ高スループットで毎秒数百万件のメッセージに対応します。ダウンタイムなしの弾力的かつ透過的な拡張も可能です。ストリーミングデータのイニシアティブに幅広く対応できるため、企業は顧客の要求に応え、より良いサービスを提供し、リスクをプロアクティブに管理することができます。

    Streams Messaging Manager は、Kafka クラスタ間 (プロデューサー、ブローカー、トピック、コンシューマー間) でのデータの移動をエンドツーエンドで単一画面上に可視化します。エッジからクラウドまでのデータリネージとガバナンスを追跡できます。また、インテリジェントなフィルタリングとソートにより、Kafka 環境のトラブルシューティングが容易になります。

    Mirrormaker 2をベースとする Streams Replication Manager は、クラスタ間で耐障害性、拡張性、堅牢性に優れた Kafka トピックレプリケーションを行う他、クラスタおよびトピックレベルでのレプリケーション監視とメトリクスを提供します。高可用性、ディザスタリカバリ、クラウド移行、地理的近接性など、多くのことを実現できます。

    スキーマレジストリを使用すると、共有スキーマリポジトリ内のすべてのプロデューサースキーマとカスタマースキーマの変化を管理、共有、サポートできます。これにより、Kafka 環境全体でアプリケーション同士が柔軟に連携できます。スキーマの不一致による中断を安全に軽減します。

    クルーズコントロールを使用すると、大規模な Kafka 環境の管理と負荷分散を行い、異常を自動的に検出して修復できます。ハードウェアや仮想マシンの頻繁な障害、クラスタの拡張や縮小、ブローカー間の負荷の偏りといった難題に対処します。

    Cloudera SDX は、すべてのコンポーネントに対し、一元化されたセキュリティ、統制ポリシー、ガバナンス、データリネージを提供します。1度設定するだけで自動的に適用され、特定ベンダーにも依存しないため、マルチクラウド戦略やハイブリッドクラウド戦略を安心して導入できます。ID、アクセス、データ保護、可視性というセキュリティの4本柱をサポートします。

    クラウドでのストリーム処理


    完全にセキュアで管理されたエラスエティックなクラスタにより、クラウド構成とインフラストラクチャー設定の複雑さを解消し、AWS、Azure、GCP 上で10分以内に稼動できます。

    Data Hub の Streaming Analytics

    Data Hub の Streaming Analytics はパブリッククラウドで Apache Flink と SQL Stream Builder を起動し、SQL またはアプリケーションコードを介して、ハイブリッドクラウド環境でリアルタイムデータのストリーム処理を可能にします。

    Data Hub の Streams Messaging

    Data Hub の Streams Messaging は、スキーマガバナンス、監視、ディザスタリカバリ、インテリジェントなリバランス、堅牢なアクセス制御と監査に対応する包括的なエンタープライズ管理機能を使用し、パブリッククラウドで Kafka クラスタを稼動させることで、オンプレミスの Apache Kafka への投資を拡大します。

    ストリーム処理製品のツアーを開始する

     

    Cloudera Stream Processing の Community Edition


    CSP Community Edition を利用すると、ストリームプロセッサの開発を、デスクトップやその他の開発ノードから直接簡単に実行できます。


    アナリスト、データサイエンティスト、および開発者は、新機能の評価、SQL ベースのストリームプロセッサのローカル開発、Kafka コンシューマー/プロデューサーおよび Kafka Connect コネクターの開発を、本番環境に移行する前にすべてローカルで行えるようになりました。


    Stream Processing の Community Edition なら、5分で利用を開始できます。

    Whitepaper

    Cloudera で最高の Kafka エコシステムを実現

    Datasheet

    Stream Processing データシート

    Whitepaper

    Cloudera Data Platform による Apache Kafka の管理、監視、レプリケーション

    Webinar

    Kafka KConnect で NiFi フローを実行する方法

    世界最高クラスのトレーニング、サポート、サービス

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.