Evolve logo オンデマンド配信 Evolve 2023 Tokyo|AI、データと分析の先進事例を紹介
  • Cloudera Cloudera
  • データレイクハウスアーキテクチャー導入のビジネスケース

     

    Cloudera、製品マーケティング担当ディレクター、Navita Sood

    2023年6月5日
    ばらばらに歩きながらデバイスでつながっている人々

    真にデータドリブンな組織を目指して取り組みを強化していくと、データの収集速度が上がっていきます。しかし、多くの企業はデータの量と多様性の問題に直面し、データから実用的な洞察を得るのに苦労しています。この問題に既存のデータウェアハウスやデータレイクアーキテクチャーで対処するのは困難になっています。

    長年にわたり、ビジネスレポートやダッシュボードのニーズはすべて、データウェアハウス内の構造化データでまかなわれていました。しかし、電子メール、ソーシャルメディア投稿、プレゼンテーション、IoT センサーなど、非構造化データや半構造化データが急増しています。これらのデータは形式やモデルが事前定義されておらず、ファイル形式も多種多様です。そのため、多くの企業がデータ分析とストレージにデータウェアハウスとデータレイクの組み合わせを採用し、より統計的なトレンドベースの洞察に精度の低いデータを活用し始めています。

    データレイクはデータ収集の簡素化にも役立ちましたが、結果的にデータが複数のシステムに分散しがちになりました。そのため、従来のビジネスインテリジェンス分析を行う際は、データレイクにある構造化されていない生データを構造化されたデータウェアハウスに移動するという煩わしいプロセスが必要になります。それだけでなく、トレンド分析に使用するデータと、ビジネスダッシュボードやレポートに使用する精度の高いデータが分離していると、レポートやダッシュボードにアクションの必要な問題が示されているときに、探索的なアドホック分析がしづらくなります。

    真に最先端のビジネス分析を行うためには、データウェアハウスの精度とデータレイクの探索の両方をスムーズに利用できる必要があります。既存のインフラストラクチャーのアーキテクチャーでは実現できないことです。そこで、データ管理のアプローチを改善する必要性から、データレイクハウスという新しいソリューションが登場しました。

    データレイクハウスとは

    データウェアハウスは構造化データの単一のストレージリポジトリとして機能し、組織における信頼できる情報源となります。しかし、入力データを特定の形式で構造化して保存しないと、そのデータを抽出して効率的にクエリを実行することはできません。

    一方でデータレイクは、構造化データと非構造化データの両方をネイティブ形式で保存できる柔軟な環境です。このデータを使用して、大量の不統一なデータセットから人工知能 (AI) や機械学習のモデルを構築できます。ただし、データウェアハウスとは異なり、データは変換されることなくストレージに保存されるため、すぐに空きがなくなる可能性があります。

    データレイクハウスはその名前が示すとおり、データウェアハウスの構造とアクセスのしやすさに、データレイクの大規模なストレージを組み合わせたものです。構造化データと非構造化データの両方を格納できるようになっています。データウェアハウスとデータレイクという2つのインフラストラクチャーを持つことなく、1つのデータリポジトリだけで非構造化データも処理できるという利点があります。

    データレイクハウスを使用すると、データウェアハウスで使用されるような構造とスキーマを、通常はデータレイクに格納されるような非構造化データに適用することもできます。その結果、データユーザーが情報にすばやくアクセスして業務に活用できるようになります。データユーザーには、データサイエンティストはもちろん、自分で分析できることのメリットを見出しているすべての従業員が含まれます。

    スマートフォンとスマートウォッチを使用している人

    データレイクハウスがビジネスにもたらす主な5つのメリット

     

    1. 高度な分析で変革をもたらす洞察を提供

    データレイクハウスは信頼できる唯一の情報源をマスターリポジトリに作成する設計となっているため、構造化データと非構造化データを組み合わせた新たな活用方法を実現できます。AI などのテクノロジーを使用することで、データサイエンスの専門知識を持たないデータユーザーでも、あらゆる種類のデータから簡単に洞察を引き出せるようになります。このような新しい高度な分析の洞察からは画期的なビジネスモデルが生まれ、顧客離れの大幅な解消、運用効率の著しい改善、不正とセキュリティのリスク軽減または排除、コストモデルの変革による競争力と効率の向上などを実現できる可能性があります。

    2. データガバナンスの改善により、コンプライアンスを簡素化し、データの価値を向上

    データレイクハウスは、標準化されたオープンスキームで構築されたリソースとデータソースを統合することで、ガバナンスを簡素化および改善します。これにより、セキュリティ、メトリクス、役割ベースのアクセスなどの重要な管理要素を制御しやすくなるため、規制遵守を維持する、共有を制限せずにデータセキュリティを確保する、新しい洞察を得る際にデータの信頼性を確保するといったことを非常に簡単に行えるようになります。

    3. 冗長性の軽減により、インフラストラクチャーと管理の負担を緩和

    データレイクハウスはレイクとウェアハウスの機能を兼ね備えているため、あらゆるタイプのデータを処理できる多目的なストレージプラットフォームとして機能します。レイクとウェアハウスが分離したモデルではデータの複製によってアクセスを確保していましたが、そのようなモデルから脱却できます。その結果、オンプレミスとクラウドのインフラストラクチャーリソースを集約して統合し、管理の複雑さを軽減することが可能です。

    4. 費用対効果の向上により、分析全体の TCO を改善

    データレイクハウスは、コンピューティングとストレージを分離する最新のクラウドネイティブアーキテクチャーで構築されています。そのため、コンピューティング能力を増強することなくストレージを追加することも、そのときのニーズに応じてコンピューティング能力を自動拡張することも簡単にできます。これまで最高水準と言われてきたコンピューティングやストレージでは、必要のないリソースがアイドル状態に陥ることが頻繁にありましたが、そのような投資はもう不要になります。データレイクハウスでは、新しいデータソース (コンピューティングまたはストレージ) を統合するプロセスが自動化されており、組織のデータ形式やスキーマに手動で適合させる必要がありません。そのため、安価に拡張でき、ひいては分析全体の総所有コスト (TCO) が削減されます。

    5. 最適なツールを選択できる柔軟性が向上

    データレイクハウスは、すべてのデータを集約し、そのデータをさまざまなデータユーザーが高度な分析に使用できるようにすることを目的としています。データユーザーの数は増加しており、データエンジニア、データサイエンティスト、データアナリスト、ストリームエンジニア、データインテグレーター、開発者など、それぞれが好みのツールやエンジンでデータを使用することを望んでいます。レイクハウスはオープン化が進み、さまざまなメタストア、エンジン、ツールに簡単に対応してデータへの同時アクセスや同時更新を実現できるため、サイロ化も回避できます。

    Cloudera が実現できること

    データのいっそう迅速な活用を支援するために Cloudera が採用したデータレイクハウスのコンセプトは、多機能な分析を可能にするオープンテーブル形式である Apache Iceberg を利用したシンプルなものです。あらゆるタイプのデータに対する高速で簡単なセルフサービス分析と探索的データサイエンスを実現します。

    データプラクティショナーとエキスパート開発者の両方の生産性を高めるよう設計された CDP をレイクハウスアーキテクチャーにデプロイすれば、ビジネスに関する洞察の取得を迅速化し、イノベーションを推進して競合他社の一歩先を行き、データの力を最大限に発揮できます。詳細については、オンデマンドウェビナー「Unify your data: AI and analytics in an open Lakehouse (データの統合: オープンなレイクハウスでの AI と分析)」をご覧ください。

    著者

    著者 Pedro Pereira 氏の写真

    Navita Sood

    Navita Sood は Cloudera の製品マーケティング担当ディレクターです。データと分析のソートリーダーであり、企業におけるデータアーキテクチャーの変革とクラウドテクノロジーの採用を支援して、データの可能性を引き出しています。

    他の記事


    メタ化の加速: メタデータ戦略が必要なのは誰か?

    さらに詳しく


    データドリブンな世界はどのように形成されたのか

    さらに詳しく

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.