最新レポート「エンタープライズ AI と最新のデータアーキテクチャをめぐる状況」

ダウンロードする
  • Cloudera Cloudera
  • | テクニカル

    主要なデータチームが Apache Iceberg と Spark を使用して AI 対応のパイプラインを構築する方法

    Pamela Pan headshot
    Ying Chen
    Akshat Mathur headshot
    キッチンで電話を見ている女性

    この記事は、2025/11/24に公開された「How Leading Data Teams Build AI-Ready Pipelines with Apache Iceberg and Spark」の翻訳です。

    スケーラブルな AI に向けてデータエンジニアリングを最新化するグローバル企業2社からの教訓

    予測分析から生成 AI まで、すべての企業がデータを価値に変えることを目指しています。しかし、多くのチームにとって、本当の課題はデータを使用可能で、信頼でき、拡張可能なものにするために必要なデータエンジニアリング作業にあります。複雑な環境において、エンジニアは依然として従来のテーブル形式を使用してパイプラインを組み合わせ、ツール間でロジックを複製し、ガバナンスを事後に改良しています。こうした非効率性により、あらゆる段階で障害が発生し、成果が遅れ、最先端の AI・分析イニシアチブの効果さえも制限されてしまいます。

    データエンジニアリングスタックを効率化し、今後に備えたい企業にとって、オープンテーブル形式としての Apache Iceberg とオープンコンピューティングエンジンとしての Apache Spark は強力な組み合わせであることが実証されています。これらを組み合わせることで、ガバナンス、柔軟性、パフォーマンスを犠牲にすることなく、ペタバイト(PB)規模のデータを処理・管理するためのオープンでスケーラブルな標準化された基盤が提供されます。

    このブログでは、2つのグローバル企業が Cloudera のデータおよび AI プラットフォームで Spark と Iceberg を使用してデータパイプラインを変革した方法を詳述します。同社がクエリにかかる時間を80%削減した方法や、チーム間でワークフローを標準化した方法、未加工のデータを AI 対応のインサイトに変えるまでの時間を短縮した方法を探っていきましょう。

    Vodafone Idea がクエリ時間を80%削減した方法

    Vodafone Idea はインドの3大通信会社の1つで、2億2,000万人の利用者にサービスを提供しています。同社は規模の問題に苦しんでいました。Hive ベースのデータレイクが17 PB以上に膨れ上がり、パフォーマンスのボトルネックによって重要な業務の運営が危険にさらされていたのです。レポートクエリの中には70時間以上かかるものもあり、コンプライアンスや分析、規制に関するレポートが遅れていました。

    Vodafone Idea は、単にインフラストラクチャをアップグレードするのではなく、データプラットフォームを再構築することにしました。Cloudera との協業により、同社は Iceberg を活用してメタデータとスキーマの進化を最適化することでクエリを高速化し、Spark で処理ワークフローを再構築して分散コンピューティングを活用し、効率的で大規模なデータ処理を実現しました。

    規制報告に関しては、Iceberg と Apache Impala を組み合わせて、PB スケールのデータセットへの迅速かつ信頼性の高いアクセスをサポートする、インタラクティブなクエリエンジンとして活用しました。Impala がレポーティングクエリを処理する一方、Iceberg は舞台裏で重要な役割を遂行。ACID トランザクション(原子性、一貫性、独立性、耐久性:データベーストランザクションが確実かつ一貫して処理されることを保証するプロパティ)、柔軟なスキーマ進化機能、豊富なメタデータをサポートすることにより、データが変更されてもレポートワークフローの一貫性が保たれました。

    Cloudera Shared Data Experience(SDX)との統合により、チームはロールベースおよび属性ベースのアクセス制御によるきめ細かなガバナンスを実現し、適切な担当者が適切なデータにアクセスできるようになりました。この基盤により、同社は増え続ける規制要件を満たしながら、タイムリーで監査可能なレポートを提供できるようになりました。

    データ主導の効率化で通信業界を変革

    Vodafone Idea は Clouderaと提携することで、データスタック全体を再構築することなく、柔軟性を維持し、ガバナンスを強化し、インサイトの提供を加速することができました。また、取り込みには Spark、統合テーブル管理には Iceberg、レポートには Impala を使用し、既存のロジックとワークフローを再利用しながら基盤を最新化しました。

    このアーキテクチャは、以下のような効果をもたらしました。

    • クエリにかかる時間を80%短縮
    • Spark の大規模な回復力と Iceberg の堅牢なテーブル管理機能により、パイプラインの障害が減少
    • 規制レポートの改善(スピードと信頼性が向上)


    規模拡大を目指した製薬会社の統合方法:単一の技術スタックで1万件のジョブに対応

    PB規模の臨床研究データを管理する世界的な製薬会社は、今増えつつある、よくある課題に直面していました。使用するツールが多すぎてデータの信頼性に課題が生じ、コンプライアンス基準を満たすことが難しいことに加え、高速の AI と分析をサポートしなければならないというプレッシャーにも直面していたのです。データエンジニアリングチームは、毎日10,000件を超える ETL ジョブを実行する必要がありましたが、チーム間でパイプラインを構築、管理、検証するための標準化された方法がありませんでした。

    Cloudera on AWS の導入により、同社は明確な方向性を示しました。チームは、Cloudera Data Engineering 上で Spark を使用してすべてのデータパイプラインを標準化し、バッチ、ストリーミング、機械学習のワークロード全体の処理を統合して拡張。それと同時に、Iceberg をデフォルトのオープンテーブル形式として採用し、一貫したスキーマの進化、組み込みのバージョン管理、チームや環境全体でのエンタープライズグレードのガバナンスを確保しました。

    Cloudera で Spark と Iceberg を採用することで、同社はクリーンで拡張可能な DataOps 基盤の構築に成功。これにより、データパイプラインが標準化され、チームやツール間での安全なデータ共有が可能になり、より高速で高度な AI と分析への道が開かれました。この基盤は現在、規制監査ワークフローから臨床試験での発見と医薬品開発を加速する AI モデルまで、すべてをサポートしており、今後あらゆる新しいテクノロジーやエンジンを企業がシームレスに統合できるようにします。

    統合データプラットフォームで製薬業界を変革

    Cloudera のプラットフォームを使用した標準化により、同社は業務の一貫性をレベルアップすることができました。

    • 中断のないガバナンス:書き込み、監査、公開をつなぐ Iceberg のパターンにより、上流で作業するチームは下流のワークフローを中断することなく、データを本番環境にリリースする前に検証できます。
    • タイムトラベルにより追跡可能性が向上:規制チームは履歴データのスナップショットに即座にアクセスできるため、クリーンなロールバックと監査サポートが可能になります。
    • 共有パイプラインロジック:Spark を統合エンジンとして使用することで、データエンジニアからデータサイエンティストに至るまで、チームが簡単に共同作業を行い、ジョブや環境全体で既存の核となるシステムを変換して再利用できるため、重複が削減され、メンテナンスが簡素化されます。


    データエンジニアリングおよび AI 向けに現代的な基盤を構築

    2社のストーリーには、データワークフローの断片化や規模のプレッシャー、複雑性の増大に直面していたという共通点があります。両社とも Apache Spark と Apache Iceberg を Cloudera で標準化することで、オープンでスケーラブルかつ信頼できるコンポーネントを中心にパイプラインを再構築し、ガバナンスの向上、パフォーマンスの高速化、AI と分析のためのデータフローのクリーン化を実現しました。

    Cloudera Data Engineering を使用すると、企業はハイブリッドおよびマルチクラウド環境全体で実行されるエンドツーエンドのソリューションを手に入れることができます。これに Spark、Iceberg、Airflow との統合オーケストレーションを組み合わせることで、チームは以下を行うことが可能になります。

    • 一度構築したパイプラインをデータセンターでもクラウドでも、どこでも実行。
    • オープンデータレイクハウスで信頼とガバナンスを大規模に管理。

    Spark と Iceberg が Cloudera 上で信頼性が高くスケーラブルなパイプラインを強化する方法については、このインタラクティブなデモをご覧ください。今すぐ Cloudera Data Engineering の5日間トライアルで実際にお試しいただき、AI に対応したデータワークフローの構築を始めましょう。

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.