この記事は、2025/11/24に公開された「How Leading Data Teams Build AI-Ready Pipelines with Apache Iceberg and Spark」の翻訳です。
スケーラブルな AI に向けてデータエンジニアリングを最新化するグローバル企業2社からの教訓
予測分析から生成 AI まで、すべての企業がデータを価値に変えることを目指しています。しかし、多くのチームにとって、本当の課題はデータを使用可能で、信頼でき、拡張可能なものにするために必要なデータエンジニアリング作業にあります。複雑な環境において、エンジニアは依然として従来のテーブル形式を使用してパイプラインを組み合わせ、ツール間でロジックを複製し、ガバナンスを事後に改良しています。こうした非効率性により、あらゆる段階で障害が発生し、成果が遅れ、最先端の AI・分析イニシアチブの効果さえも制限されてしまいます。
データエンジニアリングスタックを効率化し、今後に備えたい企業にとって、オープンテーブル形式としての Apache Iceberg とオープンコンピューティングエンジンとしての Apache Spark は強力な組み合わせであることが実証されています。これらを組み合わせることで、ガバナンス、柔軟性、パフォーマンスを犠牲にすることなく、ペタバイト(PB)規模のデータを処理・管理するためのオープンでスケーラブルな標準化された基盤が提供されます。
このブログでは、2つのグローバル企業が Cloudera のデータおよび AI プラットフォームで Spark と Iceberg を使用してデータパイプラインを変革した方法を詳述します。同社がクエリにかかる時間を80%削減した方法や、チーム間でワークフローを標準化した方法、未加工のデータを AI 対応のインサイトに変えるまでの時間を短縮した方法を探っていきましょう。
Vodafone Idea はインドの3大通信会社の1つで、2億2,000万人の利用者にサービスを提供しています。同社は規模の問題に苦しんでいました。Hive ベースのデータレイクが17 PB以上に膨れ上がり、パフォーマンスのボトルネックによって重要な業務の運営が危険にさらされていたのです。レポートクエリの中には70時間以上かかるものもあり、コンプライアンスや分析、規制に関するレポートが遅れていました。
Vodafone Idea は、単にインフラストラクチャをアップグレードするのではなく、データプラットフォームを再構築することにしました。Cloudera との協業により、同社は Iceberg を活用してメタデータとスキーマの進化を最適化することでクエリを高速化し、Spark で処理ワークフローを再構築して分散コンピューティングを活用し、効率的で大規模なデータ処理を実現しました。
規制報告に関しては、Iceberg と Apache Impala を組み合わせて、PB スケールのデータセットへの迅速かつ信頼性の高いアクセスをサポートする、インタラクティブなクエリエンジンとして活用しました。Impala がレポーティングクエリを処理する一方、Iceberg は舞台裏で重要な役割を遂行。ACID トランザクション(原子性、一貫性、独立性、耐久性:データベーストランザクションが確実かつ一貫して処理されることを保証するプロパティ)、柔軟なスキーマ進化機能、豊富なメタデータをサポートすることにより、データが変更されてもレポートワークフローの一貫性が保たれました。
Cloudera Shared Data Experience(SDX)との統合により、チームはロールベースおよび属性ベースのアクセス制御によるきめ細かなガバナンスを実現し、適切な担当者が適切なデータにアクセスできるようになりました。この基盤により、同社は増え続ける規制要件を満たしながら、タイムリーで監査可能なレポートを提供できるようになりました。
データ主導の効率化で通信業界を変革Vodafone Idea は Clouderaと提携することで、データスタック全体を再構築することなく、柔軟性を維持し、ガバナンスを強化し、インサイトの提供を加速することができました。また、取り込みには Spark、統合テーブル管理には Iceberg、レポートには Impala を使用し、既存のロジックとワークフローを再利用しながら基盤を最新化しました。 このアーキテクチャは、以下のような効果をもたらしました。
|
PB規模の臨床研究データを管理する世界的な製薬会社は、今増えつつある、よくある課題に直面していました。使用するツールが多すぎてデータの信頼性に課題が生じ、コンプライアンス基準を満たすことが難しいことに加え、高速の AI と分析をサポートしなければならないというプレッシャーにも直面していたのです。データエンジニアリングチームは、毎日10,000件を超える ETL ジョブを実行する必要がありましたが、チーム間でパイプラインを構築、管理、検証するための標準化された方法がありませんでした。
Cloudera on AWS の導入により、同社は明確な方向性を示しました。チームは、Cloudera Data Engineering 上で Spark を使用してすべてのデータパイプラインを標準化し、バッチ、ストリーミング、機械学習のワークロード全体の処理を統合して拡張。それと同時に、Iceberg をデフォルトのオープンテーブル形式として採用し、一貫したスキーマの進化、組み込みのバージョン管理、チームや環境全体でのエンタープライズグレードのガバナンスを確保しました。
Cloudera で Spark と Iceberg を採用することで、同社はクリーンで拡張可能な DataOps 基盤の構築に成功。これにより、データパイプラインが標準化され、チームやツール間での安全なデータ共有が可能になり、より高速で高度な AI と分析への道が開かれました。この基盤は現在、規制監査ワークフローから臨床試験での発見と医薬品開発を加速する AI モデルまで、すべてをサポートしており、今後あらゆる新しいテクノロジーやエンジンを企業がシームレスに統合できるようにします。
統合データプラットフォームで製薬業界を変革Cloudera のプラットフォームを使用した標準化により、同社は業務の一貫性をレベルアップすることができました。
|
2社のストーリーには、データワークフローの断片化や規模のプレッシャー、複雑性の増大に直面していたという共通点があります。両社とも Apache Spark と Apache Iceberg を Cloudera で標準化することで、オープンでスケーラブルかつ信頼できるコンポーネントを中心にパイプラインを再構築し、ガバナンスの向上、パフォーマンスの高速化、AI と分析のためのデータフローのクリーン化を実現しました。
Cloudera Data Engineering を使用すると、企業はハイブリッドおよびマルチクラウド環境全体で実行されるエンドツーエンドのソリューションを手に入れることができます。これに Spark、Iceberg、Airflow との統合オーケストレーションを組み合わせることで、チームは以下を行うことが可能になります。
Spark と Iceberg が Cloudera 上で信頼性が高くスケーラブルなパイプラインを強化する方法については、このインタラクティブなデモをご覧ください。今すぐ Cloudera Data Engineering の5日間トライアルで実際にお試しいただき、AI に対応したデータワークフローの構築を始めましょう。
This may have been caused by one of the following: