最新レポート「エンタープライズ AI と最新のデータアーキテクチャをめぐる状況」

ダウンロードする
  • Cloudera Cloudera
  • | ビジネス

    Iceberg ムーブメント:オープンフォーマットがエンタープライズ標準になるまで

    Navita Sood Headshot
    雪山

    この記事は、2025/7/14に公開された「The Iceberg Wave: How an Open Format Became an Enterprise Standard」の翻訳です。

    Cloudera のイノベーションが Iceberg の採用を加速

    Apache Iceberg は現在、大規模な構造化データ、半構造化データ、進化するデータを管理するための事実上のオープンスタンダードです。これはもともと、2017年に Netflix で、Apache Hive と Spark 上で信頼性の高いペタバイト(PB) 規模の分析を提供するという課題に対処するために開発され、その後、複数のワークロードを同時に実行するのに適した堅牢なオープンテーブル形式に成長しました。

    Iceberg はデータを統合し、SQL のような操作で簡単にアクセスできるようにします。SQL 機能の充実やデータ操作の簡素化により進化を続ける Iceberg は、データエンジニアだけでなく、迅速かつ信頼性の高いデータアクセスを求めるデータサイエンティスト、アナリスト、アプリケーション開発者といった幅広い技術層のユーザーに支持されています。

    Iceberg を活用することで、組織はコンピュートとストレージを真に分離でき、比類のない柔軟性を実現できます。多機能なアナリティクス、AI 対応、ベンダーロックインの回避を求めているのであれば、他のテーブル形式では Iceberg に太刀打ちできません。

    活気ある成長中のコミュニティ

    10 年足らずのうちに、Iceberg は新興技術からエンタープライズ標準へと進化しました。Iceberg の勢いの背景には、そのアーキテクチャの強みと、活気に満ちたオープンなコミュニティの存在があります。

    重要なのは、Iceberg のコミュニティは単一のベンダーではなく、ユーザー自身が主導しているという点です。このユーザー主導のガバナンスモデルにより、プロジェクトは現実世界の幅広いニーズに応じて進化しており、それが Iceberg が大きな支持を得ている主な理由の一つとなっています。

    Iceberg Summit の注目ポイント

    Iceberg が主流として採用されていることは、2025 年にサンフランシスコで開催された Iceberg Summit でも明らかでした。このイベントには、スタートアップ企業、Fortune 500 企業、主要なクラウドプロバイダー 3 社 (AWS、Microsoft、Google) が集結し、世界中から対面およびバーチャルで多くの参加者が集まりました。参加者は皆、学び、貢献し、このエコシステムを成長させようという熱意にあふれていました。

    サミットで特に多く語られたテーマの一つが、相互運用性と Iceberg の存在感の高まり (自動化を含むエコシステムや機能の拡充) でした。

    相互運用性

    Netflix 社、Apple 社、Bloomberg 社をはじめとする多くの企業が、Iceberg を活用することで、あらゆるワークロードの基盤となる「唯一の信頼できるデータソース」を構築し、システム間の不要なデータコピーや移動を大幅に削減できていると語っています。これらの企業は、Iceberg の信頼性の高いデータレイヤーを活用して、セグメンテーション、パーソナライゼーション、離脱/再発予測、レコメンデーション、顧客体験の最適化など、さまざまなワークロードを実現していると語っています。

    急成長するエコシステム

    もう一つの注目点は、Iceberg エコシステムにおける Comet、Polaris、Lance などの新たなオープンソースツールの登場であり、これらはパフォーマンスの向上やマルチモーダル分析・AI のサポートを目的として設計されています。

    Iceberg V3 と V4 における今後のアップデート

    Iceberg V3 および V4 に搭載予定の新機能には大きな注目が集まりました。V3 では、データガバナンス、パフォーマンス最適化、Variant や Geospatial といったより複雑なデータ型のサポートが大幅に強化される予定です。Variant はカラムナー形式の原則を活用することで、半構造化データに対して、広範な変換を必要とせずにフィルタリングや集計といった高度なクエリ処理を可能にします。Geospatial のサポートにより、組織は位置情報に基づくデータを管理できるようになり、新たなユースケースの創出が期待されます。また、V4 で提案されている新しい適応型メタデータレイアウトは、小さなファイルにおけるパフォーマンスの向上を実現する見込みです。

    自動データ管理

    もう一つの注目トピックは、パーティショニング、ソート、圧縮といった定型的なメンテナンス作業を、自動化ポリシーに基づく DevOps スタイルのインターフェースで自動化し、手作業の負担を軽減することでした。組織が Iceberg テーブルにより多くのデータを取り込むにつれて、これらのメンテナンス作業のために専門家を雇う必要が生じ、大きなボトルネックとなっています。

    ますます多くのエンジンが Iceberg テーブル内のデータにアクセスするようになる中で、ガバナンス、セキュリティ、リネージの重要性が高まっています。データの流れや変換プロセスを可視化することは、データを信頼するうえで不可欠です。これにより、Iceberg テーブル全体での可視性を高めるために、カタログのフェデレーションやガバナンスの必要性について議論が交わされました。

    Cloudera における Iceberg の採用状況

    Cloudera は、2021 年に Apache Iceberg をネイティブ統合した パブリッククラウドの Lakehouse プラットフォーム を発表し、続いて 2022 年には オンプレミス対応 を実現しました。現在では、Cloudera の顧客の大半が Iceberg 上で新しいワークロードを運用またはテストしており、全体として PB (ペタバイト) 規模のデータが Iceberg 上で管理されています。

    Iceberg は Cloudera にとって成長の原動力です。データプラットフォームのモダナイゼーションと将来性確保のために、Hive のワークロードを Iceberg に移行する顧客が急増しています。- Cloudera プロダクトマネジメント担当 SVP、Venkat Rajaji

    企業が Iceberg の導入を開始すると、その利点は次第に大きくなり、Iceberg テーブル上のデータ量の増加、ワークロードの拡大、新たなユースケースの創出へとつながっていきます。パフォーマンスの高速化が最初の動機となることが多く、その後に相互運用性やワークロードの柔軟性によるアジリティが評価されます。Iceberg への移行により、ストレージ、ETL、運用コストを最大 75% 削減できます。タイムトラベル、スナップショット、Write-Audit-Publish、非表示パーティショニングといった機能も効率性をさらに高め、新しいユースケースの展開に最適な選択肢となります。

    Cloudera における Iceberg の代表的なユースケースには、以下のようなものがあります。

    • 信頼できる当事者間でのデータ共有:組織内の異なる事業部門間、または信頼できるパートナーやサプライヤーとの間で、異なるベンダーシステム間のデータを共有。
    • データエンジニアリング:大規模なデータ準備作業において、最適なコストパフォーマンスを実現。
    • ほぼリアルタイムでの分析と意思決定:ストリーミングデータを Lakehouse に取り込むことで実現。
    • 規制対応レポートと継続的なリスク軽減:Iceberg のタイムトラベル機能と Cloudera のガバナンス、リネージ、監査機能を活用。
    • 分析クラウドコストの最適化:Iceberg に格納されたデータを活用し、Cloudera の堅牢な取り込み・データ処理機能を活かして実現。
    • AIのデータ準備を加速する:SparkとNiFiを活用してデータ処理を高速化。
    • 効率的なモデル学習:複数バージョンのデータにまたがって、コンピュートおよびストレージの使用量を抑えつつ実行。
    • 多層型のフィーチャーストア:Iceberg と HBase を組み合わせることで、低レイテンシな AI を実現。
    • ハイブリッドワークロードの実行:オンプレミスに保存された機密データに対し、パブリッククラウドのコンピュートを活用して実行。

    Illumina および LY Corporation による Apache Iceberg 導入の取り組みと、スケールする中でデータや分析の課題をどのように克服しているかをご覧ください。

    一般的な課題に対応する Cloudera のイノベーション

    Lakehouse や Iceberg は、すべてのデータの統合や分析の高速化といった大きな利点をもたらしますが、Iceberg の導入に関連して、Cloudera の顧客からいくつかの課題も共有されています。まず、データが複数のクラウド、オンプレミス、エッジシステムに分散しており、それらすべてを Iceberg 活用のためにクラウドへ移行するのはほぼ不可能です。そのため、オンプレミスとクラウドの両方で同じ Iceberg サポートが必要とされています。次に、複数ベンダーのエンジンとの統合が求められており、信頼性、リネージ、トレーサビリティを備えた形でシステム間のデータ共有を容易に行えるようにする必要があります。データが増加するにつれ、Iceberg テーブルのパフォーマンスを最適化する作業を手動かつ継続的に行うのは非常に高コストであり、専門知識とコンピュートリソース (CPU、メモリなどの計算資源) が求められます。最後に、Iceberg によってデータ活用が促進される一方で、あらゆるツールを取り込める自由度はリスクを伴うため、アクセス制御、監査性、リネージ、可視性のためのメタデータ管理を提供できる、効果的なガバナンスとセキュリティツールが必要です。

    Cloudera は常にイノベーションを重ね、お客様の課題解決に取り組んでおり、以下のような一般的な課題に対応するために、プラットフォームのさまざまな強化を行ってきました。

    • ハイブリッド Lakehouse による「Iceberg のあらゆる場所での活用」:オンプレミスおよび複数のパブリッククラウドにおける Iceberg のネイティブサポートを実現し、同じデータに対して Impala、Spark、NiFi、Flink、Hive を使って同一の操作体験でアプリケーションやコードを移植可能にします。これにより、クラウドネイティブ機能を活用して、お客様のデータセンターをモダナイズすることが可能になります。Ozone 上の Iceberg により、オンプレミスでも S3 互換のオブジェクトストアを提供します。Cloudera は、クラウドとオンプレミスのデータを単一のガバナンスおよびセキュリティモデルの下で統合し、きめ細かなアクセス制御、バージョン管理されたメタデータ、共有カタログを実現します。
    • リアルタイムアプリケーションの構築:リアルタイム CDC パイプラインを構築し、Cloudera の Data in Motion (NiFi+Kafka+Flink-on-Iceberg) によって、バッチデータとストリーミングデータをシームレスに取り込み、統合します。
    • RESTカタログ統合による完全な相互運用性:単一のセキュリティとガバナンスで、外部エンジンおよびオープンエコシステムとの相互運用性を推進します。
    • Cloudera Lakehouse Optimizer による TCO の削減と高速パフォーマンス:AI を活用した自動チューニングにより、圧縮処理、スナップショットの期限管理、レイアウト最適化を実現し、手動での調整が不要です。
    • すべてのデータソースとデスティネーションを完全に把握:Cloudera の Octopai により、Cloudera 外も含めたすべてのデータフローに対して、インテリジェントなメタデータ自動化とライフサイクル全体にわたるリネージを提供し、データの可視性を向上します。
    • アプリケーション全体での高可用性 (HA) /災害復旧 (DR) と低レイテンシ:Iceberg テーブルのレプリケーションにより、高可用性なデータアーキテクチャにおける柔軟性と耐障害性を実現します。
    • スマートな移行ツールによるリスクのない迅速な導入:「Hive テーブルから Apache Iceberg への移行」を支援するブループリントにより、導入プロセスを簡素化します。
    Apache Iceberg がデータと AI を横断的に支える基盤および要となる未来を私たちは構想しており、あらゆる企業にこれまでにないアジリティとインテリジェンスをもたらすために、Iceberg の機能強化を絶えず続けています。Cloudera プロダクト戦略担当 VP、Bill Zhang

    今後の展望

    Iceberg は、オープンテーブル形式におけるエンタープライズ標準として、今後も主導的な地位を維持し続けると私たちは考えています。自動最適化、マルチモーダル対応、メタデータ管理、Python 連携といった新たなイノベーションが、さらなる採用拡大を後押しするでしょう。他のオープンテーブル形式は、特定のワークロードや環境に特化した形で Iceberg を補完する方向へ進んでいくと予想されます。

    Cloudera の目標は、Iceberg を基盤とするオープンなデータレイクハウスを、より低い複雑性、より高い柔軟性、そしてより大きな効果とともにお客様が構築できるよう支援することです。私たちは現在、エンタープライズグレードのセキュリティとガバナンス、さらなる最適化、階層型ストレージ機構、そして相互運用性とコラボレーションを強化するための「カタログのカタログ」の提供に注力しています。今すぐCloudera Lakehouse の 5 日間トライアルを始めるか、ハウツーガイドをご覧ください。

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.