この記事は、2025/7/14に公開された「The Iceberg Wave: How an Open Format Became an Enterprise Standard」の翻訳です。
Apache Iceberg は現在、大規模な構造化データ、半構造化データ、進化するデータを管理するための事実上のオープンスタンダードです。これはもともと、2017年に Netflix で、Apache Hive と Spark 上で信頼性の高いペタバイト(PB) 規模の分析を提供するという課題に対処するために開発され、その後、複数のワークロードを同時に実行するのに適した堅牢なオープンテーブル形式に成長しました。
Iceberg はデータを統合し、SQL のような操作で簡単にアクセスできるようにします。SQL 機能の充実やデータ操作の簡素化により進化を続ける Iceberg は、データエンジニアだけでなく、迅速かつ信頼性の高いデータアクセスを求めるデータサイエンティスト、アナリスト、アプリケーション開発者といった幅広い技術層のユーザーに支持されています。
Iceberg を活用することで、組織はコンピュートとストレージを真に分離でき、比類のない柔軟性を実現できます。多機能なアナリティクス、AI 対応、ベンダーロックインの回避を求めているのであれば、他のテーブル形式では Iceberg に太刀打ちできません。
10 年足らずのうちに、Iceberg は新興技術からエンタープライズ標準へと進化しました。Iceberg の勢いの背景には、そのアーキテクチャの強みと、活気に満ちたオープンなコミュニティの存在があります。
重要なのは、Iceberg のコミュニティは単一のベンダーではなく、ユーザー自身が主導しているという点です。このユーザー主導のガバナンスモデルにより、プロジェクトは現実世界の幅広いニーズに応じて進化しており、それが Iceberg が大きな支持を得ている主な理由の一つとなっています。
Iceberg が主流として採用されていることは、2025 年にサンフランシスコで開催された Iceberg Summit でも明らかでした。このイベントには、スタートアップ企業、Fortune 500 企業、主要なクラウドプロバイダー 3 社 (AWS、Microsoft、Google) が集結し、世界中から対面およびバーチャルで多くの参加者が集まりました。参加者は皆、学び、貢献し、このエコシステムを成長させようという熱意にあふれていました。
サミットで特に多く語られたテーマの一つが、相互運用性と Iceberg の存在感の高まり (自動化を含むエコシステムや機能の拡充) でした。
Netflix 社、Apple 社、Bloomberg 社をはじめとする多くの企業が、Iceberg を活用することで、あらゆるワークロードの基盤となる「唯一の信頼できるデータソース」を構築し、システム間の不要なデータコピーや移動を大幅に削減できていると語っています。これらの企業は、Iceberg の信頼性の高いデータレイヤーを活用して、セグメンテーション、パーソナライゼーション、離脱/再発予測、レコメンデーション、顧客体験の最適化など、さまざまなワークロードを実現していると語っています。
もう一つの注目点は、Iceberg エコシステムにおける Comet、Polaris、Lance などの新たなオープンソースツールの登場であり、これらはパフォーマンスの向上やマルチモーダル分析・AI のサポートを目的として設計されています。
Iceberg V3 および V4 に搭載予定の新機能には大きな注目が集まりました。V3 では、データガバナンス、パフォーマンス最適化、Variant や Geospatial といったより複雑なデータ型のサポートが大幅に強化される予定です。Variant はカラムナー形式の原則を活用することで、半構造化データに対して、広範な変換を必要とせずにフィルタリングや集計といった高度なクエリ処理を可能にします。Geospatial のサポートにより、組織は位置情報に基づくデータを管理できるようになり、新たなユースケースの創出が期待されます。また、V4 で提案されている新しい適応型メタデータレイアウトは、小さなファイルにおけるパフォーマンスの向上を実現する見込みです。
もう一つの注目トピックは、パーティショニング、ソート、圧縮といった定型的なメンテナンス作業を、自動化ポリシーに基づく DevOps スタイルのインターフェースで自動化し、手作業の負担を軽減することでした。組織が Iceberg テーブルにより多くのデータを取り込むにつれて、これらのメンテナンス作業のために専門家を雇う必要が生じ、大きなボトルネックとなっています。
ますます多くのエンジンが Iceberg テーブル内のデータにアクセスするようになる中で、ガバナンス、セキュリティ、リネージの重要性が高まっています。データの流れや変換プロセスを可視化することは、データを信頼するうえで不可欠です。これにより、Iceberg テーブル全体での可視性を高めるために、カタログのフェデレーションやガバナンスの必要性について議論が交わされました。
Cloudera は、2021 年に Apache Iceberg をネイティブ統合した パブリッククラウドの Lakehouse プラットフォーム を発表し、続いて 2022 年には オンプレミス対応 を実現しました。現在では、Cloudera の顧客の大半が Iceberg 上で新しいワークロードを運用またはテストしており、全体として PB (ペタバイト) 規模のデータが Iceberg 上で管理されています。
Iceberg は Cloudera にとって成長の原動力です。データプラットフォームのモダナイゼーションと将来性確保のために、Hive のワークロードを Iceberg に移行する顧客が急増しています。- Cloudera プロダクトマネジメント担当 SVP、Venkat Rajaji
企業が Iceberg の導入を開始すると、その利点は次第に大きくなり、Iceberg テーブル上のデータ量の増加、ワークロードの拡大、新たなユースケースの創出へとつながっていきます。パフォーマンスの高速化が最初の動機となることが多く、その後に相互運用性やワークロードの柔軟性によるアジリティが評価されます。Iceberg への移行により、ストレージ、ETL、運用コストを最大 75% 削減できます。タイムトラベル、スナップショット、Write-Audit-Publish、非表示パーティショニングといった機能も効率性をさらに高め、新しいユースケースの展開に最適な選択肢となります。
Cloudera における Iceberg の代表的なユースケースには、以下のようなものがあります。
Illumina および LY Corporation による Apache Iceberg 導入の取り組みと、スケールする中でデータや分析の課題をどのように克服しているかをご覧ください。
Lakehouse や Iceberg は、すべてのデータの統合や分析の高速化といった大きな利点をもたらしますが、Iceberg の導入に関連して、Cloudera の顧客からいくつかの課題も共有されています。まず、データが複数のクラウド、オンプレミス、エッジシステムに分散しており、それらすべてを Iceberg 活用のためにクラウドへ移行するのはほぼ不可能です。そのため、オンプレミスとクラウドの両方で同じ Iceberg サポートが必要とされています。次に、複数ベンダーのエンジンとの統合が求められており、信頼性、リネージ、トレーサビリティを備えた形でシステム間のデータ共有を容易に行えるようにする必要があります。データが増加するにつれ、Iceberg テーブルのパフォーマンスを最適化する作業を手動かつ継続的に行うのは非常に高コストであり、専門知識とコンピュートリソース (CPU、メモリなどの計算資源) が求められます。最後に、Iceberg によってデータ活用が促進される一方で、あらゆるツールを取り込める自由度はリスクを伴うため、アクセス制御、監査性、リネージ、可視性のためのメタデータ管理を提供できる、効果的なガバナンスとセキュリティツールが必要です。
Cloudera は常にイノベーションを重ね、お客様の課題解決に取り組んでおり、以下のような一般的な課題に対応するために、プラットフォームのさまざまな強化を行ってきました。
Apache Iceberg がデータと AI を横断的に支える基盤および要となる未来を私たちは構想しており、あらゆる企業にこれまでにないアジリティとインテリジェンスをもたらすために、Iceberg の機能強化を絶えず続けています。Cloudera プロダクト戦略担当 VP、Bill Zhang
Iceberg は、オープンテーブル形式におけるエンタープライズ標準として、今後も主導的な地位を維持し続けると私たちは考えています。自動最適化、マルチモーダル対応、メタデータ管理、Python 連携といった新たなイノベーションが、さらなる採用拡大を後押しするでしょう。他のオープンテーブル形式は、特定のワークロードや環境に特化した形で Iceberg を補完する方向へ進んでいくと予想されます。
Cloudera の目標は、Iceberg を基盤とするオープンなデータレイクハウスを、より低い複雑性、より高い柔軟性、そしてより大きな効果とともにお客様が構築できるよう支援することです。私たちは現在、エンタープライズグレードのセキュリティとガバナンス、さらなる最適化、階層型ストレージ機構、そして相互運用性とコラボレーションを強化するための「カタログのカタログ」の提供に注力しています。今すぐCloudera Lakehouse の 5 日間トライアルを始めるか、ハウツーガイドをご覧ください。
This may have been caused by one of the following: