Apache Iceberg オープンテーブル形式 (OTF) | オープンソース

概要

Apache Iceberg とは

Apache Iceberg は、大規模分析を目的に設計されたオープンテーブル形式です。SQL テーブルの信頼性とシンプルさを実現し、データウェアハウス並みの機能をデータレイクストレージ上で直接提供します。

Apache Iceberg は、ストレージ、データベース、コンピューティングエンジンのいずれでもありません。任意の場所に保存されたデータファイルの上位に位置する、メタデータ管理レイヤです。Iceberg はデータの信頼性と整合性を保ちながら、複数のコンピューティングエンジンによるデータへの同時アクセスを可能にします。

Iceberg を採用する理由

オープン性

Iceberg は完全なオープンソースであり、特定のベンダーやエンジンに依存しません。コミュニティではベンダーとベンダー以外の両方から幅広いサポートが提供され、偏りのないイノベーションを加速させています。

ペタバイト規模の分析

Iceberg はゼロから構築されており、独自のメタデータレイヤを維持することで、従来のテーブル形式のボトルネックをなくします。

Cloudera と Apache Iceberg の統合

Cloudera は、Iceberg を第一級オブジェクトとしてデータレイクハウスに直接統合しています。

データの移動やコピーを行わずに、必要なジョブに適したエンジンをデータがある場所に適用して、高精度の分析、データエンジニアリング、データサイエンス、AI を実現します。

コンピューティング側からはストレージが抽象化されるため、データレイクハウス内の構造化データ、半構造化データ、非構造化データに一貫した形でアクセスできます。組み込みの AI チャットボットを利用すれば、全データを検索して活用することが可能です。

Cloudera と Apache Iceberg を統合するメリット

図: 一番上のレベルには、5つの Cloudera データサービスが並んでいます。2番目のレベルは SDX で、メタデータ、カタログ、セキュリティ、ガバナンス、オブザーバビリティ、レプリケーションが含まれています。3番目のレベルは Iceberg テーブルです。一番下の4番目のレベルには、オンプレミス、プライベートクラウド、およびクラウド (Azure、Google、AWS) で構成されたハイブリッドモデルが表示されています。

Iceberg を基盤にした唯一のハイブリッドなオープンデータレイクハウス

データの保管先に合わせて、クラウドでもデータセンターでも、場所を問わずデプロイ可能です。

マルチエンジンのサポート

データを取り込み、加工、分析し、AI で活用するためのサービスや機能があらかじめ豊富に統合されているため、データのライフサイクル全体に対応できます。

TCO を最大75% 削減

データの共通標準にセキュリティとガバナンスを組み込むことで、ETL やデータコピーの必要性、データサイロがなくなり、TCO が最大で75% 低減します。

Apache Iceberg を基盤にした Cloudera のオープンデータレイクハウスの特長

データの民主化: 自然言語を使用して誰もがデータドリブンな洞察にアクセス可能

分析と AI の加速: 生成 AI を搭載したアプリケーションとダッシュボードでデータを活用

データのオープン性と相互運用性の維持: データの所有権を保持し、任意のツールを活用可能

図: HDFS 内のデータに対して Hive SQL を使用する従来の手法と、すべてのデータに対して多機能分析を実行する Iceberg の手法の比較

相互運用性で将来を見据えたデータレイクを実現

Apache® Iceberg への移行 - 初心者向けガイド

顧客

Apache Iceberg でデータの所有権をすべて確保

Cloudera のオープンデータレイクハウスでは Iceberg が統合されており、オープンテーブル形式と数々の高度な機能を併用することで、データの活用と管理が容易になります。さまざまなツールを使用する多くのユーザーがデータに簡単にアクセスできるため、当社はこのオープンテーブル形式を重視しています。また、会社のデータは特定のベンダーではなく会社自体の財産であるため、このオープンテーブル形式は基本要件です。つまり、今後テクノロジーに関してどのような変化が起ころうとも、データの所有権をすべて確保できるのです

—Eutelsat Group 社、データおよび分析責任者、Matteo Carucci 氏