概要
Apache Iceberg とは
Apache Iceberg は、大規模分析を目的に設計されたオープンテーブル形式です。SQL テーブルの信頼性とシンプルさを実現し、データウェアハウス並みの機能をデータレイクストレージ上で直接提供します。
Apache Iceberg は、ストレージ、データベース、コンピューティングエンジンのいずれでもありません。任意の場所に保存されたデータファイルの上位に位置する、メタデータ管理レイヤです。Iceberg はデータの信頼性と整合性を保ちながら、複数のコンピューティングエンジンによるデータへの同時アクセスを可能にします。
Iceberg を採用する理由
オープン性
Iceberg は完全なオープンソースであり、特定のベンダーやエンジンに依存しません。コミュニティではベンダーとベンダー以外の両方から幅広いサポートが提供され、偏りのないイノベーションを加速させています。
最新のデータウェアハウス機能
トランザクションの一貫性、隠しパーティション、スキーマの進化、タイムトラベルをはじめとする Iceberg の機能により、データの運用が容易になります。
ペタバイト規模の分析
Iceberg はゼロから構築されており、独自のメタデータレイヤを維持することで、従来のテーブル形式のボトルネックをなくします。
Cloudera と Apache Iceberg の統合
Cloudera は、Iceberg を第一級オブジェクトとしてデータレイクハウスに直接統合しています。
データの移動やコピーを行わずに、必要なジョブに適したエンジンを整理されたデータに適用して、高精度の分析、データエンジニアリング、データサイエンス、AI を実現します。
コンピューティング側からはストレージが抽象化されるため、データレイクハウス内の構造化データ、半構造化データ、非構造化データに一貫した形でアクセスできます。組み込みの AI チャットボットを利用すれば、全データを検索して活用することが可能です。
Cloudera と Apache Iceberg を統合するメリット
Iceberg を基盤にした唯一のハイブリッドなオープンデータレイクハウス
データの保管先に合わせて、クラウドでもデータセンターでも、場所を問わずデプロイ可能です。
マルチエンジンのサポート
データを取り込み、加工、分析し、AI で活用するためのサービスや機能があらかじめ豊富に統合されているため、データのライフサイクル全体に対応できます。
TCO を最大75% 削減
データの共通標準にセキュリティとガバナンスを組み込むことで、ETL やデータコピーの必要性、データサイロがなくなり、TCO が最大で75% 低減します。
Apache Iceberg を基盤にした Cloudera のオープンデータレイクハウスの特長
データの民主化: 自然言語を使用して誰もがデータドリブンな洞察にアクセス可能
分析と AI の加速: 生成 AI を搭載したアプリケーションとダッシュボードでデータを活用
データのオープン性と相互運用性の維持: データの所有権を保持し、任意のツールを活用可能
データが持つ潜在的な価値をすべて引き出す
Apache Iceberg の紹介: Cloudera を活用したオープンデータレイクハウスの事例
顧客
Apache Iceberg でデータの所有権をすべて確保
参加する
ブログ
Cloudera による AI 調査の概要:企業の AI と最新のデータアーキテクチャーの状況
現代の企業にとってデータ・イン・モーションのアーキテクチャーが必須である理由
ゼロ・ダウンタイム・アップグレード:プラットフォームのアップグレード体験の概念を変える
ドキュメント
Apache Iceberg を利用する
始める準備はできましたか?