この記事は、2024/10/10に公開された「Cloudera Lakehouse Optimizer Makes it Easier Than Ever to Deliver High-Performance Iceberg Tables」の翻訳です。
オープンデータレイクハウスは、大量のデータに対して統合的な多機能分析を実行するための標準アーキテクチャとなりつつあります。このアーキテクチャは、データレイクストレージの柔軟性と拡張性に、データウェアハウスのデータ分析、データガバナンス、データ管理機能を組み合わせたものです。オープンテーブル形式は、従来のデータウェアハウスが持つ機能の多くをデータレイクストレージで直接提供できることから、このアーキテクチャの重要なコンポーネントとなっています。中でも Apache Iceberg は、ベンダーと顧客の双方で、急速に標準形式として採用されつつあります。
Iceberg はデータを高性能で可視化するために必要な作業を大幅に削減する機能を数多く備えています。しかし、その機能の多くはオーバーヘッドを発生させるため、パフォーマンスとコストを最適化するために手動によるジョブの実行が必要になります。そこで Cloudera は、データレイクハウスの管理をさらに容易にするために、Cloudera Lakehouse Optimizer を導入しました。このソリューションは、Iceberg テーブルのメンテナンスをインテリジェントに自動化するため、こうしたジョブの多くがバックグラウンドで自動的に実行されます。この記事では、Cloudera Lakehouse Optimizer の一部の機能、それらの機能がもたらすメリット、そしてこのサービスの今後の展望についてご説明します。
Cloudera Lakehouse Optimizer は、ユーザー設定と Iceberg テーブルの統計情報に基づいて、ポリシーベースの Iceberg テーブル最適化タスクを自動で実行します。この自動の最適化ジョブでは、以下の処理が実行されます。
コンパクト化: 企業では、マイクロバッチ処理やストリーミングデータなど、多くの小さなファイルを取り込むことが多いですが、複数の小さなファイルの読み取りは、クエリのパフォーマンスに悪影響を及ぼす可能性があります。コンパクト化とは、パフォーマンスを高めるために、多数の小さなファイルをまとめて大きなファイルに作り変えるプロセスのことです。Cloudera Lakehouse Optimizer は、データファイルを自動でコンパクト化するのに最適なタイミングを自律的に判断し、ユーザーが常にテーブルから最高のパフォーマンスを得られるようにします。また、最適化すべきテーブルの優先順位を使用パターンに基づいて決定するため、手動による最適化は、実際に ROI が見込める場合に行うだけです。
テーブルのクリーンアップ: テーブルが拡大するにつれて、未使用のデータファイル、マニフェストファイル、スナップショットなど、不要なデータが蓄積されていくことがよくあります。そのため、ストレージ使用率を最適化してパフォーマンスを向上させるために、スナップショットの失効処理、古いメタデータファイルの削除、孤立ファイルの削除といったテーブルメンテナンスの実行が必要になることがあります。Cloudera Lakehouse Optimizer は、こうしたメンテナンスタスクを実行するのに最適なタイミングを自律的に判断し、テーブルのストレージ使用状況を常に最適な状態に保てるようにします。
さらに、Cloudera Lakehouse Optimizer は最適化とポリシーベースの統制だけでなく、最適化ジョブのオブザーバビリティを提供するため、データチームはポリシーがテーブルとストレージの健全性とパフォーマンスに与えている影響を視覚的に把握できます。
Cloudera Lakehouse Optimizer は、Iceberg テーブルを管理している企業に以下のようなメリットをもたらします。
当社が Cloudera Lakehouse Optimizer でリリースする機能は、オープンデータレイクハウスアーキテクチャへの移行を検討している企業にとって極めて重要な2つの課題を解決します。Cloudera は、データの高性能な可視化をかつてないほど簡単に実現するというビジョンを掲げていますが、今回のリリースはこのビジョンを推進するための第一歩にすぎません。将来的には、クエリのパフォーマンスに影響を与えかねないデータ分散の問題を解決するためのパーティションの再編成や、クエリの最適化など、さらに多くの最適化機能を追加する予定です。
こうした機能はすべて、Cloudera が Iceberg テーブルの管理とアクセスのための最適なプラットフォームとなること、そしてオープンデータレイクハウスの導入をこれまで以上に簡単にすることを目標としています。
Cloudera のオープンデータレイクハウスは、AWS 上で今すぐ無料でお試しいただけます。ぜひ5日間無償トライアルに登録して、ご自身の目でお確かめください。
This may have been caused by one of the following: