最新レポート「エンタープライズ AI と最新のデータアーキテクチャをめぐる状況」

ダウンロードする
  • Cloudera Cloudera
  • | テクニカル

    Cloudera Lakehouse Optimizer で、Iceberg テーブルのパフォーマンスを容易に向上

    Bill Zhang headshot
    雪に覆われた松林の空撮

    この記事は、2024/10/10に公開された「Cloudera Lakehouse Optimizer Makes it Easier Than Ever to Deliver High-Performance Iceberg Tables」の翻訳です。

    オープンデータレイクハウスは、大量のデータに対して統合的な多機能分析を実行するための標準アーキテクチャとなりつつあります。このアーキテクチャは、データレイクストレージの柔軟性と拡張性に、データウェアハウスのデータ分析、データガバナンス、データ管理機能を組み合わせたものです。オープンテーブル形式は、従来のデータウェアハウスが持つ機能の多くをデータレイクストレージで直接提供できることから、このアーキテクチャの重要なコンポーネントとなっています。中でも Apache Iceberg は、ベンダーと顧客の双方で、急速に標準形式として採用されつつあります。

    Iceberg はデータを高性能で可視化するために必要な作業を大幅に削減する機能を数多く備えています。しかし、その機能の多くはオーバーヘッドを発生させるため、パフォーマンスとコストを最適化するために手動によるジョブの実行が必要になります。そこで Cloudera は、データレイクハウスの管理をさらに容易にするために、Cloudera Lakehouse Optimizer を導入しました。このソリューションは、Iceberg テーブルのメンテナンスをインテリジェントに自動化するため、こうしたジョブの多くがバックグラウンドで自動的に実行されます。この記事では、Cloudera Lakehouse Optimizer の一部の機能、それらの機能がもたらすメリット、そしてこのサービスの今後の展望についてご説明します。

    Cloudera Lakehouse Optimizer の機能

    Cloudera Lakehouse Optimizer は、ユーザー設定と Iceberg テーブルの統計情報に基づいて、ポリシーベースの Iceberg テーブル最適化タスクを自動で実行します。この自動の最適化ジョブでは、以下の処理が実行されます。

    コンパクト化: 企業では、マイクロバッチ処理やストリーミングデータなど、多くの小さなファイルを取り込むことが多いですが、複数の小さなファイルの読み取りは、クエリのパフォーマンスに悪影響を及ぼす可能性があります。コンパクト化とは、パフォーマンスを高めるために、多数の小さなファイルをまとめて大きなファイルに作り変えるプロセスのことです。Cloudera Lakehouse Optimizer は、データファイルを自動でコンパクト化するのに最適なタイミングを自律的に判断し、ユーザーが常にテーブルから最高のパフォーマンスを得られるようにします。また、最適化すべきテーブルの優先順位を使用パターンに基づいて決定するため、手動による最適化は、実際に ROI が見込める場合に行うだけです。

    テーブルのクリーンアップ: テーブルが拡大するにつれて、未使用のデータファイル、マニフェストファイル、スナップショットなど、不要なデータが蓄積されていくことがよくあります。そのため、ストレージ使用率を最適化してパフォーマンスを向上させるために、スナップショットの失効処理、古いメタデータファイルの削除、孤立ファイルの削除といったテーブルメンテナンスの実行が必要になることがあります。Cloudera Lakehouse Optimizer は、こうしたメンテナンスタスクを実行するのに最適なタイミングを自律的に判断し、テーブルのストレージ使用状況を常に最適な状態に保てるようにします。

    さらに、Cloudera Lakehouse Optimizer は最適化とポリシーベースの統制だけでなく、最適化ジョブのオブザーバビリティを提供するため、データチームはポリシーがテーブルとストレージの健全性とパフォーマンスに与えている影響を視覚的に把握できます。

    メリット

    Cloudera Lakehouse Optimizer は、Iceberg テーブルを管理している企業に以下のようなメリットをもたらします。

    • ストレージの設置面積を最適化し、クエリの実行時間を短縮することで、総所有コスト (TCO) を削減する。
    • クエリで読み取る必要のあるファイルの数を削減することで、データ処理を効率化する。
    • レイクハウスで最も面倒なメンテナンスタスクの一部を自動化することで、データ管理の労力とオーバーヘッドを削減する。
    図1. Cloudera 社内のベンチマークテストでは、Cloudera Lakehouse Optimizer を使って Iceberg テーブルをメンテナンスすることで、コストが大幅に削減されることを確認できました。ただし、実際の成果は、お客様の利用状況によって異なる場合があります。 図1. Cloudera 社内のベンチマークテストでは、Cloudera Lakehouse Optimizer を使って Iceberg テーブルをメンテナンスすることで、コストが大幅に削減されることを確認できました。ただし、実際の成果は、お客様の利用状況によって異なる場合があります。

    今後の展望

    当社が Cloudera Lakehouse Optimizer でリリースする機能は、オープンデータレイクハウスアーキテクチャへの移行を検討している企業にとって極めて重要な2つの課題を解決します。Cloudera は、データの高性能な可視化をかつてないほど簡単に実現するというビジョンを掲げていますが、今回のリリースはこのビジョンを推進するための第一歩にすぎません。将来的には、クエリのパフォーマンスに影響を与えかねないデータ分散の問題を解決するためのパーティションの再編成や、クエリの最適化など、さらに多くの最適化機能を追加する予定です。

    こうした機能はすべて、Cloudera が Iceberg テーブルの管理とアクセスのための最適なプラットフォームとなること、そしてオープンデータレイクハウスの導入をこれまで以上に簡単にすることを目標としています。

    オープンデータレイクハウスの無償トライアル

    Cloudera のオープンデータレイクハウスは、AWS 上で今すぐ無料でお試しいただけます。ぜひ5日間無償トライアルに登録して、ご自身の目でお確かめください。

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.