この記事は、2023/10/17に公開された「Getting Started With Cloudera Open Data Lakehouse on Private Cloud」の翻訳です。
原文:
Getting Started With Cloudera Open Data Lakehouse on Private Cloud
https://www.cloudera.com/blog/technical/getting-started-with-cloudera-open-data-lakehouse-on-private-cloud.html
はじめに
Cloudera は昨年からパブリッククラウド向けに提供してきた Open Data Lakehouse に加え、プライベートクラウド向けにも Apache Iceberg ベースのフル機能版をリリースしました。これにより 「Iceberg をあらゆる場所へ」 という Cloudera のビジョンが実現し、Public / Private / Hybridを問わず、データの存在する環境に合わせて Open Data Lakehouse を展開し、ワークロードをシームレスに移行できます。
プライベートクラウド版 Cloudera Open Data Lakehouse では、次の主要機能を利用できます。
本ブログでは、最新の Cloudera Iceberg 機能を用いてプライベートクラウドに Open Data Lakehouse を構築する方法を解説します。
第 1 回は ストリーミングデータの取り込み に焦点を当て、Iceberg テーブルへデータをロードし、後続ブログで処理を行える状態にします。
アーキテクチャ図:
以下のコンポーネントがCloudera Open Data Lakehouse(プライベートクラウド)にインストール・設定済みであること:
Flink と SSB(CSA 1.11)を利用したストリーミング取り込みも可能ですが、本記事では NiFi を使用します。
-- NiFi用のルートテーブル作成
CREATE TABLE airlines.routes_nifi_iceberg (
airline_code STRING,
airline_name STRING,
src_airport_code STRING,
src_airport_name STRING,
dst_airport_code STRING,
dst_airport_name STRING,
equipment STRING
) STORED AS ICEBERG;
※実際の DDL は環境に合わせて調整してください。
https://github.com/jingalls1217/airlines/blob/main/Data%20Flow/NiFiDemo.json をダウンロード。
成功/失敗キューでメッセージを確認。
SELECT * FROM airlines.routes_nifi_iceberg;
本記事では Cloudera Flow Management(NiFi) を利用し、コードレスで Kafka 経由に Iceberg テーブルへストリーミングデータを取り込む方法を紹介しました。
次回は Apache Spark によるデータ処理 を取り上げます。
プライベートクラウドで Open Data Lakehouse を構築するには、CDP Private Cloud Base 7.1.9 をダウンロードし、本シリーズの他の記事もぜひご覧ください。
This may have been caused by one of the following: