Kubernetes 上の Cloudera
Apache Spark
Apache Flink
Apache Kyuubi
Trino
Apache Kafka
Apache Iceberg を使った Cloudera オープンデータレイクハウス
通信
日本
LY 社: Cloudera によるデータ管理の変革
LY 社は、デジタルサービス業界を牽引する日本の企業です。アジア全域の3億2,000万人以上の顧客に対し、幅広い Web サービスとモバイルサービスを提供しています。革新的なアプローチと卓越性に対する取り組みで知られる同社は、圧倒的な利便性を提供するということでたちまち評判になりました。
データ管理の体制を最新化するため、同社は Cloudera の協力を得ながら、最新テクノロジーの活用およびパフォーマンスと拡張性の向上を図ることにしました。
データボトルネックの克服とコンプライアンスの強化
LY 社のデータプラットフォームは Cloudera 上に構築されており、複数の Hadoop 分散ファイルシステム (HDFS) クラスタを利用しています。このプラットフォームはデータエンジニアリングや機械学習プロジェクト用の中央データレイクハウスとして機能し、中核事業の収益を大きく押し上げ、意思決定プロセスを大幅に強化しています。
100,000件を超えるテーブルとデータセットを収容し、すべてのクラスタの合計ディスク容量が1.1エクサバイトを超えるこのプラットフォームは、データの読み込みや処理、管理を実行する大量のタスクを同時管理しています。これらのタスクは、ビジネスインテリジェンスや分類、顧客向けのパーソナライズされた推奨機能を実現するうえで不可欠なものです。
機能性はよいのですが、同社のプラットフォームはいくつかの課題を抱えていました。既存システムではテーブルパーティションの多さに起因するボトルネックがあり、これが拡張性とパフォーマンスに影響を及ぼしていました。データへのアクセスや変更が同時に実行される際にデータの整合性とパイプラインの可用性を維持することが不可欠でした。また、複雑なプライバシーポリシーと厳格なデータ保護規制にも準拠する必要がありました。
独立したデータ管理でチームを支援
これらの課題を解決するため、LY 社は Cloudera と手を組んで既存データプラットフォームの最新化に着手しました。最初のステップは、データ採取プロセスの強化です。データプラットフォームの一部として Apache Iceberg を採用することにより、5分ごとのデータ更新が可能になりました。以前の方法と比べて、大幅な改善です。
この新しい形式に関連する小さいファイルの問題については、ユーザーの作業を妨害することなくテーブルを最適化するバックグラウンドサービスを開発して対処しました。
この Iceberg 形式は8,000を超えるテーブルに適用されました。ユーザーの行動とシステムイベントの追跡が主な目的です。この変更により、整合性を維持しながら大量のデータを管理する方法が簡素化されました。
さらに、より最新型のアプローチに移行するため、いくつかの Cloudera コンポーネントを含むデータ関連システムを Kubernetes 上に展開しました。これらのシステムは Spark SQL、Flink、Trino とも統合されており、リソース利用の効率化、拡張性の改善、データ処理タスクのパフォーマンス向上を実現します。
この移行をサポートするために、同社は Cloudera プロフェッショナルサービスと協力し、データクエリを合理化するためのサービス Apache Kyuubi を実装しました。Kyuubi を同社のプラットフォームにシームレスに統合するための専門的なガイダンスを Cloudera が提供したことで、既存システムのサポートが強化され、アップグレードされたインフラストラクチャーへのスムーズで効率的な移行が可能になりました。
最後に、同社はデータ管理の最適化に注力しました。小さいファイルをより短時間で更新し、より的確に処理するためのシステムを導入しました。このシステムでは、各チームがそれぞれのデータを独立して管理できます。その間、実行中の分析タスクや機械学習タスクが中断されることはありません。これによって効率性が向上し、各チームは担当するデータに責任を持てるようになりました。
効率的なデータ処理ツールで生産性とパフォーマンスを向上
これらの新しいテクノロジーとプロセスの導入により、同社のデータプラットフォームのパフォーマンスと拡張性は大幅に向上しました。現在では、中央データ管理システムの負担を増やすことなく、以前の10〜12倍の速さでデータを配信できます。
新しいデータ形式の特性により、データ管理タスクを複数のデータ所有者および製品チーム間で分散できるようになりました。その間、24時間365日の本番環境分析と機械学習 (ML) パイプラインが中断されることはありません。より効率的なデータ処理ツールに移行することで、全般的なパフォーマンス向上と新機能が実現し、データサイエンティストと ML エンジニアの生産性が向上しました。
セルフサービスのデータ管理機能の充実によって、製品チームは新しい規制要件やポリシーの更新、非アクティブまたは未登録のユーザーの忘れられる権利 (RTBF) のリクエストに対して、より迅速に対応できるようになりました。
LY 社は将来を見据えて、新しいデータ形式をすべての主要データセットまで拡大して適用し、重要なデータ処理ジョブを Kubernetes 上で実行して、社内のデータツールや GPU サポートとの統合強化を計画しています。また、新しいデータ形式の高度な機能を活用して、パフォーマンスと拡張性をさらに向上させることも検討しています。