この記事は、2023/05/22に公開された「One Big Cluster Stuck: Data Asset Standardization」の翻訳です。
データ資産の標準化とは、冗長で矛盾したレポート、プロセス、データベースを、意図的かつ慎重に計画し、エンタープライズ標準に統合することです。データ資産が拡散している状態は、IT環境の健全性に大きな悪影響を及ぼす可能性があります。標準化することで、次のようなメリットがあります。
データ資産の標準化が環境の健全性に与える影響は、今回のシリーズでご紹介する、どのカテゴリーよりも大きい場合があります。加えて、標準的なデータ定義、データガバナンスの改善、一貫したデータ解釈、データの信頼性の向上、データ主導の意思決定の改善など、ビジネス価値としてのメリットはさらに大きなものがあります。このメリットを最大限に活用するためには、Cloudera Data Catalogをぜひ検討ください。
全データの標準化は数年を要しますが、その効果は確実に証明されているものです。収益が減っていく前に、取り掛かることを強くお勧めします。
次の手順を実行してください。
1. 所有者、使用統計、レポート頻度などを含むインベントリレポートの作成。
2. 過去1年間に未使用のレポート、次に過去6ヶ月間に未使用のレポートを探し出す。レポートの頻度を特に確認する。使用頻度が低ければ、年次レポートで十分な場合がある。
3. 顧客とのパートナーシップに応じた、次のようなレポートのアーカイブ方法を選択する。データが適切に活用されていることを確認。
4. 対象となるレポートをアーカイブする。Tableau では、レポートの所有権をシステム ユーザーに割り当てることも選べるので、使用を禁止できる。そして、要求があり、それが正当な場合には簡単に復元できる。
5. 四半期ごとに繰り返す。経験上、レポート在庫の80〜90%は、最短半年でアーカイブすることができる。
6. レポートのリフレッシュレートの妥当性を調査し、交渉が必要であれば行うこともある。
7. 時間をかけて、使用頻度の高いレポートの機能や特徴をエンタープライズ標準のダッシュボードに移植し、余分なレガシーレポートを廃止することで、追加資産を統合する。これは困難で時間のかかる作業であり、通常は環境の健全性ではなく、信頼できるデータを得るための手段として行われるものである。
データベース資産の標準化により、1. パイプラインインベントリ(ここでは、あるリポジトリやソースから、別のリポジトリやキュレーションデータセットにデータを移動するプロセスを指す)と、2. ジョブインベントリ(ここでは、環境内でビューを提供したり、データを保持するクエリを指す)のアーカイブの機会が明らかになります。プロセスの標準化は、環境の健全性に対するリターンに比べて労力はかかります。そこで、以下のようなプロセスから始めることをお勧めします。
データ資産の標準化の特定や実行に支援が必要でしたら、当社のプロフェッショナルサービスをご利用ください。実際の成功体験と共にサポートいたします。
This may have been caused by one of the following: