最新レポート「エンタープライズ AI と最新のデータアーキテクチャをめぐる状況」

ダウンロードする
  • Cloudera Cloudera
  • | テクニカル

    データ資産の標準化

    Navita Sood Headshot
    Shape of sand modeled by wind lit by the midnight sun, Refviksanden Beach, Maloy, Vagsoy island, Sogn og Fjordane county, Norway

    この記事は、2023/05/22に公開された「One Big Cluster Stuck: Data Asset Standardization」の翻訳です。

    One big cluster image
    Icon

    データ資産の標準化とは、冗長で矛盾したレポート、プロセス、データベースを、意図的かつ慎重に計画し、エンタープライズ標準に統合することです。データ資産が拡散している状態は、IT環境の健全性に大きな悪影響を及ぼす可能性があります。標準化することで、次のようなメリットがあります。

    • 不適切な資産によってプロセス、ノード、クラスターがダウンしてしまう可能性を低減
    • コンピュートとストレージの競合と競争を減らす
    • プロセスやサービスの不具合、およびそれに伴うトラブルシューティングの労力を削減する
    • 冗長な資産の維持・サポートにかかる労力を削減する

    データ資産の標準化が環境の健全性に与える影響は、今回のシリーズでご紹介する、どのカテゴリーよりも大きい場合があります。加えて、標準的なデータ定義、データガバナンスの改善、一貫したデータ解釈、データの信頼性の向上、データ主導の意思決定の改善など、ビジネス価値としてのメリットはさらに大きなものがあります。このメリットを最大限に活用するためには、Cloudera Data Catalogをぜひ検討ください。

    全データの標準化は数年を要しますが、その効果は確実に証明されているものです。収益が減っていく前に、取り掛かることを強くお勧めします。

    レポートの標準化

    次の手順を実行してください。

    1. 所有者、使用統計、レポート頻度などを含むインベントリレポートの作成。

    2. 過去1年間に未使用のレポート、次に過去6ヶ月間に未使用のレポートを探し出す。レポートの頻度を特に確認する。使用頻度が低ければ、年次レポートで十分な場合がある。

    3. 顧客とのパートナーシップに応じた、次のようなレポートのアーカイブ方法を選択する。データが適切に活用されていることを確認。

    • アーカイブの2週間前、1週間前、および当日に、アーカイブする予定のレポートを所有者に通知し、もしレポートが必要なら、所有者が意義を申し立てられる時間を確保する。
    • 通知なしでアーカイブはするが、必要であれば復活できるようにする。

    4. 対象となるレポートをアーカイブする。Tableau では、レポートの所有権をシステム ユーザーに割り当てることも選べるので、使用を禁止できる。そして、要求があり、それが正当な場合には簡単に復元できる。

    5. 四半期ごとに繰り返す。経験上、レポート在庫の80〜90%は、最短半年でアーカイブすることができる。

    • 可視化ツールに抽出ジョブがある場合は、それを停止し、データベースのアーカイブ対象があるか確認する。

    6. レポートのリフレッシュレートの妥当性を調査し、交渉が必要であれば行うこともある。

    7. 時間をかけて、使用頻度の高いレポートの機能や特徴をエンタープライズ標準のダッシュボードに移植し、余分なレガシーレポートを廃止することで、追加資産を統合する。これは困難で時間のかかる作業であり、通常は環境の健全性ではなく、信頼できるデータを得るための手段として行われるものである。 

    DBの標準化

    1. データベース資産、所有権、更新頻度、関連する使用統計をインベントリ化する。 
    2. 元FTEが所有するテンポラリ/テスト用データベースやユーザーデータベースを対象とする。 
    3. 関係者とコミュニケーションをきちんと図る。通知や許可なしにデータベースをアーカイブするべきではない。(仕事を失いたくはないですからね!)
    4. データベースをアーカイブする。通常、共通のアーカイブデータベースにアーカイブする。経験上、プロダクションテーブルの35~55%削減することが可能である。 
    5. データベース所有者と、更新レートやデータ保持ポリシーを交渉することもある。
    6. 集中管理されたデータ資産をエンタープライズ基準に標準化することで、データの信頼性を大幅に向上させ、データに基づいた正確な意思決定を行うことができる。なるべく早くこの取り組みを進めることを推奨する。

    パイプラインとジョブの標準化

    データベース資産の標準化により、1. パイプラインインベントリ(ここでは、あるリポジトリやソースから、別のリポジトリやキュレーションデータセットにデータを移動するプロセスを指す)と、2. ジョブインベントリ(ここでは、環境内でビューを提供したり、データを保持するクエリを指す)のアーカイブの機会が明らかになります。プロセスの標準化は、環境の健全性に対するリターンに比べて労力はかかります。そこで、以下のようなプロセスから始めることをお勧めします。

    • 頻繁に失敗するプロセス
    • 最も重要であるプロセス
    • 最も頻繁に更新されるプロセス
    • 最もリソースが必要とされるプロセス

    データ資産の標準化の特定や実行に支援が必要でしたら、当社のプロフェッショナルサービスをご利用ください。実際の成功体験と共にサポートいたします。

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.