この記事は、2025/10/2に公開された「3 Steps to Cutting Cloud Costs with Data Lineage」の翻訳です。
月を手に入れるなど、到底実現しないような約束をしたことはありますか?そんな約束をしたことがある人も、現実的に価格を知っていたわけではないと思います。
クラウドなら、手に入れる約束をしても、コストを0.001セントまで下げることができます。
Amazon、Azure、Google は、クラウドデータストレージのコスト計算ツールを提供しています。「Google BigQuery でのストリーミング読み取りに必要なデータ量は?」や「Amazon Redshift で ra3.4xlarge または ra3.xlplus インスタンスが必要な場合、ノード数はどれくらい必要か?」など、その特異度には驚かされることでしょう。
クラウドにデータを保存すると、オンプレミスのデータストレージを使用するよりもコスト効率が高くなるとよく言われますが、クラウドストレージのコストを削減するには、調査や余計なものの排除、最適化が必要です。一歩ずつ進んでいきましょう。
データストレージのコストを削減する最も簡単な方法の1つは、保存するデータを減らすことです。誰でも知っていることですが、実行するのは簡単ではありません。
どんなデータでも保有しているのは意味があるはずです。しかし、運用、管理、ビジネスプロセスなどの正当な理由である場合もありますが、「まだ削除していないだけ」など、大きな理由がないものもあります。
どんなデータエコシステムにも、古くなったデータや冗長なデータ、質の悪いデータが存在します。これらを排除することは可能であり、そうすべきですが、見つけるにはどうすればいいのでしょう。
ここで役に立つのが自動化されたデータリネージで、データハウスキーパーの忠実な相棒です。
大掃除に役立つ魔法の杖があると想像してみてください。この杖は、家庭内の各アイテムがどこで購入されたか、最後にいつ使用されたか、どのような形状であるか、同じ機能を果たす他のアイテムがあるかどうかなどを教えてくれます。
これこそ、自動化されたデータリネージが貴社のデータエコシステムにもたらす効果です。その力を解放すれば、数分以内にデータフローが完全にマッピングされ、どのデータアセットがどのレポートにフィードされており、どのソースに由来するのかが分かります。包括的なデータリネージでは、ソースシステムレベルに広げたバージョンと、列レベルに絞ったバージョンの両方を表示します。また、ETL プロセスに入り込み、データの移動時にどのような変換が実行されたかを正確に表示することもできます。
全体像が描けたら、第2段階である排除に進むことができます。
データリネージをよく見直し、以下の質問を投げかけましょう。
「はい」と答えると、排除できるデータが示され、クラウドベースのストレージコストがダイレクトに削減されます。ただし、排除は慎重に。たとえ2つのデータ資産が実質的に重複していても、両方が下流のレポートで使用されている場合、代わりのデータ資産を用意することなく一方を削除することはできません。
データリネージを活用して影響分析を行うことで、ビジネスプロセスの変更がもたらす影響を予測し、問題を未然に防ぐための予防措置をとることができるようになります。
不要なデータ(古い、冗長、または質が悪いデータ)を特定し、排除できたら、必要ではあるものの、より効率的に保存できるデータに移りましょう。
データリネージのマッピングをもう一度確認し、保存しているデータについて以下の質問を投げかけましょう。
クラウドベースのデータストレージプロバイダーは通常、利用しやすさに応じてさまざまなストレージレベルを提供しています。たとえば、Amazon S3 では、頻繁にアクセスするデータ用に Standard(1GB あたり0.023ドル)、頻繁にアクセスしないが必要なときに数ミリ秒で取得する必要があるデータ用に Standard-IA(1GB あたり0.0125ドル)、1分から12時間で取得する必要があるアーカイブおよびバックアップデータ用に Glacier Flexible Retrieval(1GB あたり0.0036ドル)、年に1回か2回しかアクセスせず、取得に12時間かけても構わないアーカイブデータ用に Glacier Deep Archive(1GB あたり0.00099ドル)を提供しています。
1TB のデータを Standard ストレージに保存すると、月額23ドルかかります。同じ1TB のデータを Glacier Deep Archive ストレージに保存すると、月額0.99ドルで済みます。所属している組織がアクセスニーズに基づいて区別せずに、すべてのデータを Standard のクラウドストレージに保存しているなら、ストレージを最適化することで、ストレージコストを大幅に削減できます。
データリネージを使用すると以下の両方を確認でき、データストレージコストを削減できます。
効果はそれだけではありません。データ量を減らすことでクラウドストレージのコストが削減されるだけでなく、コンピューティングコストも削減できます。Snowflake や Amazon Redshift のようなクラウドベースのデータウェアハウスでは通常、コンピューティングに対して従量課金モデルを採用しており、データセット全体でクエリを実行するのにかかる時間に対して課金されます。クエリに含めるデータが多いほど実行にかかる時間が長くなり、料金も高くなります。
保存する(または Standard ストレージに保持する)データの量を減らすと、クエリに含まれるデータが減り、間接的にコンピューティングコストが削減されるのが一般的ですが、データリネージは、探索的クエリを制限することで、ダイレクトにコンピューティングコストを削減することもできます。
探索的クエリは膨大な処理能力を必要とする傾向があります。明確なデータリネージマップがあれば、データチームは関連データがどこにあるかを正確に把握できるため、プラットフォーム全体でよりターゲットを絞ったクエリを実行でき、一般的な探索的クエリの必要性がなくなるか、軽減されます。
クラウドデータのストレージコストがネックになっているのなら、コストを削減し、状況を一変させるチャンスです。自動化されたデータリネージという魔法の杖を取り出し、調査、排除、最適化を行いましょう。
データストレージのコストが下がってきましたか?場合によっては、魔法の杖を振るよりもう少し作業が必要かもしれません…。それでも、クラウドデータサービスプロバイダーからの請求書で料金が下がったことを確認したとき、「魔法のような効果」を実感するでしょう。
さらに詳しく知りたい場合は、Cloudera Octopai Data Lineage のデモをリクエストしましょう。上記のステップを実践し、クラウドストレージのコストを今すぐ削減する上で役立つ自動化されたデータリネージソリューションです。
This may have been caused by one of the following: