最新レポート「エンタープライズ AI と最新のデータアーキテクチャをめぐる状況」

ダウンロードする
  • Cloudera Cloudera
  • | ビジネス

    構造化された合成データでエンタープライズ AI を強化:プライバシーと情報源の統計的性質の保護

    Andreas Tsiartas headshot
    Robert Hryniewicz headshot

    この記事は、2025/10/1に公開された「Empowering Enterprise AI with Structured Synthetic Data: Preserving Privacy and Source-Statistical Properties」の翻訳です。

    データドリブン型 AI の時代においては、AI モデルの分析やトレーニングに高品質のデータセットが必要になりますが、データプライバシーの規制や倫理上の懸念により、現実世界における大規模データの使用や共有は制限されています。機密情報を漏らさずにイノベーションを起こすには、どうしたらよいのでしょうか。

    Cloudera は、このギャップを埋めるソリューションを世界で初めて開発しました。Cloudera AI Studio ツールセットの一部である Cloudera Synthetic Data Studioは、組織の実際のデータパターンを模倣して合成データセットを作成するツールであり、組織は機密情報のリスクを負うことなくイノベーションを進めることができます。

    主要なポイント

    合成データの生成に対する Cloudera のアプローチは、機密性の高い構造化データを使用または共有したい企業に、その設計図を提供します。このアプローチは以下の通りです。

    • 機能としてのプライバシー:合成データは限られた領域におけるイノベーションを可能にする戦略的資産となります。

    • 統計的忠実度が重要:クラスタ化とシード命令により、合成データはモデルを効果的にする繊細な関係性を保持します。

    • エンタープライズ AI の拡張性:自動化されたワークフローにより、合成データ生成にかかるコストと時間を削減します。

    ビジネス上の課題:コンプライアンスを確保しながら AI モデルを活用する

    ローンの不履行を予測しようとしている金融サービス会社について考えてみましょう。この分野の大規模データは収入レベル、雇用履歴、クレジットスコアなど、機密性の高い情報の宝庫です。このようなデータを第三者や AI モデルと共有することには、規制上および倫理上のハードルが多数存在します。

    従来の合成データ手法は不十分である場合が多く、変数間の微妙な論理的関係(既存の債務が返済行動にどのように影響するかなど)や、行と列にわたるデータポイント間の論理的一貫性を捉えることができません。企業には、拡張可能で、元のデータの統計的整合性を維持し、プライバシー標準への準拠を確保できる合成データソリューションが必要です。

    Cloudera のソリューション:構造化された合成データの生成

    Cloudera のソリューションは、クラスタリング技術、Cloudera Synthetic Data Studio、厳格な検証を組み込んだ4ステップのワークフローに従います。

    ステップ1:データのプロファイリング

    ワークフローはデータを分割およびクラスタリングし、統計プロファイルを作成することから始まります。リスクレベルに基づいて借り手をグループ(高リスクの申請者と低リスクの申請者など)に分類し、さらに融資額や金利などの変数をクラスタリングすることで、データセットを「シード命令」に抽出します。

    シード命令は、平均、標準偏差、相関関係などの各グループの統計的性質をエンコードし、ローン等級やローンステータスなどの借り手の情報を埋め込みます。このステップにより、合成データは機密情報を漏えいすることなく、元のデータの構造を確実に継承できます。

    ステップ 2:Cloudera Synthetic Data Studio を使用してデータを生成する

    シード命令の準備が整ったら、次の段階に進み、LLM を利用した生成を実行します。Llama 3.3-70B-Instruct などの高度なモデルを使用し、シード命令に表示される統計設計図に基づいて、新しいレコードを合成します。Cloudera Synthetic Data Studio はその創造力を発揮し、シード命令で定義された関係とパターンを保持するデータを生成します。

    ここでは、このソリューションの特長が顕著に現れます。モデルは単にランダムな数字を生成するのではなく、借り手の収入が論理的にどのように返済履歴に影響を与えるかなど、現実のシナリオの複雑さを反映するデータを構築するのです。

    ステップ3:データのフィルタリング

    生成されたすべてのデータが必要な品質を満たすわけではありません。弊社では、忠実性を確保するため、革新的な LLM-as-a-judge(LLM を審査員として利用する)ワークフローを採用しています。

    このステップでは、フォーマットの一貫性、論理的一貫性(住宅ローン口座が住宅所有状況と一致しているかどうかの確認など)、現実性(妥当な金利の生成など)といった基準に照らして合成出力を評価し、10点中9点のしきい値を満たす高得点のデータのみが保持されます。このフィルタリングプロセスは品質のチェックポイントとして機能し、最終的なデータセットが現実的かつ統計的に堅牢であることを保証します。

    ステップ4:データを検証します

    ワークフローの最後の段階は統計的検証と視覚的検証です。カテゴリー変数については KL ダイバージェンス、連続特徴量については平均/標準偏差の差異などの指標を使用して合成データを元のデータセットと比較することで、合成データに現実世界の分布が反映されていることを確認します。

    効果:妥協のないプライバシー対応

    Cloudera のアプローチでは、個人を特定できる情報(PII)や機密パターンを含まないデータが生成されますが、正確なモデルをトレーニングするために必要な統計的忠実度は確保されます。これにより、企業はデータ侵害や規制上の罰則を恐れることなく、合成データをサードパーティのシステムと共有したり、外部のパートナーと連携したりできるようになります。

    テーブル1に示すように、Llama 3.3 70B-Instruct モデルを使用して構造化されたローンデータ(合計27列)を生成すると、生成されたデータの100%が想定される結果と一致し、LLM で判断した場合の列間の論理誤差が97.2%で見られず、統計的平均が元の分布から12%逸脱し、列間の相関が0.24%ずれていることがわかります。

    Llama 3.3-70B-Instruct を用いた構造化データの生成結果

    データの完全性

    フォーマット精度100%

    合成データは元の構造と完全に一致しています。

    統計的忠実性

    平均偏差12%

    合成データは元の主要な統計的特性を正確に模倣しています。

    列間の論理的一貫性

    論理エラー2.8%

    生成されるデータは現実世界の論理的関係を反映しています。

    列間の相関関係の保持

    相関差0.24%

    機能間の重要なつながりが忠実に保持されています。

    表1:Llama 3.3-70B-Instruct を用いた構造化データの生成結果

    まとめ

    AI モデルが複雑化し、プライバシー規制が厳しくなるにつれて、高品質でプライバシー規制に準拠したデータに対する需要はますます高まるでしょう。今後数年で、構造化データの生成手法は、医療から金融に至るまで、データプライバシーが譲れない業界を抜本的に変革すると期待しています。

    Cloudera の構造化合成データアプローチは、企業がプライバシーやパフォーマンスを犠牲にすることなくこの要求を満たすことができることを示しています。クラスタリングや Cloudera Synthetic Data Studio、厳密な評価を組み合わせることで、組織は構造化データの潜在能力を最大限に引き出すことができます。

    詳細を知りたい場合は、Cloudera AI Studios の製品ツアーに参加するか、ai_feedback@cloudera.com から弊社チームにお問い合わせください。

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.