この記事は、2025/10/1に公開された「Empowering Enterprise AI with Structured Synthetic Data: Preserving Privacy and Source-Statistical Properties」の翻訳です。
データドリブン型 AI の時代においては、AI モデルの分析やトレーニングに高品質のデータセットが必要になりますが、データプライバシーの規制や倫理上の懸念により、現実世界における大規模データの使用や共有は制限されています。機密情報を漏らさずにイノベーションを起こすには、どうしたらよいのでしょうか。
Cloudera は、このギャップを埋めるソリューションを世界で初めて開発しました。Cloudera AI Studio ツールセットの一部である Cloudera Synthetic Data Studioは、組織の実際のデータパターンを模倣して合成データセットを作成するツールであり、組織は機密情報のリスクを負うことなくイノベーションを進めることができます。
主要なポイント合成データの生成に対する Cloudera のアプローチは、機密性の高い構造化データを使用または共有したい企業に、その設計図を提供します。このアプローチは以下の通りです。
|
ローンの不履行を予測しようとしている金融サービス会社について考えてみましょう。この分野の大規模データは収入レベル、雇用履歴、クレジットスコアなど、機密性の高い情報の宝庫です。このようなデータを第三者や AI モデルと共有することには、規制上および倫理上のハードルが多数存在します。
従来の合成データ手法は不十分である場合が多く、変数間の微妙な論理的関係(既存の債務が返済行動にどのように影響するかなど)や、行と列にわたるデータポイント間の論理的一貫性を捉えることができません。企業には、拡張可能で、元のデータの統計的整合性を維持し、プライバシー標準への準拠を確保できる合成データソリューションが必要です。
Cloudera のソリューションは、クラスタリング技術、Cloudera Synthetic Data Studio、厳格な検証を組み込んだ4ステップのワークフローに従います。
ワークフローはデータを分割およびクラスタリングし、統計プロファイルを作成することから始まります。リスクレベルに基づいて借り手をグループ(高リスクの申請者と低リスクの申請者など)に分類し、さらに融資額や金利などの変数をクラスタリングすることで、データセットを「シード命令」に抽出します。
シード命令は、平均、標準偏差、相関関係などの各グループの統計的性質をエンコードし、ローン等級やローンステータスなどの借り手の情報を埋め込みます。このステップにより、合成データは機密情報を漏えいすることなく、元のデータの構造を確実に継承できます。
シード命令の準備が整ったら、次の段階に進み、LLM を利用した生成を実行します。Llama 3.3-70B-Instruct などの高度なモデルを使用し、シード命令に表示される統計設計図に基づいて、新しいレコードを合成します。Cloudera Synthetic Data Studio はその創造力を発揮し、シード命令で定義された関係とパターンを保持するデータを生成します。
ここでは、このソリューションの特長が顕著に現れます。モデルは単にランダムな数字を生成するのではなく、借り手の収入が論理的にどのように返済履歴に影響を与えるかなど、現実のシナリオの複雑さを反映するデータを構築するのです。
生成されたすべてのデータが必要な品質を満たすわけではありません。弊社では、忠実性を確保するため、革新的な LLM-as-a-judge(LLM を審査員として利用する)ワークフローを採用しています。
このステップでは、フォーマットの一貫性、論理的一貫性(住宅ローン口座が住宅所有状況と一致しているかどうかの確認など)、現実性(妥当な金利の生成など)といった基準に照らして合成出力を評価し、10点中9点のしきい値を満たす高得点のデータのみが保持されます。このフィルタリングプロセスは品質のチェックポイントとして機能し、最終的なデータセットが現実的かつ統計的に堅牢であることを保証します。
ワークフローの最後の段階は統計的検証と視覚的検証です。カテゴリー変数については KL ダイバージェンス、連続特徴量については平均/標準偏差の差異などの指標を使用して合成データを元のデータセットと比較することで、合成データに現実世界の分布が反映されていることを確認します。
Cloudera のアプローチでは、個人を特定できる情報(PII)や機密パターンを含まないデータが生成されますが、正確なモデルをトレーニングするために必要な統計的忠実度は確保されます。これにより、企業はデータ侵害や規制上の罰則を恐れることなく、合成データをサードパーティのシステムと共有したり、外部のパートナーと連携したりできるようになります。
テーブル1に示すように、Llama 3.3 70B-Instruct モデルを使用して構造化されたローンデータ(合計27列)を生成すると、生成されたデータの100%が想定される結果と一致し、LLM で判断した場合の列間の論理誤差が97.2%で見られず、統計的平均が元の分布から12%逸脱し、列間の相関が0.24%ずれていることがわかります。
Llama 3.3-70B-Instruct を用いた構造化データの生成結果 |
|||
データの完全性 |
フォーマット精度100% |
合成データは元の構造と完全に一致しています。 |
|
統計的忠実性 |
平均偏差12% |
合成データは元の主要な統計的特性を正確に模倣しています。 |
|
列間の論理的一貫性 |
論理エラー2.8% |
生成されるデータは現実世界の論理的関係を反映しています。 |
|
列間の相関関係の保持 |
相関差0.24% |
機能間の重要なつながりが忠実に保持されています。 |
|
表1:Llama 3.3-70B-Instruct を用いた構造化データの生成結果
AI モデルが複雑化し、プライバシー規制が厳しくなるにつれて、高品質でプライバシー規制に準拠したデータに対する需要はますます高まるでしょう。今後数年で、構造化データの生成手法は、医療から金融に至るまで、データプライバシーが譲れない業界を抜本的に変革すると期待しています。
Cloudera の構造化合成データアプローチは、企業がプライバシーやパフォーマンスを犠牲にすることなくこの要求を満たすことができることを示しています。クラスタリングや Cloudera Synthetic Data Studio、厳密な評価を組み合わせることで、組織は構造化データの潜在能力を最大限に引き出すことができます。
詳細を知りたい場合は、Cloudera AI Studios の製品ツアーに参加するか、ai_feedback@cloudera.com から弊社チームにお問い合わせください。
This may have been caused by one of the following: