クイックスタート合成表データの生成

最終更新: 2025年3月14日
クイックスタート合成表データの生成

このチュートリアルでは、IBM watsonx.ai で合成表データを生成する方法を学びます。 合成データの利点は、オンデマンドでデータを調達し、ユースケースに合わせてカスタマイズし、大量に生産できることだ。 このチュートリアルでは、グラフィカル・フロー・エディタ・ツール Synthetic Data Generator を使用して、ビジュアル・フローおよびモデリング・アルゴリズムを用いて、本番データまたはカスタム・データ・スキーマに基づく合成表データを生成する方法を学習します。

必須のサービス
watsonx.ai Studio

基本的なワークフローには、以下のタスクが含まれます:

  1. プロジェクトを開きます。 プロジェクトは、データを処理するために他のユーザーと共同作業できる場所です。
  2. データをプロジェクトに追加します。 接続を介してリモート・データ・ソースからの CSV ファイルまたはデータを追加できます。
  3. プロジェクトへの合成データフローを作成し、実行する。 グラフィカル フロー エディタ ツール Synthetic Data Generator を使用して、ビジュアル フローおよびモデリング アルゴリズムを使用して、本番データまたはカスタム データ スキーマに基づく合成表データを生成します。
  4. 合成データの流れと出力を確認する。

合成データについて読む

合成データとは、AIモデルの改善、機密データの保護、バイアスの軽減のために、実データを補強または置き換えるためにコンピューター上で生成された情報のことである。 合成データは、実世界の例で機械学習モデルをトレーニングする際に生じる、ロジスティクス、倫理、プライバシーの問題の多くを軽減するのに役立つ。

合成データについてもっと読む

合成表データの生成に関するビデオを見る

< このチュートリアルのステップをプレビューするには、このビデオをご覧ください。 ビデオで紹介されているユーザー・インターフェースには若干の違いがあるかもしれません。 このビデオは、書面でのチュートリアルに付随するものです。

このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。


合成表データを生成するチュートリアルを試す

このチュートリアルでは、以下のタスクを実行します:





このチュートリアルを完了するためのヒント
このチュートリアルを成功させるためのヒントを紹介します。

ビデオのピクチャー・イン・ピクチャーを使う

ヒント:ビデオを開始し、チュートリアルをスクロールすると、ビデオはピクチャ・イン・ピクチャ・モードに移行します。 ピクチャー・イン・ピクチャーで最高の体験をするために、ビデオの目次を閉じてください。 ピクチャ・イン・ピクチャ・モードを使用すると、このチュートリアルのタスクを完了しながらビデオを追うことができます。 各タスクのタイムスタンプをクリックしてください。

次のアニメーション画像は、ビデオのピクチャー・イン・ピクチャーと目次機能の使い方を示しています:

ピクチャー・イン・ピクチャーとチャプターの使い方

地域の助けを借りる

このチュートリアルで助けが必要な場合は、watsonxコミュニティーのディスカッション・フォーラムで質問したり、答えを見つけることができます。

ブラウザのウィンドウを設定する

このチュートリアルを最適に完了するには、Cloud Pak for Data を 1 つのブラウザ ウィンドウで開き、このチュートリアルのページを別のブラウザ ウィンドウで開いておくと、2 つのアプリケーションを簡単に切り替えることができます。 2つのブラウザウィンドウを横に並べると、より見やすくなります。

サイド・バイ・サイドのチュートリアルとUI

ヒント: このチュートリアルを完了する際に、ユーザーインターフェイスでガイドツアーに遭遇した場合は、後でをクリックしてください。



タスク 1:プロジェクトを開く

アセットを保存するためのプロジェクトが必要です。

サンドボックスプロジェクトを作成し、サービスを関連付ける方法をビデオでご覧ください。 次に、既存のプロジェクトを確認するか、サンドボックス・プロジェクトを作成する手順に従ってください。

このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。

  1. watsonx ホーム画面で、プロジェクト セクションまでスクロールします。 プロジェクトが表示されている場合は、タスク2に進んでください。 プロジェクトが表示されない場合は、以下の手順に従ってプロジェクトを作成してください。

  2. サンドボックスプロジェクトを作成をクリックします。 プロジェクトが作成されると、プロジェクトセクションにサンドボックスプロジェクトが表示されます。

詳細またはビデオについては、プロジェクトの作成をご覧ください。

チェックポイント・アイコン進捗状況を確認する

次の画像は、Projectsセクションにサンドボックスが表示されているホーム画面です。 これで、 {{ site.data.keyword.fm_prompt }} を開く準備ができました。

サンドボックス・プロジェクトが表示されたホーム画面。




タスク 2: プロジェクトにデータを追加する

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、00:24から始まるビデオを見てください。

このチュートリアルで使用するデータセットには、企業が顧客について収集する典型的な情報が含まれており、リソース・ハブで入手できます。 以下の手順に従って、リソース・ハブでデータセットを検索し、プロジェクトに追加します:

  1. Resource ハブのCustomers データセットにアクセスします。

  2. プロジェクトに追加をクリックしてください。

  3. リストからプロジェクトを選択し、追加をクリックします。

  4. データ・セットが追加されたら、 プロジェクトの表示をクリックしてください。

リソース ハブからプロジェクトにデータ アセットを追加する方法については、ノートブックにデータをロードしてアクセスするを参照してください。

チェックポイント・アイコン進捗状況を確認する

次の図は、プロジェクトのAssetsタブを示しています。 これで、合成データフローを作成する準備ができた。

次の図は、プロジェクトのAssetsタブを示しています。




タスク3:合成データフローの作成

プレビュー・チュートリアル・ビデオこのタスクをプレビューするには、00:43から始まるビデオを見てください。

Synthetic Data Generator を使用して、ビジュアル フローおよびモデリング アルゴリズムを使用して、本番データまたはカスタム データ スキーマに基づく合成表データを生成するデータ フローを作成します。 以下の手順に従って、プロジェクトに合成データフローアセットを作成してください:

  1. プロジェクトの資産タブから、新規アセット > 合成表データの作成をクリックします。
  2. 名前には、 と入力します。
  3. 「作成」 をクリックします。
  4. Welcome to Synthetic Data Generator画面で、初めての方をクリックし、続行をクリックします。 このオプションは、データフローを構築するためのガイド付き体験を提供します。
  5. 2つのユースケースを見直す:
    • 既存のデータを活用お客様の生産データに基づいて、構造化された合成データセットを生成します。 エクスポートする前に、データベースへの接続、ファイルのインポートまたはアップロード、マスク、および出力の生成を行うことができます。
    • カスタムデータから作成:メタデータに基づいて構造化された合成データセットを生成します。 各表の列内のデータ、その分布、および任意の相関を定義できます。
  6. 既存のデータを活用するユースケースを選択し、次へをクリックして既存のデータをインポートします。
  7. プロジェクトからデータを選択をクリックして、リソースハブから追加した顧客データ資産を使用します。
    1. データ資産 > customers.csvを選択します。
    2. 「選択」をクリックします。
    3. 次へ をクリックします。
  8. 列のリストで、を検索する。
    1. CREDITCARD_NUMBER匿名化列で、はいを選択し、顧客のクレジットカード番号をマスキングします。
    2. 次へ をクリックします。
  9. Mimicのオプションページで、 行数1000 に変更します。 その他のオプションはデフォルト設定のままにします。 これらのオプションは、データの各列を修正するために、候補となる統計分布のセットを使用して、プロダクション・データに基づいた合成データを生成します。 次へ をクリックします。
  10. 「評価」画面、「評価指標を有効にする 」オプションを切り替えます。 ここでは、生成された合成データとベースライン入力とを比較するための設定を指定できます。 評価する指標を選択できます。
    1. 以下の評価基準を選択してください:
      • 精度スコア
      • データの識別性
      • 漏洩防止スコア
      • 接近性スコア
    2. 次へ をクリックします。
  11. Export data(データのエクスポート) ページで、 File name(ファイル名 )に と入力し、 Next(次へ )をクリックします。
  12. 設定を確認し 、「フローを保存」 をクリックします。 Synthetic Data Generator ツールがデータフローとともに表示されます。
  13. 指示が出たら 、「実行フロー」 をクリックし、実行が完了するまで待ちます。

チェックポイント・アイコン 進捗状況を確認する

次の図は、Synthetic Data Generatorで開いているデータの流れを示しています。

では、データの流れを調べ、出力を見ることができる

次の図は、Synthetic Data Generatorで開いているデータの流れを示しています。




タスク4:データフローとアウトプットの見直し

プレビュー・チュートリアル・ビデオ このタスクをプレビューするには、 1:48 から始まるビデオをご覧ください。

実行が完了したら、データの流れを調べることができる。 以下の手順に従って、合成データの流れと結果を確認してください:

  1. パレットアイコン パレット をクリックして、ノードパネルを閉じます。

  2. インポートノードをダブルクリックすると、設定が表示されます。

    1. Dataプロパティを確認する。 ツールはプロジェクトからデータセットを読み込み、適切なデータ・プロパティを入力する。
    2. タイプセクションを展開する。 このツールはデータセットの値と列を読み込む。
    3. 「キャンセル」をクリックします。
  3. 匿名化ノードをダブルクリックして、設定を確認します。

    1. CREDITCARD_NUMBER 列が匿名化されるように設定されていることを確認します。
    2. 値の匿名化セクションを展開します。 ここでは、値がどのように匿名化されるかをカスタマイズできます。
    3. 「キャンセル」をクリックします。
  4. Mimicノードをダブルクリックすると、設定が表示されます。

    1. ソース顧客データセットのデータを模倣するために、デフォルト設定を見直す。
    2. 「キャンセル」をクリックします。
  5. 設定を確認するには 、[評価] ノードをダブルクリックします。

    1. 以下の設定を確認してください
      • ベースライン入力インポートに設定されています。 フローでは、 評価ノードに 2 つの入力と、 匿名化ノードと生成ノードからの出力があることがわかります。
      • 品質指標プライバシー指標実用指標、および評価レベル情報アイコン 情報 にカーソルを合わせると、各設定の説明が表示されます。
    2. 「キャンセル」をクリックします。
  6. Generateノードをダブルクリックすると、設定が表示されます。

    1. 合成された列のリストを確認します。
    2. オプション:相関関係詳細オプションを確認してください。
    3. 「キャンセル」をクリックします。
  7. エクスポートノードをダブルクリックすると、設定が表示されます。

    1. オプション:デフォルトでは、エクスポートされたデータはプロジェクトに保存されます。 Change path をクリックして、Db2 Warehouse などの接続にエクスポートされたデータを格納します。
    2. 「キャンセル」をクリックします。
  8. 「出力」ウィンドウ、「評価」 という名前の結果をクリックします。 「Outputs」パネルが表示されていない場合は 、「Outputs」 アイコン 出力 をクリックしてください。

  9. 各指標の 「詳細を表示」 アイコン 詳細の表示 をクリックすると、その指標の視覚化が表示されます。

  10. チャートのメトリクスタブでも、同じスコアを確認できます。 作業が完了したら、ウィンドウを閉じます。

  11. プロジェクト名をクリックすると、資産タブに戻ります。

    プロジェクトのパンくず

  12. bank_customers.csv をクリックすると、生成された合成表データのプレビューが表示されます。

チェックポイント・アイコン 進捗状況を確認する



以下の画像は、エクスポートされ、生成された合成表データセットである

次の画像は、エクスポートされ、生成された合成表データセットです。



次のステップ

watsonx.ai:でより実践的な経験を積むために、以下の追加チュートリアルを試してみてください

その他のリソース

  • 詳しくは、 ビデオを参照してください。

  • サンプルデータセット、プロジェクト、モデル、プロンプト、ノートブックをリソースハブで見つけて、実践的な経験を積むことができます:

    ノートブック プロジェクトに追加して、データの分析やモデルの構築を開始できるノートブック

    プロジェクト プロジェクト that you can import containing notebooks, data sets, prompts, and other assets.

    データ・セット プロジェクトに追加して、モデルの改良、分析、構築を行うことができるデータセット

    プロンプト プロンプト 。プロンプト・ラボで基盤モデルのプロンプトを出すために使用できます。

    プロンプト・ラボで使用できる モデル 基盤モデル

  • watsonxの概要

親トピック: クイック・スタート・チュートリアル