クイックスタート合成表データの生成
このチュートリアルでは、IBM watsonx.ai で合成表データを生成する方法を学びます。 合成データの利点は、オンデマンドでデータを調達し、ユースケースに合わせてカスタマイズし、大量に生産できることだ。 このチュートリアルでは、グラフィカル・フロー・エディタ・ツール Synthetic Data Generator を使用して、ビジュアル・フローおよびモデリング・アルゴリズムを用いて、本番データまたはカスタム・データ・スキーマに基づく合成表データを生成する方法を学習します。
- 必須のサービス
- Watson Studio
基本的なワークフローには、以下のタスクが含まれます:
- プロジェクトを開きます。 プロジェクトは、データを処理するために他のユーザーと共同作業できる場所です。
- データをプロジェクトに追加します。 接続を介してリモート・データ・ソースからの CSV ファイルまたはデータを追加できます。
- プロジェクトへの合成データフローを作成し、実行する。 グラフィカル フロー エディタ ツール Synthetic Data Generator を使用して、ビジュアル フローおよびモデリング アルゴリズムを使用して、本番データまたはカスタム データ スキーマに基づく合成表データを生成します。
- 合成データの流れと出力を確認する。
合成データについて読む
合成データとは、AIモデルの改善、機密データの保護、バイアスの軽減のために、実データを補強または置き換えるためにコンピューター上で生成された情報のことである。 合成データは、実世界の例で機械学習モデルをトレーニングする際に生じる、ロジスティクス、倫理、プライバシーの問題の多くを軽減するのに役立つ。
合成表データの生成に関するビデオを見る
このチュートリアルのステップをプレビューするには、このビデオをご覧ください。 ビデオで紹介されているユーザー・インターフェースには若干の違いがあるかもしれません。 このビデオは、書面でのチュートリアルに付随するものです。
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
合成表データを生成するチュートリアルを試す
このチュートリアルでは、以下のタスクを実行します:
このチュートリアルを完了するためのヒント
このチュートリアルを成功させるためのヒントを紹介します。
ビデオのピクチャー・イン・ピクチャーを使う
次のアニメーション画像は、ビデオのピクチャー・イン・ピクチャーと目次機能の使い方を示しています:
地域の助けを借りる
このチュートリアルで助けが必要な場合は、watsonx コミュニティ ディスカッション フォーラムで質問したり、答えを見つけることができます。
ブラウザのウィンドウを設定する
このチュートリアルを最適に完了するには、Cloud Pak for Data を 1 つのブラウザ ウィンドウで開き、このチュートリアルのページを別のブラウザ ウィンドウで開いておくと、2 つのアプリケーションを簡単に切り替えることができます。 2つのブラウザウィンドウを横に並べると、より見やすくなります。
タスク 1:プロジェクトを開く
アセットを保存するためのプロジェクトが必要です。
サンドボックスプロジェクトを作成し、サービスを関連付ける方法をビデオでご覧ください。 次に、既存のプロジェクトを確認するか、サンドボックス・プロジェクトを作成する手順に従ってください。
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
watsonx ホーム画面で、プロジェクト セクションまでスクロールします。 プロジェクトが表示されている場合は、タスク2に進んでください。 プロジェクトが表示されない場合は、以下の手順に従ってプロジェクトを作成してください。
サンドボックスプロジェクトを作成をクリックします。 プロジェクトが作成されると、プロジェクトセクションにサンドボックスプロジェクトが表示されます。
詳細やビデオについては、プロジェクトの作成をご覧ください。
進捗状況を確認する
次の画像は、Projectsセクションにサンドボックスが表示されているホーム画面です。 これでプロンプト・ラボを開く準備ができました。
タスク 2: プロジェクトにデータを追加する
このタスクをプレビューするには、00:24から始まるビデオを見てください。
このチュートリアルで使用するデータセットには、企業が顧客について収集する典型的な情報が含まれており、リソース・ハブで入手できます。 以下の手順に従って、リソース・ハブでデータセットを検索し、プロジェクトに追加します:
リソース・ハブの顧客データセットにアクセスします。
プロジェクトに追加をクリックしてください。
リストからプロジェクトを選択し、追加をクリックします。
データ・セットが追加されたら、 プロジェクトの表示をクリックしてください。
リソース ハブからプロジェクトにデータ アセットを追加する方法については、ノートブックにデータをロードしてアクセスするを参照してください。
進捗状況を確認する
次の図は、プロジェクトのAssetsタブを示しています。 これで、合成データフローを作成する準備ができた。
タスク3:合成データフローの作成
このタスクをプレビューするには、00:43から始まるビデオを見てください。
Synthetic Data Generator を使用して、ビジュアル フローおよびモデリング アルゴリズムを使用して、本番データまたはカスタム データ スキーマに基づく合成表データを生成するデータ フローを作成します。 以下の手順に従って、プロジェクトに合成データフローアセットを作成してください:
- プロジェクトの資産タブから、新規アセット > 合成表データの作成をクリックします。
- 名前には、
Bank customers
と入力します。 - 「作成」 をクリックします。
- Welcome to Synthetic Data Generator画面で、初めての方をクリックし、続行をクリックします。 このオプションは、データフローを構築するためのガイド付き体験を提供します。
- 2つのユースケースを見直す:
- 既存のデータを活用お客様の生産データに基づいて、構造化された合成データセットを生成します。 エクスポートする前に、データベースへの接続、ファイルのインポートまたはアップロード、マスク、および出力の生成を行うことができます。
- カスタムデータから作成:メタデータに基づいて構造化された合成データセットを生成します。 各表の列内のデータ、その分布、および任意の相関を定義できます。
- 既存のデータを活用するユースケースを選択し、次へをクリックして既存のデータをインポートします。
- プロジェクトからデータを選択をクリックして、リソースハブから追加した顧客データ資産を使用します。
- データ資産 > customers.csvを選択します。
- 「選択」をクリックします。
- 次へ をクリックします。
- 列のリストで、
creditcard_number
を検索する。CREDITCARD_NUMBER
の匿名化列で、はいを選択し、顧客のクレジットカード番号をマスキングします。- 次へ をクリックします。
- Mimic optionsページのデフォルト設定を受け入れる。 これらのオプションは、データの各列を修正するために、候補となる統計分布のセットを使用して、プロダクション・データに基づいた合成データを生成します。 「次へ」をクリックします。
- ファイル名に
bank_customers.csv
と入力し、次へをクリックする。 - 設定を確認し、保存して実行をクリックします。 Synthetic Data Generator ツールがデータフローとともに表示されます。 実行が完了するまで待つ。
進捗状況を確認する
次の図は、Synthetic Data Generatorで開いているデータの流れを示しています。
では、データの流れを調べ、出力を見ることができる
タスク4:データフローとアウトプットの見直し
このタスクをプレビューするには、01:48から始まるビデオを見てください。
実行が完了したら、データの流れを調べることができる。 以下の手順に従って、合成データの流れと結果を確認してください:
パレットアイコンをクリックしてノードパネルを閉じます。
インポートノードをダブルクリックすると、設定が表示されます。
- Dataプロパティを確認する。 ツールはプロジェクトからデータセットを読み込み、適切なデータ・プロパティを入力する。
- タイプセクションを展開する。 このツールはデータセットの値と列を読み込む。
- 「キャンセル」をクリックします。
匿名化ノードをダブルクリックして、設定を確認します。
- CREDITCARD_NUMBER 列が匿名化されるように設定されていることを確認します。
- 値の匿名化セクションを展開します。 ここでは、値がどのように匿名化されるかをカスタマイズできます。
- 「キャンセル」をクリックします。
Mimicノードをダブルクリックすると、設定が表示されます。
- ソース顧客データセットのデータを模倣するために、デフォルト設定を見直す。
- 「キャンセル」をクリックします。
Generateノードをダブルクリックすると、設定が表示されます。
- 合成された列のリストを確認します。
- オプション:相関関係と詳細オプションを確認してください。
- 「キャンセル」をクリックします。
エクスポートノードをダブルクリックすると、設定が表示されます。
- オプション:デフォルトでは、エクスポートされたデータはプロジェクトに保存されます。 Change path をクリックして、Db2 Warehouse などの接続にエクスポートされたデータを格納します。
- 「キャンセル」をクリックします。
プロジェクト名をクリックすると、資産タブに戻ります。
bank_customers.csv をクリックすると、生成された合成表データのプレビューが表示されます。
進捗状況を確認する
以下の画像は、エクスポートされ、生成された合成表データセットである
次のステップ
watsonx.ai:でより実践的な経験を積むために、以下の追加チュートリアルを試してみてください
その他のリソース
詳しくは、 ビデオを参照してください。
サンプルデータセット、プロジェクト、モデル、プロンプト、ノートブックをリソースハブで見つけて、実践的な経験を積むことができます:
ノートブックをプロジェクトに追加して、データの分析やモデルの構築を始めることができます。
ノートブック、データセット、プロンプト、およびその他の資産を含むインポート可能なプロジェクト。
データセットをプロジェクトに追加して、モデルを改良、分析、構築することができます。
プロンプト 。プロンプト・ラボで基盤モデルのプロンプトを出すために使用できます。
プロンプト・ラボで使用できる 基盤モデル 。
親トピック: クイック・スタート・チュートリアル