このチュートリアルでは、IBM watsonx.ai で合成表データを生成する方法を学びます。 合成データの利点は、オンデマンドでデータを調達し、ユースケースに合わせてカスタマイズし、大量に生産できることだ。 このチュートリアルでは、グラフィカル・フロー・エディタ・ツール Synthetic Data Generator を使用して、ビジュアル・フローおよびモデリング・アルゴリズムを用いて、本番データまたはカスタム・データ・スキーマに基づく合成表データを生成する方法を学習します。
- 必須のサービス
- watsonx.aiスタジオ
基本的なワークフローには、以下のタスクが含まれます:
- プロジェクトを開きます。 プロジェクトは、データを処理するために他のユーザーと共同作業できる場所です。
- データをプロジェクトに追加します。 接続を介してリモート・データ・ソースからの CSV ファイルまたはデータを追加できます。
- プロジェクトへの合成データフローを作成し、実行する。 グラフィカル フロー エディタ ツール Synthetic Data Generator を使用して、ビジュアル フローおよびモデリング アルゴリズムを使用して、本番データまたはカスタム データ スキーマに基づく合成表データを生成します。
- 合成データの流れと出力を確認する。
合成データについて読む
合成データとは、AIモデルの改善、機密データの保護、バイアスの軽減のために、実データを補強または置き換えるためにコンピューター上で生成された情報のことである。 合成データは、実世界の例で機械学習モデルをトレーニングする際に生じる、ロジスティクス、倫理、プライバシーの問題の多くを軽減するのに役立つ。
合成表データの生成に関するビデオを見る
このチュートリアルのステップをプレビューするには、このビデオをご覧ください。 ビデオで紹介されているユーザー・インターフェースには若干の違いがあるかもしれません。 このビデオは、書面でのチュートリアルに付随するものです。
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
合成表データを生成するチュートリアルを試す
このチュートリアルでは、以下のタスクを実行します:
このチュートリアルを完了するためのヒント
このチュートリアルを成功させるためのヒントを紹介します。
ビデオのピクチャー・イン・ピクチャーを使う
次のアニメーション画像は、ビデオのピクチャー・イン・ピクチャーと目次機能の使い方を示しています:
地域の助けを借りる
このチュートリアルで助けが必要な場合は、watsonxコミュニティーのディスカッション・フォーラムで質問したり、答えを見つけることができます。
ブラウザのウィンドウを設定する
このチュートリアルを最適に完了するには、Cloud Pak for Data を 1 つのブラウザ ウィンドウで開き、このチュートリアルのページを別のブラウザ ウィンドウで開いておくと、2 つのアプリケーションを簡単に切り替えることができます。 2つのブラウザウィンドウを横に並べると、より見やすくなります。
タスク 1:プロジェクトを開く
アセットを保存するためのプロジェクトが必要です。
サンドボックスプロジェクトを作成し、サービスを関連付ける方法をビデオでご覧ください。 次に、既存のプロジェクトを確認するか、サンドボックス・プロジェクトを作成する手順に従ってください。
このビデオは、このドキュメントのコンセプトとタスクを学ぶための視覚的な方法を提供します。
watsonx ホーム画面で、プロジェクト セクションまでスクロールします。 プロジェクトが表示されている場合は、タスク2に進んでください。 プロジェクトが表示されない場合は、以下の手順に従ってプロジェクトを作成してください。
サンドボックスプロジェクトを作成をクリックします。 プロジェクトが作成されると、プロジェクトセクションにサンドボックスプロジェクトが表示されます。
詳細またはビデオについては、プロジェクトの作成をご覧ください。
進捗状況を確認する
次の画像は、Projectsセクションにサンドボックスが表示されているホーム画面です。 これでPrompt Labを開く準備ができました。
タスク 2: プロジェクトにデータを追加する
このタスクをプレビューするには、00:24から始まるビデオを見てください。
このチュートリアルで使用するデータセットには、企業が顧客について収集する典型的な情報が含まれており、リソース・ハブで入手できます。 以下の手順に従って、リソース・ハブでデータセットを検索し、プロジェクトに追加します:
Resource ハブのCustomers データセットにアクセスします。
プロジェクトに追加をクリックしてください。
リストからプロジェクトを選択し、追加をクリックします。
データ・セットが追加されたら、 プロジェクトの表示をクリックしてください。
リソース ハブからプロジェクトにデータ アセットを追加する方法については、ノートブックにデータをロードしてアクセスするを参照してください。
進捗状況を確認する
次の図は、プロジェクトのAssetsタブを示しています。 これで、合成データフローを作成する準備ができた。
タスク3:合成データフローの作成
このタスクをプレビューするには、00:43から始まるビデオを見てください。
Synthetic Data Generator を使用して、ビジュアル フローおよびモデリング アルゴリズムを使用して、本番データまたはカスタム データ スキーマに基づく合成表データを生成するデータ フローを作成します。 以下の手順に従って、プロジェクトに合成データフローアセットを作成してください:
- プロジェクトの資産タブから、新規アセット > 合成表データの作成をクリックします。
- 名前には、
Bank customers
と入力します。 - 「作成」 をクリックします。
- Welcome to Synthetic Data Generator画面で、初めての方をクリックし、続行をクリックします。 このオプションは、データフローを構築するためのガイド付き体験を提供します。
- 2つのユースケースを見直す:
- 既存のデータを活用お客様の生産データに基づいて、構造化された合成データセットを生成します。 エクスポートする前に、データベースへの接続、ファイルのインポートまたはアップロード、マスク、および出力の生成を行うことができます。
- カスタムデータから作成:メタデータに基づいて構造化された合成データセットを生成します。 各表の列内のデータ、その分布、および任意の相関を定義できます。
- 既存のデータを活用するユースケースを選択し、次へをクリックして既存のデータをインポートします。
- プロジェクトからデータを選択をクリックして、リソースハブから追加した顧客データ資産を使用します。
- データ資産 > customers.csvを選択します。
- 「選択」をクリックします。
- 次へ をクリックします。
- 列のリストで、
creditcard_number
を検索する。CREDITCARD_NUMBER
の匿名化列で、はいを選択し、顧客のクレジットカード番号をマスキングします。- 次へ をクリックします。
- Mimicのオプションページで、 行数を
1000
に変更します。 その他のオプションはデフォルト設定のままにします。 これらのオプションは、データの各列を修正するために、候補となる統計分布のセットを使用して、プロダクション・データに基づいた合成データを生成します。 次へ をクリックします。 - 「評価」画面で 、「評価指標を有効にする 」オプションを切り替えます。 ここでは、生成された合成データとベースライン入力とを比較するための設定を指定できます。 評価する指標を選択できます。
- 以下の評価基準を選択してください:
- 精度スコア
- データの識別性
- 漏洩防止スコア
- 接近性スコア
- 次へ をクリックします。
- 以下の評価基準を選択してください:
- Export data(データのエクスポート) ページで、 File name(ファイル名 )に
bank_customers.csv
と入力し、 Next(次へ )をクリックします。 - 設定を確認し 、「フローを保存」 をクリックします。 Synthetic Data Generator ツールがデータフローとともに表示されます。
- 指示が出たら 、「実行フロー」 をクリックし、実行が完了するまで待ちます。
進捗状況を確認する
次の図は、Synthetic Data Generatorで開いているデータの流れを示しています。
では、データの流れを調べ、出力を見ることができる
タスク4:データフローとアウトプットの見直し
このタスクをプレビューするには、 1:48 から始まるビデオをご覧ください。
実行が完了したら、データの流れを調べることができる。 以下の手順に従って、合成データの流れと結果を確認してください:
パレットアイコン をクリックして、ノードパネルを閉じます。
インポートノードをダブルクリックすると、設定が表示されます。
- Dataプロパティを確認する。 ツールはプロジェクトからデータセットを読み込み、適切なデータ・プロパティを入力する。
- タイプセクションを展開する。 このツールはデータセットの値と列を読み込む。
- 「キャンセル」をクリックします。
匿名化ノードをダブルクリックして、設定を確認します。
- CREDITCARD_NUMBER 列が匿名化されるように設定されていることを確認します。
- 値の匿名化セクションを展開します。 ここでは、値がどのように匿名化されるかをカスタマイズできます。
- 「キャンセル」をクリックします。
Mimicノードをダブルクリックすると、設定が表示されます。
- ソース顧客データセットのデータを模倣するために、デフォルト設定を見直す。
- 「キャンセル」をクリックします。
設定を確認するには 、[評価] ノードをダブルクリックします。
- 以下の設定を確認してください
- ベースライン入力はインポートに設定されています。 フローでは、 評価ノードに 2 つの入力と、 匿名化ノードと生成ノードからの出力があることがわかります。
- 品質指標、 プライバシー指標、 実用指標、および評価レベル。 情報アイコン にカーソルを合わせると、各設定の説明が表示されます。
- 「キャンセル」をクリックします。
- 以下の設定を確認してください
Generateノードをダブルクリックすると、設定が表示されます。
- 合成された列のリストを確認します。
- オプション:相関関係と詳細オプションを確認してください。
- 「キャンセル」をクリックします。
エクスポートノードをダブルクリックすると、設定が表示されます。
- オプション:デフォルトでは、エクスポートされたデータはプロジェクトに保存されます。 Change path をクリックして、Db2 Warehouse などの接続にエクスポートされたデータを格納します。
- 「キャンセル」をクリックします。
「出力」ウィンドウで 、「評価」 という名前の結果をクリックします。 「Outputs」パネルが表示されていない場合は 、「Outputs」 アイコン をクリックしてください。
各指標の 「詳細を表示」 アイコン をクリックすると、その指標の視覚化が表示されます。
チャートのメトリクスタブでも、同じスコアを確認できます。 作業が完了したら、ウィンドウを閉じます。
プロジェクト名をクリックすると、資産タブに戻ります。
bank_customers.csv をクリックすると、生成された合成表データのプレビューが表示されます。
進捗状況を確認する
以下の画像は、エクスポートされ、生成された合成表データセットである
今後のステップ
watsonx.ai:でより実践的な経験を積むために、以下の追加チュートリアルを試してみてください
その他のリソース
詳しくは、 ビデオを参照してください。
サンプルデータセット、プロジェクト、モデル、プロンプト、ノートブックをリソースハブで見つけて、実践的な経験を積むことができます:
プロジェクトに追加して、データの分析やモデルの構築を開始できるノートブック。
プロジェクト that you can import containing notebooks, data sets, prompts, and other assets.
プロジェクトに追加して、モデルの改良、分析、構築を行うことができるデータセット。
プロンプト 。プロンプト・ラボで基盤モデルのプロンプトを出すために使用できます。
プロンプト・ラボで使用できる 基盤モデル 。
親トピック: クイック・スタート・チュートリアル