クイック・スタート: 合成表データの生成
このチュートリアルでは、 IBM watsonx.aiで合成表データを生成する方法について学習します。 合成データの利点は、オンデマンドでデータを調達し、ユース・ケースに適合するようにカスタマイズして、大量のデータを生成できることです。 このチュートリアルでは、グラフィカル・フロー・エディター・ツール Synthetic Data Generatorを使用して、ビジュアル・フローとモデリング・アルゴリズムを使用して、実動データまたはカスタム・データ・スキーマに基づいて合成表データを生成する方法を学習します。
- 必須のサービス
- Watson Studio
基本的なワークフローには、以下のタスクが含まれます:
- プロジェクトを開きます。 プロジェクトは、データを処理するために他のユーザーと共同作業できる場所です。
- データをプロジェクトに追加します。 接続を介してリモート・データ・ソースからの CSV ファイルまたはデータを追加できます。
- プロジェクトへの合成データ・フローを作成して実行します。 グラフィカル・フロー・エディター・ツール Synthetic Data Generator を使用して、ビジュアル・フローおよびモデリング・アルゴリズムにより、実動データまたはカスタム・データ・スキーマに基づいて合成表データを生成します。
- 合成データのフローと出力を確認します。
合成データについて読む
合成データは、AI モデルを改善し、機密データを保護し、バイアスを緩和するために、実際のデータを拡張または置換するためにコンピューター上で生成された情報です。 シンセティック・データは、実際の例における機械学習モデルのトレーニングに伴う物流、倫理、およびプライバシーの問題の多くを軽減するのに役立ちます。
合成表データの生成に関するビデオを視聴する
このチュートリアルのステップをプレビューするには、このビデオをご覧ください。 ビデオに表示されるユーザー・インターフェースには若干の違いがある場合があります。 このビデオは、作成されたチュートリアルと一緒に使用することを目的としています。
このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。
シンセティック表データを生成するチュートリアルを試す
このチュートリアルでは、以下のタスクを実行します:
このチュートリアルを完了するためのヒント
このチュートリアルを正常に完了するためのヒントを以下に示します。
ビデオ・ピクチャー・イン・ピクチャーの使用
以下のアニメーション・イメージは、ビデオ・ピクチャー・イン・ピクチャーおよび目次機能の使用方法を示しています。
コミュニティーでのヘルプの利用
このチュートリアルでヘルプが必要な場合は、 watsonx コミュニティー・ディスカッション・フォーラムで質問したり、回答を見つけたりすることができます。
ブラウザー・ウィンドウのセットアップ
このチュートリアルを最適に実行するには、1 つのブラウザー・ウィンドウで Cloud Pak for Data を開き、このチュートリアル・ページを別のブラウザー・ウィンドウで開いたままにして、2 つのアプリケーションを簡単に切り替えることができます。 2 つのブラウザー・ウィンドウを横並びに配置して、見やすくすることを検討してください。
タスク 1: プロジェクトを開く
資産を保管するためのプロジェクトが必要です。
ビデオを視聴して、サンドボックス・プロジェクトを作成し、サービスを関連付ける方法を確認してください。 次に、ステップに従って、既存のプロジェクトがあることを確認するか、サンドボックス・プロジェクトを作成します。
このビデオは、本書の概念とタスクを学習するためのビジュアル・メソッドを提供します。
watsonx のホーム画面で、 「プロジェクト」 セクションまでスクロールします。 プロジェクトがリストされている場合は、 タスク 2にスキップします。 プロジェクトが表示されない場合は、以下の手順に従ってプロジェクトを作成します。
「サンドボックス・プロジェクトの作成」をクリックします。 プロジェクトが作成されると、 「プロジェクト」 セクションにサンドボックス・プロジェクトが表示されます。
詳しくは、またはビデオを視聴するには、 プロジェクトの作成を参照してください。
進行状況を確認してください
以下のイメージは、「プロジェクト」セクションにサンドボックスがリストされているホーム画面を示しています。 これで、プロンプト・ラボを開く準備ができました。
タスク 2: プロジェクトへのデータの追加
このタスクをプレビューするには、 00:24から始まるビデオをご覧ください。
このチュートリアルで使用するデータ・セットには、企業が顧客に関して収集する標準的な情報が含まれており、リソース・ハブで使用できます。 リソース・ハブでデータ・セットを見つけてプロジェクトに追加するには、以下の手順を実行します。
リソース・ハブ内の Customers データ・セット にアクセスします。
プロジェクトに追加をクリックしてください。
リストからプロジェクトを選択し、 「追加」をクリックします。
データ・セットが追加されたら、 プロジェクトの表示をクリックしてください。
リソース・ハブからプロジェクトへのデータ資産の追加について詳しくは、 ノートブックでのデータのロードおよびアクセスを参照してください。
進行状況を確認してください
以下のイメージは、プロジェクトの「資産」タブを示しています。 これで、合成データ・フローを作成する準備ができました。
タスク 3: 合成データ・フローの作成
このタスクをプレビューするには、 00:43から始まるビデオをご覧ください。
Synthetic Data Generator を使用して、ビジュアル・フローおよびモデリング・アルゴリズムを使用して、実動データまたはカスタム・データ・スキーマに基づいて合成表データを生成するデータ・フローを作成します。 プロジェクト内に合成データ・フロー資産を作成するには、以下の手順を実行します。
- プロジェクトの 「アセット」 タブで、 「新規アセット」>「合成表データの生成」をクリックします。
- 名前には、
Bank customers
と入力します。 - 「作成」 をクリックします。
- 「 Synthetic Data Generatorへようこそ」 画面で、 「初回ユーザー」をクリックし、 「続行」をクリックします。 このオプションは、データ・フローを作成するためのガイド付きエクスペリエンスを提供します。
- 以下の 2 つのユース・ケースを確認します。
- 既存のデータの活用: 実動データに基づいて構造化されたシンセティック・データ・セットを生成します。 エクスポートする前に、データベースへの接続、ファイルのインポートまたはアップロード、マスク、および出力の生成を行うことができます。
- カスタム・データから作成: メタデータに基づいて構造化合成データ・セットを生成します。 各表の列内のデータ、その分布、および任意の相関を定義できます。
- 「既存のデータを活用」 ユース・ケースを選択し、 「次へ」 をクリックして既存のデータをインポートします。
- リソース・ハブから追加した顧客データ資産を使用するには、 「プロジェクトからデータを選択」 をクリックします。
- 「データ資産」> customers.csvを選択します。
- 「選択」をクリックします。
- 次へ をクリックします。
- 列のリストで、
creditcard_number
を検索します。CREDITCARD_NUMBER
の 「匿名化」 列で、 「はい」 を選択して、顧客のクレジット・カード番号をマスクします。- 次へ をクリックします。
- 「模倣オプション」 ページでデフォルト設定を受け入れます。 これらのオプションは、一連の候補統計分布を使用してデータ内の各列を変更することで、実動データに基づいて合成データを生成します。 「次へ」をクリックします。
- 「ファイル名」に
bank_customers.csv
と入力し、 「次へ」をクリックします。 - 設定を確認し、 「保存して実行」をクリックします。 Synthetic Data Generator ツールがデータ・フローとともに表示されます。 実行が完了するまで待ちます。
進行状況を確認してください
次の図は、 Synthetic Data Generatorで開いているデータ・フローを示しています。 これで、データ・フローを探索し、出力を表示することができます。
タスク 4: データ・フローと出力の確認
このタスクをプレビューするには、 01:48から始まるビデオをご覧ください。
実行が完了したら、データ・フローを探索できます。 シンセティック・データ・フローと結果を確認するには、以下の手順を実行します。
「パレット」 アイコン
をクリックして、ノード・パネルを閉じます。
「インポート」 ノードをダブルクリックして設定を表示します。
- 「データ」 プロパティーを確認します。 ツールは、プロジェクトからデータ・セットを読み取り、該当するデータ・プロパティーを入力します。
- 「タイプ」 セクションを展開します。 ツールは、データ・セット内の値と列を読み取ります。
- 「キャンセル」をクリックします。
「匿名化」 ノードをダブルクリックして、設定を表示します。
- CREDITCARD_NUMBER 列が匿名化されるように設定されていることを確認します。
- 「値の匿名化」 セクションを展開します。 ここで、値を匿名化する方法をカスタマイズできます。
- 「キャンセル」をクリックします。
「模倣」 ノードをダブルクリックして、設定を表示します。
- デフォルト設定を確認して、ソース顧客データ・セット内のデータを模倣します。
- 「キャンセル」をクリックします。
「生成」 ノードをダブルクリックして設定を表示します。
- 「合成された列」のリストを確認します。
- オプション: 「相関」 および 「拡張オプション」を確認します。
- 「キャンセル」をクリックします。
「エクスポート」 ノードをダブルクリックして設定を表示します。
- オプション: デフォルトでは、エクスポートされたデータはプロジェクトに保管されます。 「パスの変更 (Change Path)」 をクリックして、エクスポートされたデータを Db2 Warehouseなどの接続に保管します。
- 「キャンセル」をクリックします。
プロジェクト名をクリックして、 「資産」 タブに戻ります。
bank_customers.csv をクリックして、生成された合成表データのプレビューを表示します。
進行状況を確認してください
以下のイメージは、エクスポートされ、生成された合成表データ・セットを示しています。
次のステップ
これらの追加チュートリアルを試すと、 watsonx.ai: でより多くのハンズオン体験を得ることができます。
その他のリソース
詳しくは、 ビデオを参照してください。
リソース・ハブでサンプル・データ・セット、プロジェクト、モデル、プロンプト、およびノートブックを検索して、実地体験を得ることができます。
データの分析およびモデルの作成を開始するためにプロジェクトに追加できる
ノートブック 。
プロジェクト ノートブック、データ・セット、プロンプト、およびその他の資産を含むものをインポートできます。
データ・セット 。これをプロジェクトに追加して、モデルの洗練、分析、およびビルドを行うことができます。
プロンプト 。プロンプト・ラボで基盤モデルのプロンプトを出すために使用できます。
プロンプト・ラボで使用できる
基盤モデル 。
親トピック: クイック・スタート・チュートリアル