0 / 0
資料の 英語版 に戻る
Data Refinery でのデータの検証
最終更新: 2024年10月04日
Data Refinery でのデータの検証

Data Refinery にデータを追加した後はいつでも、データを検証できます。 通常は、精製プロセスの複数のポイントでこれを行う必要があります。

データを検証するには、以下の手順を実行します。

  1. Data Refinery から、「プロファイル」タブをクリックします。

  2. 各列のメトリックを確認します。

  3. 学習内容に応じて、以下のセクションで説明されているように、適切なアクションを実行します。

頻度

Frequency は、ある値または指定範囲の値の発生回数です。 各度数分布 (バー) は、列内の固有値のカウントを示しています。

度数分布を確認すると、データの異常を見つけることができます。 該当する異常のデータをクレンジングする場合は、単に値を削除します。

Integer および Date/Time 列の場合、表示する bin (グループ) の数をカスタマイズすることができます。 デフォルトの複数列ビューでは、最大値は 20 です。 頻度グラフの行を展開すると、最大値は 50 になります。

統計

Statistics は、数量データのコレクションです。 各列の統計は、その列の最小、最大、平均、および固有値の数を示します。

列のデータ・タイプにより、各列の統計は若干異なります。 例えば、整数データ型の列の統計には最小、最大、および平均の値が含まれていますが、ストリング・データ型の列の統計には最小長、最大長、平均長の値が含まれています。

親トピック: データの精製

生成 AI の検索と回答
これらの回答は、製品資料の内容に基づいて、 watsonx.ai のラージ言語モデルによって生成されます。 詳細