資料の 英語版 に戻るData Refinery でのデータの検証
Data Refinery でのデータの検証
最終更新: 2024年10月04日
Data Refinery にデータを追加した後はいつでも、データを検証できます。 通常は、精製プロセスの複数のポイントでこれを行う必要があります。
データを検証するには、以下の手順を実行します。
Data Refinery から、「プロファイル」タブをクリックします。
各列のメトリックを確認します。
学習内容に応じて、以下のセクションで説明されているように、適切なアクションを実行します。
頻度
Frequency は、ある値または指定範囲の値の発生回数です。 各度数分布 (バー) は、列内の固有値のカウントを示しています。
度数分布を確認すると、データの異常を見つけることができます。 該当する異常のデータをクレンジングする場合は、単に値を削除します。
Integer および Date/Time 列の場合、表示する bin (グループ) の数をカスタマイズすることができます。 デフォルトの複数列ビューでは、最大値は 20 です。 頻度グラフの行を展開すると、最大値は 50 になります。
統計
Statistics は、数量データのコレクションです。 各列の統計は、その列の最小、最大、平均、および固有値の数を示します。
列のデータ・タイプにより、各列の統計は若干異なります。 例えば、整数データ型の列の統計には最小、最大、および平均の値が含まれていますが、ストリング・データ型の列の統計には最小長、最大長、平均長の値が含まれています。
親トピック: データの精製