Data Refinery でのデータの検証
最終更新: 2025年7月17日
Data Refinery にデータを追加した後はいつでも、データを検証できます。 通常は、精製プロセスの複数のポイントでこれを行う必要があります。
データを検証するには、以下の手順を実行します。
Data Refinery から、「プロファイル」タブをクリックします。
監査]タブのグラフをクリックして、各列のメトリック確認します。
学習内容に応じて、以下のセクションで説明されているように、適切なアクションを実行します。
頻度
公称データの場合、頻度とは、ある値、または指定された範囲の値が発生する回数のことである。 各度数分布 (バー) は、列内の固有値のカウントを示しています。
度数分布を確認すると、データの異常を見つけることができます。 該当する異常のデータをクレンジングする場合は、単に値を削除します。
基本統計
基本統計は量的データの集まりである。 各列について、これらの統計には最小値、最大値、平均値、その他の指標が含まれる。
カラムのデータ型によって、各カラムの統計値は異なります。 例えば、整数データ型の列の統計量には、最小値、最大値、中央値、平均値、合計値、最頻値、その他の関連する尺度が含まれます。 一方、文字列データ型の列の統計情報には、最小値、最大値、一意な値の数、モード、およびその他の該当するメトリック含まれます。
拡張洞察
数値データを持つ列については、パーセンタイル、標準偏差、共分散、歪度、その他の尺度など、より高度な統計も見ることができる。
親トピック: データの精製
トピックは役に立ちましたか?
0/1000