各プロファイルには、いくつかのレベルの情報が含まれます。
この情報は、以下のようにグループ化されています。
アドバンスト・プロファイリングの結果が出力テーブルに書き込まれる場合、値は実際のデータ型に関係なく文字列として保存される。 その場合、データ・クラス、フォーマット、タイプをソートする際に、文字列のソート順が適用される。
Statistics
「統計」 タブには、列内の分析されたデータの構造の要約と、その構造情報のさまざまなタイプの視覚化が表示されます。 正確にどのような情報が表示されるかは、列に 連続型 (量的) または 名義型 (質的) のどちらのデータが含まれているかによって異なります。
グラフ
列内のデータのタイプに応じて、さまざまなタイプの視覚化の中から選択できます。
名義データ:
- 棒グラフ
- 比率または円グラフ
- パレート図
連続データ:
- ヒストグラム・グラフ
- 箱ひげ図グラフ
- 数量変位値 (Q-Q) プロット・グラフ
分布図は、すべてのタイプのデータに使用できます。 通常、配布表には、列内の少なくとも最も頻度の高い値 (または間隔) とその数がリストされます。 この表には、フォーマット、タイプ、またはデータ・クラスなどのその他の情報が表示される場合があります。 特定の値を含む個々の行を表示するには、 「行の表示」をクリックします。
文字列値のような非数値の分布統計は、実際に格納されている値の数に関係なく、最初の100個だけを表示します。 出力テーブルのすべての値にアクセスするには、標準的なデータベースクエリまたは.
棒グラフまたはヒストグラム・グラフでは、オーバーレイ列を選択して、現在表示している列の各値内でその値がどのように分布しているかを確認することができます。 例えば、販売された商品が入った列があり、オーバーレイ列の季節を選択すると、特定のパン屋の製品の売上が季節ごとにどのように異なるかを確認できます。 オーバーレイ列の場合は、名義データを含むデータ資産内のすべての列から選択できます。
サマリー
「要約」 タイルには、選択した列のデータに関する一般情報が表示されます。
- データ・ソースで定義されている列のデータ・タイプ
- 分析によって推論されたデータ・タイプ
- その列のさまざまなデータ・フォーマットの数
- その列の最も頻繁に推論されるフォーマット
- 割り当てられたデータ・クラス
- データ測定のタイプ (
nominal
またはcontinuous
) - 検査された行の数 (つまり、値の数)
基本統計量
基本統計は、選択した列の値の分布と散らばりに関する一般情報を提供します。 列のデータ・フォーマットに応じて、統計は若干異なります。 例えば、整数データ型の列の統計には最小、最大、および平均の値が含まれていますが、ストリング・データ型の列の統計には最小長、最大長、平均長の値が含まれています。
指標 | 説明 | このタイプのデータに対して表示されます |
---|---|---|
カーディナリティー | 列内の固有特殊値のパーセンテージ (ブランクおよびヌルを含む)。 これは、列内の個別値の総数をその列内の値の総数で除算することによって計算されます。 | 連続 |
重複レコード | 列のサンプリングされたデータに存在する異なる値の数。 | 連続 |
エントロピー | この値は、列が保持する情報量を定量化します。 より一般的には、 エントロピー を使用して、イベントおよびランダム変数の情報を定量化することができます。 この量は、変数に存在する異なる値の数に基づいてだけでなく、予期しない値の量によっても推定されます。 | 名義 |
Gini | 特定の要素がランダムに選択されたときに誤って分類される確率の度合い、およびジニ係数の変動。 Gini 索引は 0 から 1 までの範囲で変化します。0 は、すべてのエレメントが特定のクラスに属すること、またはそこに 1 つのクラスのみが存在することを示します。 Gini 索引 1 は、すべてのエレメントがさまざまなクラスにランダムに分散されていることを示します。 値 0.5 は、要素がいくつかのクラスに均等に分散されていることを示します。 | 名義 |
Maximum | 数値変数の最大値。 | 連続 |
平均値 | 算術平均 (合計を値の数で除算) | 連続 |
中央値 | 値の半分がこの値より上または下になる値。 値の数が偶数の場合、中央値はソート時の 2 つの中間値の平均です。 中央値は外れ値の影響を受けません | 連続 |
最小 | 数値変数の最小値。 | 連続 |
欠落 | サンプル内の、値のない行の数。 | 連続型 名義型 |
モード | 列で最も頻繁に発生する値。 同じ頻度で複数の値が発生した場合、それぞれがモードになります。 | 連続型 名義型 |
外れ値 | 列内の他のほとんどの値から遠い、列データ内の値の数。 | 連続 |
範囲 | 列内の最大値と最小値の差。 | 連続 |
合計 | 値を持つすべての列にわたる値の合計または合計。 | 連続 |
固有 | 現在の列に 1 回だけ表示される個別値の数。 | 連続型 名義型 |
有効 | 有効と見なされる値の数。これは、空または欠落している列の値が除外されることを意味します。 | 連続型 名義型 |
拡張洞察
選択した列の値の分布と散らばりに関する詳細情報。 この情報は、連続データの場合にのみ表示されます。
指標 | 説明 |
---|---|
25パーセンタイル | 検出された値の 25% を超え、75% を下回る値。 |
75パーセンタイル | 検出された値の 25% を超え、75% を下回る値。 |
尖度 | 外れ値が存在する程度の指標 (分布のBridess )。 過剰尖度とは、正規分布に対する分布のテール度のことです。 正規分布の場合、
尖度の統計値は 0 です。 尖度が正の場合、そのデータの極端な外れ値は正規分布よりも多いことを示します。 負の尖度は、データの外れ値が正規分布よりも極端ではないことを示します。 中尖度 (中尾) を持つ分布は正規分布です。 尖度が低い分布 (細い尾部) は小片状である。 |
平均の標準 エラー | データのサンプル平均 (平均) が実際の母集団平均からどの程度離れている可能性が高いかを示す指標。 |
標準 偏差 | 平均値を中心とした散らばりの測定値。 標準偏差が低い場合、値は通常平均値に近くなります。 高い標準偏差を使用すると、値の範囲が広がります。 |
歪度 | 分布の非対称性の測定値。 左右の面がミラー・イメージではない場合、分布は非対称です。 分布は、右 (または正)、左 (または負)、またはゼロの歪度 (対称分布) を持つことができます。 |
分散 | 平均値を中心とした散らばりの測定値。 これは、母集団の平均またはサンプル平均からのランダム変数の平方偏差の期待値です。 |
データ・クラス
データ・クラス割り当てについて、以下の情報が表示されます。
選択されたデータ・クラス。これは、列に割り当てられたデータ・クラスです。 これは、手動で変更しない限り、検出されたデータ・クラスと同じです。
が検出したデータ・クラスは、分析によって検出された列に最も一致するデータ・クラスです。
割り当てられたデータ・クラスの 信頼性スコア 。 データ・クラスの信頼性は、データ・クラスと一致する非ヌル値のパーセンテージです。 列レベルで検出されて割り当てられる、より汎用的な ID であるデータ・クラスがあります。 このようなデータ・クラスは、より具体的なデータ・クラスを値レベルで識別できない場合に割り当てられます。 ジェネリック識別子の信頼度は常に 100%であり、以下のデータ・クラスが含まれる:コード、識別子、インジケータ、数量、テキスト
分析中に検出されたすべてのデータ・クラスのリスト (降順)。最も一致するもの (最も高い信頼性) が先頭に表示されます。 データ・クラスごとに、信頼性スコアとデータ・クラス優先順位が表示されます。
検出されたデータ・クラスごとに、データ・クラスの有効範囲に応じて追加情報が表示される場合があります。
列データに基づいて突き合わせが行われるデータ・クラスの場合、この特定のデータ・クラスの基準に一致する列の値がリストされます。 「度数 (%)」 列には、サンプル内の特定の値を含む行の数と、その値を持つ行のパーセントが表示されます。 さらに、一致する各値の形式も表示されます。
列名に基づいてマッチングが行われるデータ・クラス、および汎用データ・クラスである Code、Identifier、Indicator、Quantity、Text については、追加情報は表示されません。 これらのデータ・クラスは、データ値で特定のデータ・クラスを識別できない場合に使用されます。 汎用データ・クラスの信頼性は常に 100% です。
詳しくは、 データ・クラスを参照してください。
形式
列に対して推測されるフォーマット、検出されたフォーマットの数、および検出されたすべてのフォーマットのリストが表示されます。
フォーマットは、データ値の文字パターンを表します。 すべての英字は、文字の大文字化に応じて、大文字または小文字の A で表されます。 すべての数字は数字 9 で表されます。 スペースと特殊文字は、表示されるとおりに表示されます。
検出されたフォーマットのリストには、検出された特定のフォーマットの値の数と、そのフォーマットの値の全体のパーセンテージが示されます。 項目をクリックすると、パターンに一致する値が表示されます。 値リストにすべての値が含まれていないか、空である可能性があるため、表示用に取得されるのは 100 個の値のみであることに注意してください。
タイプ
以下の情報が表示されます。
- データ・ソースで定義されている列のデータ・タイプ
- 分析によって推論されたデータ・タイプ
- その列の値の最小の長さ
- その列にある値の最大長
- 列値の平均の長さ
- 列内のすべてのデータ・タイプのリスト
データ・タイプは、列に特定のタイプ (整数、ストリング、または日付タイプなど) のデータが含まれているかどうかを示します。
通常、ほとんどまたはすべての列値が同じデータ・タイプであるため、列の最適なデータ・タイプは明らかです。 ただし、リストに複数の異なるデータ・タイプが含まれている場合は、推論されたデータ・タイプの頻度カウントを確認してください。 その頻度カウントが表の行カウントと比較して低い場合、無効なデータ値が原因で、誤ったデータ・タイプが推測される可能性があります。
もっと見る
親トピック: メタデータ・エンリッチの結果の確認