事前定義されたデータ品質チェック
メタデータ・エンリッチの一部として基本的なデータ品質分析を実行すると、事前定義されたデータ品質検査が自動的に実行されます。 これらのデータ品質チェックは、データ資産レベルと列レベルの両方で、データの基本的な品質問題を識別します。
以下のデータ品質チェックは、個々の品質スコアを生成し、データ資産または列の全体的な品質スコアに寄与します。
また、各データ品質チェックは、データ品質ディメンションに関連付けられます。 データ品質ディメンションを参照してください。
これらの検査の結果は、データ資産または列のデータ品質情報の一部として表示されます。 データ品質分析結果を参照してください。 ただし、すべての検査がデータ資産内のすべての列に適用されるわけではありません。 どの検査が実行されるかは、列のデータ・タイプと、列に含まれるデータによって異なります。
事前定義チェックは、列内の個々の値 (値ベース のチェック)、またはプロファイル作成中に検出された列メタデータ (メタデータ・ベース のチェック) を検証します。
データ・クラス違反
データ・クラスとは、特定の列に対して検出されるデータの種類である。 データ・クラスの例としては、郵便番号、国、クレジット・カード番号などがあります。 このチェックは、列内の値のうち、その列の検出されたデータ・クラスと一致しない値の数をカウントします。 クラスに違反している各値が特定されます。 品質スコアは、100 パーセントから、特定された値のパーセントを減算した結果に基づいています。
例えば、列にデータ・クラス「クレジット・カード番号」が割り当てられているものとします。 このデータ・クラスで予期される値は、16 文字の数値ストリングです。 当該列に含まれている値が「MA」の場合、その値はデータ・クラスの違反として特定されます。 その列に 100 個の値があり、40 個の値がクラスに一致しない場合、値の 40% が列のデータ・クラスに違反しているため、このチェックの列の品質スコアは 60% になります。
検査のタイプ: 値ベースの検査
ディメンション: Validity
データ・タイプ違反
データ・タイプは、特定の列に含まれるデータの有効なフォーマットを定義します。 データ・タイプの例としては、テキスト、数値、または日付などがあります。 このメトリックは、列に含まれている値の中で、列の検出されたデータ・タイプまたは割り当てられたデータ・タイプに一致していないものの数をカウントします。 推論されるデータ・タイプの長さ、精度、または小数点以下の桁数に一致していないか、指定されたデータ・タイプに違反している各値が特定されます。 品質スコアは、100 パーセントから、特定された値のパーセントを減算した結果に基づいています。
例えば、列にデータ・タイプ DECIMAL (4,2) が指定されているものとします。 このデータ・タイプは、全体の長さが 4 桁で、そのうち 2 桁が小数点以下の桁である数値として列のフォーマットを定義しています。 その列に含まれている数値の桁数が多すぎる場合、その値はデータ・タイプの違反として識別されます。 その列に 100 個の値があり、40 個の値がタイプと一致しない場合、値の 40% が列のデータ・タイプに違反するため、このチェックの品質スコアは 60% になります。
検査のタイプ: 値ベースの検査
ディメンション: Validity
フォーマット違反
現在、メタデータ・エンリッチメントでは評価されていない。 したがって、常に 100% のデータ品質スコアが表示されます。
検査のタイプ: 値ベースの検査
ディメンション: Validity
大/小文字の不整合
このチェックでは、列内の値の大文字小文字が一貫しているかどうかを調べます。 データ・タイプがストリングの列では、値は任意の大/小文字、タイトル・ケース、センテンス・ケース、または大文字または小文字にすることができます。 チェックの結果、値のほとんど(95%以上)が特定の大文字小文字を使用していることが検出された場合、残りの値は品質上の問題としてフラグが立てられます。
例えば、あるカラムに100の値があるとする。 これらの値のうち、90が小文字で、10が大文字である。 そのため、チェックは列の品質スコアを 90% に設定します。これは、値の 10% が大文字と小文字が異なるためです。
大/小文字の不整合違反の解決: 特定された列を調べて、詳細情報を取得し、最適な対応を判別できます。 例えば、場合によっては、列の標準化を推奨する注釈を作成する必要が生じることがあります。
検査のタイプ: 値ベースの検査
ディメンション: 整合性
欠落値の矛盾した表記
データ資産に含まれている欠落データの表記がさまざまであることがよくあります。 データ資産内の特定の列に、いくつかの NULL の値、いくつかの NA を示す値、さらにいくつかのフィールドがブランクになっている値が含まれることがあります。 こうしたすべての値は欠落情報を示している可能性がありますが、その解釈が異なるため、分析が不正確になることがあります。 欠損値の不整合な表記は、NULL 値と空の値の両方が含まれている列を特定することで検出されます。 NULL 値と空の値の両方が含まれている列は、欠損値を表記する標準化された方法がないことを示します。 多くの場合、列に NULL 値が含まれている場合、空の値も NULL として表記する必要があります。
列内でこの基準に一致している各値が特定されます。 品質スコアは、100 パーセントから、特定された値のパーセントを減算した結果に基づいています。
欠損値の表記違反の解決: 特定された列を調べて、詳細情報を確認し、最適な対応を判別できます。 例えば、場合によっては、列の標準化を推奨する注釈を作成する必要が生じることがあります。
検査のタイプ: 値ベースの検査
ディメンション: 整合性
疑わしい値
このチェックは、特性が異なるために列内の他の値の大多数と一致しないと思われる疑わしい値を探します。 数値列または数値データを持つストリング列の外れ値を識別します。 ストリング値を持つストリング列の結果は無視されます。 品質スコアは、100 パーセントから、特定された値のパーセントを減算した結果に基づいています。
例えば、列に 100 個の値が含まれており、そのうち 98 個の値は長さが 5 から 9 文字の範囲の数値ストリングであるが、2 個は 30 から 45 文字のテキスト・ストリングである場合、その 2 個の値は、他の値の特性に一致していないため、疑わしい値として特定されます。 この個別のチェックでは、値の 2% が疑わしいため、列の品質スコアは 98% になります。
疑わしい値違反の解決: 特定された列を調べて、詳細情報を確認し、最適な対応を判別できます。 例えば、場合によっては、列の標準化を推奨する注釈を作成する必要が生じることがあります。
検査のタイプ: 値ベースの検査
ディメンション: 整合性
予期しない重複値
このチェックは、ほとんどの値が固有な列の重複値を識別します。 非固有値はすべて、品質の問題としてフラグが立てられます。 固有性のしきい値は、メタデータ・エンリッチ設定で設定されます。 デフォルトの設定は 95% です。 「 固有性しきい値 (Uniqueness threshold)」を参照。
品質スコアは、100 パーセントから、特定された値のパーセントを減算した結果に基づいています。 例えば、患者データ・セットに、社会保障番号の列が含まれているものとします。 各患者は1つのSSNとしか関連付けられないため、列の値のほとんどは一度しか表示されない。 この列に含まれている各重複値が特定されます。 列に 100 個の値があり、3 個の値が重複している場合、このチェックの列の品質スコアは 97% になります。これは、値の 3% が重複しているためです。
検査のタイプ: メタデータ・ベースの検査
次元: 一様性
予期しない欠落値
このチェックは、列に予期しない欠落値がないかどうかを調べます。 列が NULL または空の値を持たない近くにある場合、値が欠落している行は不完全であると見なされます。 NULL しきい値は、欠損値が許可されるタイミングと、欠損値が予期しないものと見なされるタイミングを決定します。 このしきい値は、メタデータ・エンリッチ設定で設定されます。 デフォルト設定は 5% です。これは、列の行の 5% 以下の欠損値は、予期しない欠損値と見なされることを意味します。 Nullabilityを参照。
品質スコアは、その列の完了した値のパーセンテージに基づいています。 例えば、デフォルト設定では、列に 100 個の値があり、4 個の値が欠落している場合、このチェックの品質スコアは 96% になります。 9 個の値が欠落している場合、その欠損値の数は設定されたしきい値を超えており、欠損値は予期しないものと見なされないため、品質スコアは 100% になります。
検査のタイプ: 値ベースの検査
ディメンション: 完全性
範囲外の値
現在、メタデータ・エンリッチメントでは評価されていない。 したがって、常に 100% のデータ品質スコアが表示されます。
検査のタイプ: 値ベースの検査
ディメンション: Validity
もっと見る
親トピック: データ品質の管理