データ品質スコアは、データ資産全体、および分析データ資産に含まれているすべての列について表示されます。 データ品質スコアは、資産全体とその列に対して実行されるデータ品質チェックの結果に基づいて計算されます。
以下のタイプのデータ品質検査は、データ品質スコアを提供します。
-
これらのチェックは、メタデータ・エンリッチの一部として品質分析を実行するときに実行されます。 各チェックは資産全体に対して実行されますが、チェックのタイプによっては、すべての列の結果が返されない場合があります。
事前定義された各データ品質チェックは、データ品質ディメンションに関連付けられます。
データ品質ルール (データ品質ルールの管理)
データ品質ルールは、データ・ソース内の特定の条件を検証します。 手動で実行することも、スケジュールに従って自動的に実行することもできます。
データ品質規則は、規則の構成に応じて、複数のディメンションに寄与することができます。 規則にディメンションが設定されていない場合、その結果はディメンション・スコア 「なし」としてキャプチャーされます。
チェックごとに、その結果が全体的なデータ品質スコアに寄与しているかどうかを判別できます。 データ品質分析結果を参照してください。
IBM Knowledge Catalog API を使用して、個々の資産のデータ品質スコアを取得することもできます。
データ品質スコアの計算方法
列スコア は、列で使用可能なディメンション・スコアの加重平均として計算されます。これは、少なくとも 1 つのデータ品質検査が実行され、結果が返されたすべてのディメンションのスコアを意味します。
ディメンション・スコア( 「エンティティー信頼性」 ディメンションを除く) は、データ品質チェックでこのディメンションが検索されたすべての問題の確率番号を乗算して計算されます。ここで、問題の確率番号は (1-frequency) です。 例えば、同じディメンションについて報告される 2 つの異なる品質問題が列にあるとします。 問題 1 は頻度 10% で発生し、問題 2 は頻度 20% で発生します。 したがって、その列の値が 1 号を 持たない 確率は 90% になります。 問題 2 の場合、80% です。 そのため、列にそのディメンションの品質問題がある確率は 72% です。これは、以下のように計算されます。
(1.0 - 0.1) × (1.0 - 0.2) = 0.9 × 0.8 = 0.72
「エンティティー信頼性」 ディメンションの場合、ディメンション・スコアは、特定のエンティティー・タイプのエンティティーのうち、メンバーとして一致する可能性のある問題があるレコードがないエンティティーのパーセンテージを表します。
資産スコア (全体のスコアまたはディメンション・スコア) は、その列の対応するスコアの加重平均として計算されます。
プロジェクトでは、 「スコア全体への寄与 (Contributes to Overall score)」 設定を変更することにより、スコアの計算で考慮される内容を変更できます。 この設定はデフォルトでオンになっています。 列全体の結果と、列レベルまたは資産レベルでの特定のチェックの結果を除外できます。
プロジェクトでは、以下の場合に品質スコアが再計算されます。
- データ品質分析は、メタデータ・エンリッチのコンテキストで実行されます。
- 既存または新規のデータ品質ルールが資産に対して実行されます。
- スコアに寄与したデータ品質ルールが削除されます。
- 「全体スコアへの寄与 (Contributes to Overall score)」 設定が変更されます。
- IBM Match 360 エンティティー・データ資産が更新されます。
カタログでは、資産が再度公開されると品質スコアが変更されます。
スコア計算の例
データ資産に列 ID、NAME、EMAIL、PHONE、および SALARY があるとします。 すべての列とすべてのタイプの問題が全体のスコアに反映されます (デフォルト設定)。
資産に対してデータ品質検査が実行されなかったため、最初はデータ品質スコアを使用できません。 データ品質情報を生成するには:
IBM Match 360 分析は、データ資産に対して実行され、以下の問題を識別します。
データ資産の 10% 一致するエンティティー。 この情報は、データ品質ディメンション 「エンティティー信頼性」について考慮されます。
資産レベルでは、以下のスコアが計算されます。
ディメンション・スコア
エンティティーの信頼性: (1- 0.1) = 90%総合スコア: 90%
メタデータ・エンリッチの一環としてデータ品質分析を実行します。 品質分析は、以下の問題を識別します。
- 欠損値。これらは、データ品質ディメンション 「完全性」に対して考慮されます。
- 列 NAME の値の 3%
- 列 EMAIL の値の 5%
- 列 PHONE の値の 3%
- データ品質ディメンション 「妥当性」に対して考慮されるデータ・クラス違反:
- 列 EMAIL の値の 10%
- 列 PHONE の値の 6%
- データ品質ディメンション 「整合性」で考慮される外れ値または疑わしい値:
- 列 NAME の値の 4%
- 列 SALARY の値の 1%
これらの検出結果は、個々の列に対して以下のスコアになります。
- 列 ID
- ディメンション・スコア
エンティティーの信頼性: 90% (未変更)
完全性: 100% ( 「予期しない欠落値」 チェックで問題が検出されませんでした。)
妥当性: 100% (事前定義された 妥当性 検査で問題が検出されませんでした。)
整合性: 100% (事前定義された 整合性 チェックで問題が検出されました。) - 全体の列スコア: (90% + 100% + 100% + 100%) /4 = 97.5%
- ディメンション・スコア
- 列名
- ディメンション・スコア
エンティティーの信頼性: 90% (未変更)
完全性: 100%-3% = 97%
有効性: 100%
整合性: 100%-4% = 96% - 総合列スコア: (90% + 97% + 100% + 96%) /4 = 95.75%
- ディメンション・スコア
- 列 EMAIL
- ディメンション・スコア
エンティティーの信頼性: 90% (未変更)
完全性: 100%-5% = 95%
妥当性: 100%-10% = 90%
整合性: 100% - 全体の列スコア: (90% + 95% + 90% + 100%) /4 = 93.75%
- ディメンション・スコア
- 列の PHONE
- ディメンション・スコア
エンティティーの信頼性: 90% (未変更)
完全性: 100%-3% = 97%
妥当性: 100%-6% = 94%
整合性: 100% - 全体の列スコア: (90% + 97% + 94% + 100%) /4 = 95.25%
- ディメンション・スコア
- 列 SALARY
- ディメンション・スコア
エンティティーの信頼性: 90% (未変更)
完全性: 100%
有効性: 100%
整合性: 100%-1% = 99% - 総合列スコア: (90% + 100% + 100% + 99%) /4 = 97.25%
- ディメンション・スコア
これらのスコアから、資産レベルのスコアが計算されます。
ディメンション・スコア
エンティティーの信頼性: (90% + 90% + 90% + 90% + 90%) /5 = 90%
完全性: (100% + 97% + 95% + 97% + 100%) /5 = 97.8%
妥当性: (100% + 100% + 90% + 94% + 100%) /5 = 96.896%
一貫性: (100%総合スコア: (97.5% + 95.75% + 93.75% + 95.25% + 97.25%) /5 = 95.9%
- 欠損値。これらは、データ品質ディメンション 「完全性」に対して考慮されます。
データ品質ルール Name_Complete を実行します。これは列 NAME に適用され、名と姓が含まれていることを確認します。 ルールは、データ品質ディメンション 「完全性」に結合されます。 この規則は、列 NAME に 1% の違反を報告します。
NAME 列のスコアは、以下のように変化します。 その他の列のスコアは変更されません。
- ディメンション・スコア
エンティティーの信頼性: 90% (未変更)
完全性: (1-0.03) × (1-0.01) = 0.9603 = 96.03%
妥当性: 100% (未変更)
整合性: 96% (未変更) - 総合スコア: (90% + 96.03% + 100% + 96%) /4 = 95.5%
これらの変更により、資産スコアも変更されます。
- ディメンション・スコア
エンティティーの信頼性: 90% (未変更)
完全性: (100% + 96% + 95% + 97% + 100%) /5 = 97.6%
妥当性: 96.8% (未変更)
整合性: 99% (未変更) - 総合スコア: (97.5% + 95.5% + 93.75% + 95.25% + 97.25%) /5 = 95.85%
- ディメンション・スコア
追加のデータ品質ルール Phone_Valid を実行します。これは列 PHONE に適用され、電話番号にその住所に対応する国別コードと接頭部があることを確認します。 ルールは、データ品質ディメンション 「妥当性」に結合されます。 この規則は、列 PHONE に 2% の違反を報告します。
PHONE 列のスコアは、以下のように変化します。 その他の列のスコアは変更されません。
- 次元スコア
エンティティー信頼性: 90% (未変更)
完全性: 97% (未変更)
妥当性: (1.0-0.06) × (1.0-0.02) = 0.9212 = 92.12%
整合性: 100% - 総合スコア: (90% + 97% + 92.12% + 100%) /4 = 94.78%
これらの変更により、資産スコアも変更されます。
- ディメンション・スコア
エンティティーの信頼性: 90% (未変更)
完全性: 97.6% (未変更)
妥当性: (100% + 100% + 90% + 92.12% + 100%) /5 = 96.42%
整合性: 99% (未変更) - 総合スコア: = (97.5% + 95.5% + 93.75% + 94.78% + 97.25%) /5 = 95.76%
- 次元スコア
ディメンション 「整合性」 のすべてのチェックがスコア計算で無視されるように設定します。 ディメンション 「整合性」 のディメンション・スコアは表示されなくなりました。 その他のすべての次元スコアは変更されません。 全体の列と資産のスコアが再計算されます。
Column scores
xx Column ID: (1 × 90% + 1 × 100% + 1 × 100% + 0 × 100%)/(1 + 1 + 1 + 0) = 96.67%
Column NAME: (1 × 90% + 1 × 96.03% + 1 × 100% + 0 × 96%)/(1 + 1 + 1 + 0) = 95.34%
Column EMAIL: (1 × 90% + 1 × 95% + 1 × 90% + 0 × 100%)/(1 + 1 + 1 + 0) = 91.67%
Column PHONE: (1 × 90% + 1 × 97% + 1 × 92.12% + 0 × 100%)/(1 + 1 + 1 + 0) = 94.78%
Column SALARY: (1 × 90% + 1 × 100% + 1 × 100% + 0 × 99%)/(1 + 1 + 1 + 0) = 96.67%総資産スコア: (96.67 + 95.34% + 91.67% + 93.04% + 96.67)/5 = 94.68%
列 SALARY の結果をスコア計算から除外します。 列のスコアは変わりません。 資産の全体スコアとディメンション・スコアは、以下のように再計算されます。
- Dimension scores
エンティティーの信頼性: (1 × 90% + 1 × 90% + 1 × 90% + 1 × 90% + 0 × 90%)/(1 + 1+ 1 + 1 + 0) = 90%
完全性: (1 × 100% + 1 × 96.03% + 1 × 95% + 1 × 97% + 0 × 100%)/(1 + 1+ 1 + 1 + 0) = 97%
妥当性: (1 × 100% + 1 × 100% +1 × 90% +1 × 92.12% + 0 × 100%)/(1 + 1 + 1 + 1 + 0) = 95.53%
一貫性: not shown - 総資産スコア = (100% + 98.02% + 92.5% + 92.74% + 0%)/(1 + 1 + 1 + 1 + 0) = 95.82%
- Dimension scores
もっと見る
- 資産のプロファイル作成
- メタデータのエンリッチメント
- データ品質の評価
- 事前定義されたデータ品質検査
- IBM Knowledge Catalog API:指定した資産のデータ品質スコアのリストを取得する
親トピック: データ品質分析結果