データ品質ディメンション
データ品質ディメンションは、データの測定可能な特性を記述し、データ品質要件の定義に役立ちます。 データ品質ディメンションを使用して、初期評価または継続的なモニタリングに関係なく、データ品質評価の予期される結果を判別します。
通常、データの状態は、 使用に適合、 障害フリー、 対応する仕様、または 期待と要件を満たすものとして定義できます。 データ品質を測定するときに、データの実際の状態をこの目的の状態と比較します。 ビジネス・プロセスにとって重要な標準、期待、および要件は、データの特性またはディメンションとして表されます。
Data Management Association (DAMA) International は、データ品質の 6 つのコア・ディメンションについて説明した資料を公開しました。
ディメンション | 説明 | このディメンションに関連する問題を識別する事前定義のデータ品質検査 |
---|---|---|
正解性 | データ値は、実際の値に可能な限り近くなります。 | なし。 |
完全性 | 必要なすべてのデータ値が存在します。 | 予期しない欠落値 |
整合性 | 列内のデータ値はルールに従います。 | 大/小文字の不整合 欠損値の表現の不整合 「疑わしい値」 |
適時性 | データは、必要な時点からの現実を表します。 | なし。 |
固有性 | 個別の値は 1 回だけ表示されます。 | 予期しない重複値 |
妥当性 | データは、その定義の形式、タイプ、または範囲に準拠しています。 | データ・クラス違反 データ・タイプ違反 形式違反 範囲外の値 |
IBM Knowledge Catalog API を使用して、独自のデータ品質ディメンジョンを作成できます 。
通常、データの状態は、 使用に適合、 障害フリー、 対応する仕様、または 期待と要件を満たすものとして定義できます。 データ品質を測定するときに、データの実際の状態をこの目的の状態と比較します。 ビジネス・プロセスにとって重要な標準、期待、および要件は、データの特性またはディメンションとして表されます。
Data Management 協会 (DAMA) インターナショナルは、データ品質の6つのコアとなる次元について説明する論文を発表しました 。正確性、 完全性、 一貫性、 適時性、 独自性、妥当性
さらに、 IBM Knowledge Catalog は 「均質性」 という次元を提供します。
これらのすべての次元は、メタデータ強化の一環としてデータ品質チェックを実行するか、個別のデータ品質ルールを実行することで評価できます。
以下の表では、データ品質の次元について説明し、特定の次元に関連する問題を特定できるメタデータ強化のデータ品質チェックを列挙しています
ディメンション | 説明 | データ品質チェックの種類 |
---|---|---|
正解性 | データ値は、実際の値に可能な限り近くなります。 | なし。 |
完全性 | 必要なすべてのデータ値が存在します。 | 完全性チェック |
整合性 | 列内のデータ値はルールに従います。 | 大文字表記スタイルのチェック 欠損値の表現のチェック 参照整合性のチェック ( IBM Knowledge Catalog Premium ) 疑わしい値のチェック |
等質性 | データは類似しており、長期間にわたって一貫しています。 | 歴史的な安定性 ( IBM Knowledge Catalog Premium ) |
適時性 | データは、必要な時点からの現実を表します。 | なし。 |
固有性 | 個別の値は 1 回だけ表示されます。 | 固有性検査 |
妥当性 | データは、その定義の形式、タイプ、または範囲に準拠しています。 | データクラスのチェック データ型チェック フォーマットチェック 長さチェック 可能な値の確認 範囲チェック 正規表現チェック |
もっと見る
- データ品質分析結果
- 事前定義されたデータ品質検査
- マスター・データ・ワークフローの構成
- IBM Knowledge Catalog API:すべてのデータ品質ディメンションをリストする
- IBM Knowledge Catalog API:データ品質ディメンジョンの作成
親トピック: データ品質の管理