データの品質を測定、モニター、および維持して、データが特定のユース・ケースに対する期待や標準を満たしていることを確認します。
品質の良いデータは、通常、 使用に適合、 障害なし、または 期待と要件を満たすとして定義できる状態にあります。 データ品質は、デフォルトの品質ディメンション 「正確度」、 「完全性」、 「整合性」、 「適時性」、 「固有性」、および 「妥当性」、および任意のカスタム品質ディメンションに対して測定されます。
データ品質分析は、以下の質問に対する回答を提供します。
- データ資産の全体的な品質はどの程度良好ですか?
- 品質が高いデータ資産はどれですか?
- データ資産の品質は時間の経過とともにどのように変化しましたか?
要件および制約事項
データ品質管理には、以下の要件と制限があります。
必須サービス
データ品質管理には、以下のサービスが必要です。
- IBM Knowledge Catalog
- DataStageまたはDataStage as a Service Anywhere
DataStage,を使用すると、サポートされている地域でデータ品質ルールを実行できます。 DataStage as a Service Anywhereを使用すると、リモート・エンジンを使用してIBM Cloudの外部でデータ品質ルールを実行できます。 リモートエンジンの設定については、DataStage as a Service Anywhereのドキュメントを参照してください。
データ品質ツール
以下のツールを使用して作業します。
データの形式
以下のデータ・フォーマットがサポートされています。
- リレーショナル・データ・ソースおよび非リレーショナル・データ・ソースからの表
- 表形式: Avro、CSV、Parquet、ORC。ローカル ファイル システムからアップロードされたデータ アセットの場合は CSV のみ
サポートされるコネクターについては、 キュレーションおよびデータ品質のためにサポートされるデータ・ソースを参照してください。
データ・サイズ
データ品質管理タスクは、任意のサイズのデータに対して実行できます。
必要な権限
役割によって、実行できるデータ品質管理タスクが決まります。
- データ品質定義およびルールを表示するには、少なくともプロジェクト内で ビューアー 役割を持っている必要があります。
- データ品質定義およびルールを作成、編集、または削除するには、プロジェクト内で 管理者 役割または 編集者 役割を持っている必要があります。 さらに、 「データ品質資産の管理」 ユーザー権限が必要です。
- データ品質ルールを実行するには、プロジェクトでの 管理者 または 編集者 の役割と、 「データ品質ルールの実行」 ユーザー権限を持っている必要があります。
- ルールの実行履歴またはデータ品質ページからデータ品質の問題の原因となったデータ (出力テーブル) を表示するには、問題の詳細までドリルダウンする ユーザー権限が必要です。 しかし、出力テーブル用に作成されたプロジェクト内のデータ資産は、接続にアクセスできる人なら誰でもアクセスできる。 このデータ資産へのアクセスを制限するには、出力テーブルが保存されているデータ・ソースへの接続を個人認証情報で設定する必要があります。
- データ品質SLAルールを作成、編集、または削除するには、これらのユーザー権限が必要です:
- ガバナンス成果物へのアクセス
- データ品質SLAルールの管理
ワークスペース
プロジェクトでデータ品質管理タスクを実行できます。 カタログでは、読み取り専用のデータ品質情報を使用できます。
データ品質の分析およびモニター
データ品質分析とモニタリングを使用して、特定の基準に照らしてデータを評価します。 検証されるデータの品質における重要な変化を確認するには、これらの評価基準を時間の経過とともに繰り返し使用します。
データ品質チェックが設計された後、以下のオプションがあります。
データ・ソースに関係なく、データ・チェックのロジックを定義するデータ品質定義を作成します。 定義には、実行可能なデータ品質ルールの作成時に実際のデータ (例えば、データ・ソース、表と列、または結合された表) にリンクまたは バインド する論理変数または参照が含まれています。
選択データ品質定義に基づく必要なバインディングを使用してデータ品質ルールを作成した後、そのルールを実行できます。 ルールは関連する統計を生成し、ルール構成に応じて出力表を生成できます。
SQL ベースのデータ品質ルールを作成します。
データ品質ルールの機能は、単純な単一列テストから、データ・ソース内およびデータ・ソース間の複数の列の評価まで多岐にわたります。
データ品質の評価
データの品質が高いかどうかを判別するには、データがどの程度期待に合っているかを確認し、データの異常を特定します。 データの品質を評価することにより、 データの構造と内容を理解することができます。
データ品質のモニタリング
重要なデータが組織の期待品質を満たすようにするには、データが標準に準拠しているかどうかを監視し、検出されたデータ品質の問題の修復を規定できるデータ品質SLAルールを導入する。
もっと見る
親トピック: データの準備