データ資産のデータ品質情報
データは、その品質が信頼され、継続的に評価される場合にのみ役立ちます。 「データ品質」 ページで、データ資産のデータ品質をモニターできます。
メタデータ・エンリッチメント資産のデータ品質スコアをクリックすると、 「データ品質」 タブと同じ情報が表示されます。
要件と制約事項
以下の状況では、資産のデータ品質情報を表示できます。
必須サービス
データ品質には、IBM Knowledge Catalog サービスが必要です。 ただし、データ品質ルールからのデータ品質出力は、ダラスとフランクフルトの地域でのみ使用可能です。 Cloud Pak for Data as a Serviceの地域制限を参照。
必要な権限
役割によって、データ品質との対話方法が決まります。
- 「データ品質」 ページを表示するには、ワークスペースで任意のコラボレーター役割を持つことができます。
- スコアの計算方法を変更するには、プロジェクト内で 管理者 または 編集者 の役割を持っている必要があります。
- 新規データ品質検査を作成するには、プロジェクトでの 管理者 または 編集者 役割と、 「データ品質資産の管理」 権限が必要です。
- データ品質ページからデータ品質の問題の原因となったデータ(出力テーブル)を表示するには、問題の詳細までドリルダウンする権限が必要です。 しかし、出力テーブル用に作成されたプロジェクト内のデータ資産は、接続にアクセスできる人なら誰でもアクセスできる。 このデータ資産へのアクセスを制限するには、出力テーブルが保存されているデータ・ソースへの接続を個人認証情報で設定する必要があります。
ワークスペース
以下のワークスペースでデータ品質情報を表示できます。
- プロジェクト
- カタログ
資産タイプ
以下のタイプの資産には、データ品質情報があります。
- リレーショナル・データベースまたは非リレーショナル・データベースからデータ・ソースへの接続からのデータ資産
- 区分データ・セットからのデータ資産。区分データ・セットは複数のファイルで構成され、ローカル・ファイル・システムからアップロードされた単一のフォルダー、またはデータ・ソースへのファイル・ベースの接続によって表されます。
- ローカル・ファイル・システムからアップロードされたファイルのデータ資産、またはデータ・ソースへのファイル・ベースの接続のデータ資産。形式は以下のとおりです:
- CSV
- XLS、XLSM、XLSX (ワークブックの最初のシートのみ。)
- TSV
- Avro
- OCR
- Parquet
- IBM Match 360 エンティティー・データ資産
概要
「データ品質」 ページには、データ資産の品質に関する情報が表示されます。
- 資産の全体的なデータ品質スコア。 これは、その列によって提供されるスコアの加重平均です。 詳しくは、 データ品質スコアを参照してください。
- 個々のディメンションのスコア。 各ディメンションについて、これは個々のチェックによって提供される対応するディメンション・スコアの加重平均です。 メタデータ・エンリッチの一部として実行される事前定義のデータ品質チェックには、デフォルトのディメンションが割り当てられます。 事前定義データ品質検査を参照してください。 データ品質規則の場合は、必要に応じてディメンションを割り当てます。 詳しくは、 データ品質ディメンション および データ品質スコアを参照してください。
- ディメンションの全体的な品質または品質スコアが 30 日、90 日、または 180 日を超えてどのように変化したかを示すトレンド情報。 詳しくは、 データ品質分析結果を参照してください。
- 資産とその結果に適用されたデータ品質チェックのリスト。 詳しくは、 データ品質分析結果を参照してください。
- 個々の列のデータ品質情報。 詳しくは、 データ品質分析結果を参照してください。
プロジェクトの「データ品質」ページ
「データ品質」 ページには、以下のいずれかの方法でデータ資産に対して最初のデータ品質検査が実行された後にデータが取り込まれます。
- データ品質分析は、メタデータ・エンリッチの一部として資産に対して実行されます。
- 資産に対してデータ品質ルールが実行されます。
- 接続された IBM Match 360 エンティティー・データ資産が追加されます。
カタログから資産をインポートすると、プロファイル情報のみがプロジェクトにコピーされます。 データ品質情報はコピーされません。
以下の場合には、品質スコアが再計算され、このページのデータが更新されます。
- データ品質分析は、メタデータ・エンリッチのコンテキストで実行されます。
- データ品質ルールは、資産に対して実行されます。
- スコアに寄与したデータ品質ルールが削除されます。 このデータ品質ルールによって返されたすべての問題が削除されます。
- アセットの 「プロファイル」 ページでアセット・プロファイルが削除されます。 事前定義されたデータ品質チェックによって返されたすべての問題が削除されます。
また、全体スコアとディメンション・スコアは、チェックまたは列の 「全体スコアに寄与する」 設定を変更するたびに更新されます。 詳しくは、 データ品質スコアを参照してください。
品質スコアがいつ最後に更新されたかをすぐに確認できます。
「データ品質検査」 セクションには、以下の情報が表示されます。
- 資産に対して実行されたチェック。日付でソートされ、最新のチェックが先頭に表示されます。
- 各チェックが関連付けられているディメンション
- チェックが資産全体に適用されたか、資産内の列に適用されたか
- 検出された問題の数に関する情報
- 適用されたサンプリングの種類 (ある場合)
- チェックが生成したデータ品質スコア
- 全体的な資産スコアとディメンション・スコアの計算でチェックのデータ品質スコアが考慮されるかどうか
- チェックが最後に実行された日時
IBM Match 360 マッチングを除き、各チェックの結果をドリルダウンできます。 プロジェクト管理担当者またはエディターは、データ品質スコア全体に寄与しているかどうかをチェックごとに変更したり、新しいデータ品質チェックを作成したりすることができます。 詳しくは、 データ品質分析結果を参照してください。
「チェック項目」 ビューと 「列」 ビューを切り替えることができます。 「列の概要」 セクションには、いずれかのデータ品質チェックの対象となった各列について、以下の情報が表示されます。
- 列名
- 資産に適用されるいずれかのディメンションに対する列の品質スコア
- 列に対して実行されたチェックの数
- 全体的な資産スコアおよびディメンション・スコアの計算で列のデータ品質スコアが考慮されるかどうか
- 列が最後に検査された日時
その後、各列のデータ品質の詳細をドリルダウンできます。 プロジェクト管理担当者またはエディターは、列ごとに、その品質スコアが全体的なデータ品質スコアに寄与するかどうかを変更することもできます。 詳しくは、 データ品質分析結果を参照してください。
カタログの「データ品質」ページ
データ品質情報を持つデータ資産がカタログに公開されると、 「データ品質」 ページに最初からデータが取り込まれます。 接続済みアセットとして直接追加したアセット、またはローカル・ファイル・システムからアップロードしたアセットの場合、このページは空です。 そのような資産のデータ品質情報を生成するには、それらの資産をプロジェクトに追加し、資産に対してメタデータ・エンリッチ・ルールまたはデータ品質ルールを実行します。 次に、それらをカタログに公開します。
品質スコアが更新され、新しいデータ品質情報を使用してプロジェクトから資産が公開されるたびに、このページのデータが更新されます。
品質スコアがいつ最後に更新されたかをすぐに確認できます。
「データ品質チェック」 セクションと 「列の概要」 セクションには、プロジェクトの 「データ品質」 タブと同じ情報が表示されます。 ただし、チェックまたは列の詳細にドリルダウンすることはできません。
もっと見る
親トピック: アセット・タイプおよびプロパティー