データ資産が正常に分析された場合、データ資産レベルと列レベルの両方で結果が表示されます。 分析結果には、データ資産の内容と構造に関する情報、およびデータの全体的な品質に関するメトリックが含まれます。
データ品質分析結果は、プロジェクトまたはカタログ内の資産の 「データ品質」 ページで使用できます。 資産または列の品質スコアをクリックして、メタデータ・エンリッチ内からアクセスすることもできます。
- 必要な権限
- 分析結果を表示するには、ワークスペース内のコラボレーターである必要があります。
スコアの計算方法を変更するには、プロジェクトで 管理者 役割または 編集者 役割を持っている必要があります。
新しいデータ品質検査を作成するには、プロジェクトでの 管理者 または 編集者 の役割と、 「データ品質資産の管理」 権限が必要です。
ルールの実行履歴またはデータ品質ページからデータ品質の問題の原因となったデータ (出力テーブル) を表示するには、問題の詳細までドリルダウンする権限が必要です。 しかし、出力テーブル用に作成されたプロジェクト内のデータ資産は、接続にアクセスできる人なら誰でもアクセスできる。 このデータ資産へのアクセスを制限するには、出力テーブルが保存されているデータ・ソースへの接続を個人認証情報で設定する必要があります。
データ品質情報は、以下のようにプロジェクトまたはカタログで使用可能になります。
プロジェクトでは、以下のいずれかの方法でデータ資産に対して最初のデータ品質検査が実行された後、または接続された IBM Match 360 エンティティー・データ資産が追加されたとき。
- データ品質分析は、メタデータ・エンリッチの一部として資産に対して実行されます。
- 資産に対してデータ品質ルールが実行されます。
カタログ内:
- データ品質情報を持つデータ資産がカタログに公開されます。
品質スコアが再計算され、データが以下のように更新されます。
プロジェクトでは、資産に対してデータ品質検査が実行されるたび、または IBM Match 360 エンティティー・データ資産が更新されるたびに、以下のようになります。
- データ品質分析は、メタデータ・エンリッチのコンテキストで実行されます。
- 資産に対してデータ品質ルールが実行されます。
- IBM Match 360 マッチング・アルゴリズムが変更されるか、潜在的なマッチングの問題が修正されます。
カタログ内:
- 資産はプロジェクトから公開されます。
品質スコアがいつ最後に更新されたかをすぐに確認できます。
資産のデータ品質情報
資産のデータ品質情報にアクセスすると、全体的なデータ品質スコアと、その資産に対して実行されたデータ品質検査の結果が表示されます。 さらに、資産列の分析結果にアクセスすることもできます。
データ品質SLAルールがメタデータ・エンリッチメントの一部として評価される場合、データ品質SLAルールの対象となるアセットもSLA遵守に関する情報を持つことになる。
資産レベルでの全体的なスコア
品質スコアのグラフィカル表現を使用すると、資産の全体的な品質と、資産に適用されるディメンションに関する品質レベルを一目で確認できます。 これらのスコアについて、トレンド情報は、時間の経過とともにディメンションの全体的な品質または品質スコアがどのように変化したかを示します。 30 日、90 日、または 180 日の期間のトレンドを表示するかどうかを選択できます。 以前にこのディメンションにチェック・マークが付けられなかった場合、ディメンションにはトレンド情報が表示されません。
全体的な資産スコアは、資産列によって提供されるスコアの加重平均です。 各ディメンション・スコアは、個々のチェックによって提供される、対応するディメンション・スコアの加重平均です。
以下の変更について、全体スコア、ディメンション・スコア、およびトレンド情報が再計算されます。
- 資産に対してデータ品質チェックが実行されます。
- チェックまたは列の 「全体のスコアに寄与」 設定が変更されます。
- 資産に適用されたデータ品質ルールが削除されます。
- アセットの 「プロファイル」 ページでアセット・プロファイルが削除されます。
- IBM Match 360でアセットが更新されます。
詳しくは、 データ品質スコアを参照してください。
データ品質SLAルールの遵守
1つまたは複数のデータ品質SLAルールが適用されているアセットについては、適用されているSLAルールが、その結果と最終評価の日時とともに一覧表示されます。 違反したSLAルールについては、ルール条件に応じて、テーブル、カラム、またはその両方における違反数が表示され、そのルールにアクションが構成されているかどうかが表示される。 データ品質改善ワークフローが違反したデータ品質SLAルールに関連付けられている場合、開始された改善タスクのステータスも確認できます。
各データ品質SLAルールの結果をドリルダウンすることができます。 SLAルールの品質基準でディメンション・スコアの要因となった違反とチェックの詳細を表示するには、SLAルールの名前をクリックします。 違反セクションは、違反が発見された要素、定義された品質基準、その要素の実際の品質スコア、およびパーセンテージ・ポイント(pp)単位の偏差に関する情報を提供する。 また、必要な権限があれば、ルールの詳細を表示したり、SLAルールを編集したりすることもできます。
データ品質SLAルールが適用されないアセットについては、このセクションは空です。
データ品質SLAルールや改善タスクの遵守に関する情報は、カタログでは利用できない。
資産レベルでのデータ品質検査結果
ここでは、アセットに対して実行されたチェックと、結果を確認できます。 リストは日付でソートされ、最新の検査が先頭に表示されます。
- 名前 & ロジック
データ品質ルールの名前、およびルール・ロジックを含むデータ品質定義の名前、または事前定義されたデータ品質検査の名前。
外部管理バインディングを持つデータ品質ルールまたはSQLベースのデータ品質ルールは、そのアセットが対応するルールに関連アイテムとして追加された場合に、そのアセットのデータ品質スコアに寄与します。データの品質を検証する関係。 この関係タイプにリンクされているすべての資産および列について、同じスコアと問題が報告されます。
事前定義されたデータ品質検査は、資産全体に対して実行されます。 ただし、すべての列の結果が返されるわけではありません。 例えば、 「サスペクト値」 チェックは、数値列または数値データを持つストリング列の外れ値を識別しますが、ストリング値を持つストリング列の結果は返しません。 そのため、個々の列について、事前定義されたデータ品質検査のリストが短くなる可能性があります。
プロジェクトでは、データ品質チェックの名前をクリックして詳細を確認できます。 事前定義されたデータ品質検査の場合、検出結果に関する情報 (問題がある列、および品質問題として識別された列の値の数とパーセンテージ) を表示します。 これらの問題に対して出力表がセットアップされている場合、適切な権限を持つユーザーは、データが品質の問題の原因となっている実際の行を表示できます。 データ品質ルールの場合、一般的なルール構成が表示され、ルールの出力表が構成されている場合はその表にアクセスできます。 ルール構成を更新する必要があり、必要な権限を持っている場合は、 「データ品質ルールの表示」をクリックして資産に直接移動できます。
接続された IBM Match 360 エンティティー・データ資産の場合、マッチングのために 「潜在的な一致」 がここに表示されます。 このタイプのチェックについては、これ以上の情報は提供されません。
- タイプ
チェックのタイプ。 「データ品質ルール」、 「マッチング」、または 「プロファイル」のいずれかです。 「マッチング」 が IBM Match 360 の結果に表示されます。 「プロファイル」 は、メタデータ・エンリッチメントのコンテキストで実行された事前定義のデータ品質検査について表示されます。 「 事前定義データ品質検査」を参照してください。
- ディメンション
このチェックが関連付けられているデータ品質ディメンション。 プロファイル作成中に、またはメタデータ・エンリッチの一部として実行される事前定義データ品質検査には、デフォルトのディメンションが割り当てられます。 データ品質規則の場合は、必要に応じてディメンションを割り当てます。
接続されている IBM Match 360 エンティティー・データ資産の場合は、ディメンション 「エンティティー信頼性」 が表示されます。
ディメンションが設定されていない場合、このフィールドには 「なし」と表示されます。 詳しくは、 データ品質ディメンション および データ品質スコアを参照してください。
- フォーカス & 問題のあるデータの割合
チェックのタイプに応じて、フォーカスは 1 つ以上の列または表全体にすることができます。 事前定義されたデータ品質チェックの場合、フォーカスは常にテーブル全体になります。 「問題のあるデータのパーセンテージ (Percentage of data with issues)」 は、チェックで定義された品質基準を満たしていないデータの量を示します。
- 検査済みデータ&発見された問題
検査されたレコードの数、および検出された品質問題の数。 これらの問題は、同じレコードにある場合も、異なるレコードにある場合もあります。
- サンプリング
チェックの最後の実行時に適用されたサンプリングの種類。 データ品質ルールの場合、サンプリングが構成されていない場合、この列にはダッシュ (-) が表示されます。 マッチングの場合、列には常にダッシュが表示されます。 事前定義されたデータ品質検査の場合、列には常に値が入ります。
- スコア
チェックによって資産に対して返された品質スコア。
- 全体的なスコアに寄与する
この設定は、全体的なスコアの計算でこの特定の品質スコアを考慮するかどうかを決定します。 この設定は、プロジェクトでのみ変更できます。 これを行うには、プロジェクト管理担当者または編集者でなければなりません。 カタログでは、この設定はロックされます。 データ品質スコアを参照してください。
- 前回の検査
チェックが最後に実行された日付と時刻。
「列」をクリックすると、列の概要に切り替えることができます。
プロジェクトでは、データ品質コンポーネントがIBM Knowledge Catalog有効になっています。 プロジェクト管理者または編集者であり、 「データ品質資産の管理」 権限を持っている必要があります。
列の概要
個々の列のデータ品質情報を表示します。
- 列名。
- 列の全体的なデータ品質スコア。
- 資産に適用可能ないずれかのディメンションに対する列の品質スコア。 その列に適用された検査がディメンションに反映されていない場合は、ダッシュ (-) が表示されます。
- 列に対して実行されたチェックの数。
- 列のデータ品質スコアが、全体的な資産スコアおよびディメンション・スコアの計算で考慮されるかどうか。 プロジェクト管理者またはエディターは、その設定を変更できます。
- 列が最後に検査された日時。
その後、各列のデータ品質の詳細をドリルダウンできます。 列のデータ品質情報を参照してください。
「検査」をクリックすると、データ品質検査のリストに戻ることができます。
列のデータ品質情報
列のデータ品質情報にアクセスすると、全体的なデータ品質スコアを示すセクションが表示され、その列に対して実行されたデータ品質チェックの結果にアクセスできます。 マッチングは、列レベルのデータには影響しません。
品質情報に加えて、どのデータ・クラスおよびビジネス用語が列に割り当てられているかを確認できます。
列レベルの全体スコア
品質スコアのグラフィカル表現を使用すると、列の全体的な品質と、列に適用されるディメンションに関する品質レベルを一目で確認できます。 これらのスコアについて、トレンド情報は、時間の経過とともにディメンションの全体的な品質または品質スコアがどのように変化したかを示します。 30 日、90 日、または 180 日の期間のトレンドを表示するかどうかを選択できます。
列またはディメンションの全体的なスコアは、列に適用されたデータ品質チェックによって提供されるスコアの加重平均です。
プロジェクトでは、列に影響を与えるデータ品質検査が資産に対して実行されるたびに、全体スコア、ディメンション・スコア、およびトレンド情報が再計算されます。 列に影響するチェックの 「全体のスコアに寄与する」 設定を変更した場合、またはデータ品質ルールまたはアセット・プロファイルが削除された場合にも、スコアが再計算されます。
カタログでは、プロジェクトから資産が公開されると、全体スコア、ディメンション・スコア、およびトレンド情報が更新されます。
詳しくは、 データ品質スコアを参照してください。
列レベルでのデータ品質チェック結果
ここでは、列に適用されたチェックと結果を確認できます。 リストは日付でソートされ、最新の検査が先頭に表示されます。
- 名前 & ロジック
データ品質ルールの名前、およびルール・ロジックを含むデータ品質定義の名前、または事前定義されたデータ品質検査の名前。
外部管理バインディングを持つデータ品質ルールまたはSQLベースのデータ品質ルールは、その列が対応するルールに関連項目として追加されている場合、その列のデータ品質スコアに寄与します。データの品質を検証する関係。 この関係タイプにリンクされているすべての資産および列について、同じスコアと問題が報告されます。
プロジェクトでは、データ品質ルールの名前をクリックして、一般ルール構成およびルールの出力表 (構成されている場合) を表示できます。 ルール構成を更新する必要があり、必要な権限を持っている場合は、 「データ品質ルールの表示」をクリックして資産に直接移動できます。
- タイプ
チェックのタイプ。 「データ品質ルール」 または 「プロファイル」のいずれかです。 「プロファイル」 は、メタデータ・エンリッチメントのコンテキストで実行された事前定義のデータ品質検査について表示されます。 「 事前定義データ品質検査」を参照してください。
- ディメンション
このチェックが関連付けられているデータ品質ディメンション。 プロファイル作成中に、またはメタデータ・エンリッチの一部として実行される事前定義データ品質検査には、デフォルトのディメンションが割り当てられます。 データ品質規則の場合は、必要に応じてディメンションを割り当てることができます。 ディメンションが設定されていない場合、このフィールドには 「その他」と表示されます。 詳しくは、 データ品質ディメンション および データ品質スコアを参照してください。
- 問題のあるデータのパーセンテージ
この値は、チェックで定義された品質基準を満たしていないデータの量を示します。
- 検査済みデータ&発見された問題
検査されたレコードの数、および検出された品質問題の数。 これらの問題は、同じレコードにある場合も、異なるレコードにある場合もあります。
- サンプリング
チェックの最後の実行時に適用されたサンプリングの種類。 データ品質ルールの場合、サンプリングが構成されていない場合、この列にはダッシュ (-) が表示されます。 事前定義されたデータ品質検査の場合、列には常に値が入ります。
- スコア
チェックによって列に対して返された品質スコア。
- 全体的なスコアに寄与する
この設定は、全体的なスコアの計算でこの特定の品質スコアを考慮するかどうかを決定します。 この設定は、プロジェクトでのみ変更できます。 これを行うには、プロジェクト管理担当者または編集者でなければなりません。 カタログでは、この設定はロックされます。 データ品質スコアを参照してください。
- 前回の検査
チェックが最後に実行された日付と時刻。
データ品質のための IBM Knowledge Catalog API
REST API のコレクションを使用して、データ品質情報を生成および取得できます。
- データ品質資産 メソッド
データ品質資産は、データ品質検査の対象となるデータ資産です。 サンプルAPI:データ品質アセットを取得する - データ品質検査
データ品質検査には、例えば、メタデータ・エンリッチメントの一部として実行されるデータ品質規則や検査などがあります。 サンプルAPI:データ品質チェックの取得 - データ品質ディメンション
標準的なデータ品質ディメンションのセットが製品に付属していますが、カスタム・ディメンションを作成することができます。 サンプル API:データ品質ディメンションのリストを取得する - データ品質の問題
データ品質の問題は、データ資産に対してデータ品質チェックが検出した問題です。 サンプルAPI:データ品質問題のリストを取得する - データ品質スコア
データ資産ごとに、全体的なスコアや次元スコアなど、さまざまなタイプの品質スコアが生成されます。 サンプルAPI:指定した資産のデータ品質スコアのリストを取得する
もっと見る
親トピック: データ品質の管理