0 / 0
資料の 英語版 に戻る
データ品質の管理
最終更新: 2024年12月13日
データ品質の管理

データの品質を測定、モニター、および維持して、データが特定のユース・ケースに対する期待や標準を満たしていることを確認します。

品質の良いデータは、通常、 使用に適合障害なし、または 期待と要件を満たすとして定義できる状態にあります。 データ品質は、デフォルトの品質ディメンション 「正確度」「完全性」「整合性」「適時性」「固有性」、および 「妥当性」、および任意のカスタム品質ディメンションに対して測定されます。

データ品質分析は、以下の質問に対する回答を提供します。

  • データ資産の全体的な品質はどの程度良好ですか?
  • 品質が高いデータ資産はどれですか?
  • データ資産の品質は時間の経過とともにどのように変化しましたか?

要件および制約事項

データ品質管理には、以下の要件と制限があります。

必須サービス

データ品質管理には、以下のサービスが必要です。

  • IBM Knowledge Catalog
  • DataStageまたはDataStage as a Service Anywhere
    DataStage,を使用すると、サポートされている地域でデータ品質ルールを実行できます。 DataStage as a Service Anywhereを使用すると、リモート・エンジンを使用してIBM Cloudの外部でデータ品質ルールを実行できます。 リモートエンジンの設定については、DataStage as a Service Anywhereのドキュメントを参照してください。

データ品質ツール

以下のツールを使用して作業します。

データの形式

以下のデータ・フォーマットがサポートされています。

  • リレーショナル・データ・ソースおよび非リレーショナル・データ・ソースからの表
  • 表形式: Avro、CSV、Parquet、ORC。ローカル ファイル システムからアップロードされたデータ アセットの場合は CSV のみ

サポートされるコネクターについては、 キュレーションおよびデータ品質のためにサポートされるデータ・ソースを参照してください。

データ・サイズ

データ品質管理タスクは、任意のサイズのデータに対して実行できます。

必要な権限

役割によって、実行できるデータ品質管理タスクが決まります。

  • データ品質定義およびルールを表示するには、少なくともプロジェクト内で ビューアー 役割を持っている必要があります。
  • データ品質定義およびルールを作成、編集、または削除するには、プロジェクト内で 管理者 役割または 編集者 役割を持っている必要があります。 さらに、 「データ品質資産の管理」 ユーザー権限が必要です。
  • データ品質ルールを実行するには、プロジェクトでの 管理者 または 編集者 の役割と、 「データ品質ルールの実行」 ユーザー権限を持っている必要があります。
  • ルールの実行履歴またはデータ品質ページからデータ品質の問題の原因となったデータ (出力テーブル) を表示するには、問題の詳細までドリルダウンする ユーザー権限が必要です。 しかし、出力テーブル用に作成されたプロジェクト内のデータ資産は、接続にアクセスできる人なら誰でもアクセスできる。 このデータ資産へのアクセスを制限するには、出力テーブルが保存されているデータ・ソースへの接続を個人認証情報で設定する必要があります。
  • データ品質SLAルールを作成、編集、または削除するには、これらのユーザー権限が必要です:
    • ガバナンス成果物へのアクセス
    • データ品質SLAルールの管理

ワークスペース

プロジェクトでデータ品質管理タスクを実行できます。 カタログでは、読み取り専用のデータ品質情報を使用できます。

データ品質の分析およびモニター

データ品質分析とモニタリングを使用して、特定の基準に照らしてデータを評価します。 検証されるデータの品質における重要な変化を確認するには、これらの評価基準を時間の経過とともに繰り返し使用します。

データ品質チェックが設計された後、以下のオプションがあります。

  • データ・ソースに関係なく、データ・チェックのロジックを定義するデータ品質定義を作成します。 定義には、実行可能なデータ品質ルールの作成時に実際のデータ (例えば、データ・ソース、表と列、または結合された表) にリンクまたは バインド する論理変数または参照が含まれています。

    選択データ品質定義に基づく必要なバインディングを使用してデータ品質ルールを作成した後、そのルールを実行できます。 ルールは関連する統計を生成し、ルール構成に応じて出力表を生成できます。

  • SQL ベースのデータ品質ルールを作成します。

データ品質ルールの機能は、単純な単一列テストから、データ・ソース内およびデータ・ソース間の複数の列の評価まで多岐にわたります。

データ品質の評価

データの品質が高いかどうかを判別するには、データがどの程度期待に合っているかを確認し、データの異常を特定します。 データの品質を評価することにより、 データの構造と内容を理解することができます。

データ品質のモニタリング

重要なデータが組織の期待品質を満たすようにするには、データが標準に準拠しているかどうかを監視し、検出されたデータ品質の問題の修復を規定できるデータ品質SLAルールを導入する。

もっと見る

親トピック: データの準備

生成 AI の検索と回答
これらの回答は、製品資料の内容に基づいて、 watsonx.ai のラージ言語モデルによって生成されます。 詳細