プロジェクト内のデータ品質を分析およびモニターするためのデータ品質資産を設計します。
プロジェクトには、以下のデータ品質資産を含めることができます。
データ品質の定義とルールの作成を開始する前に、以下のトピックについて検討してください。
- 何を分析およびモニターしますか?
- どの要素を評価する必要がありますか?
- 完全性や妥当性などをチェックするなど、分析の目的は何ですか?
- 必要な権限
- データ品質資産を作成、編集、または削除するには、プロジェクトで 「データ品質資産の管理」 ユーザー権限 および 「管理」 または 「編集者」 役割が必要です。
データ品質定義
データ品質定義は、データ品質ルールの汎用形式を表します。 これは、実際のデータに結合されていない論理変数を使用して、ルールの評価または条件を記述します。 したがって、任意の数の データ品質ルールで使用できます。 データ品質定義を変更すると、その定義から派生したすべてのルールの検証ロジックも変更されます。
プロジェクトでデータ品質定義を作成および管理します。 データ品質定義を他のプロジェクトで再利用できるようにするには、データ品質定義をカタログに公開します。
データ品質定義のプロパティー
データ品質定義には、共通資産プロパティーに加えて、プロジェクト内に以下のプロパティーがあります。 適切な権限を持つユーザーは、すべてのプロパティーを編集できます。
共通プロパティーについて詳しくは、「 アセットの共通プロパティー」を参照してください。
プロパティー | 説明 |
---|---|
Rule Expression (規則式) | 定義されたルール・ロジック。 ルール式を変更すると、このデータ品質定義から派生したすべてのルールが影響を受けます。 |
データ品質ディメンション | オプション。 ルール・ロジックの 1 次データ品質メトリック。 選択したディメンションは、レポート・カテゴリーとして使用することも、フィルタリングのために使用することも、選択したデータを視覚化するために使用することもできます。 |
ガバナンス成果物 | オプション。 ユーザーが資産に割り当てたビジネス用語とガバナンス・ルール。 |
データ品質ルール
データ品質ルールは、評価のために論理変数を実際のデータに バインド します。 ルールは、特定の条件を評価および検証することによってデータの品質を評価するために、物理データに対して実行されます。 各ルール実行は、ルールの出力表に定義されている潜在的な例外に関する統計と情報を提供します。
プロジェクトでデータ品質ルールを作成、管理、および実行します。
1 つ以上のデータ品質定義からルールを作成することも、SQL ステートメントを使用してデータ品質ルールを作成することもできます。 データ品質定義から作成されたルールは、どの列がルール条件に準拠し、どの列が準拠しないかをキャプチャーします。 非準拠レコードのチェックには、SQL ベースのルールの方が適しています。
例えば、税 ID を検証するとします。 したがって、概念は TaxID exists および Validate TaxIDのようになります。
現在、以下のオプションがあります。
データ品質定義からルールを作成します。 どちらの概念についても、論理変数
tax_id
の評価ロジックを使用してデータ品質定義を作成できます。 最初の条件は、税 ID (または TaxID) が存在する必要があること、2 番目の条件は、税 ID が定義された形式を満たす必要があることです。データ品質定義 TaxID exists:
tax_id exists
データ品質定義 TaxID:tax_id matches_format 'AA99-A999-9999'
次に、以下のいずれかのオプションを選択します。
- 検証する税 ID を含む列ごとに、2 つのデータ品質ルールを定義します。 最初の規則は、定義 TaxID exists の論理変数
tax_id
を列にバインドします。 2 番目の規則は、定義 「Validate」 TaxID の論理変数tax_id
を列にバインドします。 - 検証対象の税 ID を含む列ごとに、1 つのデータ品質ルールを定義し、そのルールで両方のデータ品質定義を使用します。 TaxID exists と Validate TaxID のいずれかの定義の論理変数
tax_id
を列にバインドします。 - 1 つのデータ品質ルールを定義し、そのルールで両方のデータ品質定義を使用します。 TaxID exists と Validate TaxID のいずれかの定義にある論理変数
tax_id
を、 Parameter from columnタイプのパラメーター・セットにバインドします。 検証する税 ID を含むすべての列をそのパラメーター・セットに追加します。
- 検証する税 ID を含む列ごとに、2 つのデータ品質ルールを定義します。 最初の規則は、定義 TaxID exists の論理変数
SQL ベースのルールを作成します。
select tax_id from taxschema.taxtable where tax_id is null or not regexp_like(tax_id, '^[a-zA-Z]{2}[0-9]{2}-[a-zA-Z][0-9]{3}-[0-9]{4}$')
データ品質ルールのプロパティー
データ品質ルールには、共通資産プロパティーに加えて、プロジェクト内に以下のプロパティーがあります。 適切な権限を持つユーザーは、すべてのプロパティーを編集できます。
共通プロパティーについて詳しくは、「 アセットの共通プロパティー」を参照してください。
プロパティー | 説明 | ルールのタイプ |
---|---|---|
バインドされた式 | ルール式のリスト。 単純なルールの場合、バインドされた式のタグの上にカーソルを移動すると、バインディング・ターゲットに関する情報を表示できます。 | 外部バインディングを使用する単純なルール ルール |
SQL 接続 | ルールが適用されるデータ・ソースへの接続。 | SQL ベースのルール |
SQL ステートメント | ルールを構成している SQL 照会。 | SQL ベースのルール |
データ品質ディメンション | オプション。 データ品質ルールが寄与する 1 次データ品質メトリック。 | 外部バインディングを使用する単純なルール ルール |
関連DataStageフロー | ルール用のバインディングを提供する DataStage フロー。 | 外部バインディングを使用するルール |
データ品質定義 | ルール式を提供するデータ品質定義。 | 外部バインディングを使用する単純なルール ルール |
ガバナンス成果物 | オプション。 ユーザーが資産に割り当てたビジネス用語とガバナンス・ルール。 | 単純なルール 「外部バインディングを使用するルール」 SQL ベースのルール |
関係 | 「関連オブジェクト」 セクションに関係が表示されます。 データ品質ルールと、同じプロジェクト内の資産または列の間、またはルールと成果物の間にすることができます。 以下の関係は自動的に作成されます。 すべてのルール・タイプについて、ルールの初回実行後に、関連付けられた DataStage フローとの 実装元 関係 (外部管理バインディングを持つルールの場合)、関連付けられた DataStage サブフローとの 実装元 関係 (単純なルールの場合) バインドされた各列と、その列を含む資産との 以下のデータ品質を検証します。 関係。 外部管理バインディングを持つ単純なルールおよびルールの場合、参照される各データ品質定義の 「実装」 関係 必要に応じて関連オブジェクトを追加します。 「データ品質」 ページには、ここにリストされている関連する各資産または列の集約情報が、 「データ品質の検証」 関係とともに表示されます。 |
単純なルール 「外部バインディングを使用するルール」 SQL ベースのルール |
選択された出力 | オプション。 ルール出力表の列 (構成されている場合)。 | 単純なルール 「外部バインディングを使用するルール」 SQL ベースのルール |
もっと見る
親トピック: データ品質の管理