データ品質資産
プロジェクト内のデータ品質を分析およびモニターするためのデータ品質資産を設計します。
プロジェクトには、以下のデータ品質資産を含めることができます。
データ品質の定義とルールの作成を開始する前に、以下のトピックについて検討してください。
- 何を分析およびモニターしますか?
- どの要素を評価する必要がありますか?
- 完全性や妥当性などをチェックするなど、分析の目的は何ですか?
- 必要な権限
- データ品質資産作成、編集、または削除するには、 データ品質資産管理 ユーザー権限と、プロジェクトの 管理者 または エディター ロールが必要です。
データ品質定義
データ品質定義は、データ品質ルールの汎用形式を表します。 これは、実際のデータに結合されていない論理変数を使用して、ルールの評価または条件を記述します。 したがって、任意の数の データ品質ルールで使用できます。 データ品質定義を変更すると、その定義から派生したすべてのルールの検証ロジックも変更されます。
プロジェクトでデータ品質定義を作成および管理します。 データ品質定義を他のプロジェクトで再利用できるようにするには、データ品質定義をカタログに公開します。
データ品質定義のプロパティー
データ品質定義には、共通資産プロパティーに加えて、プロジェクト内に以下のプロパティーがあります。 適切な権限を持つユーザーは、すべてのプロパティーを編集できます。
共通プロパティーについて詳しくは、「 アセットの共通プロパティー」を参照してください。
プロパティー | 詳細 |
---|---|
Rule Expression (規則式) | 定義されたルール・ロジック。 ルール式を変更すると、このデータ品質定義から派生したすべてのルールが影響を受けます。 |
データ品質ディメンション | オプションです。 ルール・ロジックの 1 次データ品質メトリック。 選択したディメンションは、レポート・カテゴリーとして使用することも、フィルタリングのために使用することも、選択したデータを視覚化するために使用することもできます。 |
ガバナンス成果物 | オプションです。 ユーザーが資産に割り当てたビジネス用語とガバナンス・ルール。 |
データ品質ルール
データ品質ルールは、評価のために論理変数を実際のデータに バインド します。 ルールは、特定の条件を評価および検証することによってデータの品質を評価するために、物理データに対して実行されます。 各ルール実行は、ルールの出力表に定義されている潜在的な例外に関する統計と情報を提供します。
プロジェクトでデータ品質ルールを作成、管理、および実行します。
1 つ以上のデータ品質定義からルールを作成することも、SQL ステートメントを使用してデータ品質ルールを作成することもできます。 データ品質定義から作成されたルールは、どの列がルール条件に準拠し、どの列が準拠しないかをキャプチャーします。 非準拠レコードのチェックには、SQL ベースのルールの方が適しています。
例えば、税 ID を検証するとします。 したがって、概念は TaxID exists および Validate TaxIDのようになります。
現在、以下のオプションがあります。
データ品質定義からルールを作成します。 どちらの概念についても、論理変数
の評価ロジックを使用してデータ品質定義を作成できます。 最初の条件は、税 ID (または TaxID) が存在する必要があること、2 番目の条件は、税 ID が定義された形式を満たす必要があることです。tax_id
データ品質定義 TaxID が存在します :
tax_id exists
データ品質定義税務IDの検証 :tax_id matches_format 'AA99-A999-9999'
次に、以下のいずれかのオプションを選択します。
- 検証する税 ID を含む列ごとに、2 つのデータ品質ルールを定義します。 最初の規則は、定義 TaxID exists の論理変数
を列にバインドします。 2 番目の規則は、定義 「Validate」 TaxID の論理変数tax_id
を列にバインドします。tax_id
- 検証対象の税 ID を含む列ごとに、1 つのデータ品質ルールを定義し、そのルールで両方のデータ品質定義を使用します。 TaxID exists と Validate TaxID のいずれかの定義の論理変数
を列にバインドします。tax_id
- 1 つのデータ品質ルールを定義し、そのルールで両方のデータ品質定義を使用します。 TaxID exists と Validate TaxID のいずれかの定義にある論理変数
を、 Parameter from columnタイプのパラメーター・セットにバインドします。 検証する税 ID を含むすべての列をそのパラメーター・セットに追加します。tax_id
- 検証する税 ID を含む列ごとに、2 つのデータ品質ルールを定義します。 最初の規則は、定義 TaxID exists の論理変数
SQL ベースのルールを作成します。
select tax_id from taxschema.taxtable where tax_id is null or not regexp_like(tax_id, '^[a-zA-Z]{2}[0-9]{2}-[a-zA-Z][0-9]{3}-[0-9]{4}$')
データ品質ルールのプロパティー
データ品質ルールには、共通資産プロパティーに加えて、プロジェクト内に以下のプロパティーがあります。 適切な権限を持つユーザーは、すべてのプロパティーを編集できます。
共通プロパティーについて詳しくは、「 アセットの共通プロパティー」を参照してください。
プロパティー | 詳細 | ルールのタイプ |
---|---|---|
バインドされた式 | ルール式のリスト。 バインドされた式のタグにカーソルを合わせると、バインド先の情報を確認できます。 | 簡単な規則 |
ルール式 | ルール式のリスト。 | 外部バインディングを使用するルール |
SQL 接続 | ルールが適用されるデータ・ソースへの接続。 | SQL ベースのルール |
SQL ステートメント | ルールを構成している SQL 照会。 | SQL ベースのルール |
データ品質ディメンション | オプションです。 データ品質ルールが寄与する 1 次データ品質メトリック。 | 外部バインディングを使用する単純なルール ルール |
関連DataStageフロー | ルール用のバインディングを提供する DataStage フロー。 | 外部バインディングを使用するルール |
データ品質定義 | ルール式を提供するデータ品質定義。 | 外部バインディングを使用する単純なルール ルール |
ガバナンス成果物 | オプションです。 ユーザーが資産に割り当てたビジネス用語とガバナンス・ルール。 | 単純なルール 「外部バインディングを使用するルール」 SQL ベースのルール |
関係 | 「関連オブジェクト」 セクションに関係が表示されます。 Can be between the data quality rule and assets or columns in the same project, or between the rule and an artifact. The followingk relationships are automatically created: • For all rule types, an によって実装される relationship with the associated DataStage flow after the first run of the rule • For rules with externally managed bindings, an によって実装される relationship with the associated DataStage subflow • For simple rules, a データの品質を検証する relationship with each bound column. • 外部管理バインディングを持つ単純なルールおよびルールの場合、参照される各データ品質定義の 「実装」 関係 必要に応じて関連オブジェクトを追加します。 データ品質ページには、 関係性のデータ品質を検証する各列の集約情報が表示されます。 |
単純なルール 「外部バインディングを使用するルール」 SQL ベースのルール |
選択された出力 | オプションです。 ルール出力表の列 (構成されている場合)。 | 単純なルール 「外部バインディングを使用するルール」 SQL ベースのルール |
プロジェクト間でのデータ品質資産移植
プロジェクト資産エクスポート で説明されているように、あるプロジェクトからデータ品質資産エクスポートし、別のプロジェクトにインポートすることができます。 データ品質定義とルールに加えて、データ品質ルールに関連する以下の項目を選択して、プロジェクトのエクスポートに含めることができます:
- Connections
- バインディングで使用されるデータ資産
- DataStage フローとサブフロー
- ジョブ
- ルール出力テーブル用に作成されたデータ資産
以下の項目はエクスポートされません:
- ルールの走行履歴
- データ品質資産関連するガバナンス成果物
- プロジェクトレベルの出力設定
- ルールが生成するデータ品質情報
もっと見る
親トピック: データ品質の管理