データ品質ルールの出力設定を構成する
統計情報以上のルール出力をキャプチャするには、外部出力場所と、その場所に書き込むコンテンツを設定する。
ルールの出力をデータベースのテーブルに書き出すこともできる。 定義ベースのルールのバインディングが外部でマネージドいる場合、最大4つの DataStage 出力リンクを作成するオプションもある。
データベースのテーブルや出力リンクを生成する:
外部出力オプションを有効にし、セクションを展開する。
プロジェクト設定で出力テーブルの設定を行った場合、その設定を継承することを選択し、直接出力コンテンツの設定に進むことができます。 継承されたコンフィギュレーションは「 Current 」と表示されます。
プロジェクト設定で設定されたテーブルを使用したくない場合は、生成したい出力のタイプを選択します:
新規または既存のデータベーステーブルに出力を書き込む。
接続を選択します。 選択した接続に応じて、スキーマを選択するか、カタログとスキーマを選択する。 新規テーブルの場合は、作成する出力テーブルの名前を入力する。 そうでない場合は、既存のテーブルを選択する。 その場合、 Output content セクションにはこのテーブルのカラムが入力され、これらのカラムにコンテンツをマッピングすることができます。
ルールの実行時に、出力テーブルをデータ資産プロジェクトに追加するかどうかを選択できます。
サポートされているデータベースの種類については、 キュレーションとデータ品質のためのサポートされているコネクタを参照してください。
新しいテーブルを定義する場合、テーブル名にはユーザー定義名、名前を動的に作成するためのパラメータ、ユーザー定義名とパラメータの組み合わせ、またはパラメータの組み合わせを使用できます。
ユーザー定義のテーブル名はこの規約に従わなければならない:
- 名前の最初の文字はアルファベットでなければならない。
- 名前の残りの部分は、アルファベット、数字、アンダースコアで構成することができる。
- 名前にスペースを含んではならない。
動的な名前の作成には、これらのパラメータを使用できます:
#execution_id#
#rule_id#
#rule_name#
#project_id#
#job_id#
#rule_id#
#job_run_id#
#rule_id#
値が変化するパラメータについては、新しいテーブルが作成されるかもしれない:
- 各ルールの
#job_run_id#
- ルールがデータ品質ルールUIまたはAPIコールから実行される場合、
#execution_id#
さらに、以下のオプションも選択できる:
- issueが見つかった場合のみテーブルを作成するこのオプションは、ルールが出力レコードを生成しない場合に空のテーブルが作成されることを回避します。 ただし、その名前のテーブルが以前のルール実行時に生成されたためにすでに存在する場合、そのテーブルは変更されない。
- 生成された出力表をプロジェクト資産インポートする ルール出力に簡単にアクセスできるようにするには、新しいルール出力テーブルをデータ資産プロジェクトに追加する。 データベースクエリを実行する代わりに、プロジェクトの 資産 ページまたはルールの 走行履歴 からデータ資産データを表示できます。 デフォルトではこのオプションは有効になっています。
また、以下の設定を行う:
- 出力レコード :すべてのレコードを出力に含めるか、ルール条件を満たさないレコードのみを出力に含めるか(デフォルト設定)、またはルール条件を満たすレコードのみを出力に含めるかを選択します。
- 例外出力レコードの最大数 :すべてのレコードを含めるか、最大数を設定できます。
- 更新方法 :新しい出力レコードを出力テーブルの既存の内容に追加することができる。 最新の実行結果のみを残したい場合は、既存のレコードを上書きするを選択する。 更新方法 Append では、テーブル スキーマを変更できません。つまり、列の名前を変更したり、追加したり、削除したりすることはできません。 データ品質ルールの出力内容を変更して既存の出力テーブルに書き込む場合は、必ず更新メソッド Overwrite を使用して、出力テーブルのカラムを新しく定義した出力カラムに置き換えてください。
バインディングが DataStage フローでマネージドいる場合に出力リンクを作成するには、 DataStage 出力リンクを選択します。 最大4つの出力リンクを設定。 すべてのレコード、ルール条件を満たさないレコードのみ、ルール条件を満たすレコードのみ、またはルール条件に違反したすべてのレコード。 また、リンクごとに書き込む出力レコードの最大数を定義する。 出力レコードの内容は、次のステップで設定する内容によって決まる。 ルール条件に違反した場合、ルール内のデータ品質定義の数に応じて、0個以上の出力レコードが返されることがある。 各出力レコードは以下の情報を持つ:
- レコードID。 この指標は自動的に出力列として設定される。
- 入力レコードが通過しなかった定義の1つの定義ID
- 定義が重複している場合に、失敗した定義を一意に識別する番号
定義IDをプロジェクト内のデータ品質定義にマッピングするには、 IBM Knowledge Catalog APIを使用します:
これらの出力リンクのターゲット・ノードは、 DataStage フローで設定する必要がある。
出力タイプはいつでも変更できる。 新たに選択した内容に応じて、設定されているすべての設定がリセットまたは上書きされます。 完了したら、セクションを折りたたみ、出力コンテンツの設定に進む。
出力テーブルの内容を設定する。
- バインディングが外部でマネージドいる場合、 DataStage 入力リンクを通じて提供される追加カラムを出力テーブルに含めることができる。 このような列は、出力表構成にはリストされません。 ルールバインディングで使用される変数を含めることはできない。
- 出力コンテンツの追加をクリックし、以下のオプションのいずれかを選択します:
コラム
出力テーブルに表示したい列を選択する。 SQLベースのルールでは、SQLクエリが返すすべての列から選択できます。 Columns(列) オプションは、外部でマネージドバインディングを持つ定義ベースのルールを作成する場合は使用できません。
統計および属性
出力表に追加したい属性や統計情報を選択します。 どのメトリクスが利用できるかは、データ品質ルールのタイプによって異なります。
資産IDにバインド
ルールがバインドされているデータ資産資産のIDを一覧表示します。 このメトリックを選択すると、データ品質ルールのデータ資産 1つの出力レコードが書き込まれます。 したがって、個々の入力レコードに対して複数の出力レコードが書き込まれる可能性がある。 同じデータ品質ルールの異なる資産出力レコードの内容は、個々の入力レコードについて、これらのメトリクスについてのみ異なる: データ品質の定義 データ品質定義ID, 資産 IDにバインド, および多分 パスのルール, ルール違反, パーセント・パス・ルール, および ルール不履行の割合
このメトリックは、 データ品質定義またはデータ品質定義ID メトリックと組み合わせてのみ使用できます。 ルールが複数のデータ品質定義に関連付けられている場合、メトリック曖昧性解消器が自動的に出力に含まれる。
このメトリックは、外部でマネージドバインディングを持つ定義ベースのルール、またはSQLベースのルールでは使用できません。
列にバインド済み
バインドされた各カラムの名前をリストする。 このメトリックを選択すると、データ品質定義の各列に対して1つの出力レコードが書き込まれる。 したがって、個々の入力レコードに対して複数の出力レコードが書き込まれる可能性がある。 同じデータ品質定義の異なる列に対する出力レコードの内容は、個々の入力レコードについて、これらのメトリクスのみ異なる: データ品質定義、 データ品質定義ID、 列へのバインド、および多分合格ルール、 不合格ルール、 合格ルール・パーセント、 不合格ルール・パーセント
このメトリックは、 データ品質定義またはデータ品質定義ID メトリックと組み合わせてのみ使用できます。 ルールが複数のデータ品質定義に関連付けられている場合、メトリック曖昧性解消器が自動的に出力に含まれる。
このメトリックは、外部でマネージドバインディングを持つ定義ベースのルール、またはSQLベースのルールでは使用できません。
データ品質定義
適用されるデータ品質定義の名前をリストします。 このメトリックを選択した場合、ルールに含まれるデータ品質定義の数に応じて、複数の出力レコードが書き込まれる可能性がある。
この指標はSQLベースのルールでは利用できない。
データ品質定義ID
適用されるデータ品質定義を識別する一意のキーを含む。 このメトリックを選択した場合、ルールに含まれるデータ品質定義の数に応じて、複数の出力レコードが書き込まれる可能性がある。
この指標はSQLベースのルールでは利用できない。
曖昧さ回避
データ品質定義が複数回使用される場合に、主にルールで使用されるデータ品質定義を曖昧にしないための番号を含む。 ナンバリングは0から始まる。
この指標はSQLベースのルールでは利用できない。
失敗のルール
レコードが満たさなかったルール条件の数を表示します。
ジョブ ID
ルールの DataStage フローに関連するジョブ識別する一意のキーを含む。
ジョブ実行ID
ルールの DataStage フローに関連するジョブ個々のランを識別する一意のキーを含む。
成功のルール
レコードが満たしたルール条件の数を表示します。
成功のルールの割合
ルール条件が満たされた割合を示す。
失敗のルールの割合
ルール条件が満たされなかった割合を示す。
プロジェクト ID
ルールが存在するプロジェクトを識別する一意のキー。
レコード ID
出力内のレコードを識別する一意のキーを含む。 このメトリックは、ルール条件違反の出力リンクに自動的に含まれる。
ルールID
データ品質ルールを識別する一意のキーを含む。
ルール名
データ品質ルールの名前を含む。
システム日付
ルールが実行されたシステム日付を表示する。 システム日付は、サーバーに設定されているタイムゾーンの日付である。
システム時刻
ルールが実行されたシステム日時を表示する。 システム日時は、サーバーに設定されているタイムゾーンでの日時です。
変数 (Variables)
出力表に含めたい変数をルール・ロジックから選択します。
式
出力カラムの内容を定義する式を追加する。 この列には、出力内容の概要で説明的な名前を付けることができます。 ブロックエレメントを使って式を構成することができる。 必要に応じて要素を選択し、組み合わせる。 ブロック要素の使用については、 データ品質定義の管理を参照してください。 あるいは、フリーフォーム・エディターを使って式を作成することもできます。 ルール・ロジックまたはルール出力のビルディング・ブロックを参照。
もっと見る
親トピック データ品質ルールの管理