データ品質ルールの出力設定を構成する

最終更新: 2025年4月08日
データ品質ルールの出力設定を構成する

統計情報以上のルール出力をキャプチャするには、外部出力場所と、その場所に書き込むコンテンツを設定する。

ルールの出力をデータベースのテーブルに書き出すこともできる。 定義ベースのルールのバインディングが外部でマネージドいる場合、最大4つの DataStage 出力リンクを作成するオプションもある。

データベースのテーブルや出力リンクを生成する:

  1. 外部出力オプションを有効にし、セクションを展開する。

    プロジェクト設定で出力テーブルの設定を行った場合、その設定を継承することを選択し、直接出力コンテンツの設定に進むことができます。 継承されたコンフィギュレーションは「 Current 」と表示されます。

  2. プロジェクト設定で設定されたテーブルを使用したくない場合は、生成したい出力のタイプを選択します:

    • 新規または既存のデータベーステーブルに出力を書き込む。

      接続を選択します。 選択した接続に応じて、スキーマを選択するか、カタログとスキーマを選択する。 新規テーブルの場合は、作成する出力テーブルの名前を入力する。 そうでない場合は、既存のテーブルを選択する。 その場合、 Output content セクションにはこのテーブルのカラムが入力され、これらのカラムにコンテンツをマッピングすることができます。

      ルールの実行時に、出力テーブルをデータ資産プロジェクトに追加するかどうかを選択できます。

      サポートされているデータベースの種類については、 キュレーションとデータ品質のためのサポートされているコネクタを参照してください。

      新しいテーブルを定義する場合、テーブル名にはユーザー定義名、名前を動的に作成するためのパラメータ、ユーザー定義名とパラメータの組み合わせ、またはパラメータの組み合わせを使用できます。

      ユーザー定義のテーブル名はこの規約に従わなければならない:

      • 名前の最初の文字はアルファベットでなければならない。
      • 名前の残りの部分は、アルファベット、数字、アンダースコアで構成することができる。
      • 名前にスペースを含んではならない。

      動的な名前の作成には、これらのパラメータを使用できます:

      • #execution_id#
      • #rule_id#
      • #rule_name#
      • #project_id#
      • #job_id#
      • #rule_id#
      • #job_run_id#
      • #rule_id#

      値が変化するパラメータについては、新しいテーブルが作成されるかもしれない:

      • 各ルールの #job_run_id#
      • ルールがデータ品質ルールUIまたはAPIコールから実行される場合、 #execution_id#

      さらに、以下のオプションも選択できる:

      • issueが見つかった場合のみテーブルを作成するこのオプションは、ルールが出力レコードを生成しない場合に空のテーブルが作成されることを回避します。 ただし、その名前のテーブルが以前のルール実行時に生成されたためにすでに存在する場合、そのテーブルは変更されない。
      • 生成された出力表をプロジェクト資産インポートする ルール出力に簡単にアクセスできるようにするには、新しいルール出力テーブルをデータ資産プロジェクトに追加する。 データベースクエリを実行する代わりに、プロジェクトの 資産 ページまたはルールの 走行履歴 からデータ資産データを表示できます。 デフォルトではこのオプションは有効になっています。

      また、以下の設定を行う:

      • 出力レコード :すべてのレコードを出力に含めるか、ルール条件を満たさないレコードのみを出力に含めるか(デフォルト設定)、またはルール条件を満たすレコードのみを出力に含めるかを選択します。
      • 例外出力レコードの最大数 :すべてのレコードを含めるか、最大数を設定できます。
      • 更新方法 :新しい出力レコードを出力テーブルの既存の内容に追加することができる。 最新の実行結果のみを残したい場合は、既存のレコードを上書きするを選択する。 更新方法 Append では、テーブル スキーマを変更できません。つまり、列の名前を変更したり、追加したり、削除したりすることはできません。 データ品質ルールの出力内容を変更して既存の出力テーブルに書き込む場合は、必ず更新メソッド Overwrite を使用して、出力テーブルのカラムを新しく定義した出力カラムに置き換えてください。

    • バインディングが DataStage フローでマネージドいる場合に出力リンクを作成するには、 DataStage 出力リンクを選択します。 最大4つの出力リンクを設定。 すべてのレコード、ルール条件を満たさないレコードのみ、ルール条件を満たすレコードのみ、またはルール条件に違反したすべてのレコード。 また、リンクごとに書き込む出力レコードの最大数を定義する。 出力レコードの内容は、次のステップで設定する内容によって決まる。 ルール条件に違反した場合、ルール内のデータ品質定義の数に応じて、0個以上の出力レコードが返されることがある。 各出力レコードは以下の情報を持つ:

      • レコードID。 この指標は自動的に出力列として設定される。
      • 入力レコードが通過しなかった定義の1つの定義ID
      • 定義が重複している場合に、失敗した定義を一意に識別する番号

      定義IDをプロジェクト内のデータ品質定義にマッピングするには、 IBM Knowledge Catalog APIを使用します:

      これらの出力リンクのターゲット・ノードは、 DataStage フローで設定する必要がある。

    出力タイプはいつでも変更できる。 新たに選択した内容に応じて、設定されているすべての設定がリセットまたは上書きされます。 完了したら、セクションを折りたたみ、出力コンテンツの設定に進む。

  3. 出力テーブルの内容を設定する。

    1. バインディングが外部でマネージドいる場合、 DataStage 入力リンクを通じて提供される追加カラムを出力テーブルに含めることができる。 このような列は、出力表構成にはリストされません。 ルールバインディングで使用される変数を含めることはできない。
    2. 出力コンテンツの追加をクリックし、以下のオプションのいずれかを選択します:
      • コラム

        出力テーブルに表示したい列を選択する。 SQLベースのルールでは、SQLクエリが返すすべての列から選択できます。 Columns(列) オプションは、外部でマネージドバインディングを持つ定義ベースのルールを作成する場合は使用できません。

      • 統計および属性

        出力表に追加したい属性や統計情報を選択します。 どのメトリクスが利用できるかは、データ品質ルールのタイプによって異なります。

        • 資産IDにバインド

          ルールがバインドされているデータ資産資産のIDを一覧表示します。 このメトリックを選択すると、データ品質ルールのデータ資産 1つの出力レコードが書き込まれます。 したがって、個々の入力レコードに対して複数の出力レコードが書き込まれる可能性がある。 同じデータ品質ルールの異なる資産出力レコードの内容は、個々の入力レコードについて、これらのメトリクスについてのみ異なる: データ品質の定義 データ品質定義ID, 資産 IDにバインド, および多分 パスのルール, ルール違反, パーセント・パス・ルール, および ルール不履行の割合

          このメトリックは、 データ品質定義またはデータ品質定義ID メトリックと組み合わせてのみ使用できます。 ルールが複数のデータ品質定義に関連付けられている場合、メトリック曖昧性解消器が自動的に出力に含まれる。

          このメトリックは、外部でマネージドバインディングを持つ定義ベースのルール、またはSQLベースのルールでは使用できません。

        • 列にバインド済み

          バインドされた各カラムの名前をリストする。 このメトリックを選択すると、データ品質定義の各列に対して1つの出力レコードが書き込まれる。 したがって、個々の入力レコードに対して複数の出力レコードが書き込まれる可能性がある。 同じデータ品質定義の異なる列に対する出力レコードの内容は、個々の入力レコードについて、これらのメトリクスのみ異なる: データ品質定義データ品質定義ID列へのバインド、および多分合格ルール不合格ルール合格ルール・パーセント不合格ルール・パーセント

          このメトリックは、 データ品質定義またはデータ品質定義ID メトリックと組み合わせてのみ使用できます。 ルールが複数のデータ品質定義に関連付けられている場合、メトリック曖昧性解消器が自動的に出力に含まれる。

          このメトリックは、外部でマネージドバインディングを持つ定義ベースのルール、またはSQLベースのルールでは使用できません。

        • データ品質定義

          適用されるデータ品質定義の名前をリストします。 このメトリックを選択した場合、ルールに含まれるデータ品質定義の数に応じて、複数の出力レコードが書き込まれる可能性がある。

          この指標はSQLベースのルールでは利用できない。

        • データ品質定義ID

          適用されるデータ品質定義を識別する一意のキーを含む。 このメトリックを選択した場合、ルールに含まれるデータ品質定義の数に応じて、複数の出力レコードが書き込まれる可能性がある。

          この指標はSQLベースのルールでは利用できない。

        • 曖昧さ回避

          データ品質定義が複数回使用される場合に、主にルールで使用されるデータ品質定義を曖昧にしないための番号を含む。 ナンバリングは0から始まる。

          この指標はSQLベースのルールでは利用できない。

        • 失敗のルール

          レコードが満たさなかったルール条件の数を表示します。

        • ジョブ ID

          ルールの DataStage フローに関連するジョブ識別する一意のキーを含む。

        • ジョブ実行ID

          ルールの DataStage フローに関連するジョブ個々のランを識別する一意のキーを含む。

        • 成功のルール

          レコードが満たしたルール条件の数を表示します。

        • 成功のルールの割合

          ルール条件が満たされた割合を示す。

        • 失敗のルールの割合

          ルール条件が満たされなかった割合を示す。

        • プロジェクト ID

          ルールが存在するプロジェクトを識別する一意のキー。

        • レコード ID

          出力内のレコードを識別する一意のキーを含む。 このメトリックは、ルール条件違反の出力リンクに自動的に含まれる。

        • ルールID

          データ品質ルールを識別する一意のキーを含む。

        • ルール名

          データ品質ルールの名前を含む。

        • システム日付

          ルールが実行されたシステム日付を表示する。 システム日付は、サーバーに設定されているタイムゾーンの日付である。

        • システム時刻

          ルールが実行されたシステム日時を表示する。 システム日時は、サーバーに設定されているタイムゾーンでの日時です。

      • 変数 (Variables)

        出力表に含めたい変数をルール・ロジックから選択します。

      • 出力カラムの内容を定義する式を追加する。 この列には、出力内容の概要で説明的な名前を付けることができます。 ブロックエレメントを使って式を構成することができる。 必要に応じて要素を選択し、組み合わせる。 ブロック要素の使用については、 データ品質定義の管理を参照してください。 あるいは、フリーフォーム・エディターを使って式を作成することもできます。 ルール・ロジックまたはルール出力のビルディング・ブロックを参照。

もっと見る

親トピック データ品質ルールの管理