データ品質定義を作成および管理して、データ資産内のデータ品質の分析に役立つロジックを定義できます。
必要なアクセス権を持っている場合は、以下の方法でデータ品質定義を管理できます。
これらのタスクは、ユーザー・インターフェースではなく API を使用して実行することもできます。 これらの API へのリンクは、 詳細情報 セクションにリストされています。
必要な権限
データ品質定義を表示するには、プロジェクトで少なくとも ビューアー 以上の役割を持っている必要があります。
データ品質定義を作成、編集、または削除するには、 「データ品質資産の管理」 ユーザー・アクセス権 と、プロジェクト内の 「管理」 または 「エディター」 役割が必要です。
データ品質定義の作成
データ品質定義を作成するには、以下のようにします。
プロジェクトを開き、クリック新しい資産 > データ品質の測定方法を定義する。
詳細を定義する:
- データ品質定義の名前を指定します。
- オプション: 説明を提供します。
- オプション: データ品質ディメンションを選択して、この資産のルール・ロジックの 1 次データ品質メトリックを記述します。 選択したディメンションは、レポート・カテゴリー、フィルタリング、または選択したデータの視覚化に使用できます。
ルール・ロジックを定義します。 フリー・フォーム・エディターを使用して、ルール・ロジックを構成できます。 「ルール式」 フィールドに式を入力します。 使用できる式のリストについては、 ルール・ロジックのブロックの作成を参照してください。 また、 サンプル・ルール式のセットも確認してください。 これらのサンプルは、ルール・ロジックのビルディング・ブロックを結合する方法を示しています。 提供された式を独自のデータ品質定義にコピーし、指定されたとおりに使用することも、必要に応じて調整することもできます。
式に二重引用符で囲まれたストリングが含まれている場合は、特別な考慮事項が適用されます。例えば、
ucase(trim(var_first_name)) NOT contains "YOU'RE"
のようになります。このような値は、ストリング・リテラルとして扱われます。 ただし、このような値を変数として扱いたい場合は、 IBM Knowledge Catalog API Replace project settings for data quality rules を使用して、プロジェクト設定
allow_quoted_variables
をtrue
に変更できます。フリー・フォーム・エディターで式を作成する代わりに、ブロック・エレメントを使用してルール・ロジックを構成できます。
「ロジック (Logic)」グループからエレメントを選択します (例えば、「IF THEN」)。 ルール・ロジックは、AND 演算子、OR 演算子、および NOT 演算子を使用して拡張できます。
「検査」を選択し、使用する検査のタイプを選択し、それを IF ブロックに接続します。
「変数およびリテラル」、 「操作」、 「日時」、 「一般」、 「数学」、または 「ストリング」 グループからチェックに必要な数だけ条件を選択し、それらを 「検査」 ロジックにドラッグします。
「検査 (Checks)」グループから 1 つ以上のタイプの検査を選択し、それを THEN ブロックに接続します。
「変数およびリテラル」、 「操作」、 「日時」、 「一般」、 「数学」、または 「ストリング」 グループからチェックに必要な数だけ条件を選択し、それらを 「検査」 ロジックにドラッグします。
キャンバスまたは個々のブロックを右クリックすると、追加のアクションが使用可能になります。 例えば、ブロックを複製したり、コメントを追加したりすることができます。
ヒント:コメントは、常にブロック・セクションに追加してください。 「ルール式」テキスト域でコメントを入力または更新すると、正常に機能しない場合があります。
ブロック・エレメントまたは構成体全体を削除するには、ごみ箱にドラッグします。
「ルール式」 フィールドのルール論理を確認します。
「作成」をクリックすると、式の構文が検査されます。 有効な場合は、データ品質定義が作成されます。 これで、この定義からデータ品質ルールを作成できます。
データ品質定義の公開
任意のデータ品質定義を、任意の数のプロジェクトに追加できるカタログに公開することにより、他のプロジェクトで再利用できるようにすることができます。 これを行う前に、データ品質定義の記述が意味のある情報を提供していることを確認してください。 このような情報は、他のユーザーがプロジェクトで使用するための適切なデータ品質定義を選択するのに役立ちます。
データ品質定義を公開するには、以下のようにします。
資産のリストからデータ品質定義を選択し、 「カタログに公開」をクリックします。 あるいは、資産のオーバーフロー・メニューから 「カタログに公開」 を選択することもできます。
カタログを選択し、資産プロパティーを入力します。
カタログ内に資産の重複が既に存在する場合は、そのような場合に実行するアクションを指定できます。 選択項目は、カタログのデフォルト設定によって決まります。 重複資産の処理について詳しくは、 カタログ内の重複資産の処理を参照してください。
「公開」 をクリックします。 資産がカタログに追加され、ユーザーがその所有者になります。 割り当てられたビジネス用語およびタグは、資産とともに公開されます。 割り当てられたガバナンス・ルールは公開されません。 このような関係は、定義を公開した後に手動で再作成する必要があります。
ルール式と選択したデータ品質ディメンションも公開され、カタログ内の資産プレビューで使用できるようになります。
データ品質定義に用語が割り当てられている場合、その用語の 「関連コンテンツ」 ページの 「データ品質定義」 セクションには、その関係を持つ定義が存在するコンテナーごとに 1 つの項目があります。 ガバナンス・ルールとの関係にも同じことが当てはまります。
カタログからプロジェクトにデータ品質定義を追加すると、割り当てられた分類と定義されている可能性のあるリレーションシッ プはプロジェクトにコピーされません。
データ品質定義の編集
データ品質定義を編集して、その名前、説明、選択したデータ品質ディメンション、ルール式、またはビジネス用語やガバナンス・ルールの割り当てを更新できます。
データ品質定義を編集するには、資産を開き、適切なアクションを実行します。
- 変更したいプロパティの横にある編集アイコン「」をクリックする。
- 資産名の横にあるオーバーフロー・メニューからオプションを選択します。 例えば、 「名前変更」 を選択して、アセット名を変更できます。
ルール式を変更すると、このデータ品質定義から派生したすべてのルールに影響することに注意してください。 このデータ品質定義に関連するルールがあれば、情報アイコン「」をクリックする。
データ品質定義の削除
データ品質定義は、以下のいずれかの方法で削除できます。
- プロジェクトで、データ品質定義を選択し、 「削除」をクリックします。
- データ品質定義を開き、データ品質定義の名前の横にあるオーバーフロー・メニューから 「削除」 を選択します。
このデータ品質定義に基づくデータ品質ルールがある場合は、定義を削除する前にそれらのルールを削除する必要があります。
もっと見る
- データ品質資産
- ルール・ロジックのビルディング・ブロック
- サンプル・ルール式
- データ品質ルールの管理
- カタログ内の重複資産の処理
- IBM Knowledge Catalog API:データ品質定義の作成
- IBM Knowledge Catalog API:データ品質定義式の検証
- IBM Knowledge Catalog API:アセットの公開
- IBM Knowledge Catalog API:データ品質定義の更新
- IBM Knowledge Catalog API:不要になったデータ品質定義を削除する
親トピック: データ品質の管理