有用なメタデータ・エンリッチ結果を得るには、プロジェクト内のすべてのメタデータ・エンリッチメントのデフォルト設定を構成します。 デフォルト設定は、エンリッチメント・オプションの一貫性のある使用にも役立ちます。
しきい値設定または選択した用語割り当て方式に対する変更は、新しいメタデータ・エンリッチメントと変更された設定に実行されるエンリッチ・ジョブに適用されます。 カテゴリーのセットに対する変更は、新しいエンリッチメントにのみ適用されます。
- 必要な権限
- メタデータ・エンリッチメントのデフォルト設定を構成するには、プロジェクト内で Admin 役割を持っている必要があります。 すべてのプロジェクト・コラボレーターが設定を閲覧できます。
以下のいずれかの方法でデフォルト設定にアクセスできます。
- 既存のメタデータ・エンリッチ資産内で、 「デフォルト設定」をクリックします。
- プロジェクトの 「管理」 ページで、 「ツール」>「メタデータ・エンリッチ」に移動します。
必要に応じて設定を編集します。 変更は自動保存されます。 設定によっては、いつでもシステム定義のデフォルト値を復元することができます。
以下の機能のデフォルト設定を構成します。
ユーザー・インターフェースの代わりに API を使用して、エンリッチ設定を作成、更新、または取得することもできます。 API へのリンクは、 「詳細情報」 セクションにリストされています。
プロファイルおよび用語の割り当て
プロファイル作成およびビジネス用語割り当てのしきい値を設定し、用語割り当ての方法を選択し、カテゴリーを事前選択します。 いつでも、変更したしきい値設定のデフォルトを復元することができます。
NULL 可能性
列またはフラット・ファイルのデータ・フィールドは、値を持たないことが許可されている場合は NULL 可能です。
- NULL のしきい値
- 列またはフラット・ファイル・フィールドが NULL 値を許可するかどうかを決定します。 列またはフラット・ファイルに値のないフィールドがある場合、検出された空のフィールドのパーセンテージが、設定されたしきい値と比較されます。 NULL 可能しきい値と同じかそれ以上の場合、このフィールドでは NULL 値が許可されます。 データ・フィールドに NULL 値が存在しない場合、または頻度のパーセンテージがしきい値より小さい場合は、データ・フィールドに値を指定する必要があります。 デフォルト設定は 5% です。
カーディナリティー
列のカーディナリティーは、固有、定数であり、または制約を受けません。 検出された固有特殊値の割合と、検出された最も頻度の高い定数値のパーセントが、設定されたしきい値と比較されます。 カーディナリティー・タイプは、それぞれのパーセンテージがしきい値のパーセンテージと等しいか、それより大きい場合は、固有または定数です。 それ以外の場合、制約はありません
- 固有性しきい値
- データ・フィールドが固有値を含むかどうかを判定します。 列またはフラット・ファイルが固有であると見なされるのは、個別値のパーセントが設定したしきい値以上である場合です。 デフォルトは 95% です。
- 定数しきい値
- 列またはフラット・ファイルに定数値が含まれているかどうかを判別します。 フィールドが定数であると判別されるのは、フィールドに単一の個別値が含まれていて、その頻度パーセントが設定した定数しきい値以上である場合です。 デフォルトは 99% です。
データ・クラスの割り当て
メタデータ・エンリッチに含まれるデータ・クラスは、プロファイル作成時にのみ列に自動的に割り当てられます。 用語の割り当ては、データ・クラスの割り当てには影響しません。 しきい値は、割り当てまたは推奨されるデータ・クラスの最小信頼性レベルを決定します。 割り当てしきい値は、提案しきい値より高くなければなりません。
自動的に割り当てられたデータ・クラスには、関連する分類を自動的に割り当てることもできる。
データ・クラスの分類割り当てオプションを有効または無効にすることで、この動作を制御できます。 クラス分けを参照。
- 割り当てしきい値
列に自動的に割り当てられる基準にデータ・クラスが一致する必要がある値の最小パーセンテージを決定します。 デフォルト設定は 75% です。 この設定は、データ・クラスに直接定義されたしきい値によってオーバーライドできます。
以下の事前定義データ・クラスには、デフォルトのしきい値が設定されています。
- 市区町村 (50%)
- 個人名 (50%)
- 名 (50%)
- ミドルネーム (50%)
- 姓 (50%)
- 組織名 (60%)
データ・クラスへのデータ・マッチングの追加を参照してください。
- 提案しきい値
列に対して推奨される基準にデータ・クラスが一致する必要がある値の最小パーセンテージを決定します。 デフォルト設定は 25% です。
主キー
主キーは、1 つ以上の列で構成することができ、表内の各レコードを一意的に識別します。 各表は、主キーを 1 つだけ持つことができます。
- 提案しきい値
- 主キーとして提案される列または列の組み合わせの最小信頼性を定義します。 デフォルト設定は 80% です。
表示名
組み込みの用語集と、エンリッチメントのために選択されたカテゴリの既存のビジネス用語の略語に基づいて、ファジィ・マッチングが使用され、データ資産とその資産に含まれる列のセマンティック名が、ソース名よりも説明的な代替名として生成される。 これらの代替名は、自動的に割り当てることも、提案することもできます。 閾値は、意味名が表示名として割り当てられたり提案されたりするための最小信頼レベルを決定する。 割り当てしきい値は、提案しきい値より高くなければなりません。
- 割り当てしきい値
- データ資産または列に表示名を自動的に割り当てるための信頼度を決定します。 デフォルト設定は 90% です。
- 提案しきい値
- データ資産または列に表示名を提案するために超えなければならない信頼度を決定します。 デフォルト設定は 75% です。
AI 生成の説明
生成 AI は、データ資産全体およびデータ資産に含まれる列の説明を生成できます。 granite.8b
モデルは、資産と列の文脈を考慮し、意味のある説明を提供する。 これらの説明は、自動的に割り当てることも、提案することもできます。 しきい値は、割り当てまたは推奨される説明の最小信頼性レベルを決定します。 割り当てしきい値は、提案しきい値より高くなければなりません。
- 割り当てしきい値
- 生成された説明をデータ資産または列に自動的に割り当てるために超えなければならない信頼度を決定します。 デフォルト設定は100%。
- 提案しきい値
- データ資産または列に対して、生成された説明が提案されるために超えなければならない信頼度を決定します。 デフォルト設定は 75% です。
用語の割り当て
(カテゴリー選択によって) メタデータ・エンリッチに含まれるビジネス用語は、列に自動的に割り当てることも、列に対して提案することもできます。 しきい値は、割り当てまたは提案される用語の最小信頼性レベルを決定します。 割り当てしきい値は、提案しきい値より高くなければなりません。 用語の割り当ては、データ・クラスの割り当てには影響しないことに注意してください。 データ・クラスに関連付けられている用語が、ML モデルまたは名前の突き合わせによって列に割り当てられる場合、関連するデータ・クラスも自動的には割り当てられません。
自動的に割り当てられた用語には、関連する分類を自動的に割り当てることもできる。
用語の分類割り当てオプションを有効または無効にすることで、この動作を制御できます。 クラス分けを参照。
- 割り当てしきい値
条件がデータ資産または列に自動的に割り当てられるために超過する必要があるマッチング値のパーセンテージを決定します。 デフォルト設定は 90% です。
- 提案しきい値
データ資産または列に対して条件を提案するために超過する必要がある一致値のパーセンテージを決定します。 デフォルト設定は 75% です。
ヒント:セマンティック用語割り当てが用語割り当て方法の1つとして選択されている場合は、このしきい値を65%~70%の範囲に下げることを検討してください。 そうでない場合は、信頼スコアが他の手法のスコアよりも低いことが多いため、この手法で返された用語は用語の割り当てに考慮されない可能性がある。
割り当ておよび提案を生成するためにプロジェクトで使用される用語割り当て方法を決定します。 割り当てと提案は、いずれかのメソッドが返す最高信頼性スコアに基づいて行われます。 以下の方法のうち少なくとも 1 つを選択してください。
機械学習: 用語を割り当てるために機械学習モデルが使用されます。 プロジェクトごとに、このモデルがプロジェクトからの資産を使用してトレーニングされるか、任意のカタログからの資産を使用してトレーニングされるかを定義できます。
データ・クラス・ベースの割り当て: 用語は、列のデータ・クラス割り当てに基づいて割り当てられます。 データ・クラスと用語の間の適切なリンケージは、ここでの品質結果の前提条件です。
名前の突き合わせ: 用語と資産または列の名前との類似性に基づいて用語が割り当てられます。
意味用語の割り当て: ドメイン固有のビジネス用語は、
slate.30m.semantic-automation.c2c
モデルを使用して割り当てられ、提案されます。 このモデルでは、資産と列の名前と説明が考慮され、用語がそのメタデータと意味的にマッチングされます。 したがって、完全一致でなくても用語を割り当てることができます。ヒント: この方法の信頼スコアは、他の方法よりも低いのが普通です。 したがって、サジェスチョンしきい値を65%~70%の範囲に下げて、意味的用語割り当てメソッドによって返された用語を用語割り当ての対象とする。
デフォルトでは、選択した用語の割り当て方法によって返される信頼性スコアは、前の用語の拒否に基づいて調整されます。これは、全体の信頼性スコアに影響します。
用語の拒否が信頼性スコアに影響しないようにするには、このオプションを無効にします。
どの用語の割り当て方法を選択しても、このオプションを有効または無効にすることができます。 設定したトレーニング・スコープは、項の割り当ての場合はモデルに適用され、信頼性スコアを調整する場合はモデルに適用されます。
用語の割り当てをテストおよび評価するには、個々の方法を使用します。例えば、カスタム・データ・クラスの大規模なセットがある場合などです。 この方法で、プロジェクトの適切なしきい値設定を確認することもできます。
詳しくは、 自動用語割り当てを参照してください。
分類の割り当て
関連するデータ・クラスまたは用語がデータ資産または列に自動的に割り当てられたときに、分類も割り当てられるかどうかを判断する。 この設定は、データ・クラスと用語に対して個別に行うことができます。
2024年8月23日以前に作成されたプロジェクトについては、分類の自動割り当てはデフォルトで無効になっています。
カテゴリー
ユーザーが新しいメタデータ・エンリッチメントを作成するときに選択できるカテゴリーのセットを、プロジェクトの目的に合ったカテゴリーに制限できます。 この選択では、メタデータ・エンリッチで実際に使用されるカテゴリーは決定されないことに注意してください。 プロジェクトに関連するカテゴリーを事前選択します。 選択されたカテゴリーによって、プロファイル作成および自動用語割り当てに使用できるビジネス用語およびデータ・クラスが決まります。 この選択は、データ・クラスまたは用語を手動で割り当てるときにユーザーのオプションが制限されません。 手動割り当ての場合、ユーザーはアクセス権限を持つ任意のカテゴリーからデータ・クラスまたはビジネス用語を選択できます。
このセットに対する変更はすべて、新しいメタデータ・エンリッチメントに反映されます。また、既存のメタデータ・エンリッチを編集するときにも反映されます。
拡張プロファイル設定
これらの設定は、ユーザーが 「外部出力」 オプションを有効にし、個々の実行ごとに上書きできる場合に、拡張データ・プロファイルに適用されます。
各列について、すべての個別値をキャプチャーするか、最も頻度の高い個別値の最大数をキャプチャーするかを決定します。 デフォルト設定では、最も頻度の高い 1,000 個の個別値がキャプチャーされます。
キャプチャした値を保存するデフォルトの出力場所を設定する:
- 接続を選択します。
- 選択した接続に応じて、スキーマとテーブルを選択するか、カタログ、スキーマ、テーブルを選択する。 既存のカタログ、スキーマ、テーブルから選択できます。 既存のスキーマに新しいテーブルを作成することもできる。
出力ターゲットとしてサポートされるデータ・ソースについては、 サポートされるデータ・ソースの 「出力表」 列を参照してください。 スキーマ名およびテーブル名は、以下の規則に従う必要があります。
- 名前の先頭文字は英字でなければなりません。
- 名前の残りの部分は、英字、数字、または下線で構成することができます。
- 名前にスペースを含めることはできません。
基本品質分析
データ品質しきい値を設定し、メタデータ・エンリッチメントの一部としてユーザーが品質分析を実行するときに適用するデータ品質検査を選択します。
- データ品質しきい値
- 資産が十分な品質または良好な品質であるために必要な最小データ品質スコアを決定します。 指定されたしきい値を下回るデータ品質スコアは、エンリッチ結果で赤い点でマークされます。 指定されたしきい値以上のデータ品質スコアには、緑のマークが付けられます。
- データ品質チェック
- メタデータ・エンリッチメントの一部として品質分析を実行するときに適用する、事前定義されたデータ品質検査を選択します。 少なくとも 1 つのチェックを選択してください。 「基本的なデータ品質分析の実行」 オプションで構成されたメタデータ・エンリッチメントの各実行は、選択されたチェックに関連付けられたデータ品質ディメンション・スコアに寄与します。 詳しくは、 事前定義データ品質検査を参照してください。
データ品質の出力
データ品質例外を保管するためのデフォルトの出力場所を設定し、データ品質チェックごとの例外レコードの最大数を決定します。 データベース表へのデータ品質例外の書き込みは、メタデータ・エンリッチ資産で有効にする必要があります。
- 例外出力レコードの最大数
データ品質検査ごとに、出力表に書き込まれる列ごとの問題の最大数を決定します。 デフォルトの設定値は 100 です。
- 出力ロケーション
データ品質の例外を格納するデフォルトの出力テーブルを設定する:
- 接続を選択します。
- 選択した接続に応じて、スキーマとテーブルを選択するか、例外を格納するカタログ、スキーマ、テーブルを選択する。
- オプションで、問題が見つかった行全体を格納するテーブルを選択します(例外レコード)。 例外テーブルが作成されるスキーマから既存のテーブルを選択するか、そのスキーマに新しいテーブルを作成することができます。
既存のスキーマおよび表から選択することも、既存のスキーマに新しい表を作成することもできます。 出力ターゲットとしてサポートされるデータ・ソースについては、 サポートされるデータ・ソースの 「出力表」 列を参照してください。 スキーマ名およびテーブル名は、以下の規則に従う必要があります。
- 名前の先頭文字は英字でなければなりません。
- 名前の残りの部分は、英字、数字、または下線で構成することができます。
- 名前にスペースを含めることはできません。
出力用の新しいテーブルを作成するには、使用可能なテーブルから選択するのではなく、名前を入力します。 表名に特殊文字が含まれていてはならないことに注意してください。
品質の問題のみを保管するために、以下の列定義を使用して新しい表が作成されます。
asset_id VARCHAR(40), issue_type VARCHAR(64), column1 VARCHAR(128), value1 VARCHAR(64), column2 VARCHAR(128), value2 VARCHAR(64)
品質問題と例外レコードを保管するために、以下の列定義を使用して品質問題の新しい表が作成されます。
asset_id VARCHAR(40), issue_type VARCHAR(64), column VARCHAR(128), row_id VARCHAR(64)
以下の列定義を使用して、例外レコードを保管するための新しい表が作成されます。
asset_id VARCHAR(40), row_id VARCHAR(64), row_data CLOB
いずれかのタイプの出力に対して既存のテーブルを選択する場合、選択されたテーブルは、意図された出力に対して適切な構造を持っている必要があります。
接続がロックされている場合は、個人の資格情報を入力するように求められます。 これは、ユーザーに対して永続的に接続のロックを解除する 1 回限りのステップです。
キー関係
キー リレーションシップは主キーと外部キーで構成され、リレーショナル データベース内の 2 つのデータ資産間のリレーションシップを定義します。
- 提案しきい値
1 次キーと外部キーの間の関係を提案するために必要な最小の信頼性を定義します。 デフォルト設定は 80% です。
このしきい値は、基本的なキー関係分析を実行するときに適用されます。詳細なキー関係分析やオーバーラップ分析には適用されません。 個々の実行ごとに、これらのタイプの分析の提案しきい値を設定できます。 「 関係の識別」を参照してください。
関係を自動的に割り当てるには、自動的に割り当てるオプションを選択し、割り当てしきい値を設定します。
- 割り当てしきい値
自動的に割り当てられる主キーと外部キー間の関係に必要な最小の信頼度を定義します。 デフォルト設定は 90% です。
キー関係が自動的に割り当てられると、親アセット内の対応する主キーも自動的に割り当てられます。 ただし、データ アセットに複数の主キーを割り当てることはできません。 したがって、資産に対して異なる主キーを持つ複数のキー関係が検出された場合、割り当てることができる関係は 1 つだけです。 信頼スコアが最も高い関係候補が割り当てられます。 この信頼スコアは、主キー分析の信頼スコアに基づいて計算されます。 すべての関係候補の信頼度スコアが同じ場合は、いずれも割り当てられません。
これらの設定は、基本的なキー関係分析を実行するときに適用されます。 これらは、詳細なキー関係分析や重複分析には適用されません。 これらのタイプの分析では、関係の自動割り当てを有効にし、個々の実行ごとに割り当てしきい値を設定できます。 「 関係の識別」を参照してください。
もっと見る
- データ・クラスへデータ・マッチングを追加する
- 用語の自動割り当て
- 主キーの指定
- 関係性の特定
- 自動期間割り当てのカスタムサービスの追加
- IBM Knowledge Catalog API:メタデータ・エンリッチメント設定の作成または更新
- IBM Knowledge Catalog API:メタデータ・エンリッチメントの設定を取得する
親トピック: データ資産の強化