自動用語割り当ては、メタデータ・エンリッチメントの一部として、ビジネス用語をデータ資産および資産列に自動的にマップするプロセスです。
自動的に割り当てられたビジネス用語に加えて、プロジェクトまたはカタログ内のデータ資産プロパティーを編集するか、エンリッチメントの結果を処理するときに、用語を手動で割り当てることもできます。
自動用語割り当てがメタデータ・エンリッチの一部として構成されている場合、そのような割り当てはいくつかの方法で生成されます。 これらのメソッドは、割り当てる用語の提案も生成します。
用語は、信頼性レベルに基づいて割り当てられます。 最初に、これらの関連付けは候補として表示されます。これらの候補者は、ドメインの専門家とスチュワードが手動でレビューして割り当てることができます。 割り当てられた用語または提案された用語の信頼性は、パーセンテージ値として表示されます。 この値は、 全体の信頼性を表します。 全体的な信頼性の計算方法を参照してください。 用語が提案されるか、または自動的に割り当てられるときの信頼性レベルは、プロジェクトのエンリッチメント設定によって決定されます。 デフォルトで超えるべき信頼度は、用語候補の場合は 75%、候補用語の自動割り当ての場合は 90% です。 デフォルトのエンリッチ設定を参照してください。 プロジェクト管理者は、これらの設定をカスタマイズできます。
公開されたビジネス用語のみを割り当てることができます。 割り当てられた用語は、データ・クラスの割り当てには影響しません。
用語の割り当ての品質
高品質の用語割り当てを実現するには、以下のヒントを考慮してください。
メタデータ・エンリッチメントで使用するカテゴリーに、関連するガバナンス成果物のみが含まれていることを確認します。 ビジネス・ボキャブラリーをセットアップするときに、これを既に考慮することをお勧めします。
用語の割り当てしきい値を試します。 しきい値を変更すると、割り当てられた用語の数に大きな影響を与える可能性があります。 誤検出の数が少なく、欠落している真陽性の数が多すぎないしきい値を見つけます。
いくつかの誤検出を分析して、これらの用語が提案または割り当てられたパターンまたは有効な理由を見つけてください。 ほとんどのフォールス・ポジティブが特定のアルゴリズムに起因する可能性がある場合は、エンリッチメント設定でそのアルゴリズムを無効にして、用語の割り当てを再実行することを検討してください。 これにより誤検出の数が減少するかどうかを確認します。
慎重にレビューした用語の割り当てのみを公開するカタログで、ML モデルをトレーニングするようにしてください。 できれば、1 つのカタログをモデル・トレーニング専用にしてください。
列データまたはメタデータに基づく用語の割り当ての場合、用語とデータ・クラスの間の関係を作成します。 使用するデータ・クラスが誤検出を生成しないようにしてください。
用語の割り当て方法
使用可能な用語割り当て方法のすべてまたはサブセットを使用できます。
名前のマッチング
名前マッチング方式の結果は、用語の名前または省略形と、データ資産または列の名前との類似性に基づきます。 例えば CREDNUM という列は、「Credit Card Number」という用語に関連付けられる可能性があります (2 つの名前の間の類似性が高いため)。 名前のマッチングでは、用語名と省略形を持つデータ資産名と列名のみがマッチングされます。 説明は考慮されません。 ML ベースの用語割り当てでは、名前と説明が処理されます。
データ・クラス割り当てに基づく
クラス・ベースの割り当て方法では、データ分類に基づいて割り当てが生成されます。 列分析の結果または手動で資産列に対してデータ・クラスが選択され、このデータ・クラスが 1 つ以上のビジネス用語にリンクされている場合、これらの用語がそれぞれのしきい値を超えると、それらの用語が提案または割り当てられます。 用語の信頼性レベルは、用語がリンクされているデータ・クラスの信頼性と同じです。 例えば、90% の信頼性を持つメール・アドレスとして分類された列 COL1 は、データ・クラスと用語がリンクされている場合、「メール・アドレス」という用語に割り当てられる可能性があります。 列の名前と用語の間に類似性がないため、名前マッチング方式はこの関連付けを行うことができません。
クラス・ベースの割り当て方式を使用可能にするには、用語の割り当てを実行する前に、データ・クラスから用語へのリンケージを確認することが重要です。適切なリンケージは、高品質の結果を得るための重要な前提条件であるためです。
機械学習
用語割り当てを生成するための機械学習 (ML) 方式では、組み込みの監視対象機械学習モデルを使用します。 これらのモデルは、項の割り当てのモデルと項の削除のモデルで構成されます。
ML モデルは、公開された用語と、プロジェクトまたはカタログ内のトレーニング・データに存在する用語割り当てに基づいてトレーニングされます。 機械学習モデルのトレーニング・データを参照してください。 用語の割り当てが使用できない場合、用語の割り当てモデルのトレーニングでは、用語の名前と説明、およびデータ資産または列の言語的な類似性に焦点が当てられます。 その類似性に基づいて用語を割り当てることができます。 レビューされる割り当ての数が増えると、類似した特性を持つ列に対する用語の割り当てが使用可能になるため、言語の類似性に関係なく用語を割り当てることができます。
セマンティック用語の割り当て
この方法は、ドメイン固有のビジネス用語を割り当て、提案するために、微調整されたIBMSlate基礎モデルを使用する。 このモデルでは、資産と列の名前と説明が考慮され、用語がそのメタデータと意味的に一致します。 したがって、完全一致でなくても用語を割り当てることができます。
拒否用語
メタデータ・エンリッチの結果で用語の割り当てを確認すると、データ資産に対して正確ではないと思われる用語が見つかる場合があります。 このような用語を削除して、否定的なフィードバックを提供することができます。 そのような用語は拒否されたものと見なされます。 トレーニング・スコープがプロジェクトの場合、自動用語割り当てを再実行するときに、これらの拒否された用語に基づいて用語割り当ての信頼度スコアを調整できます。 選択した各用語割り当て方法によって返される個々の信頼性値は、用語の全体的な信頼性スコアを計算するために、この負の信頼性値によって調整されます。 全体的な信頼性スコアの計算方法を参照してください。
機械学習モデルのトレーニング・データ
プロジェクトごとに、自動用語割り当てに使用される組み込み ML モデルが、プロジェクトの資産を使用してトレーニングされるか、選択したカタログの資産を使用してトレーニングされるかを、デフォルトのエンリッチメント設定で定義できます。 拒否に基づいて信頼性スコアを調整できるのは、トレーニング・スコープがプロジェクトの場合のみです。
デフォルト設定では、プロジェクト内のモデルをトレーニングします。 この場合、モデルは、公開されたビジネス用語と、プロジェクトでレビュー済みのマークが付けられた列で使用可能な用語の割り当てまたは拒否を使用してトレーニングされます。
トレーニング・スコープとしてカタログを選択すると、用語割り当てのモデルは、公開されているビジネス用語と、選択したカタログで使用可能な用語割り当てを使用してトレーニングされます。 用語拒否のモデルは、カタログからの資産を使用してトレーニングすることはできません。
モデルはいつトレーニングされますか?
組み込み ML モデルのモデル・トレーニングは、メタデータ・エンリッチ・ジョブが開始され、以下のいずれかの条件が該当する場合にトリガーされます。
使用可能なモデルはまだありません。
モデルが最後にトレーニングされてから、新しいビジネス用語が作成されたか、既存の用語が更新されました。 用語を資産または列に割り当てる必要はありません。
トレーニング・スコープ・プロジェクト: モデルが最後にトレーニングされてから、少なくとも 21 列にレビュー済みのマークが付けられました。
トレーニング・スコープ・カタログ: モデルの最後のトレーニング以降に用語が割り当てられたか削除されたため、選択したカタログ内の少なくとも 21 列の割り当てが変更されました。
最後のトレーニングが正常に完了しなかったか、妥当な期間内に完了しませんでした。
信頼性スコア調整のモデルの初回使用時に項の拒否に関する情報が使用できない場合、このモデルの初期トレーニングは後で行われます。つまり、拒否された項に関する情報が後続のモデル・トレーニング・サイクルで使用可能になると、最初にトレーニングされます。
全体的な信頼性の計算方法
用語をデータ資産に関連付ける方法では、構成可能な最小値と 1 の間の数値である 信頼性が計算されます。 最小値は、 デフォルト・エンリッチ設定で構成できる用語割り当ての 提案しきい値 によって定義されます。
割り当てられた用語または提案された用語の信頼性は、パーセンテージ値として表示されます。 この値は、 全体の信頼性を表します。 全体の信頼性は、選択された項の割り当て方法によって返される信頼性値の最大値であり、項の削除について ML モデルから返される負の信頼性値によって調整される可能性があります。
選択した用語の割り当て方法によって返される信頼性値を、以前に拒否されたビジネス用語に基づいて調整するかどうかを選択できます。
例:
すべての方法が有効であると仮定すると、列 ADDRESS と用語 Home Address の信頼値は以下のようになります。
Name matching: 0.5
Class-based assignment: 0.4
ML-based assignment: 0.3
Semantic assignment: 0.5
ML model for rejections: -0.4
各メソッドの実際の信頼値は、拒否された用語に対して返された信頼値を減算することによって計算されます。
Name matching: 0.5 - 0.4 = 0.1
Class-based assignment: 0.4 - 0.4 = 0
ML-based assignment: 0.3 - 0.4 = -0.1
Semantic assignment: 0.5 - 0.4 = 0.1
全体の信頼性は 0.1 です。これは、この値がメソッドに対して計算された最高値であるためです。
複数の方法で同じ確信度値が計算された場合は、1 つの方法のみが自動的に割り当てられます。 このような用語が選択される順序は、以下のとおりです。
- データ・クラス・ベースの割り当て方式によって検出された用語
- セマンティック用語割り当て方式によって検出された用語
- ML メソッドによって検出された用語
- 名前マッチング方式によって検出された用語
新しい分析結果による既存の用語割り当ての更新方法
エンリッチメントを再実行すると、新しい分析結果によって用語の割り当てが以下のように更新されます:
用語割り当てのタイプ | データ資産または列がレビューされました | データ資産または列がレビューされていません |
---|---|---|
手動で割り当てられた用語 | 用語は変更されません。 | 用語は変更されません。 |
拒否用語 | 用語は変更されません。 | 用語は変更されません。 |
提案された用語 | 用語が削除され、新しい推奨用語に置き換えられます。 | 用語が削除され、新しい推奨用語に置き換えられます。 |
自動的に割り当てられた用語 | 既存の条件は変更されません。 新たに検出された用語は、推奨される用語として追加されます。 | 既存の用語の割り当てが更新されます。 |
もっと見る
親トピック: メタデータ・エンリッチメントの結果