マッチング・アルゴリズムのカスタマイズと強化 (IBM Match 360)
IBM Match 360 with Watson には、データ・エンジニア・ユーザーがマッチング・アルゴリズムを調整およびカスタマイズするために使用できるツールが含まれています。 アルゴリズムを調整することで、IBM Match 360 がマスター・データ・エンティティーを作成するためにデータをマッチングする方法を制御できます。
- 必要な権限
- マスター・データ・インスタンスを構成するには、 IBM Match 360 サービスの DataEngineer ユーザー・グループのメンバーでなければなりません。
アルゴリズムの構成とチューニングには、以下の 4 つの重要な部分があります。
一致する属性の選択。 マッチング・プロセス中に比較されるデータ・モデル属性を選択することで、アルゴリズムにとって最も重要な考慮事項であるデータ・ポイントを IBM Match 360 with Watson に指定できます。 強力な差別化要因である属性を選択することが重要です。 運転免許証番号などの一意の ID は、優れたマッチング属性です。 最初にマッチングを実行する前に、マッチング属性を選択する必要があります。
ペア・レビューの要求と完了。 ペア・レビューを要求して、マッチング・アルゴリズムの重みとマッチングしきい値を最適化するインテリジェントなチューニング推奨を生成します。 ペア・レビュー中に、データ・スチュワードはレコードのペアを比較して、それらが一致しているか、一致しているか、一致していないかを判別します。 データ・スチュワードの回答により、チューニングに関する推奨事項が通知されます。
チューニングに関する推奨事項の適用。 ペア・レビュー・タスクが完了すると、データ・エンジニアはチューニング推奨事項を適用するかどうかを決定できます。
オートリンクおよび事務レビューのしきい値の定義。 ペア・レビューからのチューニング推奨を受け入れると、オートリンクしきい値と事務しきい値は自動的に決定されますが、必要に応じていつでも手動でしきい値をオーバーライドできます。 IBM Match 360 が実行される各レコード間マッチング比較により、マッチング・スコアが生成されます。 このスコアは、0 から 100 までのパーセンテージ値として取ることができます。0 は不一致の確定値で、100 は一致の確定値です。 マッチング・アルゴリズムの構成の一環として、データ・エンジニアは以下の 2 つのしきい値を定義できます。
オートリンクしきい値 は、任意の 2 つのレコード間で自動一致判定を行うアルゴリズムの最小一致スコアを定義します。
- オートリンクしきい値が低い場合は、全体的な一致が多くなり、フォールス・ポジティブの一致が多くなる可能性があります。
- オートリンクしきい値が高い場合は、全体的な一致の数が少なくなり、シングルトン・エンティティー (単一のメンバー・レコードのみで構成される) の数が多くなります。多くの場合、フォールス・ネガティブの不一致が多くなります。
事務レビューしきい値 は、潜在的な一致の最小マッチング・スコアを定義します。 事務レビューしきい値を下回るスコアは、不一致と見なされます。 事務レビューしきい値とオートリンクしきい値の間の範囲にあるスコアは、データ・スチュワード・ユーザーが修正する潜在的な一致ワークフローを介して送信できます。
マッチング・アルゴリズムのしきい値 重要: マッチング設定で事務範囲が有効になっていない場合、潜在的な一致ワークフローはタスクを生成できません。 潜在的な一致のワークフローについては、[マスター・データ・ワークフローの構成] (m360-config-workflow.html) を参照してください。
IBM Match 360 REST API を使用する拡張アルゴリズム・チューニング手順については、 拡張マッチング・アルゴリズム・チューニングを参照してください。
このトピックでは、
マッチング・アルゴリズムの調整の準備
データに対してマッチングをまだ実行していない場合は、マッチングを実行する前に、まずマッチング属性を選択する必要があります。 必要に応じて、後で選択内容を変更できます。
マッチングを少なくとも 1 回実行するまで、オートリンクしきい値感度を変更したり、ペアのレビューを要求したりすることはできません。 この制限により、デフォルトの感度からしきい値を変更するための何らかの比較の基礎が確保されます。 例えば、データ内の誤検出一致が多すぎることに気付いた場合は、感度を上げることができます。 シングルトン・レコードが多すぎる場合は、感度を下げることができます。
マッチング・アルゴリズム設定を変更する前に、現在の設定を保存するための新しい構成スナップショットを作成することを検討してください。 スナップショットを使用すると、変更の結果に満足できない場合に、後で以前の構成に戻すことが容易になります。 スナップショットの作成については、 スナップショットを使用したマスター・データ構成設定の保存およびロードを参照してください。
マッチング属性の選択
IBM Match 360 がマッチング・アルゴリズムで使用する属性を選択するには、以下のようにします。
マスターデータのナビゲーションメニューから、マッチセットアップ「
」をクリックする。
マッチング・アルゴリズムを調整するエンティティのタイプを選択します。
「マッチング設定」 タブに移動し、サイドバーの 「属性選択」 を選択して、マッチング・データで使用する属性を選択します。 このタブに初めて移動すると、 IBM Match 360 によって、マッチングに使用するいくつかの推奨属性がデータ・モデルから自動的に生成されます。
マッチング属性とそのコンポーネント・フィールドのリストを確認します。 これらの属性およびフィールドは、レコードをマッチングして、マスター・データ・エンティティーを作成するための比較の基礎として使用されます。 属性をリストに追加またはリストから削除するには、「属性の編集」をクリックし、必要に応じて属性とそのコンポーネント・フィールドを選択またはクリアします。
一致する属性を選択するときに、 「一致の強さ」 インディケーターを使用して、変更がマッチング・アルゴリズムに与える影響の見積もりを確認します。
データ・モデルにカスタム属性を追加した場合、それらの属性はデフォルトではマッチングの対象として選択されません。 マッチングでカスタム属性タイプを使用する場合は、それを選択してから、考慮するフィールドを指定する必要があります。 フィールドを指定しない場合、マッチング・アルゴリズムは属性を使用できません。
非カスタム (事前定義) 属性タイプの場合、考慮するフィールドを指定しないと、マッチング・アルゴリズムはデフォルトのフィールド・セットを使用します。
マッチング属性の変更に問題がなければ、「保存」をクリックします。
更新した設定に基づいて、一致したエンティティーを再生成します。 アクションバーのマッチング実行アイコン「
」をクリックする。
マッチング・プロセスが完了するまでにしばらく時間がかかります。 これはバックグラウンドで実行されるため、作業を続行できます。 完了すると通知を受け取ります。その後、「マッチング結果」タブで結果の詳細を確認できます。
ペア・レビューの要求とチューニング推奨事項の適用
ペア・レビューを使用して、マッチング・アルゴリズムを調整します。 偽の一致に対するリスク許容度のレベルは組織ごとに異なります。ペアのレビューは、適切な一致の設定を判別するのに役立ちます。
データ・エンジニアは、データ・スチュワードがペア・レビューを完了するように要求し、結果として得られるチューニング推奨を受け入れるかどうかを決定できます。
ペア・レビューを要求するには、以下のようにし
マスターデータのナビゲーションメニューから、マッチセットアップ「
」をクリックする。
マッチング・アルゴリズムを調整するエンティティのタイプを選択します。
アルゴリズム・チューニング・ツールにアクセスするには、サイドバーの 「アルゴリズム・チューニング」 を選択します。
「ペア・レビューの要求」 セクションで、 「ペア・レビューの要求」をクリックします。
このタスクの一部として検討する必要があるレコード・ペアの数を選択します。 より多くのペアを確認すると、推奨されるチューニングが向上します。 レビューされるペアが少なすぎると、 IBM Match 360 は推奨を生成できません。
注: 生成されるペアの実際の数は、このステップで定義された数と一致しない場合があります。 生成されるレコード・ペアの数は、システム内の使用可能なデータ量およびその他の要因によって異なります。「要求の送信」をクリックします。
IBM Match 360 は、レコード・ペアの生成とペア・レビュー・タスクの作成を開始します。 「アルゴリズムのチューニング (Algorithm tuning)」 セクションでは、レビューの状況 (「ペアの生成 (Generating pairs)」 または 「進行中のレビュー (Review in progress)」) が通知され、現在のレビュー・タスクの進行状況も追跡されます。
データ・スチュワード・ユーザーとしてペア・レビュー・タスクを実行する方法については、 ペア・レビューの実行を参照してください。
ペア・レビューによって生成されたチューニング推奨事項を確認して適用するには、以下のようにします。
マスターデータのナビゲーションメニューから、マッチセットアップ「
」をクリックする。
マッチング・アルゴリズムを調整するエンティティのタイプを選択します。
アルゴリズム・チューニング・ツールにアクセスするには、サイドバーの 「アルゴリズム・チューニング」 を選択します。
「ペア・レビュー」 セクションで、最新のペア・レビュー・タスクの進行状況を確認します。 レビューされたペアの総数と、一致、不一致、または不確定な一致と判別されたペアの数を確認できます。
「しきい値」 セクションで、現在のマッチング・アルゴリズムの設定と、現在のフォールス・ポジティブ率およびフォールス・ネガティブ率の見積もりを確認します。
完了したペア・レビューが少なすぎる場合、またはマッチングがまだ実行されていない場合は、フォールス・ポジティブ率とフォールス・ネガティブ率を表示できません。
「しきい値の推奨」 セクションを展開します。
マッチング・アルゴリズム設定に対する推奨される更新を確認します。 推奨は、レビュー対象のペアに基づいて、誤検出率と検出漏れ率が最も低いしきい値を表します。
推奨設定を使用する場合は、 「推奨の適用」をクリックします。 推奨を適用すると、オートリンクの感度と、各属性に関連付けられた一致する重みが変更されます。
更新した設定に基づいて、一致したエンティティーを再生成します。 マッチ結果タブに移動し、アクションバーのマッチング実行アイコン「
」をクリックします。
マッチング・プロセスが完了するまでにしばらく時間がかかります。 これはバックグラウンドで実行されるため、作業を続行できます。 完了すると通知を受け取ります。その後、「マッチング結果」タブで結果の詳細を確認できます。
オートリンクおよび事務レビューのしきい値の手動による変更
推奨を生成するためにペア・レビューを使用しない場合、ニーズに合った正しいオートリンクおよび事務レビューの感度を見つけると、試行錯誤する可能性があります。 組織の特定の要件によっては、感度を調整してデータを複数回再マッチングするプロセスを繰り返すことが必要な場合があります。
合計オートリンクしきい値は、オートリンク感度 (0 から 100) に最大可能マッチング・スコアを乗算することによって計算されます。このスコアは、選択されたマッチング属性とアルゴリズム内の最大重みに基づいて決定されます。
マッチング・アルゴリズムのオートリンクおよび事務レビューのしきい値の感度を手動で変更するには、以下のようにします。
- マスターデータのナビゲーションメニューから、マッチセットアップ「
」をクリックする。
- マッチング・アルゴリズムを調整するエンティティのタイプを選択します。
- アルゴリズム・チューニング・ツールにアクセスするには、サイドバーの 「アルゴリズム・チューニング」 を選択します。
- 「しきい値」 セクションで現在の設定を確認します。
- スライダーまたは数値を入力して、オートリンクおよび事務レビューのしきい値を更新し、 「しきい値の適用」をクリックします。 アルゴリズムの変更を適用するためにマッチングを実行するように求めるプロンプトが出されます。
- オプションで、 「Clerical range」 トグル・スイッチを使用して、事務レビュー範囲を無効にすることができます。 事務範囲が無効になっている場合、アルゴリズムは一致または不一致の決定のみを行うことができ、データ・スチュワードが修復する潜在的な一致タスクをキューに入れることはできません。
- 更新した設定に基づいて、一致したエンティティーを再生成します。 マッチ結果タブに移動し、アクションバーのマッチング実行アイコン「
」をクリックします。
マッチング・プロセスが完了するまでにしばらく時間がかかります。 これはバックグラウンドで実行されるため、作業を続行できます。 完了すると通知を受け取ります。その後、「マッチング結果」タブで結果の詳細を確認できます。
次のステップ
もっと見る
親トピック: マスター・データの構成