One-source Match ステージ
One-source Match ステージは、単一のソース・ファイルからのレコードをマッチングします。
レコードのグループ化の例としては、同じ個人、世帯、またはイベントに該当するすべてのレコードを見つける場合などがあります。 さらに、ファイルを重複排除して、顧客のすべての請求書をグループ化したり、メーリング・リストをマージしたりすることができます。
- マッチング・カットオフより大きい重みを持つすべてのレコードを、重複のセットとして分類します。
- セット内のレコードのうち、最も重みが大きいレコードに一致するレコードを選択することで、マスター・レコードを識別します。 マスター・レコードは、その重複のセットに関連付けられます。
- 重複のセットに属していないレコードが不一致レコードであることを判別します。 不一致レコードおよびマスター・レコードは、通常、次のパスで使用可能になります。
- 後続のパスで重複を排除します。 ただし、後続のパスに重複を含める場合は、独立マッチング・タイプを選択できます。
ワンソースマッチ段階の出力には、マスターレコード、マッチングのカットオフ値を超える重複レコード、事務処理上の重複レコード、マッチングされなかったレコード、マッチング処理の結果に関する統計データなどが含まれます。
One-source Match ステージへの入力
One-source Match ステージは、2 つの入力リンクを受け入れます。1 つはソース・データ用のリンク、もう 1 つはそのデータの頻度情報からのリンクです。 One-source Match ステージでは、単一ソース・マッチング仕様を使用して、データのグループ化とマッチングを行います。
- 一致を検索する対象のデータ。 出力を生成する任意のステージをソースにすることができます。 ただし、ベスト・プラクティスとして、One-source Match ステージを使用する前にデータを標準化してください。
- Match Frequency ステージによって生成される、そのデータの頻度情報。 現在のジョブの一部として、Match Frequency ステージから頻度データを入力できます。 また、以前に実行された Match Frequency ジョブから出力された頻度データを入力することもできます。
このステージを構成する場合は、資産から既存のマッチング仕様を指定する必要があります。 このマッチング仕様は、One-source Match タイプでなければならず、One-source Match ステージに入力するデータの列定義に基づいていなければなりません。
One-source Match ステージは、マッチング仕様に基づいて入力データのマッチングとグループ化を行います。 出力する列を選択します。
One-source Match ステージのワークフロー
One-source Match ステージには、特定の属性に従ってデータを処理するための、単一ソース・マッチング仕様、標準化済みデータ、および頻度情報が必要です。
- ソース・データを標準化します。
- ソース・データから典型的なサンプル・データ・セットを作成します。
- Match Frequency(一致頻度)ステージを使用して、頻度情報を生成します。
- DataStage® フローのマッチ関連ステージがインポートされると、関連するマッチ仕様もアセットにインポートされます。 これらのマッチング仕様ファイルは、One-source Match ステージで使用できます。
- オプション。 頻度データの量を削減する必要がある場合は、Frequency Match ステージ・ジョブを再実行します。 ただし、このジョブ実行では、単一ソース・マッチング用に作成したマッチング仕様を使用します。 単一ソース・マッチング仕様を使用すると、頻度データはこのマッチング・ジョブに関係する列のみに限定されます。
- DataStage ソースデータと周波数情報を入力として、ワンソースマッチングの段階を含むフローを作成します。
- One-source Match ステージを構成します。このステージには、作成した単一ソース・マッチング仕様の選択が含まれています。
One-source Match ステージ・ジョブの作成
One-source Match ステージ・ジョブでは、One-source Match ステージをジョブに追加し、それを 2 つのソース・ステージと最大 5 つの出力ステージにリンクする必要があります。
手順
One-source Match ステージの構成
このステージを含むジョブを作成した後、使用可能なマッチング仕様、および 1 つのデータ・ソース内のレコードに一致するその他の設定から選択します。
- DataStage 設定したいOne-source Matchステージを含むフローを開きます。
- One-source Match ステージをダブルクリックします。
- 「マッチング仕様」フィールドで「参照」をクリックし、単一ソース・マッチング仕様を選択します。
- 選択したマッチング仕様のいずれかのマッチング・カットオフ値をオーバーライドするには、「マッチング・カットオフのオーバーライド」を選択し、「編集」をクリックしてから、「一致」列または「要検討」列に新しい値またはジョブ・パラメーターを入力します。
- 「マッチング・カットオフのオーバーライド」に特定の値を入力するには、値の横にある鉛筆アイコンをクリックし、新しい値を入力します。 ⋮ アイコンをクリックして、以下のいずれかのオプションを選択します。
オプション アクション 既存のジョブ・パラメーターを使用します。 「パラメーターの挿入」を選択し、既存のパラメーターを選択します。 マッチング仕様からカットオフ値に戻します。 「マッチング仕様の使用」を選択します。 - 「マッチング・タイプ」のドロップダウン・リストから、マッチング・タイプを選択します。
- 「マッチング出力」ペインで、作成する 1 つ以上の出力を選択します。 以下の条件に注意してください。
- 選択する各出力には、対応する出力リンクが必要です。
- 複数のリンクに出力を送信することはできません。
- 「出力」タブの「列」セクションで、任意の 1 つの出力に対して「編集」を選択して出力列を変更します。
- 保存 をクリックします。
One-source Match ステージのマッチング・タイプ
- 依存.
1ソース依存のマッチでは、パスはデータを順次処理する。 各パスでは、マスター・レコードを中心にグループが作成されます。 同じマスター・レコードのすべてのパスで形成されるグループが結合されて、マスターの最終グループが作成されます。
グループ内の各重複レコードは、いずれかのマッチング・パスでグループのマスター・レコードとマッチングします。 パスのマスター・レコードと不一致レコードは、後続のパスで使用できます。 重複は考慮されないため、複数のグループには割り当てられません。 既存のマスター・レコードは、後続のパスでのグループ作成では優先されます。
- 無所属。
単一ソース独立マッチングの各パスでは、すべての入力レコードを処理します。 単一ソース従属マッチング・タイプの場合のように、各パスでは、マスター・レコードを中心にグループが作成されます。 しかし、各パスはすべての入力レコードを処理するため、1 つのレコードが複数のパスからのグループのメンバーである場合があります (同様に、レコードは、あるパスで作成されたグループではマスターであると同時に、別のパスで作成されたグループでは重複であることがあります)。
すべてのパスからのグループはマージされるため、共通のレコードを持つグループは単一グループを形成します。 レコード A はレコード B を持つグループに存在し、レコード B はレコード C を持つ別のグループに存在する場合、この 2 つのグループはマージされるため、レコード A、B、および C はすべて同一グループに存在することになります (1 つのレコードが複数のグループに属することはありません)。 グループは、共通のレコードを持つグループがすべてマージされるまでマージされます。 パス・レベルでは、グループ・メンバーシップを判別する関係は、マスター・レコードをマッチングするレコードの関係です。 ただし、マージ・プロセスでは、関係はグループ・メンバーシップの 1 つです。 したがって、グループのメンバーは関係のチェーンによって接続でき、必ずしもすべてが 1 つの共通のマスターとマッチングするわけではありません。
- 推移。
単一ソース独立マッチングの場合と同様に、単一ソース推移マッチングでも各パスですべてのレコードを処理します。 ただし、単一ソース推移マッチングでは、単一ソース独立マッチング・タイプの場合と異なり、パス・レベルのグループは作成されません。 代わりに、グループの作成には、マッチング・カットオフを超えるスコアを持つすべてのレコード・ペアが使用されます。
パス・レベルのグループを作成すると、各レコードが別のグループに入れられる場合、パスでレコード・ペアのスコアがマッチング・カットオフを超えていたという情報は破棄されます。 単一ソース推移マッチング・タイプでは、この情報は破棄されません。 任意のパスでのマッチング・カットオフを超えるスコアを持つすべてのレコードが同じグループに属するように、グループを作成します。 例えば、レコード A とレコード B のスコアはあるパスでマッチング・カットオフを超え、レコード B とレコード C のスコアはあるパス (同じパスの可能性あり) でマッチング・カットオフを超える場合、レコード A、B、および C は同一グループに追加されます (1 つのレコードが複数のグループに属することはありません)。 単一ソース従属マッチングの場合と同様に、グループのメンバーは関係のチェーンによって接続することができ、必ずしもすべてが 1 つの共通のマスターとマッチングするわけではありません。 しかし、単一ソース推移チェーンは、マッチング・カットオフを超えるスコアを持つすべてのペアを使用するため、さらに拡張できます。
ほとんどの場合は従属マッチング・タイプを選択します。これは、重複を対象外にして、後続のパスで他のレコードとマッチングしないようにするためです。
ただし、住所とは関係なく個人または組織をリンクする場合は、独立オプションが便利です。 例えば、ある医者が仕事をしているすべての場所をリンクするようなことが考えられます。
推移オプションは、重複識別を支援するフィールド (生年月日や運転免許証番号など) への不整合なデータ入力の理由を説明する必要がある場合に便利です。
- 従属マッチング・タイプおよび独立マッチング・タイプの処理例
- 以下の例は、One-source Match ステージで、独立マッチング・タイプを使用する方法を示します。 表には、同じ人物を説明する 4 つのレコードが示されています。 住所とは関係なく、同一人物に関するすべてのレコードが一致する必要があります。
表 1. 同じ人物を説明する 4 つのレコード レコード 名前 アドレス 納税者番号 1 William Nickson 123 Rodeo Drive 123456789 2 Bill Nixon 123 Rodeo Drive 3 B Nickson 978 Sunset Blvd. 123456789 4 Nickson 456 Western Ave. 123456789 このデータを使用するマッチング・プロセスでは、選択したマッチング・タイプに応じてさまざまな結果が生じます。- 従属
- 最初のパスで、名前と住所でブロッキングとマッチングを行います。 レコード 1 と 2 が、一致ペアと見なされます。 レコード 3 と 4 は、不一致レコードと見なされます。
- レコード 2 (納税者番号なし) がマスターとして選択されると、レコード 1 が重複とみなされ、レコード 1 は 2 番目のパスでは使用できません。
- 2 番目のパスでは、 名前と納税者番号でブロッキングとマッチングを行うと、レコード 3 と 4 のみが一致となります。 この結果、一致レコードのグループは、レコード 1 とレコード 2、およびレコード 3 とレコード 4 の 2 つになります。
- Independent
- 最初のパスの結果は、従属マッチングと同じです。 レコード 1 と 2 が、一致ペアと見なされます。 レコード 3 と 4 は、不一致レコードと見なされます。
- 2 番目のパスでレコード 2 (納税者番号なし) がマスター・レコードとして選択された場合、重複レコードのレコード 1 も残りのレコードと比較されます。 名前と納税者番号でブロッキングを行った場合、レコード 1、3、4 が一致となります。 最初のパスでレコード 1 はレコード 2 と一致しているため、出力は 4 つすべてのレコードがリンクされた 1 つのグループになります。
- 従属
- 従属マッチング・タイプおよび推移マッチング・タイプの処理例
- 以下の例は、One-source Match ステージで、推移マッチング・タイプ・オプションを使用する方法を示します。 この表には、同じ姓のレコード間での 1 日の差異を示す 6 個のレコードが示されています。 同じ姓のレコードは、日付の差が 1 日以内の場合は一致させる必要があります。
表 2. 同じ姓のレコード間での 1 日の差異を示すレコード レコード 姓 日付 名 qsMatch
タイプqsMatch
ウェイトqsMatch
Pass
NumberqsMatch
SetIDqsMatch
DataID5 Clifford 19530831 Benn 生産期間 0 1 5 5 7 Clifford 19530829 George DA 0 1 5 7 6 Clifford 19530830 George DA 0 1 5 6 8 Clifford 19530731 Thomas 生産期間 0 1 8 8 9 Clifford 19530801 デビッド DA 0 1 8 9 10 Clifford 19530802 デビッド DA 0 1 8 10 このデータを使用するマッチング・プロセスでは、選択したマッチング・タイプに応じてさまざまな結果が生じます。- 従属
- 最初のパスは、姓でブロッキングを行い、1 日の日付許容度を使用して日付でマッチングします。 レコード 5 と 6 が、一致ペアと見なされます。
- レコード 5 がマスター・レコードとして選択された場合、レコード 6 は 2 番目のパスには使用できず、他のレコードとマッチングされません。
- 推移
- 最初のパスは、姓でブロッキングを行い、1 日の日付許容度を使用して日付でマッチングします。 レコード 5 と 6 が、一致ペアと見なされます。
- レコード 5 がマスター・レコードとして選択された場合、レコード 6 は後続のパスで使用可能で、残りのレコードと比較されます。 レコード 6 と 7 が、一致ペアと見なされます。 レコード 5 は最初のパスでレコード 6 と一致したため、3 つのレコードがすべてリンクされている 1 つのグループが作成されます。 レコード 5 と 6 が一致します。 レコード 6 と 7 が一致します。 したがって、レコード 5、6、および 7 は同一の一致セット内にあります。
- 従属
One-source Match ステージのマッチング出力
- 「一致」。 マスター・レコード。
- 「要検討」。 要検討範囲に該当する重複。
- 重複. マッチング・カットオフを超える重複レコード。
- 「不一致」。 マスター、重複、要検討のいずれでもないレコード。
- 「マッチング統計」。 各マッチング・パスのマッチング・プロセスのマッチング結果および統計に関するサマリー統計。
「出力」タブの「リンク順序」セクションを使用して、出力オプションを特定の出力リンクに関連付けます。 「リンク順序」セクションを調べて、選択した各出力オプションのレコードが、意図したリンクに出力されることを確認します。
必要に応じて、その他のステージ (Funnel ステージなど) を追加して、出力の一部または全部を単一のファイルまたは表にグループ化することができます。
出力に使用できる列は、すべての入力列と、マッチング・プロセスで作成された列です。
- qsMatchDataID. データ・レコード ID。
- qsMatchType. レコードのマッチング ID。 以下のいずれか
- MP: マスター・レコード。
- DA: 重複レコード。
- CP: 要検討レビューを必要とするレコード。
- RA: 不一致レコード。
- MP: マスター・レコード。
- qsMatchSetId. マッチング・セット ID。
- qsMatchWeight. ウェイト。
- qsMatchPattern. パターン。
- qsMatchLRFlag. 左の場合は「L」、右の場合は「R」。
- qsMatchExactFlag. 完全一致の場合は「X」。
- qsMatchPassNumber. 一致が検出されたパスの数。
- qsMatchPassNumber. 一致が検出されたパスの数。
- qsMatchStatType. 統計タイプの識別に使用される番号。
- qsMatchStatValue. 個々の統計の値。
- qsMatchWeight. ウェイト。