2ソースマッチステージ
2ソースマッチング段階では、2つの入力データソース(参照レコードとデータレコード)を比較して一致するかどうかを調べます。
- データ・ソース
- マッチング頻度ステージで生成されたデータソースの頻度情報
- 参照ソース
- マッチング周波数ステージで生成された参照ソースの周波数情報
2ソースマッチステージへの入力
2ソースマッチングステージは、4つの入力ソースを受け取ります。 データ・ソースおよび参照ソースは、任意の並列データベース、ファイル、または処理ステージから取得できます。
- データ・ソース
- 参照ソース
- Match Frequencyステージで生成された、データと参照元に関する周波数情報。 現在のジョブの一部として、Match Frequency ステージから頻度データを入力できます。 また、以前に実行された Match Frequency ジョブから出力された周波数データを入力することもできます。
ステージを構成する際、データ・ソースと参照ソースの列定義に基づいて、アセットから既存の2つのソースの一致仕様を指定します。
Two-source Match ステージでは、マッチングの仕様に基づいて入力データを照合し、グループ化します。 どの列を出力するかを選択する。
2ソースマッチステージワークフロー
2ソースマッチングの段階では、ソースデータとして標準化データと参照データ、2ソースマッチングの仕様、および両ソースの周波数情報が必要です。
- データソースと参照ソースのソースデータを標準化する。
- ソースデータから代表的なサンプルデータセットを準備する。
- Match Frequencyステージを使用して、周波数情報を生成します。
- オプション。 Two-source Matchジョブで使用される周波数データの量を減らしたい場合は、Frequency Matchステージジョブを再度実行することができます。 ただし、このジョブの実行では、作成した2つのソースのマッチ仕様を選択する。 頻度一致ステージジョブで2ソース一致仕様を選択すると、頻度データは一致ジョブに参加する列のみに制限されます。
- DataStage® 2ソースマッチングの段階を含む資産を作成し、データソース、参照ソース、および各ソースの頻度情報を入力として使用します。
- 2ソース一致ステージを設定します。これには、作成した2ソース一致の仕様を選択することも含まれます。
2ソースマッチステージジョブの作成
Two-source Matchステージジョブ、Two-source Matchステージジョブ追加し、データおよび参照ソースと出力ステージにリンクする必要があります。
手順
2ソース一致ステージの設定
このステージを含むジョブを作成した後、利用可能な一致仕様と、2つのデータ・ソースのレコードの一致を決定するその他の設定から選択します。
- DataStage 設定したい2ソースマッチステージを含むフローを開きます。
- Two-source Matchステージをダブルクリックします。
- マッチ仕様フィールドで、ブラウズをクリックし、2つのソースのマッチ仕様を選択します。
- 選択したマッチ仕様のマッチ・カットオフ値を上書きするには、Override cutoffsを選択し、Match、Clerical、またはDuplicate列に新しい値またはジョブ・パラメータを入力します。
- 「マッチング・カットオフのオーバーライド」に特定の値を入力するには、値の横にある鉛筆アイコンをクリックし、新しい値を入力します。 ⋮ アイコンをクリックして、以下のいずれかのオプションを選択します。
オプション アクション 既存のジョブ・パラメーターを使用します。 「パラメーターの挿入」を選択し、既存のパラメーターを選択します。 マッチング仕様からカットオフ値に戻します。 「マッチング仕様の使用」を選択します。 - 「マッチング・タイプ」のドロップダウン・リストから、マッチング・タイプを選択します。
- 「マッチング出力」ペインで、作成する 1 つ以上の出力を選択します。 以下の条件に注意してください。
- 選択する各出力には、対応する出力リンクが必要です。
- 複数のリンクに出力を送信することはできません。
- ステージのプロパティをクリックします。
- 出力タブの列セクションで、任意の1つの出力について、編集を選択して出力列を修正する。
- 保存 をクリックします。
2ソースマッチ段階のマッチタイプ
- 多対 1
- どの参照ソース・レコードも、多くのデータ・ソース・レコードと一致させることができます。 1つのデータ・ソース・レコードは、1つの参照ソース・レコードにのみ一致する。 たとえば、データ・ソース上の
101 Main St.
が参照ソース上の2つのレコードと一致する場合、最初の参照ソース・レコードが一致したレコードであり、2番目の参照ソース・レコードはこの特定のデータ・ソース・レコードと一致しないと見なされます:101-199 Main St SW
と101-199 Main St SE
の場合、最初の参照ソース・レコードが一致するレコードで、2番目の参照ソース・レコードはこの特定のデータ・ソース・レコードに一致するとは見なされません。 2番目の参照ソース・レコードが別のデータ・ソース・レコードと一致する可能性がある。 - 多対一の倍数
- データ・レコードに対してスコアリングされたときに、一致するペアと同じ重みを持つ各参照ソース・レコードには、重複レコードとしてフラグが立てられます。 1 つのデータ・ソース・レコードが複数の参照ソース・レコードに一致する場合があります。 たとえば、データ・ソース上の
101 Main St.
が参照ソース上の2つのレコードに一致する場合101-199 Main St SW
と101-199 Main St SE,
の一方の参照ソース・レコードが一致したレコードで、もう一方が重複したレコードです。 - 多対一の重複
- 重複カットオフ値を超えるレベルで一致する追加の参照元レコードが重複としてフラグ付けされることを除けば、多対一の複数オプションと同様です。 この機能は、マッチの重みより小さい重みのレコードを重複としてフラグを立てることができることを意味する。 For example, if
101 Main St
on the data source matches to three records on the reference source:101-199 Main St SW
,101-199 Main St SE
, and101 Main Rd
, you get101-199 Main St SW
as the match, and both of the other addresses might be duplicates. - 1 対 1
- データ・ソース上のレコードを、参照ソース上の1つのレコードにのみ突き合わせます。 参照ソースのレコードは、1 つのデータ・ソースのレコードにのみ一致します。
2ソースマッチステージの出力値を一致させる
- 「一致」。 両方の入力の一致した記録。
- 「要検討」。 両方の入力に対する事務的なレビュー記録。
- データ重複. データ・ソース内の重複。
- 参照重複. リファレンス・ソースの重複。
- データが一致しない. データ入力から一致しないレコード。
- レファレンスが一致しない. 参照入力からマッチしなかったレコード。
- 「マッチング統計」。 各マッチング・パスのマッチング・プロセスのマッチング結果および統計に関するサマリー統計。
「出力」タブの「リンク順序」セクションを使用して、出力オプションを特定の出力リンクに関連付けます。 選択した各出力オプションのレコードが意図したリンクに出力されるように、リンク順序セクションをチェックする。
必要に応じて、その他のステージ (Funnel ステージなど) を追加して、出力の一部または全部を単一のファイルまたは表にグループ化することができます。
出力に使用できる列は、すべての入力列と、マッチング・プロセスで作成された列です。 「マッチング統計」出力オプションを選択する場合、出力列には必ずデフォルト名を使用するようにしてください。