0 / 0
資料の 英語版 に戻る

2ソースマッチステージ

最終更新: 2025年3月12日
2ソースマッチステージ DataStage

2ソースマッチング段階では、2つの入力データソース(参照レコードとデータレコード)を比較して一致するかどうかを調べます。

Two-source Match ステージでは、次の4つのソースのデータを照合に使用します。
  • データ・ソース
  • マッチング頻度ステージで生成されたデータソースの頻度情報
  • 参照ソース
  • マッチング周波数ステージで生成された参照ソースの周波数情報

2ソースマッチステージへの入力

2ソースマッチングステージは、4つの入力ソースを受け取ります。 データ・ソースおよび参照ソースは、任意の並列データベース、ファイル、または処理ステージから取得できます。

Two-source Matchステージへの4つの入力は、以下のソースから取得されます。
  • データ・ソース
  • 参照ソース
  • Match Frequencyステージで生成された、データと参照元に関する周波数情報。 現在のジョブの一部として、Match Frequency ステージから頻度データを入力できます。 また、以前に実行された Match Frequency ジョブから出力された周波数データを入力することもできます。

ステージを構成する際、データ・ソースと参照ソースの列定義に基づいて、アセットから既存の2つのソースの一致仕様を指定します。

Two-source Match ステージでは、マッチングの仕様に基づいて入力データを照合し、グループ化します。 どの列を出力するかを選択する。

2ソースマッチステージワークフロー

2ソースマッチングの段階では、ソースデータとして標準化データと参照データ、2ソースマッチングの仕様、および両ソースの周波数情報が必要です。

Two-source Match ステージを使用する際の典型的なワークフローには、以下のタスクが含まれます。
  • データソースと参照ソースのソースデータを標準化する。
  • ソースデータから代表的なサンプルデータセットを準備する。
  • Match Frequencyステージを使用して、周波数情報を生成します。
  • オプション。 Two-source Matchジョブで使用される周波数データの量を減らしたい場合は、Frequency Matchステージジョブを再度実行することができます。 ただし、このジョブの実行では、作成した2つのソースのマッチ仕様を選択する。 頻度一致ステージジョブで2ソース一致仕様を選択すると、頻度データは一致ジョブに参加する列のみに制限されます。
  • DataStage® 2ソースマッチングの段階を含む資産を作成し、データソース、参照ソース、および各ソースの頻度情報を入力として使用します。
  • 2ソース一致ステージを設定します。これには、作成した2ソース一致の仕様を選択することも含まれます。

2ソースマッチステージジョブの作成

Two-source Matchステージジョブ、Two-source Matchステージジョブ追加し、データおよび参照ソースと出力ステージにリンクする必要があります。

手順

  1. 新しい資産をクリックします。
  2. 選択 DataStage.
  3. パレットから 「2ソースマッチ」ステージを選択し、キャンバスの中央にドラッグします。
  4. パレットから、4つの入力ステージを追加します。 以下のデータ・ソースごとに 1 つ追加します。
    1. データ・ソース:
    2. データソースの頻度情報
    3. 参照元
    4. 参照ソースの周波数情報
    通常、ソースデータはファイルまたはデータベースから取得しますが、Two-source Matchステージに入力する前に、他のステージで前処理を行うこともできます。
  5. 入力ステージを以下の順序でリンクする:
    1. データ
    2. 参照
    3. データ頻度
    4. 基準周波数
  6. パレットから、2ソースマッチステージで使用する予定の各出力オプションごとに、最大7つの出力ステージを追加します。
    以下のリストは、7つの出力オプションを示している。
    • match
    • 要検討
    • データの重複
    • 参照の重複
    • データが一致しません
    • 参照が一致しません
    • マッチング統計
    出力ステージでは、任意のファイル、データベース、または処理ステージを使用できます。
  7. 使用する予定のマッチング出力オプションについて、以下の順序でステージをリンクします。
    1. match
    2. 要検討
    3. データの重複
    4. 参照の重複
    5. データが一致しません
    6. 参照が一致しません
    7. マッチング統計
    注意: 入力タブと出力タブのリンク順序セクションで、リンクラベルとリンク名が正しいことを確認してください。
  8. 入力ステージをダブルクリックする。
    1. 出力タブのプロパティセクションで、ファイルのテキストボックスに、入力データを読み込むファイル名(パスを含む)を入力する
      入力にファイル・ステージ以外のステージを使用した場合は、適切な入力を選択し、ソースが必要とする追加プロパティーを定義します。
    2. 出力タブのColumnsセクションで、編集をクリックし、既存のデータ定義のインポートを選択する。
      頻度入力のデータ定義を選択する場合は、頻度一致ジョブの実行時に作成されたテーブル定義を使用します。
    3. 申し込みと返送をクリックし、次にセーブをクリックします。
    4. すべての入力ステージが構成されるまで、これらのステップを繰り返します。
  9. 出力ステージをダブルクリックします
    1. インプットタブのプロパティセクションのファイルのテキストボックスに、出力データを書き込むファイル名を入力する。
      出力にファイル・ステージ以外のステージを使用した場合は、適切な出力を選択し、ターゲットが必要とするプロパティーを定義します。
    2. 申し込みと返送をクリックし、次にセーブをクリックします。
    3. すべての出力ステージが構成されるまで、これらのステップを繰り返します。
  10. オプション:ステージとリンクの名前を、仕事やプロジェクトでの機能を反映した意味のある名前に変更します。

2ソース一致ステージの設定

このステージを含むジョブを作成した後、利用可能な一致仕様と、2つのデータ・ソースのレコードの一致を決定するその他の設定から選択します。

  1. DataStage 設定したい2ソースマッチステージを含むフローを開きます。
  2. Two-source Matchステージをダブルクリックします。
  3. マッチ仕様フィールドで、ブラウズをクリックし、2つのソースのマッチ仕様を選択します。
  4. 選択したマッチ仕様のマッチ・カットオフ値を上書きするには、Override cutoffsを選択し、MatchClerical、またはDuplicate列に新しい値またはジョブ・パラメータを入力します。
  5. 「マッチング・カットオフのオーバーライド」に特定の値を入力するには、値の横にある鉛筆アイコンをクリックし、新しい値を入力します。 アイコンをクリックして、以下のいずれかのオプションを選択します。
    オプション アクション
    既存のジョブ・パラメーターを使用します。 「パラメーターの挿入」を選択し、既存のパラメーターを選択します。
    マッチング仕様からカットオフ値に戻します。 「マッチング仕様の使用」を選択します。
  6. 「マッチング・タイプ」のドロップダウン・リストから、マッチング・タイプを選択します。
  7. 「マッチング出力」ペインで、作成する 1 つ以上の出力を選択します。 以下の条件に注意してください。
    • 選択する各出力には、対応する出力リンクが必要です。
    • 複数のリンクに出力を送信することはできません。
  8. ステージのプロパティをクリックします。
    1. 出力タブの列セクションで、任意の1つの出力について、編集を選択して出力列を修正する。
  9. 保存 をクリックします。

2ソースマッチ段階のマッチタイプ

Two-source Match ステージを使用する際には、以下のマッチタイプのいずれかを選択します。
多対 1
どの参照ソース・レコードも、多くのデータ・ソース・レコードと一致させることができます。 1つのデータ・ソース・レコードは、1つの参照ソース・レコードにのみ一致する。 たとえば、データ・ソース上の101 Main St.が参照ソース上の2つのレコードと一致する場合、最初の参照ソース・レコードが一致したレコードであり、2番目の参照ソース・レコードはこの特定のデータ・ソース・レコードと一致しないと見なされます:101-199 Main St SW101-199 Main St SEの場合、最初の参照ソース・レコードが一致するレコードで、2番目の参照ソース・レコードはこの特定のデータ・ソース・レコードに一致するとは見なされません。 2番目の参照ソース・レコードが別のデータ・ソース・レコードと一致する可能性がある。
多対一の倍数
データ・レコードに対してスコアリングされたときに、一致するペアと同じ重みを持つ各参照ソース・レコードには、重複レコードとしてフラグが立てられます。 1 つのデータ・ソース・レコードが複数の参照ソース・レコードに一致する場合があります。 たとえば、データ・ソース上の101 Main St.が参照ソース上の2つのレコードに一致する場合101-199 Main St SW101-199 Main St SE,の一方の参照ソース・レコードが一致したレコードで、もう一方が重複したレコードです。
多対一の重複
重複カットオフ値を超えるレベルで一致する追加の参照元レコードが重複としてフラグ付けされることを除けば、多対一の複数オプションと同様です。 この機能は、マッチの重みより小さい重みのレコードを重複としてフラグを立てることができることを意味する。 For example, if 101 Main St on the data source matches to three records on the reference source: 101-199 Main St SW, 101-199 Main St SE, and 101 Main Rd, you get 101-199 Main St SW as the match, and both of the other addresses might be duplicates.
1 対 1
データ・ソース上のレコードを、参照ソース上の1つのレコードにのみ突き合わせます。 参照ソースのレコードは、1 つのデータ・ソースのレコードにのみ一致します。

2ソースマッチステージの出力値を一致させる

以下のオプションのいずれかを使用して、異なるリンクにレコードを送信することができます。
  • 「一致」。 両方の入力の一致した記録。
  • 「要検討」。 両方の入力に対する事務的なレビュー記録。
  • データ重複. データ・ソース内の重複。
  • 参照重複. リファレンス・ソースの重複。
  • データが一致しない. データ入力から一致しないレコード。
  • レファレンスが一致しない. 参照入力からマッチしなかったレコード。
  • 「マッチング統計」。 各マッチング・パスのマッチング・プロセスのマッチング結果および統計に関するサマリー統計。

「出力」タブの「リンク順序」セクションを使用して、出力オプションを特定の出力リンクに関連付けます。 選択した各出力オプションのレコードが意図したリンクに出力されるように、リンク順序セクションをチェックする。

必要に応じて、その他のステージ (Funnel ステージなど) を追加して、出力の一部または全部を単一のファイルまたは表にグループ化することができます。

出力に使用できる列は、すべての入力列と、マッチング・プロセスで作成された列です。 「マッチング統計」出力オプションを選択する場合、出力列には必ずデフォルト名を使用するようにしてください。