レコード結合ノードでは、複数の入力レコードから、入力フィールドの全部または一部を含む 1 つの出力レコードが作成されます。 この機能は、内部顧客データと購入人口データのような、異なるソースからのデータを結合する場合に役立ちます。
以下の方法で、データを結合できます。
- 順序による結合では、最も小さいデータ・ソース中のデータがなくなるまで、入力順序にしたがってすべてのソースから対応するレコードを結合します。 ソート・ノードを使用してデータをソートしている場合に、このオプションが重要になります。
Customer ID
などのキー・フィールドを使用して結合し、一方のデータ・ソースのレコードを他方のデータ・ソースのレコードと突き合わせる方法を指定します。 内部結合、完全外部結合、部分外部結合、および逆結合など、さまざまな種類の結合を利用できます。- 条件による結合では、結合を行うために満たす必要のある条件を指定できます。 ノードで直接条件を指定するか、Clem 式ビルダーを使用して条件を作成できます。
結合の種類
データの結合にキー・フィールドを使用する場合、どのレコードが除外され、どのレコードが組み込まれるかについて時間をかけて検討すると便利な場合があります。 ここでは、さまざまな結合について説明します。 基本的な結合の種類としては、内部結合と外部結合があります。 これらの方法は、Customer ID
などのキー・フィールドの共通値に基づいて、関連するデータ・セットからテーブルをマージするためによく使用されます。 内部結合によって、制限のない併合が行われ、完全なレコードのみが含まれるデータ・セットが出力されます。 外部結合の場合も結合データからの完全なレコードが含まれますが、それ以外に 1 つまたは複数の入力テーブルから固有のデータを入れることもできます。
許可される結合のタイプについては、以下で詳しく説明します。
内部結合には 、キーフィールドの値がすべての入力テーブルに共通するレコードのみが含まれる。 つまり、一致しないレコードは出力データ・セットに含まれません。
完全な外部結合には 、入力テーブルから、一致するレコードも一致しないレコードもすべて含まれる。 左外部結合と右外部結合は、部分外部結合と呼ばれます。
部分外部結合には 、指定されたテーブルからの一致しないレコードだけでなく、キーフィールドを使用して一致したすべてのレコードが含まれます。 (または、別な方法では、いくつかのテーブルからのすべてのレコードと、そのほかのテーブルからの一致したレコードのみ。) ノード・プロパティーの「マージ」オプションの下で、外部結合に含めるテーブル (ここに示す A や B など) を選択できます。 2 つのテーブルだけを結合する場合、部分結合は左外部結合または右外部結合と呼ばれることもあります。 SPSS Modeler では 2 つ以上の表のマージが許可されているため、これを部分外部結合と呼びます。
アンチジョインは 、最初の入力テーブル(ここに示すテーブルA)のマッチしていないレコードだけを含む。 このタイプの結合は内部結合の反対であり、出力データ・セットに完全なレコードは含まれません。
例えば、あるデータ・セット内の農場についての情報があり、農業関連の保険金請求が別のデータ・セットにある場合に、「レコード結合」オプションを使用して、最初のソースのレコードを 2 番目のソースに照合できます。 農場サンプル内の顧客が保険金請求をファイリングしているかどうかを判断するには、内部結合オプションを使用して、すべての ID が 2 つのサンプルで一致する箇所を示すリストを返します。

完全外部結合オプションを使用すると、入力テーブルから一致するレコードと一致しないレコードの両方が返されます。 不完全な値には、システム欠損値 ($null$
) が使用されます。

部分外部結合では、指定されたテーブルから一致しないレコードと同様に、キー・フィールドを使用して一致したすべてのレコードが含まれます。 テーブルには、最初のデータ・セットから一致したレコードと同様に、ID フィールドから一致したすべてのレコードが表示されます。

アンチ結合オプションを使用している場合、表は最初の入力表の一致しないレコードのみを返します。
