Zusammenführungsknoten
Die Funktion von Zusammenführungsknoten besteht darin, aus mehreren Eingabedatensätzen einen einzelnen Ausgabedatensatz mit allen oder einigen der Eingabefelder zu erstellen. Dies ist ein nützlicher Vorgang, wenn Daten aus verschiedenen Quellen, wie beispielsweise interne Kundendaten und käuflich erworbene demografische Daten, zusammengeführt werden sollen.
Sie können Daten auf folgende Weisen zusammenführen:
- Die Zusammenführung durch Reihenfolge verkettet entsprechende Datensätze aus allen Quellen in der Reihenfolge der Eingabe, bis die kleinste Datenquelle erschöpft ist. Vor der Verwendung dieser Option müssen die Daten unbedingt mit einem Sortierknoten sortiert worden sein.
- Führen Sie mit einem Schlüssel-Feld wie
Customer ID
zusammen, um anzugeben, wie Datensätze aus einer Datenquelle mit Datensätzen aus den anderen Datenquellen abgeglichen werden sollen. Mehrere Arten von Joins sind möglich, beispielsweise Inner Join, Full Outer Join, partieller Outer Join und Anti-Join. - Die Zusammenführung nach Bedingung bedeutet, dass Sie eine Bedingung angeben können, die erfüllt sein muss, damit die Zusammenführung erfolgen kann. Sie können die Bedingung direkt im Knoten angeben, oder die Bedingung mithilfe des Expression Builder erstellen.
Jointypen
Wenn Sie ein Schlüsselfeld für die Zusammenführung von Daten verwenden, kann es hilfreich sein, einige Zeit damit zu verbringen, darüber nachzudenken, welche Datensätze ausgeschlossen und welche eingeschlossen werden. Es gibt eine Vielzahl von Joins, die hier diskutiert werden. Die beiden Join-Grundtypen heißen "Inner Join" und "Outer Join". Diese Methoden werden häufig verwendet, um Tabellen aus zugehörigen Datasets auf der Basis allgemeiner Werte eines Schlüsselfelds (z. B.Customer ID
) zusammenzuführen. Inner Joins ergeben eine saubere Zusammenführung und ein Ausgabedataset, das nur vollständige Datensätze enthält. Outer Joins beinhalten ebenfalls vollständige Datensätze aus den zusammengeführten Daten, doch sie ermöglichen auch die Aufnahme eindeutiger Daten aus einer oder mehreren Eingabetabellen.
Die zulässigen Jointypen werden im Folgenden näher beschrieben.
Eine innere Verknüpfung umfasst nur Datensätze, bei denen ein Wert für das Schlüsselfeld in allen Eingabetabellen gleich ist. Das heißt, nicht übereinstimmende Datensätze werden nicht in das Ausgabedataset aufgenommen.
Eine vollständige äußere Verknüpfung umfasst alle Datensätze, sowohl übereinstimmende als auch nicht übereinstimmende, aus den Eingabetabellen. Linke und rechte Outer Joins werden als partielle Outer Joins bezeichnet.
Eine partielle äußere Verknüpfung umfasst alle Datensätze, die mit dem Schlüsselfeld übereinstimmen, sowie nicht übereinstimmende Datensätze aus angegebenen Tabellen. (Oder anders gesagt: Alle Datensätze aus bestimmten Tabellen und nur passende Datensätze aus anderen Tabellen.) Sie können Tabellen (wie z. B. A und B hier) für die Aufnahme in den Outer Join unter den Zusammenführungsoptionen der Knoteneigenschaften auswählen. Partielle Joins werden auch linke bzw. rechte Outer Joins genannt, wenn nur zwei Tabellen zusammengeführt werden. Da SPSS Modeler die Zusammenführung von mehr als zwei Tabellen ermöglicht, wird dies als partieller Outer Join bezeichnet.
Ein Anti-Join umfasst nur nicht übereinstimmende Datensätze für die erste Eingabetabelle (hier: Tabelle A). Dieser Jointyp ist das Gegenteil eines Inner Join und schließt keine vollständigen Datensätze in das Ausgabedataset ein.
Wenn beispielsweise Informationen zu Bauernhöfen in einem Dataset vorliegen und Versicherungsansprüche zu Bauernhöfen in einem zweiten Dataset, dann können Sie die Datensätze aus der ersten Quelle mithilfe der Zusammenführungsoptionen mit den Datensätzen aus der zweiten Quelle abgleichen. Um festzustellen, ob ein Kunde in diesem Bauernhofbeispiel einen Versicherungsanspruch angemeldet hat, rufen Sie mit der Option "Inner Join" eine Liste mit allen IDs ab, die in beiden Datasets vorkommen.

Bei einem Full Outer Join werden alle Datensätze (übereinstimmend und nicht übereinstimmend) aus den Eingabetabellen eingeschlossen. Der systemdefiniert fehlende Wert ($null$
) wird für alle unvollständigen Werte verwendet.

Ein partieller Outer Join enthält alle Datensätze, deren Übereinstimmung anhand des Schlüsselfelds abgeglichen wurde, sowie nicht übereinstimmende Datensätze aus den angegebenen Tabellen. Die Tabelle zeigt alle Datensätze, die mit dem ID-Feld übereinstimmen, sowie alle Datensätze, die mit dem ersten Dataset übereinstimmen.

Wenn Sie die Anti-Join-Option verwenden, gibt die Tabelle nur Datensätze ohne Entsprechung für die erste Eingabetabelle zurück.
