Duplikatknoten
Doppelte Datensätze in einem Dataset müssen entfernt werden, bevor mit dem Data-Mining begonnen werden kann. In einer Marketingdatenbank beispielsweise werden einzelne Personen möglicherweise mehrfach mit unterschiedlichen Adress- oder Firmendaten aufgeführt. Mit dem Duplikatknoten können Sie nach doppelten Datensätzen in Ihren Daten suchen und diese entfernen oder Sie können aus einer Gruppe von doppelten Datensätzen einen einzigen zusammengesetzten Datensatz erstellen.
Um den Duplikatknoten verwenden zu können, müssen Sie zuerst ein Set von Schlüsselfeldern definieren, das bestimmt, wann zwei Datensätze als Duplikate betrachtet werden.
Wenn Sie nicht alle Felder als Schlüsselfelder auswählen, besteht die Möglichkeit, dass zwei "doppelte" Datensätze nicht wirklich identisch sind, da es immer noch sein kann, dass die Werte der verbleibenden Felder voneinander abweichen. In diesem Fall können Sie auch eine Sortierreihenfolge definieren, die innerhalb jeder Gruppe mit doppelten Datensätzen angewendet wird. Mithilfe dieser Sortierreihenfolge können Sie feiner steuern, welcher Datensatz in einer Gruppe als der erste behandelt werden soll. Andernfalls werden alle Duplikate als austauschbar betrachtet und es wird möglicherweise ein beliebiger Datensatz ausgewählt. Die eingehende Reihenfolge der Datensätze wird nicht berücksichtigt, sodass es nicht hilft, einen vorgeordneten Sortierknoten zu verwenden (siehe "Datensätze innerhalb des Duplikatknotens sortieren" auf dieser Seite).
Modus. Geben Sie an, ob ein zusammengesetzter Datensatz erstellt werden soll oder ob der erste Datensatz aufgenommen oder ausgeschlossen (verworfen) werden soll.
- Zusammengesetzten Datensatz für jede Gruppe erstellen. Bietet Ihnen die Möglichkeit, nicht numerische Felder zu aggregieren. Wenn diese Option ausgewählt wird, steht die Registerkarte "Kombiniert" zur Verfügung, auf der Sie angeben können, wie die zusammengesetzten Datensätze erstellt werden sollen.
- Nur jeweils den ersten Datensatz in jeder Gruppe aufnehmen. Wählt den ersten Datensatz aus jeder Gruppe doppelter Datensätze aus und verwirft den Rest. Der Erste Datensatz wird durch die Sortierreihenfolge bestimmt, die unter der Einstellung Sortieren von Datensätzen innerhalb von Gruppen nach definiert ist, und nicht nach der eingehenden Reihenfolge der Datensätze.
- Nur jeweils den ersten Datensatz in jeder Gruppe verwerfen. Wählt den ersten Datensatz aus jeder Gruppe doppelter Datensätze aus und wählt stattdessen den Rest aus. Der Erste Datensatz wird durch die Sortierreihenfolge bestimmt, die unter der Einstellung Sortieren von Datensätzen innerhalb von Gruppen nach definiert ist, und nicht nach der eingehenden Reihenfolge der Datensätze. Mit dieser Option können Duplikate in den Daten gefunden werden, um sie später im Ablauf zu untersuchen.
Schlüsselfelder zur Gruppierung. Listet die Felder auf, die verwendet werden, um zu bestimmen, ob die Datensätze identisch sind. Sie verfügen über folgende Möglichkeiten:
- Fügen Sie Felder mithilfe der Feldauswahlschaltfläche zu dieser Liste hinzu.
- Zum Löschen von Feldern aus der Liste verwenden Sie die Schaltfläche mit dem roten X (Löschschaltfläche).
Datensätze innerhalb von Gruppen sortieren nach. Listet die Felder auf, die verwendet werden, um zu bestimmen, wie Datensätze innerhalb jeder Gruppe von Duplikaten sortiert werden und ob sie in auf- oder absteigender Reihenfolge sortiert werden. Sie verfügen über folgende Möglichkeiten:
- Fügen Sie Felder mithilfe der Feldauswahlschaltfläche zu dieser Liste hinzu.
- Zum Löschen von Feldern aus der Liste verwenden Sie die Schaltfläche mit dem roten X (Löschschaltfläche).
- Verschieben Sie Felder mit den Schaltflächen "Nach oben" oder "Nach unten", wenn Sie nach mehr als einem Feld sortieren.
Eine Sortierreihenfolge müssen Sie angeben, wenn Sie festgelegt haben, dass der erste Datensatz in jeder Gruppe ein- oder ausgeschlossen werden soll, und wenn es für Sie von Belang ist, welcher Datensatz als der erste behandelt wird.
Außerdem kann es sinnvoll sein, eine Sortierreihenfolge anzugeben, wenn Sie für bestimmte Optionen auf der Registerkarte Kombiniert festgelegt haben, dass ein zusammengesetzter Datensatz erstellt werden soll.
Geben Sie an, ob die Datensätze standardmäßig in der Reihenfolge Aufsteigend oder in der Reihenfolge Absteigend der Sortierschlüsselwerte sortiert werden.
Datensätze innerhalb des Duplikatknotens sortieren
Wenn die Reihenfolge der Datensätze innerhalb einer Gruppe von Duplikaten für Sie von Bedeutung ist, müssen Sie die Reihenfolge mithilfe der Option Datensätze in Gruppen ordnen nach im Duplikatknoten festlegen. Verlassen Sie sich bei der Reihenfolge nicht auf einen vorgeordneten Sortierknoten. Denken Sie daran, dass die Eingangsreihenfolge der Datensätze nicht berücksichtigt wird - berücksichtigt wird nur die im Knoten angegebene Reihenfolge.
Wenn Sie keine (oder eine ungenügende Anzahl) Sortierfelder angeben, bleiben die Datensätze in jeder Gruppe von Duplikaten ungeordnet (oder nur unvollständig geordnet), was möglicherweise zu unvorhersehbaren Ergebnissen führt.
Angenommen, es liegt ein sehr großes Set von Protokolldatensätzen zu einer Reihe von Maschinen vor. Das Protokoll enthält Daten wie die folgenden:
Zeitmarke | Maschinelles | Temperatur |
---|---|---|
17:00:22 | Maschine A | 31 |
13:11:30 | Maschine B | 26 |
16:49:59 | Maschine A | 30 Stunden |
18:06:30 | Maschine X | 32 |
16:17:33 | Maschine A | 29 |
19:59:04 | Maschine C | 35 |
19:20:55 | Maschine Y | 34 |
15:36:14 | Maschine X | 28 |
12:30:41 | Maschine Y | 25 GB |
14:45:49 | Maschine C | 27. |
19:42:00 | Maschine B | 34 |
20:51:09 | Maschine Y | 36 |
19:07:23 | Maschine X | 33 |
Um die Anzahl der Datensätze für jede Maschine auf den neuesten Datensatz zu reduzieren, verwenden Sie Machine
als Schlüsselfeld und Timestamp
als Sortierfeld (in absteigender Reihenfolge). Die Reihenfolge der Eingaben hat keine Auswirkungen auf das Ergebnis, denn die Sortiereinstellungen legen fest, welche der Zeilen für eine bestimmte Maschine zurückgegeben wird. Die endgültige Datenausgabe sähe also wie folgt aus:
Zeitmarke | Maschinelles | Temperatur |
---|---|---|
17:00:22 | Maschine A | 31 |
19:42:00 | Maschine B | 34 |
19:59:04 | Maschine C | 35 |
19:07:23 | Maschine X | 33 |
20:51:09 | Maschine Y | 36 |