Mit dem Klassierknoten können Sie automatisch neue nominale Felder auf der Grundlage eines oder mehrerer bestehender stetiger Felder (numerischer Bereich) erstellen. Sie können beispielsweise ein stetiges Einkommensfeld in ein neues kategoriales Feld transformieren, das Einkommensgruppen gleicher Breite oder als Abweichungen vom Mittelwert enthält. Alternativ können Sie ein kategoriales "Supervisorfeld" auswählen, damit die Stärke der ursprünglichen Assoziation zwischen den beiden Feldern erhalten bleibt.
Die Durchführung der Klassierung kann aus einer Reihe von Gründen nützlich sein. Hier einige Beispiele:
- Algorithmusanforderungen. Für bestimmte Algorithmen, beispielsweise "Naive Bayes" und "Logistische Regression", sind kategoriale Eingaben erforderlich.
- Leistung. Die Leistung von Algorithmen wie "Multinomiale logistische Regression" kann eventuell gesteigert werden, wenn die Anzahl der unterschiedlichen Werte der Eingabefelder reduziert wird. Sie könnten beispielsweise statt der ursprünglichen Werte den Median oder den Mittelwert für jede Klasse verwenden.
- Data Privacy. Vertrauliche persönliche Daten, wie beispielsweise Gehälter, können anstatt als tatsächliche Werte in Bereichen angegeben werden, um dem Datenschutz gerecht zu werden.
Es stehen mehrere Klassierungsmethoden zur Verfügung. Nachdem Sie Klassen für das neue Feld erstellt haben, können Sie einen Ableitungsknoten auf der Basis der Trennwerte generieren.
Einsatzmöglichkeiten für Klassierknoten
Vor der Verwendung eines Klassierknotens sollten Sie überlegen, ob ein anderes Verfahren für die betreffende Aufgabe geeigneter ist:
- Zur manuellen Angabe von Trennwerten für Kategorien, beispielsweise vordefinierte Gehaltsbereiche, verwenden Sie einen Ableitungsknoten. Weitere Informationen finden Sie unter Ableitungsknoten .
- Zur Erstellung neuer Kategorien für bestehende Sets verwenden Sie einen Umcodierungsknoten. Weitere Informationen finden Sie unter Umcodierungsknoten .
Behandlung fehlender Werte
Der Klassierknoten behandelt fehlende Werte folgendermaßen:
- Vom Benutzer angegebene Leerstellen. Fehlende Werte, die als Leerstellen angegeben sind, werden während der Transformierung aufgenommen. Wenn Sie beispielsweise -99 mithilfe des Typknotens als Leerwert gekennzeichnet haben, dann wird dieser Wert in den Klassiervorgang aufgenommen. Um Leerstellen beim Klassieren zu ignorieren, sollten Sie mithilfe eines Füllerknotens die Leerwerte durch den systemdefinierten Nullwert ersetzen.
- Fehlende Systemwerte ($null$). Nullwerte werden während der Binning-Transformation ignoriert und bleiben nach der Transformation Nullwerte.
Auf der Registerkarte "Einstellungen" finden Sie Optionen für verfügbare Verfahren. Auf der Registerkarte "Ansicht" werden die Trennwerte angezeigt, die für die Daten ermittelt wurden, die den Knoten zuvor durchlaufen haben.