Fehlende Datenwerte
In der Datenvorbereitungsphase des Data-Mining kann es häufig vorkommen, dass Sie fehlende Werte in den Daten ersetzen möchten.
Fehlende Werte sind Werte im Dataset, die unbekannt, nicht erfasst oder falsch eingegeben sind. In der Regel sind solche Werte für die entsprechenden Felder ungültig. Das Feld
sollte beispielsweise die Werte Sex
und M
enthalten. Wenn Sie die Werte F
oder Y
im Feld erkennen, können Sie sicher davon ausgehen, dass solche Werte nicht gültig sind und daher als Leerzeichen interpretiert werden sollten. Ebenso ist ein negativer Wert für das Feld Z
bedeutungslos und sollte auch als Leerzeichen interpretiert werden. Häufig werden solche offensichtlich falschen Werte absichtlich eingegeben oder Felder werden während eines Fragebogens leer gelassen, um eine Nichtantwort anzugeben. Mitunter ist es vielleicht erforderlich, diese Leerzeichen genauer zu untersuchen, um festzustellen, ob eine Nichtbeantwortung, wie eine verweigerte Altersangabe, einen Faktor für die Voraussage eines bestimmten Ergebnisses darstellt.Age
Manche Modellierungsverfahren gehen besser mit fehlenden Daten um als andere. Der C5.0 -Knoten und der Apriori-Knoten können beispielsweise gut mit Werten umgehen, die explizit als "fehlend" in einem Typknotendeklariert sind. Bei anderen Modellierungsverfahren treten Probleme bei der Bearbeitung fehlender Werte und eine längere Trainingszeit auf, was zu ungenaueren Modellen führt.
- Nullwerte oder systemdefiniert fehlende Werte. Hierbei handelt es sich um Nicht-Zeichenfolgewerte, die in der Datenbank oder Quellendatei leer gelassen wurden und in einem Import -oder Typknoten nicht explizit als "fehlend" definiert wurden. Systemdefiniert fehlende Werte werden als
angezeigt. Beachten Sie, dass leere Zeichenfolgen in SPSS Modelernicht als Nullwerte betrachtet werden, obwohl sie von bestimmten Datenbanken als Nullwerte behandelt werden können.$null$
- Leere Zeichenfolgen und leere Bereiche. Leere Zeichenfolgewerte und leere Bereiche (Zeichenfolgen ohne sichtbare Zeichen) werden anders als Nullwerte behandelt. Leere Zeichenfolgen werden in den meisten Fällen als äquivalent mit leeren Bereichen (Leerzeichen) behandelt. Wenn Sie beispielsweise die Option auswählen, dass leere Bereiche in einem Import- oder Typknoten als Leerstellen behandelt werden sollen, gilt diese Einstellung auch für leere Zeichenfolgen.
- Leere oder benutzerdefiniert fehlende Werte. Dies sind Werte wie
,unknown
oder99
, die explizit in einem Importknoten oder Typknoten als fehlend definiert sind. Optional können Sie auch auswählen dass Nullen und leere Bereiche als Leerzeichen behandelt werden sollen. Dadurch können sie mit Flags für eine spezielle Behandlung versehen und aus den meisten Berechnungen ausgeschlossen werden. Beispielsweise können Sie die Funktion–1
verwenden, um diese Werte gemeinsam mit anderen Arten von fehlenden Werten als Leerstellen zu behandeln.@BLANK
Einlesen gemischter Daten. Beachten Sie, dass beim Lesen in Feldern mit numerischem Speicher (ganze Zahl, reelle Zahl, Zeit, Zeitmarke oder Datum) alle nicht numerischen Werte auf
oder null
gesetzt werden. Dies liegt daran, dass SPSS Modeler im Gegensatz zu einigen Anwendungen keine gemischten Speichertypen in einem Feld zulässt. Um dies zu vermeiden, sollten Sie alle Felder mit gemischten Daten als Zeichenfolgen einlesen, indem der Speichertyp im Importknoten bzw. in der externen Anwendung nach Bedarf geändert wird.system missing
Lesen leerer Zeichenfolgen aus Oracle. Beachten Sie beim Lesen oder Schreiben in eine Oracle -Datenbank, dass Oracle im Gegensatz zu SPSS Modeler und im Gegensatz zu den meisten anderen Datenbanken leere Zeichenfolgewerte als Nullwerte behandelt und speichert. Dies bedeutet, dass dieselben Daten sich unterschiedlich verhalten können und unterschiedliche Ergebnisse ausgeben können, je nachdem ob sie aus einer Oracle-Datenbank oder aus einer anderen Datenbank bzw. einer Datei extrahiert wurden.