0 / 0
Zurück zur englischen Version der Dokumentation

Felder mit fehlenden Werten behandeln

Letzte Aktualisierung: 12. Feb. 2025
Bearbeiten von Feldern mit fehlenden Werten (SPSS Modeler)

Wenn sich die Mehrzahl der fehlenden Werte in einer kleinen Anzahl von Feldern konzentriert, können Sie dies auf Feldebene statt auf Datensatzebene behandeln. Mit diesem Ansatz können Sie außerdem mit der relativen Wichtigkeit bestimmter Felder experimentieren, bevor Sie sich für eine Methode zur Handhabung fehlender Werte entscheiden. Wenn ein Feld für die Modellierung unwichtig ist, lohnt es sich wahrscheinlich nicht, es beizubehalten, unabhängig davon, wie viele fehlende Werte es aufweist.

Ein Marktforschungsunternehmen erhebt beispielsweise Daten anhand eines allgemeinen Fragebogens mit 50 Fragen. Zwei Fragen betreffen das Alter und die politische Überzeugung. Diese Informationen werden von vielen Menschen ungern angegeben. In diesem Fall haben Age und Political_persuasion viele fehlende Werte.

Feldmessniveau

Bei der Bestimmung der zu verwendenden Methode sollten Sie auch das Messniveau von Feldern mit fehlenden Werten in die Überlegungen einfließen lassen.

Numerische Felder. Bei numerischen Feldtypen wie Continuoussollten Sie immer alle nicht numerischen Werte eliminieren, bevor Sie ein Modell erstellen, da viele Modelle nicht funktionieren, wenn Leerzeichen in numerischen Feldern enthalten sind.

Kategoriale Felder. Für kategoriale Felder, wie Nominal und Flag, ist das Ändern fehlender Werte zwar nicht erforderlich, steigert jedoch die Genauigkeit des Modells. Beispiel: Ein Modell, das das Feld Sex verwendet, funktioniert weiterhin mit sinnlosen Werten wie Y und Z, aber das Entfernen aller Werte außer M und F erhöht die Genauigkeit des Modells.

Felder ausschließen oder entfernen

Zum Ausschluss von Feldern mit zu vielen fehlenden Werten stehen mehrere Optionen zur Verfügung:

  • Sie können einen Data Audit-Knoten verwenden, um Felder nach Qualität zu filtern.
  • Sie können einen Merkmalauswahlknoten verwenden, um Felder mit mehr als einem angegebenen Prozentsatz fehlender Werte auszuwerten und die Rangfolge von Feldern auf der Basis des Stellenwerts relativ zu einem angegebenen Ziel zu bestimmen.
  • Anstatt die Felder zu entfernen, können Sie einen Typknoten verwenden, um die Feldrolle auf Keinezu setzen. Dadurch werden die Felder im Dataset belassen, aber aus den Modellierungsprozessen ausgeschlossen.