Der Knoten "Autonumerisch" schätzt und vergleicht Modelle für Ergebnisse stetiger numerischer Bereiche mithilfe einer Reihe verschiedener Methoden, wodurch Sie eine Vielzahl von Ansätzen in einer einzelnen Modellierungsausführung ausprobieren können. Sie können die gewünschten Algorithmen auswählen und mit mehreren Kombinationen von Optionen experimentieren. Beispielsweise könnten Sie Immobilienwerte mithilfe von Modellen vom Typ "Neuronales Netz", "Lineare Regression", "C&R-Baum" und "CHAID" vorhersagen, um zu ermitteln, welches Modell die beste Leistung erbringt, und Sie könnten verschiedene Kombinationen der Regressionsmethoden "Schrittweise", "Vorwärts" und "Rückwärts" ausprobieren. Der Knoten untersucht jede mögliche Kombination von Optionen, stuft jedes in Frage kommende Modell auf der Basis des angegebenen Werts und speichert die geeignetsten Kombinationen in Scoring oder weiterer Analyse.
- Beispiel
- Eine Gemeinde möchte die Immobiliensteuern mit größerer Genauigkeit schätzen und Werte für bestimmte Immobilien nach Bedarf anpassen, ohne jedes einzelne Anwesen besichtigen zu müssen. Mit dem Knoten 'Autonumerisch' kann der Analyst eine Reihe von Modellen generieren und vergleichen, die Liegenschaftswerte auf der Basis von Bautyp, Nachbarschaft, Größe und anderen bekannten Faktoren vorhersagen.
- Voraussetzungen
- Ein einzelnes Zielfeld (mit der Rolle Ziel) und mindestens ein Eingabefeld (mit der Rolle Eingabe). Beim Ziel muss es sich um ein stetiges Feld (numerischer Bereich) handeln, beispielsweise Alter oder Einkommen. Eingabefelder können stetig oder kategorial sein, mit der Einschränkung, dass einige Eingaben für bestimmte Modelltypen nicht geeignet sind. So können beispielsweise Modelle vom Typ "C&R-Baum" kategoriale Zeichenfolgefelder als Eingaben verwenden, während lineare Regressionsmodelle diese Felder nicht verwenden können und sie ignorieren, wenn sie angegeben sind. Die Anforderungen sind dieselben wie bei Verwendung der einzelnen Modellierungsknoten. So funktioniert beispielsweise ein CHAID-Modell immer auf dieselbe Weise, unabhängig davon, ob es aus einem CHAID-Knoten oder aus einem Knoten vom Typ "Autonumerisch" generiert wurde.
- Häufigkeits- und Gewichtungsfelder
- Häufigkeit und Gewichtung dienen dazu, einigen Datensätzen eine größere Bedeutsamkeit zu verleihen als anderen, beispielsweise weil der Benutzer weiß, dass ein Teil der übergeordneten Grundgesamtheit im erstellten Dataset unterrepräsentiert ist (Gewichtung) oder weil ein Datensatz für eine Reihe identischer Fälle steht (Häufigkeit). Häufigkeitsfelder können, sofern angegeben, von Algorithmen vom Typ "C&R-Baum" und "CHAID" verwendet werden. Gewichtungsfelder können von Algorithmen vom Typ "C&R-Baum", "CHAID" und "GenLin" verwendet werden. Andere Modelltypen ignorieren diese Felder und erstellen die Modelle in jedem Fall. Häufigkeits- und Gewichtungsfelder werden nur für die Modellerstellung verwendet. Bei der Evaluierung bzw. beim Scoren von Modellen werden sie nicht berücksichtigt.
- Präfixe
- Wenn Sie einen Tabellenknoten an das Nugget für den Knoten 'Autonumerisch' anhängen, erscheinen mehrere neue Variablen in der Tabelle mit Namen, die mit einem $-Präfix beginnen.
Unterstützte Modelltypen
Folgende Modelltypen werden unterstützt: "Neuronales Netz", "C&R-Baum", "CHAID", "Regression", "GenLin", "Nächster Nachbar", "SVM", "XGBoost Linear", "GLE" und "XGBoost-AS".
Kreuzvalidierungseinstellungen
In den Knoteneigenschaften sind Kreuzvalidierungseinstellungen verfügbar. Die Kreuzvalidierung ist ein nützliches Verfahren, mit dem die Wirksamkeit (Vermeidung der Überanpassung) von Modellen für maschinelles Lernen getestet werden kann, und kann außerdem als Prozedur zur erneuten Stichprobenentname für die Evaluierung eines Modells genutzt werden, falls nur begrenzt Daten verfügbar sind.
- Das Dataset wird nach dem Zufallsprinzip gemischt.
- Das Dataset wird in Aufteilungen/Gruppen unterteilt.
- Für jede eindeutige Aufteilung/Gruppe wird Folgendes ausgeführt:
- Die Aufteilung/Gruppe wird als ausgeschlossenes Dataset oder als Testdataset verwendet.
- Die verbleibenden Gruppen werden als Trainingdataset verwendet.
- Ein Modell wird an das Trainingsset angepasst und mit dem Testset evaluiert.
- Der Bewertungsscore wird aufbewahrt und das Modell wird gelöscht.
- Die Gesamtbewertung des Modells wird unter Verwendung der aufbewahrten Scores für die K-Fach-Bewertung zusammengefasst.
Die Kreuzvalidierung wird derzeit über den Knoten "Autom. Klassifikationsmerkmal" und den Knoten "Autonumerisch" unterstützt. Doppelklicken Sie auf den Knoten, um seine Eigenschaften zu öffnen. Durch Auswahl der Option Kreuzvalidieren wird eine einzelne Trainings-/Testpartition inaktiviert und die beiden genannten Knoten verwenden die k-fache Kreuzvalidierung, um die ausgewählte Gruppe verschiedener Algorithmen zu evaluieren.
Sie können die Anzahl der Aufteilungen (K) angeben. Der Standardwert ist 5; der gültige Bereich ist 3 bis 10. Wenn Sie die wiederholt anwendbare Stichprobenentnahme während der Kreuzvalidierung beibehalten wollen, damit bei verschiedenen Ausführungen für generierte Modelle konsistente Endevaluierungsmaße bestehen, können Sie die Option Reproduzierbare Partitionszuweisung mit Kreuzvalidierung auswählen. Außerdem können Sie als Startwert für Zufallszahlen einen bestimmten Wert festlegen, damit das resultierende Modell exakt reproduziert werden kann. Sie können aber auch auf Generieren klicken, damit immer dieselbe Folge von Zufallszahlen generiert wird. In diesem Fall führt die Ausführung des Knotens immer zu demselben generierten Modell.
Fortlaufendes maschinelles Lernen
Eine Schwachstelle bei der Modellierung besteht darin, dass Modelle aufgrund von Datenänderungen im Laufe der Zeit veraltet sind. Dies wird in der Regel als Modelldrift oder Konzeptabweichung bezeichnet. Um die Modelldrift effektiv zu überwinden, bietet SPSS Modeler einen fortlaufenden Modus für automatisches maschinelles Lernen. Diese Funktion ist für die Knoten für automatische Klassifizierung und für autonumerische Klassifizierung zum Erstellen von Modellnuggets verfügbar. Weitere Informationen finden Sie unter Continuous Machine Learning.