0 / 0
Zurück zur englischen Version der Dokumentation
Knoten "Autonumerisch"
Letzte Aktualisierung: 04. Okt. 2024
Knoten 'Autonumerisch' (SPSS Modeler)

Der Knoten "Autonumerisch" schätzt und vergleicht Modelle für Ergebnisse stetiger numerischer Bereiche mithilfe einer Reihe verschiedener Methoden, wodurch Sie eine Vielzahl von Ansätzen in einer einzelnen Modellierungsausführung ausprobieren können. Sie können die gewünschten Algorithmen auswählen und mit mehreren Kombinationen von Optionen experimentieren. Beispielsweise könnten Sie Immobilienwerte mithilfe von Modellen vom Typ "Neuronales Netz", "Lineare Regression", "C&R-Baum" und "CHAID" vorhersagen, um zu ermitteln, welches Modell die beste Leistung erbringt, und Sie könnten verschiedene Kombinationen der Regressionsmethoden "Schrittweise", "Vorwärts" und "Rückwärts" ausprobieren. Der Knoten untersucht jede mögliche Kombination von Optionen, stuft jedes in Frage kommende Modell auf der Basis des angegebenen Werts und speichert die geeignetsten Kombinationen in Scoring oder weiterer Analyse.

Beispiel
Eine Gemeinde möchte die Immobiliensteuern mit größerer Genauigkeit schätzen und Werte für bestimmte Immobilien nach Bedarf anpassen, ohne jedes einzelne Anwesen besichtigen zu müssen. Mit dem Knoten 'Autonumerisch' kann der Analyst eine Reihe von Modellen generieren und vergleichen, die Liegenschaftswerte auf der Basis von Bautyp, Nachbarschaft, Größe und anderen bekannten Faktoren vorhersagen.
Voraussetzungen
Ein einzelnes Zielfeld (mit der Rolle Ziel) und mindestens ein Eingabefeld (mit der Rolle Eingabe). Beim Ziel muss es sich um ein stetiges Feld (numerischer Bereich) handeln, beispielsweise Alter oder Einkommen. Eingabefelder können stetig oder kategorial sein, mit der Einschränkung, dass einige Eingaben für bestimmte Modelltypen nicht geeignet sind. So können beispielsweise Modelle vom Typ "C&R-Baum" kategoriale Zeichenfolgefelder als Eingaben verwenden, während lineare Regressionsmodelle diese Felder nicht verwenden können und sie ignorieren, wenn sie angegeben sind. Die Anforderungen sind dieselben wie bei Verwendung der einzelnen Modellierungsknoten. So funktioniert beispielsweise ein CHAID-Modell immer auf dieselbe Weise, unabhängig davon, ob es aus einem CHAID-Knoten oder aus einem Knoten vom Typ "Autonumerisch" generiert wurde.
Häufigkeits- und Gewichtungsfelder
Häufigkeit und Gewichtung dienen dazu, einigen Datensätzen eine größere Bedeutsamkeit zu verleihen als anderen, beispielsweise weil der Benutzer weiß, dass ein Teil der übergeordneten Grundgesamtheit im erstellten Dataset unterrepräsentiert ist (Gewichtung) oder weil ein Datensatz für eine Reihe identischer Fälle steht (Häufigkeit). Häufigkeitsfelder können, sofern angegeben, von Algorithmen vom Typ "C&R-Baum" und "CHAID" verwendet werden. Gewichtungsfelder können von Algorithmen vom Typ "C&R-Baum", "CHAID" und "GenLin" verwendet werden. Andere Modelltypen ignorieren diese Felder und erstellen die Modelle in jedem Fall. Häufigkeits- und Gewichtungsfelder werden nur für die Modellerstellung verwendet. Bei der Evaluierung bzw. beim Scoren von Modellen werden sie nicht berücksichtigt.
Präfixe
Wenn Sie einen Tabellenknoten an das Nugget für den Knoten 'Autonumerisch' anhängen, erscheinen mehrere neue Variablen in der Tabelle mit Namen, die mit einem $-Präfix beginnen.
Die Namen der während des Scorings generierten Felder basieren auf dem Zielfeld, weisen aber ein Standardpräfix auf. Verschiedene Modelltypen verwenden verschiedene Präfixsets.
Beispielsweise werden die Präfixe $G, $R, $C als Präfix für Vorhersagen verwendet, die durch das verallgemeinerte lineare Modell, das CHAID-Modell bzw. das C5.0-Modell generiert werden. $X wird normalerweise durch Verwendung eines Ensembles generiert, und $XR, $XS und $XF werden als Präfixe in Fällen verwendet, in denen das Zielfeld ein kontinuierliches, kategoriales oder Flag-Feld ist.
$..E-Präfixe werden für die Vorhersagekonfidenz eines kontinuierlichen Ziels verwendet, z. B. wird $XRE als Präfix für Ensemble-kontinuierliche Vorhersagekonfidenz verwendet. $GE ist das Präfix für eine einzelne Vorhersage der Konfidenz für ein generalisiertes lineares Modell.

Unterstützte Modelltypen

Folgende Modelltypen werden unterstützt: "Neuronales Netz", "C&R-Baum", "CHAID", "Regression", "GenLin", "Nächster Nachbar", "SVM", "XGBoost Linear", "GLE" und "XGBoost-AS".

Kreuzvalidierungseinstellungen

In den Knoteneigenschaften sind Kreuzvalidierungseinstellungen verfügbar. Die Kreuzvalidierung ist ein nützliches Verfahren, mit dem die Wirksamkeit (Vermeidung der Überanpassung) von Modellen für maschinelles Lernen getestet werden kann, und kann außerdem als Prozedur zur erneuten Stichprobenentname für die Evaluierung eines Modells genutzt werden, falls nur begrenzt Daten verfügbar sind.

Die k-fache Kreuzvalidierung ist ein gängiges und einfaches Verfahren. Verglichen mit einer einzelnen Trainings-/Testpartition führt sie in der Regel zu einem weniger verzerrten Modell, da sie sicherstellt, dass jede Beobachtung aus dem Originaldataset die Möglichkeit hat, in Trainings- und Testsets enthalten zu sein. Die allgemeine Prozedur der k-fach-Kreuzvalidierung ist wie folgt.
Hinweis: Parallele automatische Modellierung im Kreuzvalidierungsmodus (Ausführung von zwei oder mehr Knoten für automatische Modellierung gleichzeitig, z. B. über die Schaltfläche Alle ausführen ) wird derzeit nicht unterstützt. Als Problemumgehung können Sie jeden Knoten für automatische Modellierung (mit aktivierter Kreuzvalidierung, die standardmäßig inaktiviert ist) nacheinander ausführen.
  1. Das Dataset wird nach dem Zufallsprinzip gemischt.
  2. Das Dataset wird in Aufteilungen/Gruppen unterteilt.
  3. Für jede eindeutige Aufteilung/Gruppe wird Folgendes ausgeführt:
    1. Die Aufteilung/Gruppe wird als ausgeschlossenes Dataset oder als Testdataset verwendet.
    2. Die verbleibenden Gruppen werden als Trainingdataset verwendet.
    3. Ein Modell wird an das Trainingsset angepasst und mit dem Testset evaluiert.
    4. Der Bewertungsscore wird aufbewahrt und das Modell wird gelöscht.
  4. Die Gesamtbewertung des Modells wird unter Verwendung der aufbewahrten Scores für die K-Fach-Bewertung zusammengefasst.

Die Kreuzvalidierung wird derzeit über den Knoten "Autom. Klassifikationsmerkmal" und den Knoten "Autonumerisch" unterstützt. Doppelklicken Sie auf den Knoten, um seine Eigenschaften zu öffnen. Durch Auswahl der Option Kreuzvalidieren wird eine einzelne Trainings-/Testpartition inaktiviert und die beiden genannten Knoten verwenden die k-fache Kreuzvalidierung, um die ausgewählte Gruppe verschiedener Algorithmen zu evaluieren.

Sie können die Anzahl der Aufteilungen (K) angeben. Der Standardwert ist 5; der gültige Bereich ist 3 bis 10. Wenn Sie die wiederholt anwendbare Stichprobenentnahme während der Kreuzvalidierung beibehalten wollen, damit bei verschiedenen Ausführungen für generierte Modelle konsistente Endevaluierungsmaße bestehen, können Sie die Option Reproduzierbare Partitionszuweisung mit Kreuzvalidierung auswählen. Außerdem können Sie als Startwert für Zufallszahlen einen bestimmten Wert festlegen, damit das resultierende Modell exakt reproduziert werden kann. Sie können aber auch auf Generieren klicken, damit immer dieselbe Folge von Zufallszahlen generiert wird. In diesem Fall führt die Ausführung des Knotens immer zu demselben generierten Modell.

Fortlaufendes maschinelles Lernen

Eine Schwachstelle bei der Modellierung besteht darin, dass Modelle aufgrund von Datenänderungen im Laufe der Zeit veraltet sind. Dies wird in der Regel als Modelldrift oder Konzeptabweichung bezeichnet. Um die Modelldrift effektiv zu überwinden, bietet SPSS Modeler einen fortlaufenden Modus für automatisches maschinelles Lernen. Diese Funktion ist für die Knoten für automatische Klassifizierung und für autonumerische Klassifizierung zum Erstellen von Modellnuggets verfügbar. Weitere Informationen finden Sie unter Continuous Machine Learning.

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen