Knoten "Autom. Klassifikationsmerkmal"

Letzte Aktualisierung: 11. Feb. 2025
Auto Classifier-Knoten (SPSS Modeler)

Mit dem Knoten "Autom. Klassifikationsmerkmal" können Sie mit verschiedenen Methoden Modelle für nominale (Setziel) oder binäre Ziele (Ja/Nein) schätzen und vergleichen, wodurch Sie eine Vielzahl von Ansätzen in einer einzigen Modellausführung ausprobieren können. Sie können die gewünschten Algorithmen auswählen und mit mehreren Kombinationen von Optionen experimentieren. Beispielsweise müssen Sie sich nicht zwischen den Methoden "Radiale Basisfunktion", "Polynomial", "Sigmoid" oder "Linear" für SVM entscheiden, sondern können alle Methoden ausprobieren. Der Knoten prüft jede mögliche Optionskombination, stuft jedes in Frage kommende Modell basierend auf dem angegebenen Maß ein und speichert die besten Modelle für das Scoring oder die weitere Analyse.

Beispiel
Ein Einzelhandelsunternehmen verfügt über historische Daten, die die Angebote verfolgen, die bestimmten Kunden in früheren Werbeaktionen unterbreitet wurden. Das Unternehmen will nun profitablere Ergebnisse erzielen, indem es jedem Kunden das passende Angebot abgleicht.
Anforderungen
Ein Zielfeld mit einem Messniveau des Typs Nominal oder Flag (mit der Rolle Ziel) und mindestens ein Eingabefeld (mit der Rolle Eingabe). Für ein Flagfeld wird angenommen, dass der für das Ziel definierte True -Wert einen Treffer darstellt, wenn Gewinne, Lift und zugehörige Statistiken berechnet werden. Eingabefelder können ein Messniveau von Continuous oder Categoricalaufweisen, mit der Einschränkung, dass einige Eingaben für einige Modelltypen möglicherweise nicht geeignet sind. Ordinale Felder beispielsweise, die als Eingaben in Modellen vom Typ "C&R-Baum", "CHAID" und "QUEST" verwendet werden sollen, müssen einen numerischen Speichertyp (nicht "Zeichenfolge") aufweisen und werden andernfalls von diesen Modellen ignoriert. Ebenso können stetige Eingabefelder in einigen Fällen klassiert werden. Die Anforderungen sind dieselben wie bei Verwendung der einzelnen Modellierungsknoten; so funktioniert ein Bayes-Netzmodell immer auf dieselbe Weise, unabhängig davon, ob es über den Bayes-Netzknoten oder den Knoten "Autom. Klassifikationsmerkmal" generiert wurde.
Häufigkeits- und Gewichtungsfelder
Häufigkeit und Gewichtung dienen dazu, einigen Datensätzen eine größere Bedeutsamkeit zu verleihen als anderen, beispielsweise weil der Benutzer weiß, dass ein Teil der übergeordneten Grundgesamtheit im erstellten Dataset unterrepräsentiert ist (Gewichtung) oder weil ein Datensatz für eine Reihe identischer Fälle steht (Häufigkeit). Häufigkeitsfelder können, sofern angegeben, von Modellen vom Typ "C&R-Baum", "CHAID", "QUEST", "Entscheidungsliste" und "Bayes-Netz" verwendet werden. Gewichtungsfelder können von Modellen vom Typ "C&R-Baum", "CHAID" und "C5.0" verwendet werden. Andere Modelltypen ignorieren diese Felder und erstellen die Modelle in jedem Fall. Häufigkeits- und Gewichtungsfelder werden nur für die Modellerstellung verwendet. Bei der Evaluierung bzw. beim Scoren von Modellen werden sie nicht berücksichtigt.
Präfixe
Wenn Sie dem Nugget für den Knoten Autom. Klassifikationsmerkmal einen Tabellenknoten hinzufügen, gibt es mehrere neue Variablen in der Tabelle, deren Namen mit dem Präfix $ beginnen.
Die Namen der während des Scorings generierten Felder basieren auf dem Zielfeld, weisen aber ein Standardpräfix auf. Verschiedene Modelltypen verwenden verschiedene Präfixsets.
Beispielsweise werden die Präfixe $G, $R, $C als Präfix für Vorhersagen verwendet, die durch das verallgemeinerte lineare Modell, das CHAID-Modell bzw. das C5.0-Modell generiert werden. $X wird normalerweise durch Verwendung eines Ensembles generiert, und $XR, $XS und $XF werden als Präfixe in Fällen verwendet, in denen das Zielfeld ein kontinuierliches, kategoriales oder Flag-Feld ist.
$..C-Präfixe werden zur Voraussagekonfidenz in ein kategoriales oder Flag-Ziel verwendet; z. B. wird $XFC als Präfix für die Ensemble-Flag-Voraussagekonfidenz verwendet. $RC und $CC sind die Präfixe für eine einzelne Voraussagekonfidenz für ein CHAID-Modell bzw. ein C5.0-Modell.

Unterstützte Modelltypen

Folgende Modelltypen werden unterstützt: "Neuronales Netz", "C&R-Baum", "QUEST", "CHAID", "C5.0", "Logistische Regression", "Entscheidungsliste", "Bayes-Netz", "Diskriminanz", "Nächster Nachbar", "SVM", "XGBoost Tree" und "XGBoost-AS".

Kreuzvalidierungseinstellungen

In den Knoteneigenschaften sind Kreuzvalidierungseinstellungen verfügbar. Die Kreuzvalidierung ist ein nützliches Verfahren, mit dem die Wirksamkeit (Vermeidung der Überanpassung) von Modellen für maschinelles Lernen getestet werden kann, und kann außerdem als Prozedur zur erneuten Stichprobenentname für die Evaluierung eines Modells genutzt werden, falls nur begrenzt Daten verfügbar sind.

Die k-fache Kreuzvalidierung ist ein gängiges und einfaches Verfahren. Verglichen mit einer einzelnen Trainings-/Testpartition führt sie in der Regel zu einem weniger verzerrten Modell, da sie sicherstellt, dass jede Beobachtung aus dem Originaldataset die Möglichkeit hat, in Trainings- und Testsets enthalten zu sein. Die allgemeine Prozedur der k-fach-Kreuzvalidierung ist wie folgt.
Hinweis: Parallele automatische Modellierung im Kreuzvalidierungsmodus (Ausführung von zwei oder mehr Knoten für automatische Modellierung gleichzeitig, z. B. über die Schaltfläche Alle ausführen ) wird derzeit nicht unterstützt. Als Problemumgehung können Sie jeden Knoten für automatische Modellierung (mit aktivierter Kreuzvalidierung, die standardmäßig inaktiviert ist) nacheinander ausführen.
  1. Das Dataset wird nach dem Zufallsprinzip gemischt.
  2. Das Dataset wird in Aufteilungen/Gruppen unterteilt.
  3. Für jede eindeutige Aufteilung/Gruppe wird Folgendes ausgeführt:
    1. Die Aufteilung/Gruppe wird als ausgeschlossenes Dataset oder als Testdataset verwendet.
    2. Die verbleibenden Gruppen werden als Trainingdataset verwendet.
    3. Ein Modell wird an das Trainingsset angepasst und mit dem Testset evaluiert.
    4. Der Bewertungsscore wird aufbewahrt und das Modell wird gelöscht.
  4. Die Gesamtbewertung des Modells wird unter Verwendung der aufbewahrten Scores für die K-Fach-Bewertung zusammengefasst.

Die Kreuzvalidierung wird derzeit über den Knoten "Autom. Klassifikationsmerkmal" und den Knoten "Autonumerisch" unterstützt. Doppelklicken Sie auf den Knoten, um seine Eigenschaften zu öffnen. Durch Auswahl der Option Kreuzvalidieren wird eine einzelne Trainings-/Testpartition inaktiviert und die beiden genannten Knoten verwenden die k-fache Kreuzvalidierung, um die ausgewählte Gruppe verschiedener Algorithmen zu evaluieren.

Sie können die Anzahl der Aufteilungen (K) angeben. Der Standardwert ist 5; der gültige Bereich ist 3 bis 10. Wenn Sie die wiederholt anwendbare Stichprobenentnahme während der Kreuzvalidierung beibehalten wollen, damit bei verschiedenen Ausführungen für generierte Modelle konsistente Endevaluierungsmaße bestehen, können Sie die Option Reproduzierbare Partitionszuweisung mit Kreuzvalidierung auswählen. Außerdem können Sie als Startwert für Zufallszahlen einen bestimmten Wert festlegen, damit das resultierende Modell exakt reproduziert werden kann. Sie können aber auch auf Generieren klicken, damit immer dieselbe Folge von Zufallszahlen generiert wird. In diesem Fall führt die Ausführung des Knotens immer zu demselben generierten Modell.

Fortlaufendes maschinelles Lernen

Eine Schwachstelle bei der Modellierung besteht darin, dass Modelle aufgrund von Datenänderungen im Laufe der Zeit veraltet sind. Dies wird in der Regel als Modelldrift oder Konzeptabweichung bezeichnet. Um die Modelldrift effektiv zu überwinden, bietet SPSS Modeler einen fortlaufenden Modus für automatisches maschinelles Lernen. Diese Funktion ist für die Knoten für automatische Klassifizierung und für autonumerische Klassifizierung zum Erstellen von Modellnuggets verfügbar. Weitere Informationen finden Sie unter Continuous Machine Learning.