Knoten "Autom. Klassifikationsmerkmal"
Mit dem Knoten "Autom. Klassifikationsmerkmal" können Sie mit verschiedenen Methoden Modelle für nominale (Setziel) oder binäre Ziele (Ja/Nein) schätzen und vergleichen, wodurch Sie eine Vielzahl von Ansätzen in einer einzigen Modellausführung ausprobieren können. Sie können die gewünschten Algorithmen auswählen und mit mehreren Kombinationen von Optionen experimentieren. Beispielsweise müssen Sie sich nicht zwischen den Methoden "Radiale Basisfunktion", "Polynomial", "Sigmoid" oder "Linear" für SVM entscheiden, sondern können alle Methoden ausprobieren. Der Knoten prüft jede mögliche Optionskombination, stuft jedes in Frage kommende Modell basierend auf dem angegebenen Maß ein und speichert die besten Modelle für das Scoring oder die weitere Analyse.
- Beispiel
- Ein Einzelhandelsunternehmen verfügt über historische Daten, die die Angebote verfolgen, die bestimmten Kunden in früheren Werbeaktionen unterbreitet wurden. Das Unternehmen will nun profitablere Ergebnisse erzielen, indem es jedem Kunden das passende Angebot abgleicht.
- Anforderungen
- Ein Zielfeld mit einem Messniveau des Typs
oderNominal
(mit der Rolle Ziel) und mindestens ein Eingabefeld (mit der Rolle Eingabe). Für ein Flagfeld wird angenommen, dass der für das Ziel definierteFlag
-Wert einen Treffer darstellt, wenn Gewinne, Lift und zugehörige Statistiken berechnet werden. Eingabefelder können ein Messniveau vonTrue
oderContinuous
aufweisen, mit der Einschränkung, dass einige Eingaben für einige Modelltypen möglicherweise nicht geeignet sind. Ordinale Felder beispielsweise, die als Eingaben in Modellen vom Typ "C&R-Baum", "CHAID" und "QUEST" verwendet werden sollen, müssen einen numerischen Speichertyp (nicht "Zeichenfolge") aufweisen und werden andernfalls von diesen Modellen ignoriert. Ebenso können stetige Eingabefelder in einigen Fällen klassiert werden. Die Anforderungen sind dieselben wie bei Verwendung der einzelnen Modellierungsknoten; so funktioniert ein Bayes-Netzmodell immer auf dieselbe Weise, unabhängig davon, ob es über den Bayes-Netzknoten oder den Knoten "Autom. Klassifikationsmerkmal" generiert wurde.Categorical
- Häufigkeits- und Gewichtungsfelder
- Häufigkeit und Gewichtung dienen dazu, einigen Datensätzen eine größere Bedeutsamkeit zu verleihen als anderen, beispielsweise weil der Benutzer weiß, dass ein Teil der übergeordneten Grundgesamtheit im erstellten Dataset unterrepräsentiert ist (Gewichtung) oder weil ein Datensatz für eine Reihe identischer Fälle steht (Häufigkeit). Häufigkeitsfelder können, sofern angegeben, von Modellen vom Typ "C&R-Baum", "CHAID", "QUEST", "Entscheidungsliste" und "Bayes-Netz" verwendet werden. Gewichtungsfelder können von Modellen vom Typ "C&R-Baum", "CHAID" und "C5.0" verwendet werden. Andere Modelltypen ignorieren diese Felder und erstellen die Modelle in jedem Fall. Häufigkeits- und Gewichtungsfelder werden nur für die Modellerstellung verwendet. Bei der Evaluierung bzw. beim Scoren von Modellen werden sie nicht berücksichtigt.
- Präfixe
- Wenn Sie dem Nugget für den Knoten Autom. Klassifikationsmerkmal einen Tabellenknoten hinzufügen, gibt es mehrere neue Variablen in der Tabelle, deren Namen mit dem Präfix $ beginnen.
Unterstützte Modelltypen
Folgende Modelltypen werden unterstützt: "Neuronales Netz", "C&R-Baum", "QUEST", "CHAID", "C5.0", "Logistische Regression", "Entscheidungsliste", "Bayes-Netz", "Diskriminanz", "Nächster Nachbar", "SVM", "XGBoost Tree" und "XGBoost-AS".
Kreuzvalidierungseinstellungen
In den Knoteneigenschaften sind Kreuzvalidierungseinstellungen verfügbar. Die Kreuzvalidierung ist ein nützliches Verfahren, mit dem die Wirksamkeit (Vermeidung der Überanpassung) von Modellen für maschinelles Lernen getestet werden kann, und kann außerdem als Prozedur zur erneuten Stichprobenentname für die Evaluierung eines Modells genutzt werden, falls nur begrenzt Daten verfügbar sind.
- Das Dataset wird nach dem Zufallsprinzip gemischt.
- Das Dataset wird in Aufteilungen/Gruppen unterteilt.
- Für jede eindeutige Aufteilung/Gruppe wird Folgendes ausgeführt:
- Die Aufteilung/Gruppe wird als ausgeschlossenes Dataset oder als Testdataset verwendet.
- Die verbleibenden Gruppen werden als Trainingdataset verwendet.
- Ein Modell wird an das Trainingsset angepasst und mit dem Testset evaluiert.
- Der Bewertungsscore wird aufbewahrt und das Modell wird gelöscht.
- Die Gesamtbewertung des Modells wird unter Verwendung der aufbewahrten Scores für die K-Fach-Bewertung zusammengefasst.
Die Kreuzvalidierung wird derzeit über den Knoten "Autom. Klassifikationsmerkmal" und den Knoten "Autonumerisch" unterstützt. Doppelklicken Sie auf den Knoten, um seine Eigenschaften zu öffnen. Durch Auswahl der Option Kreuzvalidieren wird eine einzelne Trainings-/Testpartition inaktiviert und die beiden genannten Knoten verwenden die k-fache Kreuzvalidierung, um die ausgewählte Gruppe verschiedener Algorithmen zu evaluieren.
Sie können die Anzahl der Aufteilungen (K) angeben. Der Standardwert ist 5; der gültige Bereich ist 3 bis 10. Wenn Sie die wiederholt anwendbare Stichprobenentnahme während der Kreuzvalidierung beibehalten wollen, damit bei verschiedenen Ausführungen für generierte Modelle konsistente Endevaluierungsmaße bestehen, können Sie die Option Reproduzierbare Partitionszuweisung mit Kreuzvalidierung auswählen. Außerdem können Sie als Startwert für Zufallszahlen einen bestimmten Wert festlegen, damit das resultierende Modell exakt reproduziert werden kann. Sie können aber auch auf Generieren klicken, damit immer dieselbe Folge von Zufallszahlen generiert wird. In diesem Fall führt die Ausführung des Knotens immer zu demselben generierten Modell.
Fortlaufendes maschinelles Lernen
Eine Schwachstelle bei der Modellierung besteht darin, dass Modelle aufgrund von Datenänderungen im Laufe der Zeit veraltet sind. Dies wird in der Regel als Modelldrift oder Konzeptabweichung bezeichnet. Um die Modelldrift effektiv zu überwinden, bietet SPSS Modeler einen fortlaufenden Modus für automatisches maschinelles Lernen. Diese Funktion ist für die Knoten für automatische Klassifizierung und für autonumerische Klassifizierung zum Erstellen von Modellnuggets verfügbar. Weitere Informationen finden Sie unter Continuous Machine Learning.