In diesem Tutorial wird der Auto Classifier-Knoten verwendet, um automatisch eine Reihe verschiedener Modelle zu erstellen und zu vergleichen, und zwar entweder für Flag-Ziele (z. B. ob ein bestimmter Kunde wahrscheinlich mit einem Kredit in Verzug gerät oder auf ein bestimmtes Angebot reagiert) oder für nominale (festgelegte) Ziele.
In diesem Beispiel suchen Sie nach einem Flaggenergebnis (ja oder nein). Innerhalb eines relativ einfachen Ablaufs generiert und bewertet der Knoten einen Satz von Kandidatenmodellen, wählt die Modelle aus, die am besten abschneiden, und kombiniert sie zu einem einzigen aggregierten (Ensembled) Modell. Dieser Ansatz bietet gleichzeitig Automatisierung und die Vorteile der Kombination mehrerer Modelle, die häufiger genauere Vorhersagen erlaubt, als aus den einzelnen Modellen erzielt werden können.
Dieses Beispiel basiert auf einem fiktiven Unternehmen, das profitablere Ergebnisse erzielen möchte, indem das entsprechende Angebot jedem Kunden zugeordnet wird. Bei diesem Ansatz stehen die Vorteile der Automatisierung stärker im Mittelpunkt. Ein ähnliches Beispiel, bei dem ein kontinuierliches (numerisches) Ziel verwendet wird, finden Sie im anderen " SPSS® Modeler Tutorials.
Versuchen Sie das Tutorial
In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:
Beispielhafter Modellierungsablauf und Datensatz
In diesem Tutorial wird der Ablauf der automatischen Modellierung für ein Flaggenziel im Beispielprojekt verwendet. Die verwendete Datendatei ist pm_customer_train1.csv. Das folgende Bild zeigt ein Beispiel für den Ablauf der Modellierung.
Dieses Beispiel verwendet die Datendatei pm_customer_train1.csv, die historische Daten enthält, die die Angebote an bestimmte Kunden in vergangenen Kampagnen verfolgen, wie durch den Wert des Feldescampaign
angegeben.
Aufgabe 1: Öffnen Sie das Beispielprojekt
Das Beispielprojekt enthält mehrere Datensätze und Modellierungsabläufe. Wenn Sie das Beispielprojekt noch nicht haben, können Sie es unter dem Thema Tutorials erstellen. Gehen Sie dann wie folgt vor, um das Beispielprojekt zu öffnen:
- Wählen Sie in Cloud Pak for Data aus dem Navigationsmenü " Projekte > Alle Projekte anzeigen.
- Klicken Sie auf SPSS Modeler.
- Klicken Sie auf die Registerkarte Assets, um die Datensätze und Modellierungsabläufe zu sehen.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die Registerkarte Assets des Projekts. Sie sind nun bereit, mit dem zu diesem Lehrgang gehörenden Beispielmodellierungsablauf zu arbeiten.
Aufgabe 2: Untersuchen des Knotens Data Asset
Die automatisierte Modellierung für ein Flaggenziel umfasst mehrere Knotenpunkte. Gehen Sie folgendermaßen vor, um den Knoten Daten-Asset zu untersuchen.
- Öffnen Sie auf der Registerkarte Assets den Modellierungsablauf Automatisierte Modellierung für ein Flaggenziel, und warten Sie, bis der Canvas geladen ist.
- Doppelklicken Sie auf den Knoten pm_customer_train1.csv. Dieser Knoten ist ein Data Asset-Knoten, der auf die Datei pm_customer_train1.csv im Projekt verweist.
- Überprüfen Sie die Eigenschaften des Dateiformats.
- Optional: Klicken Sie auf Datenvorschau, um den vollständigen Datensatz zu sehen.
Die größte Anzahl an Datensätzen entfällt auf die Kampagne Premium account. Die Werte des Feldes "
campaign
werden in den Daten als ganze Zahlen kodiert (z. B. "2 = Premium account
). Später definieren Sie Bezeichnungen für diese Werte, die Sie für eine aussagekräftigere Ausgabe verwenden können.Die Datei enthält auch ein Feld "
response
, das angibt, ob das Angebot angenommen wurde (0 = no
und "1 = yes
). Das Feld "response
ist das Zielfeld bzw. der Wert, den Sie vorhersagen möchten. Verschiedene Felder mit demografischen und finanziellen Informationen über jeden Kunden sind ebenfalls enthalten. Diese Felder werden verwendet, um ein Modell zu erstellen oder zu trainieren, das die Antwortquoten für Einzelpersonen oder Gruppen auf der Grundlage von Merkmalen wie Einkommen, Alter oder Anzahl der Transaktionen pro Monat vorhersagt.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt den Knoten Data Asset. Sie können nun den Knoten Typ bearbeiten.
Aufgabe 3: Bearbeiten Sie den Knoten Typ
Nachdem Sie das Daten-Asset erkundet haben, gehen Sie wie folgt vor, um die Eigenschaften des Knotens Typ anzuzeigen und zu bearbeiten:
- Doppelklicken Sie auf den Knoten Typ. Dieser Knoten gibt Feldeigenschaften an, wie z. B. die Messebene (die Art der Daten, die das Feld enthält) und die Rolle jedes Feldes als Ziel oder Eingabe bei der Modellierung. Das Messniveau ist eine Kategorie, die den Datentyp für das Feld anzeigt. Die Quelldatendatei verwendet drei verschiedene Messebenen:
- Ein kontinuierliches Feld (wie das Feld "
Age
) enthält kontinuierliche numerische Werte. - Ein Nominalfeld (wie das Feld "
Education
) hat zwei oder mehr unterschiedliche Werte; in diesem Fall.College
oder "High school
. - Ein Ordinalfeld (wie das Feld "
Income level
) beschreibt Daten mit mehreren unterschiedlichen Werten, die eine inhärente Reihenfolge aufweisen; in diesem Fall "Low
, "Medium
und "High
.
- Ein kontinuierliches Feld (wie das Feld "
- Stellen Sie sicher, dass das Antwortfeld # das Zielfeld ist (Rolle = Ziel) und die Maßnahme für dieses Feld auf Flag steht.
- Vergewissern Sie sich, dass die Rolle auf für die folgenden Felder auf Keine gesetzt ist. Diese Felder werden bei der Erstellung des Modells ignoriert.
- customer_id
- Kampagne
- antwort_datum
- Einkauf
- kauf_datum
- product_id
- ROWID
- X_zufällig
- Klicken Sie im Knoten Typ auf Werte lesen, um sicherzustellen, dass die Werte instanziiert werden.
Wie Sie bereits gesehen haben, enthalten die Quelldaten Informationen über vier verschiedene Kampagnen, die jeweils auf eine andere Art von Kundenkonto ausgerichtet sind. Diese Kampagnen sind in den Daten als ganze Zahlen kodiert. Um sich zu merken, für welchen Kontotyp jede ganze Zahl steht, sollten Sie für jede einzelne Zahl Bezeichnungen definieren.
- Wählen Sie in der Zeile # Kampagne und in der Spalte Wertmodus die Option Angeben aus der Liste.
- Klicken Sie auf das Bearbeitungssymbol ' in der Zeile für das Feld # Kampagne.
- Überprüfen Sie die Beschriftungen für jeden der vier Werte wie gezeigt.
- Klicken Sie auf OK. Jetzt werden die Beschriftungen in den Ausgabefenstern anstelle der Ganzzahlen angezeigt.
- Klicken Sie auf Speichern.
- Optional: Klicken Sie auf Datenvorschau, um den Datensatz mit den angewendeten Typ-Eigenschaften zu sehen.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt den Knoten Typ. Sie können nun eine Kampagne für die Analyse auswählen.
Aufgabe 4: Wählen Sie eine zu analysierende Kampagne aus
Obwohl die Daten Informationen über vier verschiedene Kampagnen enthalten, konzentrieren Sie sich bei der Analyse jeweils auf eine Kampagne. Gehen Sie folgendermaßen vor, um den Knoten Auswählen anzuzeigen und nur die Kampagne für das Premium-Konto zu analysieren:
- Doppelklicken Sie auf den Knoten Auswählen, um seine Eigenschaften anzuzeigen.
- Beachten Sie die Bedingung. Da die meisten Datensätze unter die Kampagne "Premium-Konto" fallen (in den Daten als "
campaign=2
kodiert), wählt der Knoten Select nur diese Datensätze aus. - Optional: Klicken Sie auf Datenvorschau, um den Datensatz mit den angewendeten Auswahleigenschaften zu sehen.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt den Knoten Auswählen. Jetzt können Sie das Modell bauen.
Aufgabe 5: Erstellen des Modells
Nachdem Sie nun eine einzelne Kampagne zur Analyse ausgewählt haben, führen Sie die folgenden Schritte aus, um das Modell zu erstellen, das den Knoten Auto Classifier verwendet:
- Doppelklicken Sie auf den Knoten Antwort (Auto-Klassifikator), um seine Eigenschaften anzuzeigen.
- Erweitern Sie den Abschnitt Build Options.
- Wählen Sie im Feld Modelle einstufen nach die Gesamtgenauigkeit als Metrik für die Einstufung der Modelle.
- Legen Sie den Anzahl der zu verwendenden Modelle auf
3
fest. Diese Option bedeutet, dass die drei besten Modelle erstellt werden, wenn Sie den Knoten ausführen. - Erweitern Sie den Expertenbereich, um die verschiedenen Modellierungsalgorithmen zu sehen.
- Deaktivieren Sie die Modelltypen Discriminant, SVM und Random Forest. Diese Modelle brauchen länger, um auf diesen Daten zu trainieren, so dass ihre Eliminierung das Beispiel beschleunigt.
Da Sie unter " Build Options" die Eigenschaft "Number of models to use" auf "
3
gesetzt haben, berechnet der Knoten die Genauigkeit der verbleibenden Algorithmen und erzeugt ein einziges Modell-Nugget, das die drei genauesten enthält. - Wählen Sie unter den Ensemble-Optionen die vertrauensgewichtete Abstimmung als Ensemble-Methode sowohl für Ziele setzen als auch für Ziele kennzeichnen aus. Diese Einstellung legt fest, wie eine einzelne aggregierte Punktzahl für jeden Datensatz erstellt wird.
Bei einer einfachen Abstimmung, wenn zwei von drei Modellen Ja vorhersagen, gewinnt Ja durch eine Abstimmung von 2 zu 1. Bei der konfidenzgewichteten Abstimmung werden die Stimmen basierend auf dem Konfidenzwert für jede Vorhersage gewichtet. Wenn also ein Modell Nein mit einer höheren Wahrscheinlichkeit vorhersagt als die beiden "Ja-Vorhersagen zusammen, dann gewinnt Nein.
- Klicken Sie auf Speichern.
- Bewegen Sie den Mauszeiger über den Knoten Antwort (Auto-Klassifikator) und klicken Sie auf das Ausführungssymbol " .
- Klicken Sie im Fensterbereich Ausgaben und Modelle auf das Modell mit dem Namen Antwort, um die Ergebnisse anzuzeigen. Sie sehen Details zu jedem der Modelle, die während des Laufs erstellt werden. (In einer realen Situation, in der Hunderte von Modellen für einen großen Datensatz erstellt werden, kann die Ausführung des Flusses viele Stunden dauern)
- Klicken Sie auf einen Modellnamen, um die Ergebnisse der einzelnen Modelle zu betrachten.
Standardmäßig werden die Modelle auf der Grundlage der Gesamtgenauigkeit sortiert, da Sie dieses Maß in den Eigenschaften des Knotens Auto Classifier ausgewählt haben. Bei Verwendung dieses Maßes erhält das XGBoost Tree-Modell die beste Einstufung, aber die C5.0- und C&RT-Modelle sind fast ebenso genau.
Basierend auf diesen Ergebnissen entscheiden Sie sich, jedes der drei genauesten Modelle zu verwenden. Durch die Kombination von Vorhersagen aus mehreren Modellen können Einschränkungen in einzelnen Modellen vermieden werden, was zu einer höheren Gesamtgenauigkeit führt.
- Überprüfen Sie in der Spalte USE, ob alle drei Modelle vorhanden sind, und schließen Sie dann das Modellfenster.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die Modellvergleichstabelle. Sie sind nun bereit, die Modellanalyse durchzuführen.
Aufgabe 6: Führen Sie eine Modellanalyse durch
Nachdem Sie die erstellten Modelle überprüft haben, führen Sie die folgenden Schritte aus, um eine Analyse der Modelle durchzuführen:
- Bewegen Sie den Mauszeiger über den Knoten Analyse und klicken Sie auf das Symbol Ausführen ' .
- Klicken Sie im Bereich Ausgaben und Modelle auf die Analyseausgabe, um die Ergebnisse anzuzeigen.
Die aggregierte Punktzahl, die durch das zusammengesetzte Modell erzeugt wird, wird in einem Feld namens "
$XF-response
angezeigt. Beim Vergleich mit den Trainingsdaten stimmt der vorhergesagte Wert mit einer Gesamtgenauigkeit von 92,77 % mit der tatsächlichen Antwort (die im ursprünglichen Feldresponse
aufgezeichnet ist) überein. Das Ensemblemodell ist in diesem Fall zwar nicht ganz so genau wie das beste der drei Einzelmodelle (92,82 % für das Modell "C5.0"), der Unterschied ist jedoch zu gering, um von Bedeutung zu sein. Im Allgemeinen bringt ein Ensemble-Modell mit höherer Wahrscheinlichkeit gute Leistungen, wenn es auf andere Datasets als die Trainingsdaten angewendet wird.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt den Modellvergleich, der den Knoten Analyse verwendet.
Zusammenfassung
In diesem Beispiel der automatisierten Modellierung für einen Flaggenzielfluss haben Sie den Auto Classifier-Knoten verwendet, um mehrere verschiedene Modelle zu vergleichen, die drei genauesten Modelle zu verwenden und sie dem Fluss innerhalb eines zusammengesetzten Auto Classifier-Modell-Nuggets hinzuzufügen.
- Hinsichtlich der Gesamtgenauigkeit erbrachten die Modelle "XGBoost Tree", "C5.0" und "C&R-Baum" die besten Leistungen bei den Trainingsdaten.
- Das zusammengesetzte Modell schnitt fast so gut ab wie das beste der einzelnen Modelle und könnte bei Anwendung auf andere Datensätze noch besser abschneiden. Wenn Ihr Ziel darin besteht, den Prozess so weit wie möglich zu automatisieren, hilft Ihnen dieser Ansatz dabei, unter den meisten Umständen ein robustes Modell zu erhalten, ohne dass Sie sich mit den Besonderheiten eines einzelnen Modells auseinandersetzen müssen.
Nächste Schritte
Sie sind nun bereit, einen anderen ' SPSS Modeler Tutorials auszuprobieren.