Modellierung für ein Flaggenziel automatisieren

Letzte Aktualisierung: 11. Feb. 2025

In diesem Tutorial wird der Auto Classifier-Knoten verwendet, um automatisch eine Reihe verschiedener Modelle zu erstellen und zu vergleichen, und zwar entweder für Flag-Ziele (z. B. ob ein bestimmter Kunde wahrscheinlich mit einem Kredit in Verzug gerät oder auf ein bestimmtes Angebot reagiert) oder für nominale (festgelegte) Ziele.

In diesem Beispiel suchen Sie nach einem Flaggenergebnis (ja oder nein). Innerhalb eines relativ einfachen Ablaufs generiert und bewertet der Knoten einen Satz von Kandidatenmodellen, wählt die Modelle aus, die am besten abschneiden, und kombiniert sie zu einem einzigen aggregierten (Ensembled) Modell. Dieser Ansatz bietet gleichzeitig Automatisierung und die Vorteile der Kombination mehrerer Modelle, die häufiger genauere Vorhersagen erlaubt, als aus den einzelnen Modellen erzielt werden können.

Dieses Beispiel basiert auf einem fiktiven Unternehmen, das profitablere Ergebnisse erzielen möchte, indem das entsprechende Angebot jedem Kunden zugeordnet wird. Bei diesem Ansatz stehen die Vorteile der Automatisierung stärker im Mittelpunkt. Ein ähnliches Beispiel, bei dem ein kontinuierliches (numerisches) Ziel verwendet wird, finden Sie im anderen " SPSS® Modeler Tutorials.

Vorschau des Lernprogramms anzeigen

Video ansehen Sehen Sie sich dieses Video an, um eine Vorschau der Schritte in diesem Lernprogramm anzuzeigen. Die Benutzeroberfläche, die im Video gezeigt wird, kann geringfügig abweichen. Das Video ist als Ergänzung zum schriftlichen Tutorial gedacht. Dieses Video bietet eine visuelle Methode, um die Konzepte und Aufgaben in dieser Dokumentation zu erlernen.

Versuchen Sie das Tutorial

In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:

Aufgabe 1: Öffnen Sie das Beispielprojekt
Aufgabe 2: Untersuchen des Knotens Data Asset
Aufgabe 3: Bearbeiten Sie den Knoten Typ
Aufgabe 4: Wählen Sie eine zu analysierende Kampagne aus
Aufgabe 5: Erstellen des Modells
Aufgabe 6: Führen Sie eine Modellanalyse durch

Beispielhafter Modellierungsablauf und Datensatz

In diesem Tutorial wird der Ablauf der automatischen Modellierung für ein Flaggenziel im Beispielprojekt verwendet. Die verwendete Datendatei ist pm_customer_train1.csv. Das folgende Bild zeigt ein Beispiel für den Ablauf der Modellierung.

Automatisches Klassifikationsmerkmal - Beispielablauf — Abb. 1. Ablauf der Modellierung von Proben

Dieses Beispiel verwendet die Datendatei pm_customer_train1.csv, die historische Daten enthält, die die Angebote an bestimmte Kunden in vergangenen Kampagnen verfolgen, wie durch den Wert des Feldescampaign angegeben.

Das folgende Bild zeigt den Beispieldatensatz.

Daten zu früheren Werbeaktionen — Abbildung 2: Beispielhafter Datensatz

Aufgabe 1: Öffnen Sie das Beispielprojekt

Das Beispielprojekt enthält mehrere Datensätze und Modellierungsabläufe. Wenn Sie das Beispielprojekt noch nicht haben, finden Sie unter Tutorials eine Anleitung zum Erstellen des Beispielprojekts. Gehen Sie dann wie folgt vor, um das Beispielprojekt zu öffnen:

In Cloud Pak for Data wählen Sie im Navigationsmenü Projekte > Alle Projekte anzeigen aus.
Klicken Sie auf SPSS Modeler.
Klicken Sie auf die Registerkarte Assets, um die Datensätze und Modellierungsabläufe zu sehen.

Überprüfen Sie Ihren Fortschritt

Die folgende Abbildung zeigt die Registerkarte Assets des Projekts. Sie sind nun bereit, mit dem zu diesem Lehrgang gehörenden Beispielmodellierungsablauf zu arbeiten.

Beispielprojekt

Zurück zum Seitenanfang

Aufgabe 2: Untersuchen des Knotens Data Asset

Die automatisierte Modellierung für ein Flaggenziel umfasst mehrere Knotenpunkte. Gehen Sie folgendermaßen vor, um den Knoten Daten-Asset zu untersuchen.

Öffnen Sie auf der Registerkarte Assets den Modellierungsablauf Automatisierte Modellierung für ein Flaggenziel, und warten Sie, bis der Canvas geladen ist.
Doppelklicken Sie auf den Knoten pm_customer_train1.csv. Dieser Knoten ist ein Data Asset-Knoten, der auf die Datei pm_customer_train1.csv im Projekt verweist.
Überprüfen Sie die Eigenschaften des Dateiformats.
Optional: Klicken Sie auf Datenvorschau, um den vollständigen Datensatz zu sehen.
Die größte Anzahl an Datensätzen entfällt auf die Kampagne Premium account. Die Werte des Feldes " campaign werden in den Daten als ganze Zahlen kodiert (z. B. " 2 = Premium account). Später definieren Sie Bezeichnungen für diese Werte, die Sie für eine aussagekräftigere Ausgabe verwenden können.

Die Datei enthält auch ein Feld " response, das angibt, ob das Angebot angenommen wurde (0 = no und " 1 = yes). Das Feld " response ist das Zielfeld bzw. der Wert, den Sie vorhersagen möchten. Verschiedene Felder mit demografischen und finanziellen Informationen über jeden Kunden sind ebenfalls enthalten. Diese Felder werden verwendet, um ein Modell zu erstellen oder zu trainieren, das die Antwortquoten für Einzelpersonen oder Gruppen auf der Grundlage von Merkmalen wie Einkommen, Alter oder Anzahl der Transaktionen pro Monat vorhersagt.

Kontrollpunkt-Symbol Überprüfen Sie Ihren Fortschritt

Das folgende Bild zeigt den Knoten Data Asset. Sie können nun den Knoten Typ bearbeiten.

Zurück zum Seitenanfang

Aufgabe 3: Bearbeiten Sie den Knoten Typ

Nachdem Sie das Daten-Asset erkundet haben, gehen Sie wie folgt vor, um die Eigenschaften des Knotens Typ anzuzeigen und zu bearbeiten:

Doppelklicken Sie auf den Knoten Typ. Dieser Knoten gibt Feldeigenschaften an, wie z. B. die Messebene (die Art der Daten, die das Feld enthält) und die Rolle jedes Feldes als Ziel oder Eingabe bei der Modellierung. Das Messniveau ist eine Kategorie, die den Datentyp für das Feld anzeigt. Die Quelldatendatei verwendet drei verschiedene Messebenen:
- Ein kontinuierliches Feld (wie das Feld " Age ) enthält kontinuierliche numerische Werte.
- Ein Nominalfeld (wie das Feld " Education ) hat zwei oder mehr unterschiedliche Werte; in diesem Fall. College oder " High school.
- Ein Ordinalfeld (wie das Feld " Income level ) beschreibt Daten mit mehreren unterschiedlichen Werten, die eine inhärente Reihenfolge aufweisen; in diesem Fall " Low, " Medium und " High.
Stellen Sie sicher, dass das Antwortfeld # das Zielfeld ist (Rolle = Ziel) und die Maßnahme für dieses Feld auf Flag steht.
Abb. 3 Einstellen der Messstufe und der Rolle
Vergewissern Sie sich, dass die Rolle auf für die folgenden Felder auf Keine gesetzt ist. Diese Felder werden bei der Erstellung des Modells ignoriert.
- customer_id
- Kampagne
- antwort_datum
- Einkauf
- kauf_datum
- product_id
- ROWID
- X_zufällig
Klicken Sie im Knoten Typ auf Werte lesen, um sicherzustellen, dass die Werte instanziiert werden.
Wie Sie bereits gesehen haben, enthalten die Quelldaten Informationen über vier verschiedene Kampagnen, die jeweils auf eine andere Art von Kundenkonto ausgerichtet sind. Diese Kampagnen sind in den Daten als ganze Zahlen kodiert. Um sich zu merken, für welchen Kontotyp jede ganze Zahl steht, sollten Sie für jede einzelne Zahl Bezeichnungen definieren.

Abbildung 4. Wählen Sie, um Werte für ein Feld anzugeben
Wählen Sie in der Zeile # Kampagne und in der Spalte Wertmodus die Option Angeben aus der Liste.
Klicken Sie auf das Symbol "Bearbeiten " in der Zeile für das Feld "#-Kampagne ".
1. Überprüfen Sie die Beschriftungen für jeden der vier Werte wie gezeigt.
  Abbildung 5. Beschriftungen für die Feldwerte definieren
2. Klicken Sie auf OK. Jetzt werden die Beschriftungen in den Ausgabefenstern anstelle der Ganzzahlen angezeigt.
Klicken Sie auf Speichern.
Optional: Klicken Sie auf Datenvorschau, um den Datensatz mit den angewendeten Typ-Eigenschaften zu sehen.

Kontrollpunkt-Symbol Überprüfen Sie Ihren Fortschritt

Das folgende Bild zeigt den Knoten Typ. Sie können nun eine Kampagne für die Analyse auswählen.

Zurück zum Seitenanfang

Aufgabe 4: Wählen Sie eine zu analysierende Kampagne aus

Obwohl die Daten Informationen über vier verschiedene Kampagnen enthalten, konzentrieren Sie sich bei der Analyse jeweils auf eine Kampagne. Gehen Sie folgendermaßen vor, um den Knoten Auswählen anzuzeigen und nur die Kampagne für das Premium-Konto zu analysieren:

Doppelklicken Sie auf den Knoten Auswählen, um seine Eigenschaften anzuzeigen.
Beachten Sie die Bedingung. Da die meisten Datensätze unter die Kampagne "Premium-Konto" fallen (in den Daten als " campaign=2 kodiert), wählt der Knoten Select nur diese Datensätze aus.
Optional: Klicken Sie auf Datenvorschau, um den Datensatz mit den angewendeten Auswahleigenschaften zu sehen.

Kontrollpunkt-Symbol Überprüfen Sie Ihren Fortschritt

Das folgende Bild zeigt den Knoten Auswählen. Jetzt können Sie das Modell bauen.

Zurück zum Seitenanfang

Aufgabe 5: Erstellen des Modells

Nachdem Sie nun eine einzelne Kampagne zur Analyse ausgewählt haben, führen Sie die folgenden Schritte aus, um das Modell zu erstellen, das den Knoten Auto Classifier verwendet:

Doppelklicken Sie auf den Knoten Antwort (Auto-Klassifikator), um seine Eigenschaften anzuzeigen.
Erweitern Sie den Abschnitt Build Options.
Wählen Sie im Feld Modelle einstufen nach die Gesamtgenauigkeit als Metrik für die Einstufung der Modelle.
Legen Sie den Anzahl der zu verwendenden Modelle auf 3fest. Diese Option bedeutet, dass die drei besten Modelle erstellt werden, wenn Sie den Knoten ausführen.
Abbildung 6. Auto-Klassifikator-Knoten, Build-Optionen
Erweitern Sie den Expertenbereich, um die verschiedenen Modellierungsalgorithmen zu sehen.
Deaktivieren Sie die Modelltypen Discriminant, SVM und Random Forest. Diese Modelle brauchen länger, um auf diesen Daten zu trainieren, so dass ihre Eliminierung das Beispiel beschleunigt.
Da Sie unter " Build Options" die Eigenschaft "Number of models to use" auf " 3 gesetzt haben, berechnet der Knoten die Genauigkeit der verbleibenden Algorithmen und erzeugt ein einziges Modell-Nugget, das die drei genauesten enthält.

Abbildung 7. Knoten für automatische Klassifizierung, Expertenoptionen
Wählen Sie unter den Ensemble-Optionen die vertrauensgewichtete Abstimmung als Ensemble-Methode sowohl für Ziele setzen als auch für Ziele kennzeichnen aus. Diese Einstellung legt fest, wie eine einzelne aggregierte Punktzahl für jeden Datensatz erstellt wird.
Bei einer einfachen Abstimmung, wenn zwei von drei Modellen Ja vorhersagen, gewinnt Ja durch eine Abstimmung von 2 zu 1. Bei der konfidenzgewichteten Abstimmung werden die Stimmen basierend auf dem Konfidenzwert für jede Vorhersage gewichtet. Wenn also ein Modell Nein mit einer höheren Wahrscheinlichkeit vorhersagt als die beiden "Ja-Vorhersagen zusammen, dann gewinnt Nein.

Abbildung 8. Auto-Klassifikator-Knoten - Ensemble-Optionen
Klicken Sie auf Speichern.
Fahren Sie mit der Maus über den Knoten "Antwort (Auto Classifier )" und klicken Sie auf das Symbol "Ausführen " .
Klicken Sie im Fensterbereich Ausgaben und Modelle auf das Modell mit dem Namen Antwort, um die Ergebnisse anzuzeigen. Sie sehen Details zu jedem der Modelle, die während des Laufs erstellt werden. (In einer realen Situation, in der Hunderte von Modellen für einen großen Datensatz erstellt werden, kann die Ausführung des Flusses viele Stunden dauern)
Klicken Sie auf einen Modellnamen, um die Ergebnisse der einzelnen Modelle zu betrachten.
Standardmäßig werden die Modelle auf der Grundlage der Gesamtgenauigkeit sortiert, da Sie dieses Maß in den Eigenschaften des Knotens Auto Classifier ausgewählt haben. Bei Verwendung dieses Maßes erhält das XGBoost Tree-Modell die beste Einstufung, aber die C5.0- und C&RT-Modelle sind fast ebenso genau.

Basierend auf diesen Ergebnissen entscheiden Sie sich, jedes der drei genauesten Modelle zu verwenden. Durch die Kombination von Vorhersagen aus mehreren Modellen können Einschränkungen in einzelnen Modellen vermieden werden, was zu einer höheren Gesamtgenauigkeit führt.
Überprüfen Sie in der Spalte USE, ob alle drei Modelle vorhanden sind, und schließen Sie dann das Modellfenster.

Kontrollpunkt-Symbol Überprüfen Sie Ihren Fortschritt

Die folgende Abbildung zeigt die Modellvergleichstabelle. Sie sind nun bereit, die Modellanalyse durchzuführen.

Zurück zum Seitenanfang

Aufgabe 6: Führen Sie eine Modellanalyse durch

Nachdem Sie die erstellten Modelle überprüft haben, führen Sie die folgenden Schritte aus, um eine Analyse der Modelle durchzuführen:

Bewegen Sie den Mauszeiger über den Knoten "Analyse" und klicken Sie auf das Symbol "Ausführen " .
Klicken Sie im Bereich Ausgaben und Modelle auf die Analyseausgabe, um die Ergebnisse anzuzeigen.
Die aggregierte Punktzahl, die durch das zusammengesetzte Modell erzeugt wird, wird in einem Feld namens " $XF-response angezeigt. Beim Vergleich mit den Trainingsdaten stimmt der vorhergesagte Wert mit einer Gesamtgenauigkeit von 92,77 % mit der tatsächlichen Antwort (die im ursprünglichen Feld response aufgezeichnet ist) überein. Das Ensemblemodell ist in diesem Fall zwar nicht ganz so genau wie das beste der drei Einzelmodelle (92,82 % für das Modell "C5.0"), der Unterschied ist jedoch zu gering, um von Bedeutung zu sein. Im Allgemeinen bringt ein Ensemble-Modell mit höherer Wahrscheinlichkeit gute Leistungen, wenn es auf andere Datasets als die Trainingsdaten angewendet wird.

Kontrollpunkt-Symbol Überprüfen Sie Ihren Fortschritt

Das folgende Bild zeigt den Modellvergleich, der den Knoten Analyse verwendet.

Zurück zum Seitenanfang

Zusammenfassung

In diesem Beispiel der automatisierten Modellierung für einen Flaggenzielfluss haben Sie den Auto Classifier-Knoten verwendet, um mehrere verschiedene Modelle zu vergleichen, die drei genauesten Modelle zu verwenden und sie dem Fluss innerhalb eines zusammengesetzten Auto Classifier-Modell-Nuggets hinzuzufügen.

Hinsichtlich der Gesamtgenauigkeit erbrachten die Modelle "XGBoost Tree", "C5.0" und "C&R-Baum" die besten Leistungen bei den Trainingsdaten.
Das zusammengesetzte Modell schnitt fast so gut ab wie das beste der einzelnen Modelle und könnte bei Anwendung auf andere Datensätze noch besser abschneiden. Wenn Ihr Ziel darin besteht, den Prozess so weit wie möglich zu automatisieren, hilft Ihnen dieser Ansatz dabei, unter den meisten Umständen ein robustes Modell zu erhalten, ohne dass Sie sich mit den Besonderheiten eines einzelnen Modells auseinandersetzen müssen.