In diesem Tutorial werden zwei Modelle erstellt, um die Auswirkungen zukünftiger Verkaufsförderungsmaßnahmen vorherzusagen, und anschließend werden die Modelle miteinander verglichen.
Ähnlich wie beim Tutorial zur Zustandsüberwachung besteht der Data-Mining-Prozess aus den Phasen Exploration, Datenaufbereitung, Training und Test. Nicht alle Daten in der " telco.csv
-Datei sind für die Vorhersage der Abwanderung geeignet. Sie können den Filter verwenden, um nur Daten auszuwählen, die als wichtig für die Verwendung als Prädiktor angesehen werden (die im Modell als wichtig markierten Felder).
Versuchen Sie das Tutorial
In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:
Beispielhafter Modellierungsablauf und Datensatz
In diesem Tutorial wird der Ablauf der Einzelhandelsverkaufsaktion im Beispielprojekt verwendet. Die verwendete Datendatei ist goods2n.csv. Das folgende Bild zeigt ein Beispiel für den Ablauf der Modellierung.
Aufgabe 1: Öffnen Sie das Beispielprojekt
Das Beispielprojekt enthält mehrere Datensätze und Modellierungsabläufe. Wenn Sie das Beispielprojekt noch nicht haben, können Sie es unter dem Thema Tutorials erstellen. Gehen Sie dann wie folgt vor, um das Beispielprojekt zu öffnen:
- Wählen Sie in Cloud Pak for Data aus dem Navigationsmenü " Projekte > Alle Projekte anzeigen.
- Klicken Sie auf SPSS Modeler.
- Klicken Sie auf die Registerkarte Assets, um die Datensätze und Modellierungsabläufe zu sehen.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die Registerkarte Assets des Projekts. Sie sind nun bereit, mit dem zu diesem Lehrgang gehörenden Beispielmodellierungsablauf zu arbeiten.
Aufgabe 2: Untersuchen Sie die Knoten "Datenbestand", "Ableiten" und "Typ"
Die Verkaufsförderung im Einzelhandel umfasst mehrere Knotenpunkte. Gehen Sie wie folgt vor, um die Knoten Data Asset, Derive und Type zu untersuchen:
Data Asset-Knoten
- Öffnen Sie auf der Registerkarte Assets den Modellierungsfluss für die Verkaufsförderung im Einzelhandel und warten Sie, bis der Canvas geladen ist.
- Doppelklicken Sie auf den Knoten goods1n.csv. Dieser Knoten ist ein Data Asset-Knoten, der auf die Datei goods1n.csv im Projekt verweist.
- Überprüfen Sie die Eigenschaften des Dateiformats.
- Klicken Sie auf Datenvorschau, um den vollständigen Datensatz zu sehen.
- Beachten Sie, dass jeder Datensatz enthält:
Class
. Produkttyp.Cost
. Preis pro Einheit.Promotion
. Index des für eine bestimmte Aktion ausgegebenen Betrags.Before
. Einnahmen vor Promotion.After
. Einnahmen nach Promotion.
Die beiden Felder
Before
undAfter
) für die Einkünfte werden in absoluten Begriffen ausgedrückt. Es scheint jedoch wahrscheinlich, dass der Anstieg der Einnahmen nach der Werbeaktion (und vermutlich als Folge davon) eine nützlichere Zahl sein könnte. - Schließen Sie die Datenvorschau und das Eigenschaftsfenster.
Ableitungsknoten
- Doppelklicken Sie auf den Knoten Erhöhen (Ableiten). Dieser Knoten leitet den Wert der Einnahmeerhöhung ab.
- Überprüfen Sie die Einstellungen, insbesondere das Feld " Ausdruck", das eine Formel enthält, um die Erhöhung als Prozentsatz des Umsatzes vor der Werbeaktion abzuleiten: "
(After - Before) / Before * 100.0
. - Klicken Sie auf Datenvorschau, um den Datensatz mit den abgeleiteten Werten zu sehen.
- Beachten Sie die Spalte Zunahme.
Für jede Produktklasse ist eine fast lineare Beziehung zwischen dem Anstieg bei den Einkünften und den Kosten für die Werbeaktion vorhanden. Deshalb ist es wahrscheinlich, dass ein Entscheidungsbaum oder ein neuronales Netz mit einer akzeptablen Genauigkeit den Anstieg der Einkünfte aus den anderen verfügbaren Feldern vorhersagen könnte.
- Schließen Sie die Datenvorschau und das Eigenschaftsfenster.
Typknoten
- Doppelklicken Sie auf den Knoten Typen definieren (Typ). Dieser Knoten gibt Feldeigenschaften an, wie z. B. die Messebene (die Art der Daten, die das Feld enthält) und die Rolle jedes Feldes als Ziel oder Eingabe bei der Modellierung. Das Messniveau ist eine Kategorie, die den Datentyp für das Feld anzeigt. Die Quelldatendatei verwendet drei verschiedene Messebenen:
- Ein kontinuierliches Feld (wie das Feld "
Age
) enthält kontinuierliche numerische Werte. - Ein Nominalfeld (wie das Feld "
Education
) hat zwei oder mehr unterschiedliche Werte - in diesem Fall "College
oder "High school
. - Ein Ordinalfeld (wie das Feld "
Income level
) beschreibt Daten mit mehreren unterschiedlichen Werten, die eine inhärente Reihenfolge aufweisen - in diesem Fall "Low
, "Medium
und "High
.Für jedes Feld gibt der Knoten Typ auch eine Rolle an, die angibt, welche Rolle das jeweilige Feld bei der Modellierung spielt. Für das Feld "
Increase
, das abgeleitet wurde, ist die Rolle auf "Ziel" eingestellt.target
ist das Feld, für das Sie den Wert vorhersagen möchten.Für die meisten anderen Felder ist die Rolle auf Eingabe eingestellt. Eingabefelder werden manchmal auch als
predictors
bezeichnet oder als Felder, mit deren Werten der Modellierungsalgorithmus den Wert des Zielfelds vorhersagt.Die Rolle für das Feld "
After
ist auf "Keine" gesetzt, so dass dieses Feld vom Modellierungsalgorithmus nicht verwendet wird.
- Ein kontinuierliches Feld (wie das Feld "
- Optional: Klicken Sie auf Datenvorschau, um den Datensatz mit den abgeleiteten Werten zu sehen.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt den Knoten Typ. Jetzt können Sie die Modelle erstellen und vergleichen.
Aufgabe 3: Erzeugen und Vergleichen der Modelle
Der Ablauf trainiert ein neuronales Netz und einen Entscheidungsbaum, um diese Vorhersage bezüglich des Anstiegs an Einkünften zu treffen. Folgen Sie diesen Schritten, um die beiden Modelle zu erstellen:
Erzeugen Sie die Modelle
- Doppelklicken Sie auf den Knoten Erhöhen (Neuronales Netz), um seine Eigenschaften zu überprüfen.
- Erweitern Sie den Abschnitt Grundlagen, um zu sehen, dass der Modelltyp Multilayer Perceptron ist. Diese Eigenschaft bestimmt, wie das Netz die Prädiktoren über die verborgenen Schichten mit den Zielen verbindet. Ein mehrschichtiges Perzeptron ermöglicht komplexere Beziehungen auf Kosten der möglichen Verlängerung der Trainings- und Auswertungszeit.
- Erweitern Sie den Abschnitt Modelloptionen, um die Bewertungs- und Einstufungseigenschaften zu sehen.
- Doppelklicken Sie auf den Knoten Erhöhen (C&R-Baum), um seine Eigenschaften anzuzeigen.
- Klicken Sie auf Run all ', und warten Sie, bis die Modell-Nuggets generiert sind.
- Verbinden Sie das Modellnugget Erhöhung (C&R Baum) mit dem Modellnugget Erhöhung (Neuronales Netz).
- Fügen Sie einen Analyseknoten hinzu:
- Erweitern Sie in der Palette den Abschnitt Ausgänge.
- Ziehen Sie den Analyseknoten auf die Leinwand.
- Verbinden Sie das Modellnugget Increase (Neuronales Netz) mit dem Knoten Analysis.
- Ändern Sie den Datensatz, um andere Daten für die Analyse zu verwenden:
- Doppelklicken Sie auf den Knoten goods1n.csv, um dessen Eigenschaften anzuzeigen.
- CV lecken Datensatz ändern.
- Navigieren Sie zu Datenbestand > GOODS2n.csv.
- Klicken Sie auf Auswählen.
- Klicken Sie auf Speichern.
- Bewegen Sie den Mauszeiger über den Knoten Analyse und klicken Sie auf das Symbol Ausführen ' .
- Klicken Sie im Fensterbereich Ausgaben und Modelle auf die Ausgabe mit dem Namen Analyse, um die Ergebnisse anzuzeigen.
Anhand der Analyseergebnisse, insbesondere der linearen Korrelation zwischen der vorhergesagten Steigerung und der richtigen Antwort, sehen Sie, dass die trainierten Systeme die Steigerung der Einnahmen mit einem hohen Erfolgsgrad vorhersagen.
Eine weitere Exploration könnte sich auf Fälle konzentrieren, bei denen die trainierten Systeme relativ hohe Fehlerraten verursachen. Sie können diese Fehler erkennen, indem Sie den prognostizierten Anstieg der Einnahmen gegen den tatsächlichen Anstieg auftragen. Mit Hilfe der interaktiven Grafiken in SPSS Modeler können Sie dann Ausreißer in einem Diagramm auswählen und anhand ihrer Eigenschaften die Datenbeschreibung oder den Lernprozess anpassen, um die Genauigkeit zu verbessern.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt die Ausgabe des Analyseknotens.
Zusammenfassung
Dieses Beispiel hat Ihnen gezeigt, wie Sie die Auswirkungen zukünftiger Verkaufsförderungsmaßnahmen vorhersagen können. Ähnlich wie im Beispiel der Zustandsüberwachung besteht der Data-Mining-Prozess aus den Phasen Exploration, Datenaufbereitung, Training und Test.
Nächste Schritte
Sie sind nun bereit, einen anderen ' SPSS® Modeler Tutorials auszuprobieren.