Versuchen Sie das Tutorial
In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:
Beispielhafter Modellierungsablauf und Datensatz
In diesem Tutorial wird der Ablauf Screening Predictors im Beispielprojekt verwendet. Die verwendete Datendatei ist customer_dbase.csv. Das folgende Bild zeigt ein Beispiel für den Ablauf der Modellierung.
- Ohne Featureauswahl. Alle Prädiktorfelder im Datensatz dienen als Eingaben für den CHAID-Baum.
- Mit Featureauswahl. Der Knoten Feature Selection dient zur Auswahl der 10 besten Prädiktoren. Diese Prädiktoren werden in den CHAID-Baum eingegeben.
Anhand des Vergleichs der beiden resultierenden Baummodelle können Sie sehen, wie die Merkmalsauswahl zu effektiven Ergebnissen führen kann.
Aufgabe 1: Öffnen Sie das Beispielprojekt
Das Beispielprojekt enthält mehrere Datensätze und Modellierungsabläufe. Wenn Sie noch nicht über das Beispielprojekt verfügen, lesen Sie bitte das Thema Tutorials, um das Beispielprojekt zu erstellen. Gehen Sie dann wie folgt vor, um das Beispielprojekt zu öffnen:
- Wählen Sie in Cloud Pak for Data aus dem Navigationsmenü " Projekte > Alle Projekte anzeigen.
- Klicken Sie auf SPSS Modeler Project.
- Klicken Sie auf die Registerkarte Assets, um die Datensätze und Modellierungsabläufe zu sehen.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die Registerkarte Assets des Projekts. Sie sind nun bereit, mit dem zu diesem Lehrgang gehörenden Beispielmodellierungsablauf zu arbeiten.
Aufgabe 2: Untersuchen Sie die Knoten "Datenbestand" und "Typ"
Screening Predictors umfasst mehrere Knotenpunkte. Gehen Sie folgendermaßen vor, um die Knoten Daten-Asset und Typ zu untersuchen:
- Öffnen Sie auf der Registerkarte Assets den Modellierungsablauf Screening Predictors und warten Sie, bis der Canvas geladen ist.
- Doppelklicken Sie auf den Knoten customer_dbase.csv. Dieser Knoten ist ein Data Asset-Knoten, der auf die Datei customer_dbase.csv im Projekt verweist.
- Überprüfen Sie die Eigenschaften des Dateiformats.
- Optional: Klicken Sie auf Datenvorschau, um den vollständigen Datensatz zu sehen.
- Doppelklicken Sie auf den Knoten Typ. Beachten Sie den Wert "Rolle" für jedes dieser Felder:
- response_01 ist auf Ziel eingestellt
- response_02, response_03 und custid sind auf None gesetzt
- Alle anderen Felder sind auf Eingabe eingestellt
- Klicken Sie auf Werte lesen.
- Optional: Klicken Sie auf Datenvorschau, um den Datensatz mit den angewendeten Typ-Eigenschaften zu sehen.
- Klicken Sie auf Speichern.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt den Knoten Typ. Jetzt können Sie das Modell bauen.
Aufgabe 3: Erstellen des Modells
Folgen Sie diesen Schritten, um das Modell zu erstellen:
- Doppelklicken Sie auf den Knoten response_01 (Feature Selection), um seine Eigenschaften anzuzeigen.
- Erweitern Sie den Abschnitt Erstellungsoptionen, um die definierten Regeln und Kriterien zu sehen, die für die Überprüfung oder den Ausschluss von Feldern verwendet werden.
- Bewegen Sie den Mauszeiger über den Knoten response_01 (Feature Selection) und klicken Sie auf das Ausführungssymbol " .
- Klicken Sie im Fensterbereich Ausgaben und Modelle auf das Modell mit dem Namen response_01, um das Modell anzuzeigen. Die Ergebnisse zeigen die Felder, die sich für die Vorhersage als nützlich erwiesen haben, geordnet nach ihrer Bedeutung. Wenn Sie diese Felder untersuchen, können Sie entscheiden, welche davon in den späteren Modellierungssitzungen verwendet werden sollen.
Um Ergebnisse ohne Merkmalsauswahl zu vergleichen, müssen Sie zwei CHAID-Modellierungsknoten im Ablauf verwenden: einen mit und einen ohne Merkmalsauswahl.
- Doppelklicken Sie auf den Knoten Mit allen Feldern (CHAID), um seine Eigenschaften anzuzeigen.
- Vergewissern Sie sich unter Ziele, dass die Optionen Neues Modell erstellen und Standardmodell erstellen ausgewählt sind.
- Erweitern Sie den Abschnitt " Basic" und stellen Sie sicher, dass "Maximum Tree Depth" auf "Custom" und die Anzahl der Ebenen auf "
5
eingestellt ist.
- Klicken Sie auf Speichern.
- Doppelklicken Sie auf den Knoten Top-10-Felder verwenden (CHAID), um seine Eigenschaften anzuzeigen
- Überprüfen Sie die gleichen Eigenschaften wie der Knoten Mit allen Feldern (CHAID).
- Klicken Sie auf Speichern.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt den Knoten Modellierung. Sie können nun den Ablauf ausführen und die Ergebnisse anzeigen.
Aufgabe 4: Führen Sie den Fluss aus und zeigen Sie die Ergebnisse an
Führen Sie die folgenden Schritte aus, um den Ablauf auszuführen und die Ergebnisse der beiden Modelle mit und ohne Merkmalsauswahl anzuzeigen:
- Klicken Sie auf ' Alle ausführen '. Beobachte, wie lange jedes Modell braucht, um fertig zu werden.
- Klicken Sie im Fensterbereich Ausgaben und Modelle auf das Modell mit dem Namen Mit allen Feldern, um die Ergebnisse anzuzeigen.
- Klicken Sie auf die Seite Baumdiagramm.
- Zoomen Sie heraus, um den Umfang des Baumdiagramms zu sehen.
- Schließen Sie das Modell-Detailfenster.
- Klicken Sie im Bereich Ausgaben und Modelle auf den Modelllauf mit dem Namen Top-10-Felder verwenden, um die Ergebnisse anzuzeigen.
- Klicken Sie auf die Seite Baumdiagramm.
- Zoomen Sie heraus, um den Umfang des Baumdiagramms zu sehen.
Es ist möglicherweise nicht auf den ersten Blick erkennbar, aber das zweite Modell wurde schneller ausgeführt als das erste. Da dieser Datensatz relativ klein ist, beträgt der Unterschied in den Laufzeiten wahrscheinlich nur ein paar Sekunden; bei größeren realen Datensätzen könnte der Unterschied jedoch spürbar sein, nämlich Minuten oder sogar Stunden. Die Verwendung der Merkmalsauswahl kann Ihre Bearbeitungszeiten drastisch verkürzen.
Sie könnten stattdessen einen Algorithmus zur Erstellung eines Baums verwenden, um die Merkmalsauswahl zu treffen, so dass der Baum die wichtigsten Prädiktoren für Sie ermitteln kann. Tatsächlich wird der CHAID-Algorithmus häufig zu diesem Zweck verwendet. Es ist sogar möglich, den Baum Ebene für Ebene zu erweitern, um seine Tiefe und Komplexität steuern zu können. Der Knoten Feature Selection ist jedoch schneller und einfacher zu bedienen. Es ordnet alle Prädiktoren in einem schnellen Schritt ein und hilft Ihnen, die wichtigsten Felder schnell zu identifizieren.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt das Baumdiagramm des Modells.
Zusammenfassung
Der zweite Baum enthält außerdem weniger Baumknoten als der erste. Er ist leichter verständlich. Die Verwendung einer geringeren Anzahl von Prädiktoren ist weniger kostenintensiv. Dies bedeutet, dass Sie weniger Daten sammeln, verarbeiten und in die Modelle einspeisen müssen. Die Berechnungszeit wird reduziert. In diesem Beispiel war die Modellerstellung selbst mit dem zusätzlichen Schritt der Featureauswahl schneller mit dem kleineren Satz von Prädiktoren. Bei einem größeren realen Datensatz könnte die Zeitersparnis noch erheblich größer sein.
Durch die Verwendung weniger Prädiktoren wird das Scoring vereinfacht. Sie könnten beispielsweise eventuell mit nur vier Profilen von Kunden arbeiten, die mit hoher Wahrscheinlichkeit auf die Werbeaktion ansprechen. Bei einer größeren Anzahl von Prädiktoren besteht die Gefahr einer Überanpassung des Modells. Das einfachere Modell lässt sich möglicherweise besser auf andere Datensätze übertragen (allerdings müssen Sie diesen Ansatz testen, um sicher zu sein).
Nächste Schritte
Sie sind nun bereit, einen anderen ' SPSS® Modeler Tutorials auszuprobieren.