Datenaufbereitung automatisieren
Dieses Lernprogramm enthält ein Beispiel für die Vorbereitung von Daten für die Analyse. Die Aufbereitung von Daten ist einer der wichtigsten Schritte in jedem Data-Mining-Projekt und traditionell auch einer der zeitaufwändigsten. Der Knoten Auto Data Prep übernimmt diese Aufgabe für Sie, indem er Ihre Daten analysiert und Korrekturen identifiziert, problematische oder wahrscheinlich nicht nützliche Felder aussortiert, gegebenenfalls neue Attribute ableitet und die Leistung durch intelligente Screening-Techniken verbessert.
Sie können den Knoten " Automatische Datenvorbereitung" vollautomatisch verwenden, so dass der Knoten Korrekturen auswählt und anwendet, oder Sie können die Änderungen in der Vorschau anzeigen, bevor sie vorgenommen werden, und sie akzeptieren oder ablehnen. Mit diesem Knoten können Sie Ihre Daten schnell und einfach für das Data-Mining vorbereiten, ohne dass Vorkenntnisse zu den verwendeten Statistikkonzepten erforderlich sind. Wenn Sie den Knoten mit den Standardeinstellungen ausführen, werden die Modelle tendenziell schneller aufgebaut und bewertet.
Vorschau des Lernprogramms anzeigen
Sehen Sie sich dieses Video an, um eine Vorschau der Schritte in diesem Lernprogramm anzuzeigen. Die Benutzeroberfläche, die im Video gezeigt wird, kann geringfügig abweichen. Das Video ist als Ergänzung zum schriftlichen Tutorial gedacht. Dieses Video bietet eine visuelle Methode, um die Konzepte und Aufgaben in dieser Dokumentation zu erlernen.
Versuchen Sie das Tutorial
In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:
Beispielhafter Modellierungsablauf und Datensatz
In diesem Tutorial wird der Ablauf der automatischen Datenvorbereitung im Beispielprojekt verwendet. Die verwendete Datendatei ist telco.csv. Dieses Beispiel veranschaulicht die erhöhte Genauigkeit, die Sie durch die Verwendung der Standardeinstellungen für den Auto Data Prep-Knoten bei der Erstellung von Modellen erzielen können. Das folgende Bild zeigt ein Beispiel für den Ablauf der Modellierung.


Aufgabe 1: Öffnen Sie das Beispielprojekt
Das Beispielprojekt enthält mehrere Datensätze und Modellierungsabläufe. Wenn Sie das Beispielprojekt noch nicht haben, finden Sie unter Tutorials eine Anleitung zum Erstellen des Beispielprojekts. Gehen Sie dann wie folgt vor, um das Beispielprojekt zu öffnen:
- In Cloud Pak for Data wählen Sie im Navigationsmenü
Projekte > Alle Projekte anzeigen aus.
- Klicken Sie auf SPSS Modeler Project.
- Klicken Sie auf die Registerkarte Assets, um die Datensätze und Modellierungsabläufe zu sehen.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die Registerkarte Assets des Projekts. Sie sind nun bereit, mit dem zu diesem Lehrgang gehörenden Beispielmodellierungsablauf zu arbeiten.
Aufgabe 2: Untersuchen Sie die Knoten "Datenbestand" und "Typ"
Die automatisierte Datenvorbereitung umfasst mehrere Knotenpunkte. Gehen Sie folgendermaßen vor, um die Knoten Daten-Asset und Typ zu untersuchen:
- Öffnen Sie auf der Registerkarte Assets den Modellierungsfluss Automatisierte Datenvorbereitung und warten Sie, bis der Canvas geladen ist.
- Doppelklicken Sie auf den Knoten telco.csv. Dieser Knoten ist ein Data Asset-Knoten, der auf die Datei telco.csv im Projekt verweist.
- Überprüfen Sie die Eigenschaften des Dateiformats.
- Optional: Klicken Sie auf Datenvorschau, um den vollständigen Datensatz zu sehen.
- Doppelklicken Sie auf den Knoten Typ. Beachten Sie, dass die Kennzahl für das Feld "
auf Flag und die Rolle auf Target gesetzt ist. Stellen Sie sicher, dass die Rolle für alle anderen Felder auf Eingabe gesetzt ist.churn
Abb. 3 Einstellen der Messstufe und der Rolle - Optional: Klicken Sie auf Datenvorschau, um den Datensatz mit den angewendeten Typ-Eigenschaften zu sehen.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt den Knoten Typ. Jetzt können Sie das Modell bauen.

Aufgabe 3: Erstellen der Modelle
Sie werden zwei Modelle erstellen, ein Modell ohne und ein Modell mit automatischer Datenaufbereitung. Folgen Sie diesen Schritten, um die Modelle zu erstellen:
- Doppelklicken Sie auf den Knoten Kein ADP - Abwanderung, der mit dem Knoten Typ verbunden ist, um seine Eigenschaften anzuzeigen.
- Erweitern Sie den Abschnitt Modelleinstellungen
- Vergewissern Sie sich, dass das Verfahren auf Binomial eingestellt ist.
- Stellen Sie sicher, dass der Modellname auf "Benutzerdefiniert" eingestellt ist und der Name " No ADP - churn lautet.
Abbildung 4. Abschnitt Logistische Knoten Modelleinstellungen
- Bewegen Sie den Mauszeiger über den Knoten "No ADP – Churn" und klicken Sie auf das Symbol "Ausführen"
.
- Klicken Sie im Bereich Ergebnisse und Modelle auf das Modell mit dem Namen No ADP - churn, um die Ergebnisse anzuzeigen.
- Zeigen Sie die Seite Modellzusammenfassung an, auf der die vom Modell verwendeten Prädiktorfelder und der Prozentsatz der richtigen Vorhersagen angezeigt werden.
- Zeigen Sie die Zusammenfassung der Fallbearbeitung an, die die Anzahl und den Prozentsatz der in die Analyse einbezogenen Datensätze angibt. Außerdem wird gegebenenfalls die Anzahl der fehlenden Fälle aufgeführt, bei denen ein oder mehrere Eingabefelder nicht verfügbar sind, und alle Fälle, die nicht ausgewählt wurden.
- Schließen Sie die Modelldetails.
- Doppelklicken Sie auf den Knoten Automatische Datenvorbereitung, der mit dem Knoten Typ verbunden ist, um dessen Eigenschaften anzuzeigen. Die automatisierte Datenvorbereitung übernimmt die Aufgabe der Datenvorbereitung für Sie, indem sie Ihre Daten analysiert und Korrekturen identifiziert, problematische oder wahrscheinlich nicht nützliche Felder aussortiert, gegebenenfalls neue Attribute ableitet und die Leistung durch intelligente Screening-Techniken verbessert.
- Im Abschnitt Ziele können Sie die Standardeinstellungen beibehalten, um Ihre Daten mit einem ausgewogenen Verhältnis zwischen Geschwindigkeit und Genauigkeit zu analysieren und aufzubereiten. Andere Eigenschaften des Knotens Automatische Datenvorbereitung bieten die Möglichkeit, festzulegen, dass Sie sich mehr auf die Genauigkeit oder mehr auf die Geschwindigkeit der Verarbeitung konzentrieren oder viele der Verarbeitungsschritte für die Datenvorbereitung feinabstimmen möchten.Hinweis: Wenn Sie die Knoteneigenschaften anpassen und die Strömung zu einem späteren Zeitpunkt erneut ausführen möchten, da das Modell bereits existiert, müssen Sie zunächst unter Ziele auf Alte Analyse löschen klicken, bevor Sie die Strömung erneut ausführen.
- Optional: Klicken Sie auf Datenvorschau, um den Datensatz mit den angewendeten Eigenschaften der automatischen Datenvorbereitung zu sehen.
- Klicken Sie auf Abbrechen.
- Im Abschnitt Ziele können Sie die Standardeinstellungen beibehalten, um Ihre Daten mit einem ausgewogenen Verhältnis zwischen Geschwindigkeit und Genauigkeit zu analysieren und aufzubereiten. Andere Eigenschaften des Knotens Automatische Datenvorbereitung bieten die Möglichkeit, festzulegen, dass Sie sich mehr auf die Genauigkeit oder mehr auf die Geschwindigkeit der Verarbeitung konzentrieren oder viele der Verarbeitungsschritte für die Datenvorbereitung feinabstimmen möchten.
- Doppelklicken Sie auf den Knoten Nach ADP - Abwanderung, der mit dem Knoten Automatische Datenvorbereitung verbunden ist, um seine Eigenschaften anzuzeigen.
- Erweitern Sie den Abschnitt Modelleinstellungen
- Vergewissern Sie sich, dass das Verfahren auf Binomial eingestellt ist.
- Stellen Sie sicher, dass der Modellname auf "Benutzerdefiniert" eingestellt ist und der Name " After ADP - churn lautet.
- Fahren Sie mit der Maus über den Knoten "After ADP – churn" und klicken Sie auf das Symbol "Ausführen "
.
- Klicken Sie im Bereich Ergebnisse und Modelle auf das Modell mit dem Namen Nach ADP - Abwanderung, um die Ergebnisse anzuzeigen.
- Zeigen Sie die Seite Modellzusammenfassung an, auf der die vom Modell verwendeten Prädiktorfelder und der Prozentsatz der richtigen Vorhersagen angezeigt werden.
- Zeigen Sie die Zusammenfassung der Fallbearbeitung an, die die Anzahl und den Prozentsatz der in die Analyse einbezogenen Datensätze angibt. Außerdem wird gegebenenfalls die Anzahl der fehlenden Fälle aufgeführt, bei denen ein oder mehrere Eingabefelder nicht verfügbar sind, und alle Fälle, die nicht ausgewählt wurden.
- Schließen Sie die Modelldetails.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt Details zum Modell. Jetzt können Sie die Modelle vergleichen.

Aufgabe 4: Vergleichen Sie die Modelle
Nachdem nun beide Modelle konfiguriert sind, führen Sie die folgenden Schritte aus, um die Modelle zu erstellen und zu vergleichen:
- Fahren Sie mit der Maus über den Knoten "No ADP - LogReg (Analysis)" und klicken Sie auf das Symbol "Ausführen "
.
- Fahren Sie mit der Maus über den Knoten "After ADP - LogReg (Analysis)" und klicken Sie auf das Symbol "Ausführen "
.
- Klicken Sie im Bereich Ausgaben und Modelle auf die Ausgabeergebnisse mit dem Namen No ADP - LogReg, um die Ergebnisse anzuzeigen.
- Vergleichen Sie die Modelle:
- Klicken Sie auf Vergleichen.
- Wählen Sie im Feld Ausgabe wählen die Option Nach ADP - LogReg.
Die Analyse des nicht abgeleiteten Auto-Data-Prep-Modells zeigt, dass das Durchlaufen der Daten durch den logistischen Regressionsknoten mit seinen Standardeinstellungen ein Modell mit geringer Genauigkeit ergibt - nur 10.6.Abbildung 5. Nicht ADP-abgeleitete Modellergebnisse Die Analyse des von Auto-Data Prep abgeleiteten Modells zeigt, dass Sie ein viel genaueres Modell erstellt haben, das zu 78.3 korrekt ist, wenn Sie die Daten mit den Standardeinstellungen von Auto-Data Prep verarbeiten.Abbildung 6. Ergebnisse des Modells mit ADP
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt den Modellvergleich.

Zusammenfassung
Durch die Ausführung des Knotens Auto Data Prep zur Feinabstimmung der Datenverarbeitung konnten Sie ein genaueres Modell mit wenig direkter Datenmanipulation erstellen.
Wenn Sie daran interessiert sind, eine bestimmte Theorie zu beweisen oder zu widerlegen, oder wenn Sie bestimmte Modelle erstellen wollen, kann es natürlich von Vorteil sein, direkt mit den Modelleinstellungen zu arbeiten. Wenn Sie jedoch nur wenig Zeit haben oder eine große Datenmenge vorbereiten müssen, kann der Knoten Auto Data Prep Ihnen einen Vorteil verschaffen.
Die Ergebnisse in diesem Beispiel beruhen nur auf den Trainingsdaten. Um zu beurteilen, wie gut sich Modelle auf andere Daten in der realen Welt verallgemeinern lassen, können Sie einen Partitionsknoten verwenden, um eine Untergruppe von Datensätzen zu Test- und Validierungszwecken herauszuhalten.
Nächste Schritte
Sie können jetzt weitere Tutorials von SPSS® Modeler ausprobieren.