0 / 0
Zurück zur englischen Version der Dokumentation
Datenaufbereitung automatisieren
Letzte Aktualisierung: 11. Dez. 2024
Datenaufbereitung automatisieren

Dieses Lernprogramm enthält ein Beispiel für die Vorbereitung von Daten für die Analyse. Die Aufbereitung von Daten ist einer der wichtigsten Schritte in jedem Data-Mining-Projekt und traditionell auch einer der zeitaufwändigsten. Der Knoten Auto Data Prep übernimmt diese Aufgabe für Sie, indem er Ihre Daten analysiert und Korrekturen identifiziert, problematische oder wahrscheinlich nicht nützliche Felder aussortiert, gegebenenfalls neue Attribute ableitet und die Leistung durch intelligente Screening-Techniken verbessert.

Sie können den Knoten " Automatische Datenvorbereitung" vollautomatisch verwenden, so dass der Knoten Korrekturen auswählt und anwendet, oder Sie können die Änderungen in der Vorschau anzeigen, bevor sie vorgenommen werden, und sie akzeptieren oder ablehnen. Mit diesem Knoten können Sie Ihre Daten schnell und einfach für das Data-Mining vorbereiten, ohne dass Vorkenntnisse zu den verwendeten Statistikkonzepten erforderlich sind. Wenn Sie den Knoten mit den Standardeinstellungen ausführen, werden die Modelle tendenziell schneller aufgebaut und bewertet.

Versuchen Sie das Tutorial

In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:

Beispielhafter Modellierungsablauf und Datensatz

In diesem Tutorial wird der Ablauf der automatischen Datenvorbereitung im Beispielprojekt verwendet. Die verwendete Datendatei ist telco.csv. Dieses Beispiel veranschaulicht die erhöhte Genauigkeit, die Sie durch die Verwendung der Standardeinstellungen für den Auto Data Prep-Knoten bei der Erstellung von Modellen erzielen können. Das folgende Bild zeigt ein Beispiel für den Ablauf der Modellierung.

Abb. 1. Ablauf der Modellierung von Proben
Automatisierte Datenaufbereitung - Beispielablauf
Das folgende Bild zeigt den Beispieldatensatz.
Abbildung 2: Beispielhafter Datensatz
Beispielhafter Datensatz

Aufgabe 1: Öffnen Sie das Beispielprojekt

Das Beispielprojekt enthält mehrere Datensätze und Modellierungsabläufe. Wenn Sie noch nicht über das Beispielprojekt verfügen, lesen Sie bitte das Thema Tutorials, um das Beispielprojekt zu erstellen. Gehen Sie dann wie folgt vor, um das Beispielprojekt zu öffnen:

  1. Wählen Sie in Cloud Pak for Data aus dem Navigationsmenü " Navigationsmenü Projekte > Alle Projekte anzeigen.
  2. Klicken Sie auf SPSS Modeler Project.
  3. Klicken Sie auf die Registerkarte Assets, um die Datensätze und Modellierungsabläufe zu sehen.

Kontrollpunkt-Symbol Überprüfen Sie Ihren Fortschritt

Die folgende Abbildung zeigt die Registerkarte Assets des Projekts. Sie sind nun bereit, mit dem zu diesem Lehrgang gehörenden Beispielmodellierungsablauf zu arbeiten.

Beispielprojekt

Zurück zum Seitenanfang

Aufgabe 2: Untersuchen Sie die Knoten "Datenbestand" und "Typ"

Die automatisierte Datenvorbereitung umfasst mehrere Knotenpunkte. Gehen Sie folgendermaßen vor, um die Knoten Daten-Asset und Typ zu untersuchen:

  1. Öffnen Sie auf der Registerkarte Assets den Modellierungsfluss Automatisierte Datenvorbereitung und warten Sie, bis der Canvas geladen ist.
  2. Doppelklicken Sie auf den Knoten telco.csv. Dieser Knoten ist ein Data Asset-Knoten, der auf die Datei telco.csv im Projekt verweist.
  3. Überprüfen Sie die Eigenschaften des Dateiformats.
  4. Optional: Klicken Sie auf Datenvorschau, um den vollständigen Datensatz zu sehen.
  5. Doppelklicken Sie auf den Knoten Typ. Beachten Sie, dass die Kennzahl für das Feld " churn auf Flag und die Rolle auf Target gesetzt ist. Stellen Sie sicher, dass die Rolle für alle anderen Felder auf Eingabe gesetzt ist.
    Abb. 3 Einstellen der Messstufe und der Rolle
    Einstellen der Messstufe und der Rolle
  6. Optional: Klicken Sie auf Datenvorschau, um den Datensatz mit den angewendeten Typ-Eigenschaften zu sehen.

Kontrollpunkt-Symbol Überprüfen Sie Ihren Fortschritt

Das folgende Bild zeigt den Knoten Typ. Jetzt können Sie das Modell bauen.

Typknoten

Zurück zum Seitenanfang

Aufgabe 3: Erstellen der Modelle

Sie werden zwei Modelle erstellen, ein Modell ohne und ein Modell mit automatischer Datenaufbereitung. Folgen Sie diesen Schritten, um die Modelle zu erstellen:

  1. Doppelklicken Sie auf den Knoten Kein ADP - Abwanderung, der mit dem Knoten Typ verbunden ist, um seine Eigenschaften anzuzeigen.
    1. Erweitern Sie den Abschnitt Modelleinstellungen
    2. Vergewissern Sie sich, dass das Verfahren auf Binomial eingestellt ist.
    3. Stellen Sie sicher, dass der Modellname auf "Benutzerdefiniert" eingestellt ist und der Name " No ADP - churn lautet.
      Abbildung 4. Abschnitt Logistische Knoten Modelleinstellungen
      Modelloptionen wählen
  2. Bewegen Sie den Mauszeiger über den Knoten "No ADP - churn" und klicken Sie auf das Ausführungssymbol " Symbol ausführen.
  3. Klicken Sie im Bereich Ergebnisse und Modelle auf das Modell mit dem Namen No ADP - churn, um die Ergebnisse anzuzeigen.
    1. Zeigen Sie die Seite Modellzusammenfassung an, auf der die vom Modell verwendeten Prädiktorfelder und der Prozentsatz der richtigen Vorhersagen angezeigt werden.
    2. Zeigen Sie die Zusammenfassung der Fallbearbeitung an, die die Anzahl und den Prozentsatz der in die Analyse einbezogenen Datensätze angibt. Außerdem wird gegebenenfalls die Anzahl der fehlenden Fälle aufgeführt, bei denen ein oder mehrere Eingabefelder nicht verfügbar sind, und alle Fälle, die nicht ausgewählt wurden.
    3. Schließen Sie die Modelldetails.
  4. Doppelklicken Sie auf den Knoten Automatische Datenvorbereitung, der mit dem Knoten Typ verbunden ist, um dessen Eigenschaften anzuzeigen. Die automatisierte Datenvorbereitung übernimmt die Aufgabe der Datenvorbereitung für Sie, indem sie Ihre Daten analysiert und Korrekturen identifiziert, problematische oder wahrscheinlich nicht nützliche Felder aussortiert, gegebenenfalls neue Attribute ableitet und die Leistung durch intelligente Screening-Techniken verbessert.
    1. Im Abschnitt Ziele können Sie die Standardeinstellungen beibehalten, um Ihre Daten mit einem ausgewogenen Verhältnis zwischen Geschwindigkeit und Genauigkeit zu analysieren und aufzubereiten. Andere Eigenschaften des Knotens Automatische Datenvorbereitung bieten die Möglichkeit, festzulegen, dass Sie sich mehr auf die Genauigkeit oder mehr auf die Geschwindigkeit der Verarbeitung konzentrieren oder viele der Verarbeitungsschritte für die Datenvorbereitung feinabstimmen möchten.
      Hinweis: Wenn Sie die Knoteneigenschaften anpassen und die Strömung zu einem späteren Zeitpunkt erneut ausführen möchten, da das Modell bereits existiert, müssen Sie zunächst unter Ziele auf Alte Analyse löschen klicken, bevor Sie die Strömung erneut ausführen.
    2. Optional: Klicken Sie auf Datenvorschau, um den Datensatz mit den angewendeten Eigenschaften der automatischen Datenvorbereitung zu sehen.
    3. Klicken Sie auf Abbrechen.
  5. Doppelklicken Sie auf den Knoten Nach ADP - Abwanderung, der mit dem Knoten Automatische Datenvorbereitung verbunden ist, um seine Eigenschaften anzuzeigen.
    1. Erweitern Sie den Abschnitt Modelleinstellungen
    2. Vergewissern Sie sich, dass das Verfahren auf Binomial eingestellt ist.
    3. Stellen Sie sicher, dass der Modellname auf "Benutzerdefiniert" eingestellt ist und der Name " After ADP - churn lautet.
  6. Bewegen Sie den Mauszeiger über den Knoten " After ADP - churn" und klicken Sie auf das Ausführungssymbol " Symbol ausführen.
  7. Klicken Sie im Bereich Ergebnisse und Modelle auf das Modell mit dem Namen Nach ADP - Abwanderung, um die Ergebnisse anzuzeigen.
    1. Zeigen Sie die Seite Modellzusammenfassung an, auf der die vom Modell verwendeten Prädiktorfelder und der Prozentsatz der richtigen Vorhersagen angezeigt werden.
    2. Zeigen Sie die Zusammenfassung der Fallbearbeitung an, die die Anzahl und den Prozentsatz der in die Analyse einbezogenen Datensätze angibt. Außerdem wird gegebenenfalls die Anzahl der fehlenden Fälle aufgeführt, bei denen ein oder mehrere Eingabefelder nicht verfügbar sind, und alle Fälle, die nicht ausgewählt wurden.
    3. Schließen Sie die Modelldetails.

Kontrollpunkt-Symbol Überprüfen Sie Ihren Fortschritt

Die folgende Abbildung zeigt Details zum Modell. Jetzt können Sie die Modelle vergleichen.

Modelldetails

Zurück zum Seitenanfang

Aufgabe 4: Vergleichen Sie die Modelle

Nachdem nun beide Modelle konfiguriert sind, führen Sie die folgenden Schritte aus, um die Modelle zu erstellen und zu vergleichen:

  1. Bewegen Sie den Mauszeiger über den Knoten No ADP - LogReg (Analysis) und klicken Sie auf das Ausführungssymbol " Symbol ausführen.
  2. Bewegen Sie den Mauszeiger auf den Knoten Nach ADP - LogReg (Analyse) und klicken Sie auf das Symbol Ausführen ' Symbol ausführen.
  3. Klicken Sie im Bereich Ausgaben und Modelle auf die Ausgabeergebnisse mit dem Namen No ADP - LogReg, um die Ergebnisse anzuzeigen.
  4. Vergleichen Sie die Modelle:
    1. Klicken Sie auf Vergleichen.
    2. Wählen Sie im Feld Ausgabe wählen die Option Nach ADP - LogReg.
    Die Analyse des nicht abgeleiteten Auto-Data-Prep-Modells zeigt, dass das Durchlaufen der Daten durch den logistischen Regressionsknoten mit seinen Standardeinstellungen ein Modell mit geringer Genauigkeit ergibt - nur 10.6.
    Abbildung 5. Nicht ADP-abgeleitete Modellergebnisse
    Nicht ADP-abgeleitete Modellergebnisse
    Die Analyse des von Auto-Data Prep abgeleiteten Modells zeigt, dass Sie ein viel genaueres Modell erstellt haben, das zu 78.3 korrekt ist, wenn Sie die Daten mit den Standardeinstellungen von Auto-Data Prep verarbeiten.
    Abbildung 6. Ergebnisse des Modells mit ADP
    Ergebnisse des Modells mit ADP

Kontrollpunkt-Symbol Überprüfen Sie Ihren Fortschritt

Die folgende Abbildung zeigt den Modellvergleich.

Modelle vergleichen

Zurück zum Seitenanfang

Zusammenfassung

Durch die Ausführung des Knotens Auto Data Prep zur Feinabstimmung der Datenverarbeitung konnten Sie ein genaueres Modell mit wenig direkter Datenmanipulation erstellen.

Wenn Sie daran interessiert sind, eine bestimmte Theorie zu beweisen oder zu widerlegen, oder wenn Sie bestimmte Modelle erstellen wollen, kann es natürlich von Vorteil sein, direkt mit den Modelleinstellungen zu arbeiten. Wenn Sie jedoch nur wenig Zeit haben oder eine große Datenmenge vorbereiten müssen, kann der Knoten Auto Data Prep Ihnen einen Vorteil verschaffen.

Die Ergebnisse in diesem Beispiel beruhen nur auf den Trainingsdaten. Um zu beurteilen, wie gut sich Modelle auf andere Daten in der realen Welt verallgemeinern lassen, können Sie einen Partitionsknoten verwenden, um eine Untergruppe von Datensätzen zu Test- und Validierungszwecken herauszuhalten.

Nächste Schritte

Sie sind nun bereit, einen anderen ' SPSS® Modeler Tutorials auszuprobieren.

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen