Telekommunikationsabwanderung vorhersagen

Letzte Aktualisierung: 11. Feb. 2025
Telekommunikationsabwanderung vorhersagen

In diesem Tutorial wird ein logistisches Regressionsmodell erstellt, eine statistische Technik zur Klassifizierung von Datensätzen auf der Grundlage der Werte von Eingabefeldern. Sie ist analog zur linearen Regression, nimmt aber ein kategoriales Zielfeld statt eines numerischen Feldes.

Nehmen wir zum Beispiel an, ein Telekommunikationsanbieter ist besorgt über die Anzahl der Kunden, die er an die Konkurrenz verliert. Wenn anhand von Daten zur Servicenutzung vorhergesagt werden kann, welche Kunden wahrscheinlich zu einem anderen Anbieter wechseln werden, können die Angebote so angepasst werden, dass möglichst viele Kunden gehalten werden können.

Vorschau des Lernprogramms anzeigen

Video ansehen Sehen Sie sich dieses Video an, um eine Vorschau der Schritte in diesem Lernprogramm anzuzeigen. Die Benutzeroberfläche, die im Video gezeigt wird, kann geringfügig abweichen. Das Video ist als Ergänzung zum schriftlichen Tutorial gedacht. Dieses Video bietet eine visuelle Methode, um die Konzepte und Aufgaben in dieser Dokumentation zu erlernen.

Versuchen Sie das Tutorial

In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:

Beispielhafter Modellierungsablauf und Datensatz

In diesem Tutorium wird der Fluss Telecommunications Churn im Beispielprojekt verwendet. Die verwendete Datendatei ist telco.csv. Das folgende Bild zeigt ein Beispiel für den Ablauf der Modellierung.

Abb. 1. Ablauf der Modellierung von Proben
Ablauf der Modellierung von Proben

Dieses Beispiel konzentriert sich auf die Verwendung von Nutzungsdaten zur Vorhersage des Kundenverlusts (Abwanderung). Da das Ziel zwei verschiedene Kategorien aufweist, wird ein binomiales Modell verwendet. Wenn das Ziel mehrere Kategorien hat, kann stattdessen ein Multinomialmodell erstellt werden.

Das folgende Bild zeigt den Datensatz, der mit diesem Modellierungsfluss verwendet wird.

Abbildung 2: Beispielhafter Datensatz
Beispielhafter Datensatz

Aufgabe 1: Öffnen Sie das Beispielprojekt

Das Beispielprojekt enthält mehrere Datensätze und Modellierungsabläufe. Wenn Sie das Beispielprojekt noch nicht haben, finden Sie unter Tutorials eine Anleitung zum Erstellen des Beispielprojekts. Gehen Sie dann wie folgt vor, um das Beispielprojekt zu öffnen:

  1. In Cloud Pak for Data wählen Sie im Navigationsmenü NavigationsmenüProjekte > Alle Projekte anzeigen aus.
  2. Klicken Sie auf SPSS Modeler.
  3. Klicken Sie auf die Registerkarte Assets, um die Datensätze und Modellierungsabläufe zu sehen.

Kontrollpunkt-Symbol Überprüfen Sie Ihren Fortschritt

Die folgende Abbildung zeigt die Registerkarte Assets des Projekts. Sie sind nun bereit, mit dem zu diesem Lehrgang gehörenden Beispielmodellierungsablauf zu arbeiten.

Beispielprojekt

Zurück zum Seitenanfang

Aufgabe 2: Untersuchen Sie den Knoten Datenbestand und -typ

Telecommunication Churn umfasst mehrere Knotenpunkte. Gehen Sie folgendermaßen vor, um die Knoten Daten-Asset und Typ zu untersuchen:

  1. Öffnen Sie auf der Registerkarte Assets den Modellierungsfluss Telecommunication Churn und warten Sie, bis der Canvas geladen ist.
  2. Doppelklicken Sie auf den Knoten telco.csv. Dieser Knoten ist ein Data Asset-Knoten, der auf die Datei telco.csv im Projekt verweist.
  3. Überprüfen Sie die Eigenschaften des Dateiformats.
  4. Optional: Klicken Sie auf Datenvorschau, um den vollständigen Datensatz zu sehen.
  5. Doppelklicken Sie auf den Knoten Typ. Dieser Knoten gibt Feldeigenschaften an, wie z. B. die Messebene (die Art der Daten, die das Feld enthält) und die Rolle jedes Feldes als Ziel oder Eingabe bei der Modellierung. Vergewissern Sie sich, dass alle Messpegel korrekt eingestellt sind. Beispielsweise können die meisten Felder mit den Werten " 0.0 und " 1.0 als Merker betrachtet werden, aber bestimmte Felder, wie z. B. das Geschlecht, sind eher als Nominalfeld mit zwei Werten zu betrachten.
    Abb. 3 Messniveaus
    Messniveaus

    Beachten Sie, dass " churn als Kennzeichen mit der Rolle "Ziel" gesetzt ist. Die Rolle für alle anderen Felder ist auf Eingabe eingestellt.
  6. Doppelklicken Sie auf den Modellierungsknoten Churn (Feature Selection), um seine Eigenschaften anzuzeigen. Sie können einen Feature Selection-Knoten verwenden, um Prädiktoren oder Daten zu entfernen, die keine nützlichen Informationen über die Prädiktor/Ziel-Beziehung liefern.
  7. Fahren Sie mit der Maus über den Knoten "Abwanderung" (Feature Selection ) und klicken Sie auf das Symbol "Ausführen" Symbol ausführen.
  8. Klicken Sie im Bereich Ausgaben und Modelle auf das erste Modell in der Liste mit dem Namen churn, um die Modelldetails anzuzeigen.

Kontrollpunkt-Symbol Überprüfen Sie Ihren Fortschritt

Das folgende Bild zeigt die Details des Modells. Sie können nun den Knoten Filter überprüfen.

Ansicht Modell: churn

Zurück zum Seitenanfang

Aufgabe 3: Überprüfen Sie den Knoten Filter

Nur einige der Daten in der Datei telco.csv sind für die Vorhersage der Abwanderung nützlich. Sie können den Filter verwenden, um nur die Daten auszuwählen, die als wichtig für die Verwendung als Prädiktor angesehen werden (die Felder, die im Modell, das in der vorherigen Aufgabe erstellt wurde, als wichtig markiert sind). Führen Sie die folgenden Schritte aus, um den Knoten Filter anzuzeigen und zu überprüfen:

  1. Doppelklicken Sie auf den Knoten Wichtige Merkmale (Filter), um dessen Eigenschaften anzuzeigen.
    1. Beachten Sie, dass dieser Knoten nur ausgewählte Felder herausfiltert: " tenure, " age, " address, " income, " ed, " employ und andere. Andere Felder sind für diese Analyse ausgeschlossen.
      Abbildung 4. Filterknoten Wichtige Merkmale
      Filterknoten Wichtige Merkmale
    2. Klicken Sie auf Cancel (Abbrechen).
  2. Doppelklicken Sie auf den Ausgabeknoten 28 Felder (Data Audit) nach dem Knoten Filter.
    1. Fahren Sie mit der Maus über den Knoten "Datenprüfung" und klicken Sie auf das Symbol "Ausführen " Symbol ausführen.
    2. Klicken Sie im Bereich Ausgaben und Modelle auf die Ergebnisse mit dem Namen Data Audit, um die Ausgabe anzuzeigen.
    3. Schauen Sie sich die Spalte " % vollständig" an, mit der Sie alle Felder mit großen Mengen fehlender Daten identifizieren können. Im vorliegenden Fall müssen Sie lediglich das Feld logtoll bearbeiten, das zu weniger als 50 % vollständig ist.
      Abbildung 5. 28 Ausgabe der Felder
      28 Felder Ausgabe
    4. Schließen Sie die Ausgabe.
  3. Doppelklicken Sie auf den Oberknoten für die Imputation fehlender Werte.
    1. Klicken Sie auf Supernode anzeigen.
    2. Doppelklicken Sie auf den Knoten Fill logtoll (Filler).

      Füllknoten werden verwendet, um Feldwerte zu ersetzen und die Speicherung zu ändern. Sie können auswählen, dass die Werte auf der Grundlage einer angegebenen CLEM-Bedingung ersetzt werden sollen, beispielsweise @BLANK(FIELD). Alternativ können Sie auswählen, dass alle Leerstellen oder Nullwerte mit einem bestimmten Wert ersetzt werden sollen. Füllknoten werden häufig zusammen mit dem Knoten Typ verwendet, um fehlende Werte zu ersetzen.

      Im Abschnitt Felder ausfüllen können Sie die Felder aus dem Dataset angeben, deren Werte untersucht und ersetzt werden sollen. In diesem Fall wird die Spalte " logtoll zusammen mit einer Option "Leer" und "Nullwerte" im Abschnitt " Ersetzen" angegeben.

      Abbildung 6. Supernode für die Imputation fehlender Werte mit Fülleigenschaften
      Supernode für die Imputation fehlender Werte mit Fülleigenschaften
    3. Klicken Sie auf Zurück zum vorherigen Ablauf.

Kontrollpunkt-Symbol Überprüfen Sie Ihren Fortschritt

Die folgende Abbildung zeigt den Ablauf. Jetzt können Sie das Modell bauen.

Eigenschaften von Superknoten

Zurück zum Seitenanfang

Aufgabe 4: Erstellen des Modells

Sie erstellen ein Modell, das den logistischen Knoten verwendet. Folgen Sie diesen Schritten, um das Modell zu erstellen:

  1. Doppelklicken Sie auf den Knoten Churn (Logistic) nach dem Superknoten Missing Value Imputation, um seine Eigenschaften anzuzeigen.
  2. Wählen Sie im Abschnitt Modelleinstellungen das Binomialverfahren.
    • Ein Binomialmodell wird verwendet, wenn das Zielfeld ein Flaggen- oder Nominalfeld mit zwei diskreten Werten ist.
    • Ein Multinomialmodell wird verwendet, wenn das Zielfeld ein Nominalfeld mit mehr als zwei Werten ist.
  3. Wählen Sie dann die schrittweise Vorwärtsmethode.
  4. Wählen Sie im Abschnitt Expertenoptionen den Expertenmodus.
  5. Klicken Sie auf Ausgabe. Wählen Sie Bei jedem Schritt, Iterationsverlauf und Parameterschätzungen aus und klicken Sie anschließend auf OK.
    Abbildung 7. Optionen für logistische Knoten
    Optionen für logistische Knoten

Kontrollpunkt-Symbol Überprüfen Sie Ihren Fortschritt

Die folgende Abbildung zeigt den Ablauf. Sie sind nun bereit, das Modell zu erstellen.

Logistikknoten

Zurück zum Seitenanfang

Aufgabe 5: Erzeugen des Modells

Folgen Sie diesen Schritten, um ein Modell-Nugget aus dem logistischen Knoten zu erzeugen:

  1. Fahren Sie mit der Maus über den Knoten "Abwanderung" (Logistik ) und klicken Sie auf das Symbol "Ausführen" Symbol ausführen.
  2. Klicken Sie im Bereich Ergebnisse und Modelle auf das Churn-Modell, um die Ergebnisse anzuzeigen.

Die Seite Variablen in der Gleichung zeigt die vom Modell verwendeten Ziel- (Abwanderung) und Eingangsgrößen (Prädiktorfelder). Diese Felder werden auf der Grundlage der schrittweisen Vorwärtsmethode ausgewählt, nicht auf der Grundlage der gesamten zur Prüfung vorgelegten Liste.

Um zu beurteilen, wie gut das Modell an Ihre Daten angepasst ist, stehen in den Einstellungen des Expertenknotens bei der Erstellung des Flusses mehrere Diagnosen zur Verfügung.

Beachten Sie außerdem, dass diese Ergebnisse nur auf den Trainingsdaten beruhen. Um zu beurteilen, wie gut das Modell auf andere Daten in der realen Welt verallgemeinert werden kann, verwenden Sie einen Partitionsknoten, um eine Untergruppe von Datensätzen zu Test- und Validierungszwecken herauszuhalten.

Kontrollpunkt-Symbol Überprüfen Sie Ihren Fortschritt

Das folgende Bild zeigt die Ergebnisse des Modells.

Abbildung 8. Modellvariablen in der Gleichungstabelle
Modellvariablen in der Gleichungstabelle

Zurück zum Seitenanfang

Zusammenfassung

In diesem Beispiel wurde gezeigt, wie Nutzungsdaten zur Vorhersage von Kundenverlusten (Abwanderung) verwendet werden können, indem ein Binomialmodell erstellt wird, da das Ziel zwei unterschiedliche Kategorien hat.

Nächste Schritte

Sie können jetzt weitere Tutorials von SPSS® Modeler ausprobieren.