Telekommunikationskunden klassifizieren

Letzte Aktualisierung: 11. Feb. 2025

In diesem Tutorial wird ein logistisches Regressionsmodell erstellt, eine statistische Technik zur Klassifizierung von Datensätzen auf der Grundlage der Werte von Eingabefeldern. Sie ist analog zur linearen Regression, aber statt eines numerischen Zielfelds wird ein kategoriales verwendet.

Nehmen wir zum Beispiel an, ein Telekommunikationsanbieter hat seinen Kundenstamm nach dem Nutzungsverhalten segmentiert und die Kunden in vier Gruppen eingeteilt. Wenn demografische Daten zum Vorhersagen der Gruppenzugehörigkeit verwendet werden können, sind angepasste Angebote für die einzelnen potenziellen Kunden möglich.

Vorschau des Lernprogramms anzeigen

Video ansehen Sehen Sie sich dieses Video an, um eine Vorschau der Schritte in diesem Lernprogramm anzuzeigen. Die Benutzeroberfläche, die im Video gezeigt wird, kann geringfügig abweichen. Das Video ist als Ergänzung zum schriftlichen Tutorial gedacht. Dieses Video bietet eine visuelle Methode, um die Konzepte und Aufgaben in dieser Dokumentation zu erlernen.

Versuchen Sie das Tutorial

In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:

Aufgabe 1: Öffnen Sie das Beispielprojekt
Aufgabe 2: Untersuchen Sie die Knoten Daten-Asset, Typ und Filter
Aufgabe 3: Ansicht des Knotens "Logistik
Aufgabe 4: Durchsuchen Sie das Modell

Beispielhafter Modellierungsablauf und Datensatz

Dieses Tutorial verwendet den Ablauf Klassifizierung von Telekommunikationskunden im Beispielprojekt. Die verwendete Datendatei ist telco.csv. Das folgende Bild zeigt ein Beispiel für den Ablauf der Modellierung.

Abb. 1. Ablauf der Modellierung von Proben

Das folgende Bild zeigt den Datensatz, der mit diesem Modellierungsfluss verwendet wird.

Abbildung 2: Beispielhafter Datensatz

Dieses Beispiel konzentriert sich auf die Verwendung von demografischen Daten zur Vorhersage von Nutzungsmustern. Das Zielfeld custcat weist vier mögliche Werte auf, die den vier Kundengruppen entsprechen:

Tabelle 1. Gültige Werte für das Zielfeld
Wert	Bezeichnung (Label)
1	Basisservice
2	E-Service
3	Plus Service
4	Umfassender Service

Da das Ziel mehrere Kategorien aufweist, wird ein multinomiales Modell verwendet. Wenn das Ziel zwei unterschiedliche Kategorien hat, z. B. ja/nein, wahr/falsch oder abwandern/nicht abwandern, kann stattdessen ein Binomialmodell erstellt werden.

Aufgabe 1: Öffnen Sie das Beispielprojekt

Das Beispielprojekt enthält mehrere Datensätze und Modellierungsabläufe. Wenn Sie das Beispielprojekt noch nicht haben, finden Sie unter Tutorials eine Anleitung zum Erstellen des Beispielprojekts. Gehen Sie dann wie folgt vor, um das Beispielprojekt zu öffnen:

In Cloud Pak for Data wählen Sie im Navigationsmenü Projekte > Alle Projekte anzeigen aus.
Klicken Sie auf SPSS Modeler.
Klicken Sie auf die Registerkarte Assets, um die Datensätze und Modellierungsabläufe zu sehen.

Überprüfen Sie Ihren Fortschritt

Die folgende Abbildung zeigt die Registerkarte Assets des Projekts. Sie sind nun bereit, mit dem zu diesem Lehrgang gehörenden Beispielmodellierungsablauf zu arbeiten.

Beispielprojekt

Zurück zum Seitenanfang

Aufgabe 2: Untersuchen Sie die Knoten Daten-Asset, Typ und Filter

Der Modellierungsablauf zur Klassifizierung von Telekommunikationskunden umfasst mehrere Knotenpunkte. Gehen Sie folgendermaßen vor, um drei der Knoten zu untersuchen:

Öffnen Sie auf der Registerkarte Assets den Modellierungsablauf Klassifizierung von Telekommunikationskunden und warten Sie, bis der Canvas geladen ist.
Doppelklicken Sie auf den Knoten telco.csv. Dieser Knoten ist ein Data Asset-Knoten, der auf die Datei telco.csv im Projekt verweist.
Überprüfen Sie die Eigenschaften des Dateiformats.
Optional: Klicken Sie auf Datenvorschau, um den vollständigen Datensatz zu sehen.
Doppelklicken Sie auf den Knoten Typ und klicken Sie auf Werte lesen. Dieser Knoten gibt Feldeigenschaften an, wie z. B. die Messebene (die Art der Daten, die das Feld enthält) und die Rolle jedes Feldes als Ziel oder Eingabe bei der Modellierung. Vergewissern Sie sich, dass alle Messpegel korrekt eingestellt sind. Zum Beispiel können die meisten Felder mit den Werten " 0.0 und " 1.0 als Merker betrachtet werden.

Abb. 3 Messniveaus

Beachten Sie, dass " gender korrekterweise als " feld mit zwei Werten und nicht als " flagge betrachtet wird, so dass sein Messwert als " Nominell belassen wird.
Ändern Sie die Rolle für das Feld custcat in Ziel. Übernehmen Sie die Rolle Eingabe für alle anderen Felder.
Doppelklicken Sie auf den Knoten Filter, um seine Eigenschaften anzuzeigen.
Beachten Sie, dass dieser Knoten nur die relevanten Felder herausfiltert: ' region, ' age, ' marital, ' address, ' income, ' ed, ' employ, ' retire, ' gender, ' reside und ' custcat). Andere Felder sind für diese Analyse ausgeschlossen.

Kontrollpunkt-Symbol Überprüfen Sie Ihren Fortschritt

Das folgende Bild zeigt den Knoten Filter. Sie können nun den Knoten Logistik anzeigen.

Zurück zum Seitenanfang

Aufgabe 3: Ansicht des Knotens "Logistik

Befolgen Sie diese Schritte, um Kunden mithilfe der multinomialen logistischen Regression zu klassifizieren:

Doppelklicken Sie auf den Knoten custcat (Logistic), um seine Eigenschaften anzuzeigen.
Wählen Sie im Abschnitt Modelleinstellungen das Multinomialverfahren.
- Ein Binomialmodell wird verwendet, wenn das Zielfeld ein Flaggen- oder Nominalfeld mit zwei diskreten Werten ist.
- Ein Multinomialmodell wird verwendet, wenn das Zielfeld ein Nominalfeld mit mehr als zwei Werten ist.
Wählen Sie als nächstes die schrittweise Methode und den Modelltyp Haupteffekte. Aktivieren Sie außerdem das Kontrollkästchen Konstante in Gleichung einbeziehen.

Abbildung 4. Logistische Knoten Modelleinstellungen
Wählen Sie im Abschnitt Expertenoptionen den Expertenmodus.
Klicken Sie auf Ausgabe. Wählen Sie Klassifizierungstabelle und klicken Sie auf OK.

Abbildung 5. Logistischer Knoten Ausgabeoptionen

Kontrollpunkt-Symbol Überprüfen Sie Ihren Fortschritt

Die folgende Abbildung zeigt den Knoten "Logistik". Jetzt können Sie das Modell durchsuchen.

Zurück zum Seitenanfang

Aufgabe 4: Durchsuchen Sie das Modell

Folgen Sie diesen Schritten, um das Modell zu durchsuchen:

Fahren Sie mit der Maus über den Knoten "Custcat (Logistik)" und klicken Sie auf das Symbol "Ausführen " .
Klicken Sie im Bereich Ausgaben und Modelle auf das Modell custcat, um die Ergebnisse anzuzeigen.

Abbildung 6. Modell Merkmal Wichtigkeitstabelle

Anschließend können Sie die Informationen zum Modell, zur Wichtigkeit von Merkmalen (Prädiktor) und zur Parameterschätzung durchsuchen.

Diese Ergebnisse beruhen nur auf den Trainingsdaten. Um zu beurteilen, wie gut das Modell auf andere Daten in der realen Welt verallgemeinert werden kann, können Sie einen Partitionsknoten verwenden, um eine Untergruppe von Datensätzen für Test- und Validierungszwecke herauszuhalten.

Kontrollpunkt-Symbol Überprüfen Sie Ihren Fortschritt

Zurück zum Seitenanfang

Zusammenfassung

In diesem Beispiel wurde gezeigt, wie Sie demografische Daten zur Vorhersage von Nutzungsmustern verwenden können, indem Sie ein logistisches Regressionsmodell zur Klassifizierung von Datensätzen auf der Grundlage von Werten in Eingabefeldern erstellen.