In diesem Lernprogramm wird ein logistisches Regressionsmodell erstellt, eine statistische Technik zur Klassifizierung von Datensätzen auf der Grundlage von Werten in Eingabefeldern. Sie ist analog zur linearen Regression, aber statt eines numerischen Zielfelds wird ein kategoriales verwendet.
Nehmen wir zum Beispiel an, ein Telekommunikationsanbieter hat seinen Kundenstamm nach dem Nutzungsverhalten segmentiert und die Kunden in vier Gruppen eingeteilt. Wenn demografische Daten zum Vorhersagen der Gruppenzugehörigkeit verwendet werden können, sind angepasste Angebote für die einzelnen potenziellen Kunden möglich.
Vorschau des Lernprogramms anzeigen
Copy link to section
Sehen Sie sich dieses Video an, um eine Vorschau der Schritte in diesem Lernprogramm anzuzeigen. Die Benutzeroberfläche, die im Video gezeigt wird, kann geringfügig abweichen. Das Video ist als Ergänzung zum schriftlichen Tutorial gedacht. Dieses Video bietet eine visuelle Methode, um die Konzepte und Aufgaben in dieser Dokumentation zu erlernen.
Versuchen Sie das Tutorial
Copy link to section
In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:
Dieses Tutorial verwendet den Ablauf Klassifizierung von Telekommunikationskunden im Beispielprojekt. Die verwendete Datendatei ist telco.csv. Das folgende Bild zeigt ein Beispiel für den Ablauf der Modellierung.
Abb. 1. Ablauf der Modellierung von Proben
Das folgende Bild zeigt den Datensatz, der mit diesem Modellierungsfluss verwendet wird.
Abbildung 2: Beispielhafter Datensatz
Dieses Beispiel konzentriert sich auf die Verwendung von demografischen Daten zur Vorhersage von Nutzungsmustern. Das Zielfeld custcat weist vier mögliche Werte auf, die den vier Kundengruppen entsprechen:
Tabelle 1. Gültige Werte für das Zielfeld
Wert
Bezeichnung (Label)
1
Basisservice
2
E-Service
3
Plus Service (Plus-Service)
4
Umfassender Service
Da das Ziel mehrere Kategorien aufweist, wird ein multinomiales Modell verwendet. Wenn das Ziel zwei unterschiedliche Kategorien hat, z. B. ja/nein, wahr/falsch oder abwandern/nicht abwandern, kann stattdessen ein Binomialmodell erstellt werden.
Aufgabe 1: Öffnen Sie das Beispielprojekt
Copy link to section
Das Beispielprojekt enthält mehrere Datensätze und Modellierungsabläufe. Wenn Sie das Beispielprojekt noch nicht haben, finden Sie unter Tutorials eine Anleitung zum Erstellen des Beispielprojekts. Gehen Sie dann wie folgt vor, um das Beispielprojekt zu öffnen:
In watsonx, wählen Sie im NavigationsmenüProjekte > Alle Projekte anzeigen.
Klicken Sie auf SPSS Modeler Project.
Klicken Sie auf die Registerkarte Assets, um die Datensätze und Modellierungsabläufe zu sehen.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die Registerkarte Assets des Projekts. Sie sind nun bereit, mit dem zu diesem Lehrgang gehörenden Beispielmodellierungsablauf zu arbeiten.
Aufgabe 2: Untersuchen Sie die Knoten Daten-Asset, Typ und Filter
Copy link to section
Der Modellierungsablauf zur Klassifizierung von Telekommunikationskunden umfasst mehrere Knotenpunkte. Gehen Sie folgendermaßen vor, um drei der Knoten zu untersuchen:
Öffnen Sie auf der Registerkarte Assets den Modellierungsablauf Klassifizierung von Telekommunikationskunden und warten Sie, bis der Canvas geladen ist.
Doppelklicken Sie auf den Knoten telco.csv. Dieser Knoten ist ein Data Asset-Knoten, der auf die Datei telco.csv im Projekt verweist.
Überprüfen Sie die Eigenschaften des Dateiformats.
Optional: Klicken Sie auf Datenvorschau, um den vollständigen Datensatz zu sehen.
Doppelklicken Sie auf den Knoten Typ und klicken Sie auf Werte lesen. Dieser Knoten gibt Feldeigenschaften an, wie z. B. die Messebene (die Art der Daten, die das Feld enthält) und die Rolle jedes Feldes als Ziel oder Eingabe bei der Modellierung. Vergewissern Sie sich, dass alle Messpegel korrekt eingestellt sind. So können beispielsweise die meisten Felder mit den Werten " 0.0 und " 1.0 als Merker betrachtet werden.
Abb. 3 Messniveaus
Beachten Sie, dass " gender korrekterweise als Feld mit zwei Werten und nicht als Flagge betrachtet wird, so dass sein Messwert als Nominalwert belassen wird.
Ändern Sie die Rolle für das Feld custcat in Ziel. Übernehmen Sie die Rolle Eingabe für alle anderen Felder.
Doppelklicken Sie auf den Knoten Filter, um seine Eigenschaften anzuzeigen.
Beachten Sie, dass dieser Knoten nur die relevanten Felder herausfiltert: ' region, ' age, ' marital, ' address, ' income, ' ed, ' employ, ' retire, ' gender, ' reside und ' custcat). Andere Felder sind für diese Analyse ausgeschlossen.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt den Knoten Filter. Sie können nun den Knoten Logistik anzeigen.
Befolgen Sie diese Schritte, um Kunden mithilfe der multinomialen logistischen Regression zu klassifizieren:
Doppelklicken Sie auf den Knoten custcat (Logistic), um seine Eigenschaften anzuzeigen.
Wählen Sie im Abschnitt Modelleinstellungen das Multinomialverfahren.
Ein Binomialmodell wird verwendet, wenn das Zielfeld ein Flaggen- oder Nominalfeld mit zwei diskreten Werten ist.
Ein Multinomialmodell wird verwendet, wenn das Zielfeld ein Nominalfeld mit mehr als zwei Werten ist.
Wählen Sie als nächstes die schrittweise Methode und den Modelltyp Haupteffekte. Aktivieren Sie auch das Kontrollkästchen Konstante in Gleichung einbeziehen.
Folgen Sie diesen Schritten, um das Modell zu durchsuchen:
Fahren Sie mit der Maus über den Knoten "Custcat (Logistik)" und klicken Sie auf das Symbol "Ausführen " .
Klicken Sie im Bereich Ausgaben und Modelle auf das Modell custcat, um die Ergebnisse anzuzeigen.
Abbildung 6. Modell Merkmal Wichtigkeitstabelle
Anschließend können Sie die Informationen zum Modell, zur Wichtigkeit von Merkmalen (Prädiktor) und zur Parameterschätzung durchsuchen.
Diese Ergebnisse beruhen nur auf den Trainingsdaten. Um zu beurteilen, wie gut das Modell auf andere Daten in der realen Welt verallgemeinert werden kann, können Sie einen Partitionsknoten verwenden, um eine Untergruppe von Datensätzen für Test- und Validierungszwecke herauszuhalten.
In diesem Beispiel wurde gezeigt, wie demografische Daten zur Vorhersage von Nutzungsmustern verwendet werden können, indem ein logistisches Regressionsmodell zur Klassifizierung von Datensätzen auf der Grundlage der Werte von Eingabefeldern erstellt wird.
Über den Einsatz von Cookies auf dieser WebsiteUnsere Websites benötigen einige Cookies, um ordnungsgemäß zu funktionieren (erforderlich). Darüber hinaus können mit Ihrer Zustimmung weitere Cookies verwendet werden, um die Nutzung der Website zu analysieren, die Benutzerfreundlichkeit zu verbessern und Werbung zu schalten.Weitere Informationen finden Sie in Ihren Cookie-Benutzervorgaben. Durch den Besuch unserer Website erklären Sie sich mit der Verarbeitung von Informationen einverstanden, wie in der IBMDatenschutzbestimmung beschrieben.Um eine reibungslose Navigation zu ermöglichen, werden Ihre Cookie-Präferenzen über die hier aufgeführten IBM Web-Domains hinweg gemeinsam genutzt.