Einführung in Modellierung
Vorschau des Lernprogramms anzeigen
Sehen Sie sich dieses Video an, um eine Vorschau der Schritte in diesem Lernprogramm anzuzeigen. Die im Video gezeigte Benutzeroberfläche kann geringfügig abweichen. Das Video ist als Ergänzung zum schriftlichen Lehrgang gedacht. Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Aufgaben in dieser Dokumentation.
Versuchen Sie das Tutorial
In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:
Beispielhafter Modellierungsablauf und Datensatz
In diesem Tutorial wird der Ablauf der Einführung in die Modellierung im Beispielprojekt verwendet. Die verwendete Datendatei ist tree_credit.csv. Das folgende Bild zeigt ein Beispiel für den Ablauf der Modellierung.

Die Fähigkeit, ein Ergebnis vorherzusagen, ist das zentrale Ziel der prädiktiven Analytik, und das Verständnis des Modellierungsprozesses ist der Schlüssel zur Verwendung von SPSS Modeler.
Das Modell in diesem Beispiel zeigt, wie eine Bank vorhersagen kann, ob zukünftige Darlehensantragsteller bei ihren Krediten versagt haben. Diese Kunden haben zuvor Darlehen von der Bank genommen, sodass die Kundendaten in der Datenbank der Bank gespeichert werden. Das Modell verwendet die Daten der Kunden, um zu bestimmen, wie wahrscheinlich es ist, dass sie den Standardwerten entsprechen.
Ein wichtiger Teil eines Modells sind die Daten, die in das Modell eingehen. Die Bank verwaltet eine Datenbank mit historischen Informationen über Kunden, einschließlich, ob sie die Darlehen zurückgezahlt (Kreditwürdigkeit = Gut) oder nicht (Kreditwürdigkeit = Schlecht). Die Bank möchte diese vorhandenen Daten verwenden, um das Modell zu erstellen. Es werden folgende Felder verwendet:
Feldname | Beschreibung |
---|---|
Credit_rating | Kreditrating: 0 = Schlecht, 1 = Gut, 9 = fehlende Werte |
Alter | Alter in Jahren |
Einkommen | Einkommen in Kategorien: 1 = Niedrig, 2 = Mittel, 3 = Hoch |
Kredit_Karten | Anzahl der Kreditkarten: 1 = Weniger als fünf, 2 = Fünf oder mehr |
Bildungsniveau | Bildungsniveau: 1 = Hauptschulabschluss, 2 = Hochschulabschluss |
Auto_Kredite | Anzahl der Autokredite: 1 = Keine oder einen, 2 = Mehr als zwei |
In diesem Beispiel wird ein Entscheidungsbaummodell verwendet, das Datensätze mithilfe einer Reihe von Entscheidungsregeln klassifiziert (und eine Antwort vorhersagt).

Beispiel: Diese Entscheidungsregel klassifiziert einen Datensatz als Datensatz mit einer guten Kreditwürdigkeit, wenn das Einkommen in den mittleren Bereich fällt und die Anzahl der Kreditkarten kleiner als 5 ist.
IF income = Medium AND cards <5 THEN -> 'Good'
Anhand eines Entscheidungsbaummodells können Sie die Charakteristiken der beiden Kundengruppen analysieren und die Wahrscheinlichkeit von Kreditausfällen vorhersagen.
Während in diesem Beispiel ein CHAID-Modell (Chi-squared Automatic Interaction Detection) verwendet wird, ist es als allgemeine Einführung gedacht und die meisten Konzepte gelten weitgehend für andere Modellierungstypen in SPSS Modeler.
Aufgabe 1: Öffnen Sie das Beispielprojekt
Das Beispielprojekt enthält mehrere Datensätze und Modellierungsabläufe. Wenn Sie noch nicht über das Beispielprojekt verfügen, lesen Sie bitte das Thema Tutorials, um das Beispielprojekt zu erstellen. Gehen Sie dann wie folgt vor, um das Beispielprojekt zu öffnen:
- Wählen Sie in Cloud Pak for Data aus dem Navigationsmenü "
Projekte > Alle Projekte anzeigen.
- Klicken Sie auf SPSS Modeler.
- Klicken Sie auf die Registerkarte Assets, um die Datensätze und Modellierungsabläufe zu sehen.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die Registerkarte Assets des Projekts. Sie sind nun bereit, mit dem zu diesem Lehrgang gehörenden Beispielmodellierungsablauf zu arbeiten.
Aufgabe 2: Untersuchen Sie die Knoten "Datenbestand" und "Typ"
Einführung in die Modellierung Der Modellierungsfluss umfasst mehrere Knotenpunkte. Gehen Sie folgendermaßen vor, um die Knoten Daten-Asset und Typ zu untersuchen.
- Öffnen Sie auf der Registerkarte Assets den Modellierungsablauf Einführung in die Modellierung und warten Sie, bis der Canvas geladen ist.
- Doppelklicken Sie auf den Knoten tree_credit.csv. Dieser Knoten ist ein Data Asset-Knoten, der auf die Datei tree_credit.csv im Projekt verweist. Wenn Sie Messungen im Quellknoten angeben, müssen Sie keinen separaten Typknoten in den Ablauf einfügen.
- Überprüfen Sie die Eigenschaften des Dateiformats.
- Optional: Klicken Sie auf Datenvorschau, um den vollständigen Datensatz zu sehen.
- Doppelklicken Sie auf den Knoten Typ. Dieser Knoten gibt Feldeigenschaften an, wie z. B. die Messebene (die Art der Daten, die das Feld enthält) und die Rolle jedes Feldes als Ziel oder Eingabe bei der Modellierung. Das Messniveau ist eine Kategorie, die den Datentyp für das Feld anzeigt. Die Quelldatendatei verwendet drei verschiedene Messebenen:
- Ein kontinuierliches Feld (wie das Feld "
) enthält kontinuierliche numerische Werte.Age
- Ein Nominalfeld (wie das Feld "
) hat zwei oder mehr unterschiedliche Werte: in diesem Fall "Education
oder "College
.High school
- Ein Ordinalfeld (wie das Feld "
) beschreibt Daten mit mehreren unterschiedlichen Werten, die eine inhärente Reihenfolge aufweisen: in diesem Fall "Income level
, "Low
und "Medium
.High
Abb. 3 Typknoten Für jedes Feld gibt der Knoten Typ auch eine Rolle an, die angibt, welche Rolle das jeweilige Feld bei der Modellierung spielt. Für das Feld "
, das angibt, ob ein Kunde mit einem Kredit in Verzug geraten ist, ist die Rolle auf "Ziel" gesetzt. Das Ziel ist das Feld, für das Sie den Wert vorhersagen möchten.Credit rating
Bei den anderen Feldern ist die Rolle auf Eingabe eingestellt. Eingabefelder werden manchmal auch als predictors bezeichnet oder als Felder, mit deren Werten der Modellierungsalgorithmus den Wert des Zielfelds vorhersagt.
- Ein kontinuierliches Feld (wie das Feld "
- Optional: Klicken Sie auf Datenvorschau, um die Daten mit den angewendeten Typ-Eigenschaften zu sehen.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt den Knoten Typ. Sie können nun den Knoten Modellierung konfigurieren.

Aufgabe 3: Konfigurieren Sie den Knoten Modellierung
Ein Modellierungsknoten erzeugt ein Modell-Nugget, wenn der Fluss läuft. In diesem Beispiel wird ein CHAID-Knoten verwendet. CHAID (Chi-squared Automatic Interaction Detection) ist eine Klassifizierungsmethode, die Entscheidungsbäume unter Verwendung einer bestimmten Art von Statistiken erstellt, die als Chi-Quadrat-Statistiken bekannt sind. Der Knoten verwendet Chi-Quadrat-Statistiken, um die besten Stellen für die Aufteilung im Entscheidungsbaum zu ermitteln. Gehen Sie folgendermaßen vor, um den Modellierungsknoten zu konfigurieren:
- Doppelklicken Sie auf den Knoten Kreditwürdigkeit (CHAID), um seine Eigenschaften anzuzeigen.
- Beachten Sie im Abschnitt Felder die Option In diesem Knoten definierte Einstellungen verwenden. Mit dieser Option wird der Knoten angewiesen, das hier angegebene Ziel und die Felder zu verwenden, anstatt die Feldinformationen im Knoten Typ zu verwenden. Für dieses Lernprogramm lassen Sie die Option In diesem Knoten definierte Einstellungen verwenden deaktiviert.
- Erweitern Sie den Abschnitt " Ziele". In diesem Fall sind die Standardwerte angemessen. Ihr Ziel ist es, ein neues Modell aufzubauen, ein Standardmodell zu erstellen und einen Modellknoten nach dem Lauf zu generieren.
- Erweitern Sie den Abschnitt Anhalte-Regeln. Um den Baum für dieses Beispiel relativ einfach zu halten, begrenzen Sie das Wachstum des Baums, indem Sie die Mindestanzahl von Fällen für Eltern- und Kindknoten erhöhen.
- Wählen Sie Absolutwert verwenden.
- Mindestdatensätze im übergeordneten Zweig auf '
setzen.400
- Mindestdatensätze im untergeordneten Zweig auf '
setzen.200
- Klicken Sie auf Speichern.
- Bewegen Sie den Mauszeiger über den Knoten Kreditwürdigkeit (CHAID) und klicken Sie auf das Ausführungssymbol "
.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt den Fluss mit den Modellergebnissen. Sie sind nun bereit, das Modell zu erkunden.

Aufgabe 4: Erkunden Sie das Modell
Die Ausführung des Modellierungsablaufs fügt dem Canvas ein Modell-Nugget mit einer Verknüpfung zu dem Modellierungsknoten hinzu, von dem aus es erstellt wurde. Gehen Sie wie folgt vor, um die Modelldetails anzuzeigen:
- Klicken Sie im Bereich Ausgaben und Modelle auf das Modell mit dem Namen Credit rating, um das Modell anzuzeigen.
- Klicken Sie auf Modellinformationen, um grundlegende Informationen über das Modell anzuzeigen.
- Klicken Sie auf Merkmalsbedeutung, um die relative Bedeutung der einzelnen Prädiktoren bei der Schätzung des Modells anzuzeigen. Aus diesem Diagramm geht hervor, dass die Höhe des Einkommens in diesem Fall mit Abstand der wichtigste Faktor ist, gefolgt von der Anzahl der Kreditkarten als zweitwichtigstem Faktor.
Abbildung 4. Feature Wichtigkeitsdiagramm - Klicken Sie auf Top-Entscheidungsregeln, um Details in Form eines Regelsatzes zu sehen; im Wesentlichen eine Reihe von Regeln, die verwendet werden können, um einzelne Datensätze auf der Grundlage der Werte verschiedener Eingabefelder untergeordneten Knoten zuzuordnen. Für jeden Endknoten im Entscheidungsbaum wird eine Vorhersage von Gut oder Schlecht zurückgegeben. Endknoten sind diejenigen Baumknoten, die nicht weiter aufgeteilt werden. In jedem Fall wird die Vorhersage durch den Modus oder die häufigste Antwort für Datensätze bestimmt, die unter diesen Knoten fallen.
Abbildung 5. CHAID-Modellnugget, Regelset - Klicken Sie auf Baumdiagramm, um dasselbe Modell in Form eines Baums mit einem Knoten an jedem Entscheidungspunkt zu sehen. Bewegen Sie den Mauszeiger über Zweige und Knoten, um Details zu durchsuchen.
Abbildung 6. Baumdiagramm im Modellnugget Am Anfang des Baums gibt der erste Knoten (Knoten 0) eine Zusammenfassung aller Datensätze im Datensatz. Knapp über 40 % der Fälle im Dataset sind als hoch riskant eingestuft. 40 % ist ein recht hoher Anteil, aber der Baum könnte Hinweise darauf geben, welche Faktoren dafür verantwortlich sein könnten.
Die erste Aufteilung erfolgt nach Einkommensniveau. Datensätze, bei denen die Einkommensstufe in der Kategorie Niedrig liegt, werden Knoten 2 zugewiesen. Entsprechend enthält diese Kategorie den höchsten Prozentsatz an Kreditausfällen. Die Kreditvergabe an Kunden in dieser Kategorie birgt offensichtlich ein hohes Risiko. Allerdings sind fast 18 % der Kunden in dieser Kategorie nicht in Verzug geraten, so dass die Vorhersage nicht immer richtig ist. Kein Modell kann jede Antwort vorhersagen, aber ein gutes Modell sollte es Ihnen ermöglichen, die wahrscheinlichste Antwort für jeden Datensatz auf der Grundlage der verfügbaren Daten vorherzusagen.
Betrachtet man die Kunden mit hohem Einkommen (Knoten 1), so stellt man fest, dass die meisten Kunden (über 88 %) ein gutes Risiko darstellen. Aber mehr als 1 von 10 dieser Kunden kam trotzdem in Verzug. Können die Vergabekriterien weiter verfeinert werden, um das Risiko zu minimieren?
Beachten Sie, wie das Modell diese Kunden in zwei Unterkategorien (Knoten 4 und 5) unterteilt, basierend auf der Anzahl der Kreditkarten, die sie besitzen. Wenn die Bank bei einkommensstarken Kunden nur Kredite an Kunden mit weniger als fünf Kreditkarten vergibt, kann sie ihre Erfolgsquote von 88 % auf fast 97 % steigern - ein noch zufriedenstellenderes Ergebnis.
Abbildung 7. Kunden mit hohem Einkommen und weniger als fünf Kreditkarten Aber was ist mit den Kunden in der Kategorie mit mittlerem Einkommen (Knoten 3)? Die Verteilung auf gute und schlechte Bonität fällt bei ihnen viel gleichmäßiger aus. Auch hier können die Unterkategorien (in diesem Fall die Knoten 6 und 7) helfen. Wenn diesmal nur an Kunden mit mittlerem Einkommen und weniger als fünf Kreditkarten Kredite vergeben werden, erhöht sich der Prozentsatz der Bewertung gut von 58 % auf 86 %, eine deutliche Verbesserung.
Abbildung 8. Baumansicht der Kunden mit mittlerem Einkommen
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt die Details des Modells. Jetzt können Sie das Modell auswerten.

Aufgabe 5: Bewerten Sie das Modell
Sie können sich das Modell ansehen, um zu verstehen, wie die Punktevergabe funktioniert. Um jedoch zu beurteilen, wie genau das Modell funktioniert, müssen Sie einige Datensätze bewerten. Bei der Auswertung der Datensätze werden die tatsächlichen Ergebnisse mit den vom Modell vorhergesagten Antworten verglichen. Um das Modell auszuwerten, können Sie dieselben Datensätze bewerten, die zur Schätzung des Modells verwendet wurden. Sie können die beobachteten und vorhergesagten Antworten vergleichen, indem Sie dieselben Datensätze miteinander vergleichen. Folgen Sie diesen Schritten, um das Modell zu bewerten:
- Hängen Sie den Knoten Tabelle an das Modell-Nugget an.
- Bewegen Sie den Mauszeiger über den Tabellenknoten und klicken Sie auf das Ausführungssymbol "
.
- Klicken Sie im Fensterbereich Ausgaben und Modelle auf die Ausgabeergebnisse mit dem Namen Tabelle, um die Ergebnisse anzuzeigen.
Die Tabelle zeigt die vorhergesagten Werte im Feld '
an, die das Modell erstellt hat. Sie können diese Werte mit dem ursprünglichen Feld "$R-Credit rating
vergleichen, das die tatsächlichen Antworten enthält.Credit rating
Die Namen der Felder, die beim Scoring generiert wurden, basieren vereinbarungsgemäß auf dem Zielfeld, jedoch mit einem Standardpräfix.
und '$G
sind Präfixe für Vorhersagen, die das verallgemeinerte lineare Modell erzeugt$GE
ist das Präfix für Vorhersagen, die das CHAID-Modell erstellt$R
ist für Vertrauenswerte$RC
wird in der Regel mit Hilfe eines Ensembles erzeugt$X
, '$XR
, '$XS
werden als Präfixe verwendet, wenn das Zielfeld ein kontinuierliches, kategorisches, Mengen- oder Flaggenfeld ist$XF
Ein Konfidenzwert ist die Schätzung des Modells (auf einer Skala von 0,0 bis 1,0) bezüglich der Genauigkeit der einzelnen vorhergesagten Werte.
Abbildung 9. Tabelle mit generierten Scores und Konfidenzwerten Wie erwartet, stimmt der vorhergesagte Wert mit den tatsächlichen Antworten für viele Datensätze überein, aber nicht für alle. Der Grund hierfür besteht darin, dass jeder CHAID-Endknoten eine Mischung von Ergebnissen aufweist. Die Vorhersage stimmt mit der am häufigsten vorkommenden überein, ist aber für alle anderen in diesem Knoten falsch. (Wir erinnern uns an die Minderheit von 18 % der Kunden mit niedrigem Einkommen, die Ihren Kredit zurückgezahlt haben.)
Um dieses Problem zu vermeiden, könnte man den Baum in immer kleinere Äste aufteilen, bis jeder Knoten zu 100 % rein ist, d. h. nur noch gut oder schlecht, ohne gemischte Antworten. Ein solches Modell ist jedoch kompliziert und lässt sich wahrscheinlich nicht gut auf andere Datensätze übertragen.
Um genau herauszufinden, wie viele Vorhersagen richtig sind, können Sie die Tabelle durchlesen und die Anzahl der Datensätze zählen, bei denen der Wert des vorhergesagten Feldes "
mit dem Wert von "$R-Credit rating
übereinstimmt. Am einfachsten ist es jedoch, einen Analyseknoten zu verwenden, der automatisch Datensätze verfolgt, bei denen diese Werte übereinstimmen.Credit rating
- Verbinden Sie das Modellnugget mit dem Analyseknoten.
- Bewegen Sie den Mauszeiger über den Knoten Analyse und klicken Sie auf das Symbol Ausführen '
.
- Klicken Sie im Fensterbereich Ausgaben und Modelle auf die Ausgabeergebnisse mit dem Namen Analyse, um die Ergebnisse anzuzeigen.
Die Analyse zeigt, dass bei 1960 von 2464 Datensätzen (über 79 %) der vom Modell vorhergesagte Wert mit der tatsächlichen Antwort übereinstimmt.
Abbildung 10. Analyseergebnisse für den Vergleich zwischen den beobachteten und vorhergesagten Ergebnissen Dieses Ergebnis wird durch die Tatsache eingeschränkt, dass die von Ihnen bewerteten Datensätze dieselben sind, die Sie zur Schätzung des Modells verwendet haben. In einer realen Situation könnten Sie einen Partitionsknoten verwenden, um die Daten in separate Stichproben für Training und Auswertung aufzuteilen. Durch die Verwendung einer Stichprobenpartition zur Erstellung des Modells und einer weiteren Stichprobe zum Testen des Modells erhalten Sie einen besseren Hinweis darauf, wie gut es auf andere Datensätze verallgemeinert werden kann.
Sie können den Analyseknoten verwenden, um das Modell anhand von Datensätzen zu testen, für die Sie das tatsächliche Ergebnis bereits kennen. Der nächste Schritt veranschaulicht, wie Sie das Modell verwenden können, um Datensätze zu bewerten, für die Sie das Ergebnis nicht kennen. Dieser Datensatz könnte zum Beispiel Personen enthalten, die derzeit keine Kunden der Bank sind, die aber potenzielle Zielpersonen für ein Werbemailing sind.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt den Ablauf mit den Ergebnissen der Ausgabe. Sie sind nun bereit, das Modell mit neuen Daten zu bewerten.

Aufgabe 6: Bewertung des Modells mit neuen Daten
Zuvor haben Sie die Datensätze, die zur Schätzung des Modells verwendet wurden, bewertet, um die Genauigkeit des Modells zu beurteilen. In diesem Beispiel wird ein anderer Satz von Datensätzen als der zur Erstellung des Modells verwendete bewertet. Die Bewertung der Genauigkeit ist eines der Ziele der Modellierung mit einem Zielfeld. Sie untersuchen Datensätze, deren Ergebnis Sie kennen, um Muster zu erkennen, damit Sie Ergebnisse vorhersagen können, die Sie noch nicht kennen.
Sie können das vorhandene Daten-Asset oder den Import-Knoten aktualisieren, um auf eine andere Datendatei zu verweisen. Sie können auch einen Daten-Asset- oder Import-Knoten hinzufügen, der die Daten einliest, die Sie bewerten möchten. In jedem Fall muss der neue Datensatz dieselben Eingabefelder enthalten, die vom Modell verwendet werden (
, " Age
, " Income level
usw.), aber nicht das Zielfeld " Education
.Credit rating
Alternativ dazu können Sie das Modell-Nugget zu jedem Ablauf hinzufügen, der die erwarteten Eingabefelder enthält. Ob aus einer Datei oder einer Datenbank gelesen wird, spielt keine Rolle, wenn die Feldnamen und -typen mit denen übereinstimmen, die vom Modell verwendet werden.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt den fertigen Ablauf.

Zusammenfassung
Der Beispielablauf Einführung in die Modellierung veranschaulicht die grundlegenden Schritte zum Erstellen, Bewerten und Beurteilen eines Modells.
- Der Knoten Modellierung schätzt das Modell, indem er Datensätze untersucht, deren Ergebnis bekannt ist, und erstellt ein Modell-Nugget. Dieser Prozess wird manchmal auch als Training des Modells bezeichnet.
- Das Modellnugget kann jedem Ablauf mit den erwarteten Feldern hinzugefügt werden, um ein Scoring für Datensätze durchzuführen. Durch Scoren der Datensätze, deren Ergebnis Sie bereits kennen (z. B. bestehende Kunden), können Sie die Leistung des Modells evaluieren.
- Wenn Sie sich davon überzeugt haben, dass das Modell akzeptable Ergebnisse liefert, können Sie neue Daten (z. B. von potenziellen Kunden) auswerten, um deren Reaktion vorherzusagen.
- Die Daten, die zum Trainieren oder Schätzen des Modells verwendet werden, können als analytische oder historische Daten bezeichnet werden. Die Scoring-Daten können auch als operative Daten bezeichnet werden.
Nächste Schritte
Sie sind nun bereit, einen anderen ' SPSS Modeler Tutorials auszuprobieren.