Schnelleinstieg: Modell mit SPSS Modeler erstellen
Sie können Modelle mit SPSS Modeler erstellen, trainieren und bereitstellen. Lesen Sie die Informationen zu SPSS Modeler, sehen Sie sich dann ein Video an und führen Sie ein Lernprogramm aus, das für Anfänger geeignet ist und für das keine Codierung vorgenommen werden muss.
- Erforderliche Services
- watsonx.ai Studio (das SPSS Modeler enthält)
- watsonx.ai Laufzeit
Ihr grundlegender Workflow umfasst die folgenden Tasks:
- Öffnen Sie Ihr Sandboxprojekt. Projekte sind der Ort, an dem Sie gemeinsam mit anderen mit Daten arbeiten.
- Fügen Sie dem Projekt einen SPSS Modeler-Ablauf hinzu.
- Konfigurieren Sie die Knoten im Erstellungsbereich und führen Sie den Ablauf aus.
- Überprüfen Sie die Modelldetails und speichern Sie das Modell.
- Stellen Sie das Modell bereit und testen Sie es.
Informationen zu SPSS Modeler
Mit SPSS Modeler-Abläufen können Sie mithilfe von Fachwissen schnell Vorhersagemodelle entwickeln und diese in Geschäftsoperationen bereitstellen, um die Entscheidungsfindung zu verbessern. Entwickelt um die seit langem etablierte SPSS Modeler Client-Software und das darin verwendete Industriestandardmodell CRISP-DM, erleichtert die Flow-Schnittstelle den gesamten Data-Mining-Prozess, von den Daten bis zu besseren Geschäftsergebnissen.
SPSS Modeler bietet eine Vielzahl von Modellierungsmethoden aus maschinellem Lernen, künstlicher Intelligenz und Statistik. Mit den in der Knotenpalette verfügbaren Methoden können Sie aus Ihren Daten neue Informationen ableiten und Vorhersagemodelle erstellen. Jede Methode hat ihre speziellen Stärken und eignet sich besonders für bestimmte Problemtypen.
Video zum Erstellen eines Modells mit SPSS Modeler ansehen
In diesem Video wird gezeigt, wie ein SPSS Modeler-Ablauf erstellt und ausgeführt wird, um ein Modell für maschinelles Lernen zu trainieren.
Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.
Lernprogramm zum Erstellen eines Modells mit SPSS Modeler testen
In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:
- Aufgabe 1: Projekt öffnen
- Aufgabe 2: Dataset zu Ihrem Projekt hinzufügen
- Aufgabe 3: SPSS Modeler -Ablauf erstellen
- Aufgabe 4. Knoten zum Ablauf SPSS Modeler hinzufügen.
- Aufgabe 5. Ablauf SPSS Modeler ausführen und Modelldetails untersuchen.
- Aufgabe 6: Modell auswerten.
- Aufgabe 7: Modell mit neuen Daten implementieren und testen
Für dieses Lernprogramm benötigen Sie ungefähr 30 Minuten.
Beispieldaten
Das in diesem Lernprogramm verwendete Dataset stammt von der University of California, Irvine und ist das Ergebnis einer umfangreichen Studie, die auf stationären Aufnahmen in eine Klinik über einen bestimmten Zeitraum basiert. Das Modell verwendet drei wichtige Faktoren, um eine chronische Nierenerkrankung vorherzusagen.
Tipps zum Durcharbeiten dieses Lernprogramms
Im Folgenden finden Sie einige Tipps für den erfolgreichen Abschluss dieses Lernprogramms.
Verwenden Sie das Videobild im Bild
Die folgende animierte Abbildung zeigt, wie die Funktionen für Videobilder und Inhaltsverzeichnisse verwendet werden:
Hilfe in der Community anfordern
Wenn Sie Hilfe zu diesem Tutorial benötigen, können Sie eine Frage stellen oder eine Antwort im watsonx Community Diskussionsforum finden.
Browserfenster einrichten
Damit Sie dieses Lernprogramm optimal nutzen können, öffnen Sie Cloud Pak for Data in einem Browserfenster und lassen Sie diese Lernprogrammseite in einem anderen Browserfenster geöffnet, um einfach zwischen den beiden Anwendungen zu wechseln. Es empfiehlt sich, die beiden Browserfenster nebeneinander anzuordnen, um die weitere Arbeit zu erleichtern.
Aufgabe 1: Projekt öffnen
Sie benötigen ein Projekt zum Speichern des SPSS Modeler -Ablaufs. Sie können Ihr Sandboxprojekt verwenden oder ein Projekt erstellen.
Wählen Sie im Navigationsmenü ' Projekte > Alle Projekte anzeigen
Öffnen Sie Ihr Sandboxprojekt. Wenn Sie ein neues Projekt verwenden möchten:
Klicken Sie auf Neues Projekt.
Wählen Sie Leeres Projekt erstellen aus.
Geben Sie einen Namen und optional eine Beschreibung für das Projekt an.
Wählen Sie eine vorhandene Objektspeicherserviceinstanz aus oder erstellen Sie eine neue.
Klicken Sie auf Erstellen.
Weitere Informationen hierzu oder die Option zum Ansehen eines entsprechenden Videos finden Sie unter Projekt erstellen.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt das neue Projekt.
Aufgabe 2: Dataset zu Ihrem Projekt hinzufügen
Um eine Vorschau dieser Aufgabe zu sehen, schauen Sie sich das Video ab 00:13 an.
In diesem Lernprogramm wird ein Beispieldataset verwendet. Führen Sie die folgenden Schritte aus, um das Beispieldataset Ihrem Projekt hinzuzufügen:
Zugriff auf das UCI ML Repository: Chronic Kidney Disease Data Set in der Ressourcendrehscheibe.
Klicken Sie auf Vorschau. Es gibt drei wichtige Faktoren, die helfen können, chronische Nierenerkrankungen vorherzusagen, die im Rahmen dieser Analyse verfügbar sind: das Alter des Probanden, die Ergebnisse eines Serumkreatinintests und die Ergebnisse eines Diabetestests. Der Klassenwert gibt dabei an, ob beim Patient zuvor Nierenerkrankungen diagnostiziert wurden.
Klicken Sie auf Zum Projekt hinzufügen.
Wählen Sie das Projekt in der Liste aus und klicken Sie dann auf Hinzufügen.
Klicken Sie auf Projekt anzeigen.
Suchen Sie auf der Seite Assets Ihres Projekts nach der Datei UCI ML Repository Chronic Kidney Disease Data Set.csv.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die Registerkarte Assets im Projekt.
Aufgabe 3: Ablauf SPSS Modeler erstellen
Um eine Vorschau dieser Aufgabe zu sehen, schauen Sie sich das Video ab 01:11 an.
Führen Sie die folgenden Schritte aus, um einen SPSS Modeler -Ablauf im Projekt zu erstellen:
Klicken Sie auf Neues Asset > Modelle als visuellen Ablauf erstellen.
Geben Sie einen Namen und eine Beschreibung für den Ablauf ein.
Akzeptieren Sie für die Laufzeitdefinition die Definition Standard SPSS Modeler S.
Klicken Sie auf Erstellen. Dadurch wird der Ablaufeditor geöffnet, mit dem Sie den Ablauf erstellen.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt den Flow-Editor.
Aufgabe 4: Knoten zum SPSS Modeler -Ablauf hinzufügen
Um eine Vorschau dieser Aufgabe zu sehen, schauen Sie sich das Video ab 01:31 an.
Nach dem Laden der Daten müssen Sie die Daten transformieren. Erstellen Sie einen einfachen Ablauf, indem Sie Transformatoren und Schätzer in den Erstellungsbereich ziehen und mit der Datenquelle verbinden. Verwenden Sie die folgenden Knoten aus der Palette:
Datenasset: Lädt die CSV-Datei aus dem Projekt
Partition: Unterteilt die Daten in Trainings- und Testsegmente
Typ: Legt den Datentyp fest. Legen Sie damit das Feld
class
als Typtarget
fest.C5.0: ein Klassifikationsalgorithmus
Analyse: Modell anzeigen und Genauigkeit prüfen
Tabelle: Vorschau der Daten mit Vorhersagen
Führen Sie die folgenden Schritte aus, um den Flow zu erstellen:
Fügen Sie den Datenassetknoten hinzu:
Ziehen Sie den Knoten Datenasset aus dem Abschnitt Importieren in den Erstellungsbereich.
Klicken Sie doppelt auf den Knoten Datenasset, um das Dataset auszuwählen.
Wählen Sie Datenasset > UCI ML Repository Chronische Nierenerkrankung Data Set.csvaus.
Klicken Sie auf Auswählen.
Zeigen Sie die Datenasseteigenschaften an.
Klicken Sie auf Speichern.
Fügen Sie den Partitionsknoten hinzu:
Ziehen Sie den Knoten Partition aus dem Abschnitt Feldoperationen in den Erstellungsbereich.
Verbinden Sie den Knoten Datenasset mit dem Knoten Partition.
Klicken Sie doppelt auf den Knoten Partition, um die zugehörigen Merkmale anzuzeigen. In der Standardpartition wird die Hälfte der Daten für das Training und die andere Hälfte für Tests aufgeteilt.
Klicken Sie auf Speichern.
Fügen Sie den Typknoten hinzu:
Ziehen Sie den Knoten Typ aus dem Abschnitt Feldoperationen in den Erstellungsbereich.
Verbinden Sie den Knoten Partition mit dem Knoten Typ.
Klicken Sie doppelt auf den Knoten Typ, um die zugehörigen Merkmale anzuzeigen. Der Knoten 'Typ' gibt das Messniveau für jedes Feld an. Diese Quellendatendatei verwendet vier verschiedene Messniveaus: "Stetig", "Kategorial", "Nominal", "Ordinal" und "Flag".
Suchen Sie das Feld
class
. Die Rolle gibt für jedes Feld an, welche Funktion das jeweilige Feld bei der Modellierung hat. Ändern Sieclass
Rolle in Ziel - also das Feld, das Sie vorhersagen möchten.Klicken Sie auf Speichern.
Fügen Sie den Knoten für den Klassifikationsalgorithmus C5.0 hinzu:
Ziehen Sie den Knoten C5.0 aus dem Abschnitt Modellierung in den Erstellungsbereich.
Verbinden Sie den Knoten Typ mit dem Knoten C5.0.
Klicken Sie doppelt auf den Knoten C5.0, um die zugehörigen Merkmale anzuzeigen. Standardmäßig erstellt der Algorithmus C5.0 einen Entscheidungsbaum. Ein C5.0-Modell teilt die Stichprobe auf der Basis des Felds auf, das den maximalen Informationsgewinn bereitstellt. Jede Unterstichprobe, die durch die erste Aufteilung definiert wird, wird dann erneut aufgeteilt (in der Regel basierend auf einem anderen Feld) und der Prozess wird wiederholt, bis die Unterstichproben nicht weiter aufgeteilt werden können. Schließlich werden die Aufteilungen der niedrigsten Ebene erneut untersucht und diejenigen, die nicht wesentlich zum Wert des Modells beitragen, werden entfernt.
Aktivieren Sie In diesem Knoten definierte Einstellungen verwenden.
Wählen Sie für Ziel die Option Klasse aus.
Klicken Sie im Abschnitt Eingaben auf Spalten hinzufügen.
Wählen Sie das Kontrollkästchen neben Feldnameab.
Wählen Sie age, sc, dm aus.
Klicken Sie auf OK.
Klicken Sie auf Speichern.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt den abgeschlossenen Ablauf.
Aufgabe 5: Ablauf von SPSS Modeler ausführen und Modelldetails untersuchen
Um eine Vorschau dieser Aufgabe zu sehen, schauen Sie sich das Video ab 04:20 an.
Nachdem Sie den Ablauf entworfen haben, führen Sie die folgenden Schritte aus, um den Ablauf auszuführen, und untersuchen Sie das Baumdiagramm, um die Entscheidungspunkte anzuzeigen:
Klicken Sie mit der rechten Maustaste auf den Knoten C5.0 und wählen Sie Ausführen aus. Durch das Ausführen des Ablaufs wird ein neues Modellnugget im Erstellungsbereich generiert.
Klicken Sie mit der rechten Maustaste auf das Modellnugget und wählen Sie Modell anzeigen aus, um die Modelldetails anzuzeigen.
Zeigen Sie die Modellinformationen an, in der eine Modellzusammenfassung bereitgestellt wird.
Klicken Sie auf Obere Entscheidungsregeln. In einer Tabelle wird eine Reihe von Regeln angezeigt, die verwendet wurden, um einzelne Datensätze untergeordneten Knoten basierend auf den Werten verschiedener Eingabefelder zuzuordnen.
Klicken Sie auf Merkmalbedeutung. Ein Diagramm zeigt die relative Bedeutung jedes Prädiktors bei der Schätzung des Modells. Daraus können Sie erkennen, dass Serumkreatinin mit Abstand der signifikanteste Faktor ist, wobei Diabetes der zweitwichtigste Faktor ist.
Klicken Sie auf Baumdiagramm. Dasselbe Modell wird in Form eines Baums mit einem Knoten an jedem Entscheidungspunkt angezeigt.
Bewegen Sie den Mauszeiger über den obersten Knoten, der eine Zusammenfassung für alle Datensätze im Dataset bereitstellt. Fast 40% der Fälle im Datensatz sind als nicht mit Nierenerkrankungen diagnostiziert klassifiziert. Der Baum kann zusätzliche Hinweise geben, welche Faktoren möglicherweise verantwortlich sind.
Beachten Sie die beiden Zweige, die vom obersten Knoten ausgehen und auf eine Teilung durch Serumkreatininhinweisen.
Überprüfen Sie die Verzweigung, die Datensätze zeigt, bei denen das Serumkreatinin größer als 1.25ist. In diesem Fall haben 100 % dieser Patienten eine positive Diagnose einer Nierenerkrankung.
Überprüfen Sie die Verzweigung, die Datensätze zeigt, bei denen das Serumkreatinin kleiner-gleich 1.25ist. Fast 80 % dieser Patienten haben keine positive Diagnose einer Nierenerkrankung, aber für fast 20 % der Personen mit niedrigerem Serumkreatinin wurde trotzdem eine Nierenerkrankung diagnostiziert.
Beachten Sie die von sc<=1.250stammenden Verzweigungen, die durch Diabetesunterteilt sind.
Überprüfen Sie den Zweig, der Patienten mit niedrigem Serumkreatinin (sc<=1.250) und diagnostiziertem Diabetes (dm = yes) zeigt. Bei 100% dieser Patienten wurde auch eine Nierenerkrankung diagnostiziert.
Überprüfen Sie den Zweig, der zeigt, dass Patienten mit niedrigem Serumkreatinin (sc<=1.250) und keinem Diabetes (dm = no), 85% wurden nicht mit Nierenerkrankung diagnostiziert, aber 15% von ihnen wurden noch mit Nierenerkrankung diagnostiziert.
Beachten Sie die Verzweigungen, die aus dm = nostammen und durch den letzten signifikanten Faktor ( age) getrennt werden.
Überprüfen Sie den Zweig, der Patienten im Alter von 14 Jahren oder jünger (Alter < = 14) zeigt. Dieser Zweig zeigt, dass 75 Prozent der jungen Patienten mit niedrigem Serumkreatinin und ohne Diabetes an einer Nierenerkrankung litten.
Überprüfen Sie den Zweig, der Patienten zeigt, die älter als 14 Jahre sind (Alter > 14). Dieser Zweig zeigt, dass nur 12% der Patienten über 14 Jahre mit niedrigem Serumkreatinin und keinem Diabetes das Risiko einer Nierenerkrankung hatten.
Schließen Sie die Modelldetails.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt das Baumdiagramm.
Aufgabe 6: Modell auswerten
Um eine Vorschau auf diese Aufgabe zu erhalten, sehen Sie sich das Video ab 07:24 an.
Gehen Sie wie folgt vor, um das Modell mithilfe der Analyse-und Tabellenknoten auszuwerten:
Ziehen Sie den Knoten Analyse aus dem Abschnitt Ausgaben in den Erstellungsbereich.
Verbinden Sie das Modellnugget mit dem Knoten Analyse.
Klicken Sie mit der rechten Maustaste auf den Knoten Analyse und wählen Sie Ausführen aus.
Öffnen Sie im Fenster Ausgaben die Analyse, die zeigt, dass das Modell eine Nierenkrankheitsdiagnose fast 95% der Zeit korrekt vorhergesagt hat. Schließen Sie die Analyse.
Klicken Sie mit der rechten Maustaste auf den Knoten Analyse und wählen Sie Verzweigung als Modell speichern aus.
Geben Sie
Kidney Disease Analysis
als Modellnamen ein.Klicken Sie auf Speichern.
Klicken Sie auf Schließen.
Ziehen Sie den Knoten Tabelle aus dem Abschnitt Ausgaben in den Erstellungsbereich.
Verbinden Sie das Modellnugget mit dem Knoten Tabelle.
Klicken Sie mit der rechten Maustaste auf den Knoten Tabelle und wählen Sie Daten voranzeigenaus.
Wenn die Vorschau angezeigt wird, blättern Sie zu den letzten beiden Spalten. Die Spalte $C-Class enthält die Vorhersage der Nierenerkrankung und die Spalte $CC-Class gibt den Konfidenzscore für diese Vorhersage an.
Schließen Sie die Vorschau.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die Vorschautabelle mit den Prognosen.
Aufgabe 7: Modell mit neuen Daten implementieren und testen
Um eine Vorschau dieser Aufgabe zu sehen, schauen Sie sich das Video ab 09:10 an.
Führen Sie schließlich die folgenden Schritte aus, um dieses Modell bereitzustellen und das Ergebnis mit neuen Daten vorherzusagen.
Kehren Sie zur Registerkarte Assets des Projekts zurück.
Klicken Sie auf den Abschnitt Modelle und öffnen Sie das Modell Nierenkrankheitsanalyse .
Klicken Sie auf das Symbol " " für "Promote to deployment space".
Wählen Sie einen vorhandenen Bereitstellungsbereich aus. Wenn Sie keinen Bereitstellungsbereich haben, können Sie einen neuen erstellen:
Geben Sie einen Bereichsnamen an.
Wählen Sie einen Speicherservice aus.
Wählen Sie einen Machine Learning-Service aus.
Klicken Sie auf Erstellen.
Klicken Sie auf Schließen.
Wählen Sie Nach dem Hochstufen zum Modell im Bereich wechseln aus.
Klicken Sie auf Hochstufen.
Wenn das Modell im Bereitstellungsbereich angezeigt wird, klicken Sie auf Neue Bereitstellung.
Wählen Sie Online als Bereitstellungstyp aus.
Geben Sie einen Namen für die Bereitstellung an.
Klicken Sie auf Erstellen.
Klicken Sie nach Abschluss der Bereitstellung auf den Namen der Bereitstellung, um die Seite mit den Bereitstellungsdetails anzuzeigen.
Wechseln Sie zur Registerkarte Test. Sie können das bereitgestellte Modell auf der Seite mit den Bereitstellungsdetails auf zwei Arten testen: Mithilfe eines Formulars oder mit JSON-Code.
Klicken Sie auf JSON-Eingabe, kopieren Sie die folgenden Testdaten und fügen Sie sie ein, um den vorhandenen JSON-Text zu ersetzen:
{ "input_data": [ { "fields": [ "age", "bp", "sg", "al", "su", "rbc", "pc", "pcc", "ba", "bgr", "bu", "sc", "sod", "pot", "hemo", "pcv", "wbcc", "rbcc", "htn", "dm", "cad", "appet", "pe", "ane", "class" ], "values": [ [ "62", "80", "1.01", "2", "3", "normal", "normal", "notpresent", "notpresent", "423", "53", "1.8", "", "", "9.6", "31", "7500", "", "no", "yes", "no", "poor", "no", "yes", "ckd" ] ] } ] }
Klicken Sie auf Vorhersagen, um vorherzusagen, ob bei einem 62-jährigen mit Diabetes und einem Serumkreatinin-Verhältnis von 1,8 wahrscheinlich eine Nierenerkrankung diagnostiziert wird. Die resultierende Vorhersage zeigt an, dass dieser Patient eine hohe Wahrscheinlichkeit für die Diagnose einer Nierenerkrankung hat.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die Registerkarte ' Test' für die Modellbereitstellung mit einer Vorhersage.
Nächste Schritte
Sie können dieses Dataset nun für weitere Analysen verwenden. Sie können beispielsweise folgende Tasks ausführen:
Weitere Ressourcen
Weitere SPSS Modeler-Lernprogramme
Verwenden Sie die folgenden anderen Methoden zum Erstellen von Modellen:
Weitere Informationen finden Sie unter Videos.
Suchen Sie Beispieldatasets, Projekte, Modelle, Eingabeaufforderungen und Notebooks im Ressourcenhub, um praktische Erfahrungen zu sammeln:
-Notizbücher, die Sie zu Ihrem Projekt hinzufügen können, um mit der Analyse von Daten und der Erstellung von Modellen zu beginnen.
Projekte, die Sie importieren können und die Notizbücher, Datensätze, Prompts und andere Elemente enthalten.
Datensätze, die Sie zu Ihrem Projekt hinzufügen können, um Modelle zu verfeinern, zu analysieren und zu erstellen.
Eingabeaufforderungen, die Sie im Eingabeaufforderungs-Labor verwenden können, um ein foundation model einzugeben.
Stiftungsmodelle, die Sie im Prompt-Labor verwenden können.
Tragen Sie zur SPSS Modeler bei
Übergeordnetes Thema: Lernprogramme für den Schnelleinstieg