Schnelleinstieg: Modell mit SPSS Modeler erstellen

Sie können Modelle mit SPSS Modeler erstellen, trainieren und bereitstellen. Lesen Sie die Informationen zu SPSS Modeler, sehen Sie sich dann ein Video an und führen Sie ein Lernprogramm aus, das für Anfänger geeignet ist und für das keine Codierung vorgenommen werden muss.

Erforderlicher Service Watson Studio (einschließlich SPSS Modeler)

Ihr grundlegender Workflow umfasst die folgenden Tasks:

  1. Sie erstellen ein Projekt. Projekte sind der Ort, an dem Sie gemeinsam mit anderen mit Daten arbeiten.
  2. Fügen Sie dem Projekt einen SPSS Modeler-Ablauf hinzu.
  3. Konfigurieren Sie die Knoten im Erstellungsbereich und führen Sie den Ablauf aus.
  4. Überprüfen Sie die Modelldetails und speichern Sie das Modell.
  5. Stellen Sie das Modell bereit und testen Sie es.

Informationen zu SPSS Modeler

Mit SPSS Modeler-Abläufen können Sie mithilfe von Fachwissen schnell Vorhersagemodelle entwickeln und diese in Geschäftsoperationen bereitstellen, um die Entscheidungsfindung zu verbessern. Die Ablaufschnittstelle, die auf der Grundlage der seit langem bewährten SPSS Modeler-Clientsoftware und des den Industrienormen entsprechenden Modells CRISP-DM entwickelt wurde, unterstützt den gesamten Data-Mining-Prozess, von den Daten bis hin zu besseren Geschäftsergebnissen.

SPSS Modeler bietet eine Vielzahl von Modellierungsmethoden aus maschinellem Lernen, künstlicher Intelligenz und Statistik. Mit den in der Knotenpalette verfügbaren Methoden können Sie aus Ihren Daten neue Informationen ableiten und Vorhersagemodelle erstellen. Jede Methode hat ihre speziellen Stärken und eignet sich besonders für bestimmte Problemtypen.

Weitere Informationen zu SPSS Modeler

Informationen zu weiteren Methoden zum Erstellen von Modellen

Video zum Erstellen eines Modells mit SPSS Modeler ansehen

Video ansehen In diesem Video wird gezeigt, wie ein SPSS Modeler-Ablauf erstellt und ausgeführt wird, um ein Modell für maschinelles Lernen zu trainieren.

Dieses Video bietet eine visuelle Darstellung als Alternative zu den im Folgenden schriftlich dokumentierten Schritten.

Lernprogramm zum Erstellen eines Modells mit SPSS Modeler testen

In diesem Lernprogramm führen Sie folgende Tasks aus:

  • Projekt erstellen
  • Dataset aus der Galerie hinzufügen
  • Neuen SPSS Modeler-Ablauf erstellen
  • SPSS Modeler-Ablauf zum Trainieren eines Modells ausführen
  • Modell erkunden und testen
  • Modell in einem Bereitstellungsbereich bereitstellen

Für dieses Lernprogramm benötigen Sie ungefähr 30 Minuten.

Beispieldaten

Das in diesem Lernprogramm verwendete Dataset stammt von der University of California, Irvine und ist das Ergebnis einer umfangreichen Studie, die auf stationären Aufnahmen in eine Klinik über einen bestimmten Zeitraum basiert. Das Modell verwendet drei wichtige Faktoren, um eine chronische Nierenerkrankung vorherzusagen.

Schritt 1: Projekt erstellen

{: #step1} Sie benötigen ein Projekt, um den SPSS Modeler-Ablauf zu speichern.

  1. Wenn Sie über ein bestehendes Projekt verfügen, öffnen Sie es. Wenn kein Projekt vorhanden ist, klicken Sie auf der Homepage auf Projekt erstellen oder auf der Seite Projekte auf Neues Projekt.
  2. Wählen Sie Leeres Projekt erstellen aus.
  3. Fügen Sie in der Anzeige Projekt erstellen einen Namen und optional eine Beschreibung für das Projekt hinzu.
  4. Wählen Sie eine vorhandene Object Storage-Serviceinstanz aus oder erstellen Sie eine neue.
  5. Klicken Sie auf Erstellen.

Weitere Informationen oder ein Video finden Sie unter Projekt erstellen.

Schritt 2: Dataset aus der Galerie hinzufügen

{: #step2} Das in diesem Lernprogramm verwendete Dataset ist in der Galerie verfügbar.

  1. Greifen Sie In der Gallery auf das UCI-ML-Repository: Chronic Kidney Disease Data Set zu.
  2. Klicken Sie auf Vorschau. Es gibt drei wichtige Faktoren, die helfen können, chronische Nierenerkrankungen vorherzusagen, die im Rahmen dieser Analyse verfügbar sind: das Alter des Probanden, die Ergebnisse eines Serumkreatinintests und die Ergebnisse eines Diabetestests. Der Klassenwert gibt dabei an, ob beim Patient zuvor Nierenerkrankungen diagnostiziert wurden.
  3. Klicken Sie auf Zu Projekt hinzufügen.
  4. Wählen Sie das Projekt in der Liste aus und klicken Sie dann auf Hinzufügen.
  5. Klicken Sie auf Projekt anzeigen.
  6. Suchen Sie auf der Seite Assets Ihres Projekts nach der Datei UCI ML Repository Chronic Kidney Disease Data Set.csv.

Schritt 3: SPSS Modeler-Ablauf erstellen

{: #step3} Fügen Sie jetzt den SPSS Modeler-Ablauf zum Projekt hinzu.

  1. Klicken Sie auf Zu Projekt hinzufügen und wählen Sie Modeler-Ablauf aus.
  2. Geben Sie einen Namen und eine Beschreibung für den Ablauf ein.
  3. Akzeptieren Sie für die Laufzeitdefinition die Definition Standard SPSS Modeler S.
  4. Klicken Sie auf Erstellen. Dadurch wird der Ablaufeditor geöffnet, mit dem Sie den Ablauf erstellen.

Schritt 4: Knoten zum SPSS Modeler-Ablauf hinzufügen

{: #step4} Nach dem Laden der Daten müssen Sie die Daten transformieren. Sie erstellen einen einfachen Ablauf, indem Sie Transformatoren und Schätzer in den Erstellungsbereich ziehen und mit der Datenquelle verbinden. Verwenden Sie die folgenden Knoten aus der Palette:

  • Datenasset: Lädt die CSV-Datei aus dem Projekt
  • Partition: Unterteilt die Daten in Trainings- und Testsegmente
  • Typ: Legt den Datentyp fest. Legen Sie damit das Feld class als Typ target fest.
  • C5.0: ein Klassifikationsalgorithmus
  • Analyse: Modell anzeigen und Genauigkeit prüfen
  • Tabelle: Vorschau der Daten mit Vorhersagen

  • Ziehen Sie den Knoten Datenasset aus dem Abschnitt Importieren in den Erstellungsbereich.

    1. Klicken Sie doppelt auf den Knoten Datenasset, um das Dataset auszuwählen.
    2. Wählen Sie UCI ML Repository Chronic Kidney Disease Data Set.csv aus.
    3. Klicken Sie auf Auswählen.
    4. Zeigen Sie die Datenasseteigenschaften an.
    5. Klicken Sie auf Speichern.
  • Ziehen Sie den Knoten Partition aus dem Abschnitt Feldoperationen in den Erstellungsbereich.
    1. Verbinden Sie den Knoten Datenasset mit dem Knoten Partition.
    2. Klicken Sie doppelt auf den Knoten Partition, um die zugehörigen Merkmale anzuzeigen. In der Standardpartition wird die Hälfte der Daten für das Training und die andere Hälfte für Tests aufgeteilt.
    3. Klicken Sie auf Speichern.
  • Ziehen Sie den Knoten Typ aus dem Abschnitt Feldoperationen in den Erstellungsbereich.
    1. Verbinden Sie den Knoten Partition mit dem Knoten Typ.
    2. Klicken Sie doppelt auf den Knoten Typ, um die zugehörigen Merkmale anzuzeigen. Der Knoten 'Typ' gibt das Messniveau für jedes Feld an. Diese Quellendatendatei verwendet vier verschiedene Messniveaus: "Stetig", "Kategorial", "Nominal", "Ordinal" und "Flag".
    3. Suchen Sie das Feld class. Die Rolle gibt für jedes Feld an, welche Funktion das jeweilige Feld bei der Modellierung hat. Ändern Sie class Rolle in Ziel - also das Feld, das Sie vorhersagen möchten.
    4. Klicken Sie auf Speichern.
  • Ziehen Sie den Knoten C5.0 aus dem Abschnitt Modellierung in den Erstellungsbereich.
  • Verbinden Sie den Knoten Typ mit dem Knoten C5.0.
    1. Klicken Sie doppelt auf den Knoten C5.0, um die zugehörigen Merkmale anzuzeigen. Standardmäßig erstellt der Algorithmus C5.0 einen Entscheidungsbaum. Ein C5.0-Modell teilt die Stichprobe auf der Basis des Felds auf, das den maximalen Informationsgewinn bereitstellt. Jede Unterstichprobe, die durch die erste Aufteilung definiert wird, wird dann erneut aufgeteilt (in der Regel basierend auf einem anderen Feld) und der Prozess wird wiederholt, bis die Unterstichproben nicht weiter aufgeteilt werden können. Schließlich werden die Aufteilungen der niedrigsten Ebene erneut untersucht und diejenigen, die nicht wesentlich zum Wert des Modells beitragen, werden entfernt.
    2. Wählen Sie Angepasste Feldrollen verwenden aus.
    3. Wählen Sie für Ziel die Option Klasse aus.
    4. Klicken Sie im Abschnitt Eingaben auf Spalten hinzufügen.
    5. Wählen Sie age, sc, dm aus.
    6. Klicken Sie auf OK.
    7. Klicken Sie auf Speichern.

Nachdem Sie den Ablauf erstellt haben, sollte er wie in der folgenden Abbildung aussehen.

Ablauf mit Knoten 'Datenasset', Knoten 'Partition', Knoten 'Typ' und C5.0-Klassenknoten

Schritt 5: SPSS Modeler-Ablauf ausführen und Modelldetails untersuchen

{: #step5}Nach dem Entwurf des Ablaufs können Sie den Ablauf ausführen und das Baumdiagramm untersuchen, um die Entscheidungspunkte anzuzeigen.

  1. Klicken Sie mit der rechten Maustaste auf den Knoten C5.0 und wählen Sie Ausführen aus. Durch das Ausführen des Ablaufs wird ein neues Modellnugget im Erstellungsbereich generiert.
  2. Klicken Sie mit der rechten Maustaste auf das Modellnugget und wählen Sie Modell anzeigen aus, um die Modelldetails anzuzeigen.
  3. Zeigen Sie die Modellinformationen an, in der eine Modellzusammenfassung bereitgestellt wird.
  4. Klicken Sie auf Obere Entscheidungsregeln. In einer Tabelle wird eine Reihe von Regeln angezeigt, die verwendet wurden, um einzelne Datensätze untergeordneten Knoten basierend auf den Werten verschiedener Eingabefelder zuzuordnen.
  5. Klicken Sie auf Merkmalbedeutung. Ein Diagramm zeigt die relative Bedeutung jedes Prädiktors bei der Schätzung des Modells. Daraus können Sie erkennen, dass Serumkreatinin mit Abstand der signifikanteste Faktor ist, wobei Diabetes der zweitwichtigste Faktor ist.
  6. Klicken Sie auf Baumdiagramm. Dasselbe Modell wird in Form eines Baums mit einem Knoten an jedem Entscheidungspunkt angezeigt.
    1. Wählen Sie die Option Bezeichnungen auf Verzweigungen anzeigen aus.
    2. Bewegen Sie den Mauszeiger über Knoten 0, um eine Zusammenfassung für alle Datensätze im Dataset anzuzeigen. Knapp 40 % der Fälle im Datensatz sind als nicht mit Nierenerkrankungen diagnostiziert klassifiziert. Der Baum kann zusätzliche Hinweise geben, welche Faktoren möglicherweise verantwortlich sind.
    3. Beachten Sie die beiden Zweige, die von Knoten 0 ausgehen und eine Teilung durch Serumkreatinin angeben.
    4. Bewegen Sie den Mauszeiger über Knoten 6, um Datensätze anzuzeigen, bei denen der Wert für Serumkreatinin größer als 1,25 ist. In diesem Fall haben 100 % dieser Patienten eine positive Diagnose einer Nierenerkrankung.
    5. Bewegen Sie den Mauszeiger über Knoten 1, um Datensätze anzuzeigen, bei denen der Wert für Serumkreatinin kleiner-gleich 1,25 ist. Fast 80 % dieser Patienten haben keine positive Diagnose einer Nierenerkrankung, aber für fast 20 % der Personen mit niedrigerem Serumkreatinin wurde trotzdem eine Nierenerkrankung diagnostiziert.
    6. Die Verzweigung von Knoten 1 wird durch Diabetes aufgeteilt. Bewegen Sie den Mauszeiger über Knoten 2, um Patienten mit niedrigem Serumkreatinin und diagnostiziertem Diabetes anzuzeigen. Bei 100 % dieser Patienten wurde auch eine Nierenerkrankung diagnostiziert.
    7. Bewegen Sie den Mauszeiger über Knoten 3. Bei Patienten mit niedrigem Serumkreatinin und ohne Diabetes wurden bei über 85 % keine Nierenerkrankungen diagnostiziert, wobei aber bei 15 % der Personen Nierenerkrankungen diagnostiziert wurden.
    8. Die Verzweigung von Knoten 3 wird durch den letzten signifikanten Faktor Alter aufgeteilt. Wenn Sie den Mauszeiger über Knoten 4 bewegen, können Sie sehen, dass 75 % der jungen Patienten mit niedrigem Serumkreatinin und ohne Diabetes gefährdet sind, eine Nierenerkrankung zu erleiden.
    9. Bewegen Sie den Mauszeiger über Knoten 5. Nur 11 % der Patienten über 16 Jahre mit niedrigem Serumkreatinin und keinem Diabetes hatten das Risiko einer Nierenerkrankung.
    10. Schließen Sie die Modelldetails.

Schritt 6: Modell auswerten

{: #step6}Verwenden Sie die Knoten 'Analyse' und 'Tabelle', um das Modell auszuwerten.

  1. Ziehen Sie den Knoten Analyse aus dem Abschnitt Ausgaben in den Erstellungsbereich.
  2. Verbinden Sie das Modellnugget mit dem Knoten Analyse.
  3. Klicken Sie mit der rechten Maustaste auf den Knoten Analyse und wählen Sie Ausführen aus.
  4. Öffnen Sie in der Anzeige Ausgaben die Analyse, die anzeigt, dass das Modell die Diagnose eine Nierenerkrankung in fast 95 % der Fälle korrekt vorhergesagt hat. Schließen Sie die Analyse.
  5. (Optional) Klicken Sie in der Symbolleiste auf das Symbol Herunterladen, um das Modell als STR-Datei zu speichern.
  6. Klicken Sie mit der rechten Maustaste auf den Knoten Analyse und wählen Sie Verzweigung als Modell speichern aus.
    1. Geben Sie Kidney Disease Analysis als Modellnamen ein.
    2. Klicken Sie auf Speichern.
  7. Ziehen Sie den Knoten Tabelle aus dem Abschnitt Ausgaben in den Erstellungsbereich.
    1. Verbinden Sie das Modellnugget mit dem Knoten Tabelle.
    2. Klicken Sie mit der rechten Maustaste auf den Knoten Tabelle und wählen Sie Vorschau aus.
    3. Wenn die Vorschau angezeigt wird, blättern Sie zu den letzten beiden Spalten. Die Spalte $C-Class enthält die Vorhersage der Nierenerkrankung und die Spalte $CC-Class gibt den Konfidenzscore für diese Vorhersage an.
    4. Schließen Sie die Vorschau.

Schritt 7: Modell mit neuen Daten bereitstellen und testen

{: #step7}Sie können jetzt dieses Modell bereitstellen und das Ergebnis mit neuen Daten vorhersagen.

  1. Kehren Sie zur Registerkarte Assets des Projekts zurück.
  2. Blättern Sie zum Abschnitt Modelle und öffnen Sie das Modell Kidney Disease Analysis.
  3. Klicken Sie auf In Bereitstellungsbereich hochstufen.
  4. Wählen Sie einen vorhandenen Bereitstellungsbereich aus. Wenn Sie keinen Bereitstellungsbereich haben, können Sie einen neuen erstellen:
    1. Geben Sie einen Bereichsnamen an.
    2. Wählen Sie einen Speicherservice aus.
    3. Wählen Sie einen Machine Learning-Service aus.
    4. Klicken Sie auf Erstellen.
    5. Klicken Sie auf Schließen.
  5. Wählen Sie Nach dem Hochstufen zum Modell im Bereich wechseln aus.
  6. Klicken Sie auf Hochstufen.
  7. Wenn das Modell im Bereitstellungsbereich angezeigt wird, klicken Sie auf Neue Bereitstellung.
    1. Wählen Sie Online als Bereitstellungstyp aus.
    2. Geben Sie einen Namen für die Bereitstellung an.
    3. Klicken Sie auf Erstellen.
  8. Wechseln Sie zur Registerkarte Bereitstellungen und warten Sie, bis das Modell bereitgestellt wird.
  9. Klicken Sie nach Abschluss der Bereitstellung auf den Namen der Bereitstellung, um die Seite mit den Bereitstellungsdetails anzuzeigen.
  10. Wechseln Sie zur Registerkarte Test. Sie können das bereitgestellte Modell auf der Seite mit den Bereitstellungsdetails auf zwei Arten testen: Mithilfe eines Formulars oder mit JSON-Code.
  11. Klicken Sie auf das Symbol zum Bereitstellen von Eingabedaten als JSON, kopieren Sie dann die folgenden Testdaten und fügen Sie sie in den Bereich für den JSON-Text ein:

    {"input_data":[{"fields":["age","bp","sg","al","su","rbc","pc","pcc","ba","bgr","bu","sc","sod","pot","hemo","pcv","wbcc","rbcc","htn","dm","cad","appet","pe","ane","class"], "values":[["62","80","1.01","2","3","normal","normal","notpresent","notpresent","423","53","1.8","","","9.6","31","7500","","no","yes","no","poor","no","yes","ckd"]]}]}
    
  12. Klicken Sie auf Vorhersagen, um vorherzusagen, ob bei einem 62-jährigen mit Diabetes und einem Serumkreatinin-Verhältnis von 1,8 wahrscheinlich eine Nierenerkrankung diagnostiziert wird. Die resultierende Vorhersage zeigt an, dass dieser Patient eine hohe Wahrscheinlichkeit für die Diagnose einer Nierenerkrankung hat.

Nächste Schritte

Sie können dieses Dataset nun für weitere Analysen verwenden. Sie können beispielsweise folgende Tasks ausführen:

Zusätzliche Ressourcen