Automatisieren Sie die Modellierung für ein kontinuierliches Ziel

Letzte Aktualisierung: 11. Feb. 2025

In diesem Lernprogramm wird der Knoten Auto Numerisch verwendet, um automatisch verschiedene Modelle für kontinuierliche (numerische) Ergebnisse zu erstellen und zu vergleichen, wie z. B. die Vorhersage des steuerpflichtigen Werts einer Immobilie. Mit einem einzelnen Knoten können Sie eine Gruppe von infrage kommenden Modellen schätzen und vergleichen und ein Subset der Modelle für die weitere Analyse erstellen. Der Knoten funktioniert auf die gleiche Weise wie der Auto-Klassifikator-Knoten, jedoch für kontinuierliche statt für Flag- oder Nominalziele.

Der Knoten kombiniert die besten der infrage kommenden Modelle in einem einzigen aggregierten Modellnugget. Dieser Ansatz bietet gleichzeitig Automatisierung und die Vorteile der Kombination mehrerer Modelle, die häufiger genauere Vorhersagen erlaubt, als aus den einzelnen Modellen erzielt werden können.

Das vorliegende Beispiel konzentriert sich auf eine fiktive Gemeinde, die Steuern auf Immobilien anpassen und einschätzen muss. Um dieses Ziel genauer zu erreichen, erstellen Sie ein Modell, das die Immobilienwerte auf der Grundlage von Gebäudetyp, Nachbarschaft, Größe und anderen bekannten Faktoren vorhersagt.

Vorschau des Lernprogramms anzeigen

Video ansehen Sehen Sie sich dieses Video an, um eine Vorschau der Schritte in diesem Lernprogramm anzuzeigen. Die Benutzeroberfläche, die im Video gezeigt wird, kann geringfügig abweichen. Das Video ist als Ergänzung zum schriftlichen Tutorial gedacht. Dieses Video bietet eine visuelle Methode, um die Konzepte und Aufgaben in dieser Dokumentation zu erlernen.

Versuchen Sie das Tutorial

In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:

Aufgabe 1: Öffnen Sie das Beispielprojekt
Aufgabe 2: Untersuchen Sie die Knoten "Datenbestand" und "Typ"
Aufgabe 3: Konfigurieren Sie den Knoten Modellierung
Aufgabe 4: Vergleichen Sie die Modelle
Aufgabe 5: Ausführen des Analyseknotens

Beispielhafter Modellierungsablauf und Datensatz

In diesem Tutorial wird der Ablauf der automatischen Modellierung für ein kontinuierliches Ziel im Beispielprojekt verwendet. Die verwendete Datendatei ist property_values_train.csv. Das folgende Bild zeigt ein Beispiel für den Ablauf der Modellierung.

Autonumerischer Beispielablauf — Abb. 1. Ablauf der Modellierung von Proben

Die Datendatei enthält ein Feld mit dem Namen " taxable_value, das das Zielfeld oder den Wert darstellt, den Sie vorhersagen möchten. Die anderen Felder enthalten Informationen wie Nachbarschaft, Gebäudetyp und Innenraumvolumen und können als Prädiktoren verwendet werden.

Feldname	Bezeichnung (Label)
`property_id`	Objekt-ID
`neighborhood`	Bereich innerhalb der Stadt
`building_type`	Gebäudetyp
`year_built`	Baujahr
`volume_interior`	Volumen des Innenraums
`volume_other`	Volumen der Garage und der Nebengebäude
`lot_size`	Grundstücksgröße
`taxable_value`	Steuerlicher Wert

Das folgende Bild zeigt den Beispieldatensatz.

Aufgabe 1: Öffnen Sie das Beispielprojekt

Das Beispielprojekt enthält mehrere Datensätze und Modellierungsabläufe. Wenn Sie das Beispielprojekt noch nicht haben, finden Sie unter Tutorials eine Anleitung zum Erstellen des Beispielprojekts. Gehen Sie dann wie folgt vor, um das Beispielprojekt zu öffnen:

In Cloud Pak for Data wählen Sie im Navigationsmenü Projekte > Alle Projekte anzeigen.
Klicken Sie auf SPSS Modeler Project.
Klicken Sie auf die Registerkarte Assets, um die Datensätze und Modellierungsabläufe zu sehen.

Überprüfen Sie Ihren Fortschritt

Die folgende Abbildung zeigt die Registerkarte Assets des Projekts. Sie sind nun bereit, mit dem zu diesem Lehrgang gehörenden Beispielmodellierungsablauf zu arbeiten.

Beispielprojekt

Zurück zum Seitenanfang

Aufgabe 2: Untersuchen Sie die Knoten "Datenbestand" und "Typ"

Die automatisierte Modellierung für ein kontinuierliches Ziel umfasst mehrere Knotenpunkte. Gehen Sie folgendermaßen vor, um die Knoten Daten-Asset und Typ zu untersuchen:

Öffnen Sie auf der Registerkarte Assets den Modellierungsablauf Automatisierte Modellierung für ein kontinuierliches Ziel und warten Sie, bis der Canvas geladen ist.
Doppelklicken Sie auf den Knoten property_values_train.csv. Dieser Knoten ist ein Daten-Asset-Knoten, der auf die Datei property_values_train.csv im Projekt verweist.
Überprüfen Sie die Eigenschaften des Dateiformats.
Optional: Klicken Sie auf Datenvorschau, um den vollständigen Datensatz zu sehen.
Doppelklicken Sie auf den Knoten Typ.
Für das Feld taxable_value setzen Sie die Rolle auf Target. Andere Felder werden als Prädiktoren verwendet.
Abb. 3 Einstellen der Messstufe und der Rolle
Optional: Klicken Sie auf Datenvorschau, um den gefilterten Datensatz zu sehen.

Kontrollpunkt-Symbol Überprüfen Sie Ihren Fortschritt

Das folgende Bild zeigt den Knoten Typ. Sie können nun den Knoten Modellierung konfigurieren.

Zurück zum Seitenanfang

Aufgabe 3: Konfigurieren Sie den Knoten Modellierung

In diesem Beispiel wird ein Knoten zur automatischen numerischen Modellierung verwendet, der Modelle schätzt und vergleicht, um verschiedene Ansätze für einen kontinuierlichen numerischen Bereich auszuprobieren. Gehen Sie folgendermaßen vor, um den Modellierungsknoten zu konfigurieren:

Doppelklicken Sie auf den Knoten für den steuerpflichtigen Wert, um seine Eigenschaften anzuzeigen.
Erweitern Sie den Abschnitt Grundlagen, und legen Sie die folgenden Eigenschaften fest:
1. Wählen Sie für das Feld Rangfolge der Modelle nach die Option Korrelation.
2. Geben Sie in das Feld "Anzahl der zu verwendenden Modelle " " 3 ein. Dies bedeutet, dass die drei besten Modelle erstellt werden, wenn Sie den Knoten ausführen.
Abbildung 4. Abschnitt Grundlagen des automatischen numerischen Knotens
Erweitern Sie den Bereich Experte. Es werden sechs Algorithmen ausgewählt, was dazu führt, dass der Knoten ein einziges Modell für jeden Algorithmus schätzt, also insgesamt sechs Modelle. (Alternativ können Sie diese Einstellungen ändern, um für jeden Modelltyp mehrere Varianten zu vergleichen.) Da Sie im Abschnitt " Grundlagen" die Eigenschaft "Anzahl der zu verwendenden Modelle " auf " 3 gesetzt haben, berechnet der Knoten die Genauigkeit der sechs Algorithmen und erstellt ein einzelnes Modell-Nugget, das die drei genauesten enthält.
Abbildung 5. Auto Numerischer Knoten Expertenbereich
Erweitern Sie den Abschnitt Ensemble, um die Standardeinstellungen anzuzeigen. Da Sie in diesem Beispiel ein kontinuierliches Ziel verwenden, wird die Ensemble-Bewertung durch die Mittelung der Bewertungen für die einzelnen Modelle erstellt.
Abbildung 6. Automatischer numerischer Knoten Ensemble-Abschnitt

Kontrollpunkt-Symbol Überprüfen Sie Ihren Fortschritt

Das folgende Bild zeigt den Knoten Modellierung. Jetzt können Sie die Modelle vergleichen.

Zurück zum Seitenanfang

Aufgabe 4: Vergleichen Sie die Modelle

Nachdem Sie nun die drei zu erstellenden Modelle festgelegt haben, führen Sie die folgenden Schritte aus, um die Modelle zu erstellen und zu vergleichen:

Fahren Sie mit der Maus über den Knoten "taxable_value" und klicken Sie auf das Symbol "Ausführen " .
Klicken Sie im Bereich Ergebnisse und Modelle auf die Ergebnisse mit dem Namen taxable_value, um die Ergebnisse anzuzeigen.
Sie sehen Details zu jedem der Modelle, die während des Laufs erstellt werden. (In einer realen Situation, in der Hunderte von Modellen für einen großen Datensatz geschätzt werden, kann die Ausführung des Flusses viele Stunden dauern) Die Tabelle enthält eine Reihe von Modellen, die vom Knoten Modellierung erzeugt werden.
Um die einzelnen Modelle näher zu untersuchen, klicken Sie auf einen Modellnamen in der Spalte Schätzer, um die einzelnen Modellergebnisse anzuzeigen.
1. Sehen Sie sich die Seite mit den Modellinformationen an. Diese Tabelle enthält Informationen über die Art des angepassten Modells, identifiziert das Zielfeld, die Anzahl der Eingangsmerkmale, Aktivierungsfunktionen und die Größe des resultierenden Netzes.
2. Alle anderen Seiten für das Modell anzeigen.
3. Schließen Sie die Modelldetails.
Standardmäßig werden die Modelle nach Genauigkeit (Korrelation) sortiert, da Sie in den Eigenschaften des Knotens Auto Numeric die Korrelation als Maß ausgewählt haben. Für die Rangbildung wird der absolute Wert der Genauigkeit verwendet. Dabei deuten Werte nahe bei 1 auf eine stärkere Beziehung hin.

Sie können die Sortierung anhand einer anderen Spalte durchführen, indem Sie auf die Kopfzeile der betreffenden Spalte klicken.

Basierend auf diesen Ergebnissen entscheiden Sie sich, jedes der drei genauesten Modelle zu verwenden. Durch die Kombination von Vorhersagen aus mehreren Modellen können Einschränkungen in einzelnen Modellen vermieden werden, was zu einer höheren Gesamtgenauigkeit führt.
Vergewissern Sie sich, dass alle drei Modelle in der Spalte Verwendung ausgewählt sind.
Schließen Sie das Fenster Ansichtsmodell: steuerpflichtiger_Wert.

Kontrollpunkt-Symbol Überprüfen Sie Ihren Fortschritt

Die folgende Abbildung zeigt die Modellvergleichstabelle. Sie sind nun bereit, die Modellanalyse durchzuführen.

Zurück zum Seitenanfang

Aufgabe 5: Ausführen des Analyseknotens

Nachdem Sie nun einen Vergleich der drei Modelle gesehen haben, können Sie die folgenden Schritte ausführen, um eine Analyse der Modelle durchzuführen:

Bewegen Sie den Mauszeiger über den Knoten "Analyse" und klicken Sie auf das Symbol "Ausführen " .
Klicken Sie im Fensterbereich Ausgaben und Modelle auf die Ausgabeergebnisse mit dem Namen Analyse, um die Ergebnisse anzuzeigen.
Die gemittelte Punktzahl, die durch das zusammengesetzte Modell generiert wird, wird in einem Feld mit der Bezeichnung " $XR-taxable_value hinzugefügt, mit einer Korrelation von 0.934, die höher ist als die Punktzahlen der drei Einzelmodelle. Die Ergebnisse des Ensembles weisen auch einen niedrigen mittleren absoluten Fehler auf und könnten bei der Anwendung auf andere Datensätze besser abschneiden als jedes einzelne Modell.

Kontrollpunkt-Symbol Überprüfen Sie Ihren Fortschritt

Das folgende Bild zeigt den Modellvergleich aus dem Knoten Analyse.

Zurück zum Seitenanfang

Zusammenfassung

In diesem Beispiel der automatisierten Modellierung für eine Flaggenzielströmung haben Sie den Knoten Auto Numeric verwendet, um mehrere verschiedene Modelle zu vergleichen, die drei genauesten Modelle auszuwählen und sie der Strömung innerhalb eines zusammengesetzten Auto Numeric-Modell-Nuggets hinzuzufügen.

Das zusammengesetzte Modell zeigte eine bessere Leistung als zwei der Einzelmodelle und könnte bei der Anwendung auf andere Datensätze besser abschneiden. Wenn Ihr Ziel darin besteht, den Prozess so weit wie möglich zu automatisieren, hilft Ihnen dieser Ansatz dabei, unter den meisten Umständen ein robustes Modell zu erhalten, ohne dass Sie sich mit den Besonderheiten eines einzelnen Modells auseinandersetzen müssen.