Versuchen Sie das Tutorial
In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:
- Aufgabe 1: Öffnen Sie das Beispielprojekt
- Aufgabe 2: Untersuchen Sie die Knoten Datenbestand und Filter
- Aufgabe 3: Visualisierung der Daten
- Aufgabe 4: Legen Sie die Termine fest
- Aufgabe 5: Definieren Sie die Ziele
- Aufgabe 6: Legen Sie die Zeitintervalle fest
- Aufgabe 7: Erstellen des Modells
- Aufgabe 8: Prüfen Sie das Modell
Beispielhafter Modellierungsablauf und Datensatz
In diesem Lernprogramm wird der Fluss Prognose der Bandbreitennutzung im Beispielprojekt verwendet. Sie verwenden die Zeitreihenmodellierung, um Prognosen für die nächsten drei Monate für mehrere lokale Märkte zu erstellen. Die verwendete Datendatei ist broadband_1.csv. Das folgende Bild zeigt ein Beispiel für den Ablauf der Modellierung.
In SPSS® Modeler können Sie mehrere Zeitreihenmodelle in einem einzigen Vorgang erstellen. Die Datendatei broadband_1.csv enthält monatliche Nutzungsdaten für jeden der 85 lokalen Märkte. Für die Zwecke dieses Beispiels werden nur die ersten fünf Reihen verwendet; für jede dieser fünf Reihen wird ein eigenes Modell erstellt, und es wird eine Gesamtsumme gebildet.
Außerdem enthält die Datei ein Datumsfeld, in dem für jeden Datensatz Monat und Jahr angegeben sind. Dieses Feld wird zur Kennzeichnung von Datensätzen verwendet. Das Datumsfeld wird in SPSS Modeler als Zeichenkette eingelesen, aber um das Feld in SPSS Modeler zu verwenden, konvertieren Sie den Speichertyp in das numerische Datumsformat, indem Sie einen Füllknoten verwenden.
Der Knoten Zeitreihen erfordert, dass jede Reihe in einer eigenen Spalte steht, mit einer Zeile für jedes Intervall. SPSS Modeler bietet Methoden zur Umwandlung von Daten in dieses Format, falls erforderlich.
Aufgabe 1: Öffnen Sie das Beispielprojekt
Das Beispielprojekt enthält mehrere Datensätze und Modellierungsabläufe. Wenn Sie noch nicht über das Beispielprojekt verfügen, lesen Sie bitte das Thema Tutorials, um das Beispielprojekt zu erstellen. Gehen Sie dann wie folgt vor, um das Beispielprojekt zu öffnen:
- Wählen Sie in Cloud Pak for Data aus dem Navigationsmenü " Projekte > Alle Projekte anzeigen.
- Klicken Sie auf SPSS Modeler Project.
- Klicken Sie auf die Registerkarte Assets, um die Datensätze und Modellierungsabläufe zu sehen.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die Registerkarte Assets des Projekts. Sie sind nun bereit, mit dem zu diesem Lehrgang gehörenden Beispielmodellierungsablauf zu arbeiten.
Aufgabe 2: Untersuchen Sie die Knoten Datenbestand und Filter
Der Modellierungsfluss für die Prognose der Bandbreitennutzung umfasst mehrere Knotenpunkte. Gehen Sie folgendermaßen vor, um die Knoten Daten-Asset und Filter zu untersuchen:
- Öffnen Sie auf der Registerkarte Assets den Modellierungsfluss Prognose der Bandbreitennutzung und warten Sie, bis der Canvas geladen ist.
- Doppelklicken Sie auf den Knoten broadband_1.csv. Dieser Knoten ist ein Daten-Asset-Knoten, der auf die Datei broadband_1.csv im Projekt verweist.
- Überprüfen Sie die Eigenschaften des Dateiformats.
- Optional: Klicken Sie auf Datenvorschau, um den vollständigen Datensatz zu sehen.
- Klicken Sie doppelt auf den Knoten Filter. Beachten Sie, dass dieser Knoten die Felder "
Market_6
bis "Market_85
sowie die Felder "MONTH_
und "YEAR_
" herausfiltert. - Optional: Klicken Sie auf Datenvorschau, um den gefilterten Datensatz zu sehen.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt den Knoten Filter. Jetzt können Sie die Daten visualisieren.
Aufgabe 3: Visualisierung der Daten
Es ist immer eine gute Idee, Ihre Daten zu visualisieren, bevor Sie ein Modell erstellen. Weisen die Daten saisonale Schwankungen auf? Obwohl SPSS Modeler automatisch das beste saisonale oder nicht-saisonale Modell für jede Reihe finden kann, können Sie oft schnellere Ergebnisse erzielen, wenn Sie die Suche auf nicht-saisonale Modelle beschränken, wenn keine Saisonalität in Ihren Daten vorhanden ist. Ohne die Daten für jeden einzelnen lokalen Markt zu untersuchen, können Sie sich ein grobes Bild vom Vorhandensein oder Nichtvorhandensein einer Saisonalität machen, indem Sie die Gesamtzahl der Abonnenten über alle fünf Märkte hinweg aufzeichnen. Folgen Sie diesen Schritten, um die Daten zu visualisieren:
- Doppelklicken Sie auf den Knoten [Market_1 Market_2 Market_3 Market_4 Market_5]. Das folgende Bild zeigt die Eigenschaften dieses Zeitdiagrammknotens.
- Fügen Sie der Serienliste das Feld "
Total
hinzu, um die gesamten Abonnementdaten grafisch darzustellen.- Klicken Sie auf Spalten hinzufügen.
- Wählen Sie das Feld Gesamt.
- Löschen Sie alle anderen Felder, die mit "
Market_
beginnen. - Klicken Sie auf OK.
- Deaktivieren Sie die Optionen Serie in separatem Feld anzeigen und Normalisieren.
- Klicken Sie auf Speichern.
- Bewegen Sie den Mauszeiger über den Knoten " Zeitdiagramm " und klicken Sie auf das Ausführungssymbol " .
- Klicken Sie im Bereich Ausgaben und Modelle auf die Ausgabeergebnisse mit dem Namen [Gesamt], um das Diagramm anzuzeigen. Die Reihe weist einen gleichmäßigen Aufwärtstrend auf, ohne Anzeichen von saisonalen Schwankungen. Es mag einzelne Reihen mit Saisonalität geben, aber offensichtlich ist Saisonalität kein herausragendes Merkmal der Daten im Allgemeinen.
- Stellen Sie die Daten für alle Märkte grafisch dar. Prüfen Sie jede einzelne Serie, bevor Sie saisonale Modelle ausschließen. Sie können dann Reihen, die eine Saisonalität aufweisen, herausnehmen und separat modellieren.
- Doppelklicken Sie auf den Knoten [Gesamt].
- Wählen Sie das Feld Gesamt und klicken Sie auf das Symbol Löschen.
- Klicken Sie auf Spalten hinzufügen.
- Wählen Sie alle Felder aus, die mit "
Market_
beginnen. - Klicken Sie auf OK.
- Deaktivieren Sie die Optionen Serie in separatem Feld anzeigen und Normalisieren.
- Klicken Sie auf Speichern.
- Bewegen Sie den Mauszeiger über den Knoten " Zeitdiagramm " und klicken Sie auf das Ausführungssymbol " .
- Klicken Sie im Bereich Ausgaben und Modelle auf die Ausgabeergebnisse mit dem Namen [Market_1 Market_2 Market_3 Market_4 Market_5], um die Grafik anzuzeigen. Die Untersuchung der einzelnen Märkte ergibt jeweils einen stetigen Aufwärtstrend. Obwohl einige Märkte etwas unregelmäßiger sind als andere, zeigen die Ergebnisse keine Anzeichen von Saisonalität.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt den Ablauf. Jetzt können Sie die Termine festlegen.
Aufgabe 4: Legen Sie die Termine fest
Füllknoten werden verwendet, um Feldwerte zu ersetzen und die Speicherung zu ändern. Sie können auswählen, dass die Werte auf der Grundlage einer angegebenen CLEM-Bedingung ersetzt werden sollen, beispielsweise @BLANK(FIELD)
. Alternativ können Sie auswählen, dass alle Leerstellen oder Nullwerte mit einem bestimmten Wert ersetzt werden sollen. Füllknoten werden oft zusammen mit dem Typknoten verwendet, um fehlende Werte zu ersetzen. Gehen Sie folgendermaßen vor, um die Speicherart des Feldes " DATE_
auf das Datumsformat einzustellen:
- Doppelklicken Sie auf den Füllerknoten, um seine Eigenschaften anzuzeigen.
- Beachten Sie, dass das Feld "
DATE_
im Abschnitt " Felder ausfüllen " aufgeführt ist. Dieser Abschnitt enthält die Felder des Datensatzes, deren Werte untersucht und ersetzt werden. - Stellen Sie sicher, dass die Option Ersetzen auf Immer eingestellt ist. Standardmäßig werden die Werte auf der Grundlage der Bedingung mit den Ausdrücken Bedingung und Ersetzen durch ersetzt.
- Vergewissern Sie sich, dass der Wert für "Ersetzen durch" auf "
to_date(DATE_)
eingestellt ist. Da die Option Ersetzen auf Immer eingestellt ist, ist der Ausdruck Ersetzen durch erforderlich. Dieser Ausdruck ändert den Speichertyp des Feldes "DATE_
in das Datumsformat. - Klicken Sie auf Datenvorschau, um das ausgefüllte Feld "
DATE_
zu sehen. - Klicken Sie auf Speichern.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt den Filler-Knoten. Jetzt können Sie die Ziele definieren.
Aufgabe 5: Definieren Sie die Ziele
Sie können Feldeigenschaften in einem Typknoten angeben. Gehen Sie wie folgt vor, um die Ziele im Knoten Typ zu definieren:
- Klicken Sie doppelt auf den Knoten Typ, um die zugehörigen Merkmale anzuzeigen.
- Klicken Sie auf Werte lesen, um die Werte aus Ihrer Datenquelle zu lesen und die Feldmessungsarten festzulegen.
Die Rolle teilt den Modellierungsknoten mit, ob es sich bei den Feldern um Input (Prädiktorfelder) oder Target (vorhergesagte Felder) für einen maschinellen Lernprozess handelt. Beide und Keine sind ebenfalls verfügbare Rollen, zusammen mit Partition, die ein Feld angibt, das zur Partitionierung von Datensätzen in separate Stichproben für Training, Test und Validierung verwendet wird. Der Wert Split gibt an, dass für jeden möglichen Wert des Feldes ein eigenes Modell erstellt wird. - Für das Feld "
DATE_
setzen Sie die Rolle auf "Keine". - Für alle anderen Felder (die "
Market_n
elder und das "Total
eld) setzen Sie die Rolle auf Ziel. - Klicken Sie auf Speichern.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt den Knoten Typ. Jetzt können Sie die Zeitintervalle einstellen.
Aufgabe 6: Legen Sie die Zeitintervalle fest
Im Knoten Zeitreihe können Sie die Beobachtungen definieren, die ein Datum/Zeit-Feld mit dem entsprechenden Zeitintervall verwenden. Gehen Sie wie folgt vor, um die Zeitintervalle im Knoten Zeitreihe festzulegen:
- Doppelklicken Sie auf den Knoten Zeitreihe (6 Felder), um seine Eigenschaften anzuzeigen.
- Erweitern Sie den Abschnitt Beobachtungen und Zeitintervall. Die folgenden Optionen sind verfügbar:
- Beobachtungen, die durch ein Datums-/Zeitfeld angegeben werden: Sie können festlegen, dass die Beobachtungen durch ein Datums-, Zeit- oder Zeitstempelfeld definiert werden. Wählen Sie zusätzlich zu dem Feld, das die Beobachtungen definiert, das geeignete Zeitintervall aus, das die Beobachtungen beschreibt. Je nach angegebenem Zeitintervall können Sie auch andere Einstellungen angeben, beispielsweise das Intervall zwischen Beobachtungen (Inkrement) oder die Anzahl der Tage pro Woche.
- Beobachtungen, die als Perioden oder zyklische Perioden definiert sind: Die Beobachtungen werden durch ein oder mehrere ganzzahlige Felder definiert, die Zeiträume oder sich wiederholende Zyklen von Zeiträumen darstellen, und zwar bis zu einer beliebigen Anzahl von Zyklusebenen. Mit dieser Struktur können Sie eine Reihe von Beobachtungen beschreiben, die nicht in eines der Standardzeitintervalle passen. So kann beispielsweise ein Geschäftsjahr mit nur zehn Monaten durch ein Zyklusfeld, das Jahre darstellt, und ein Periodenfeld, das Monate darstellt, beschrieben werden, wobei die Länge eines Zyklus 10 beträgt.
- Vergewissern Sie sich, dass "
DATE_
im Feld Zeit/Datum ausgewählt ist. - Vergewissern Sie sich, dass im Feld Zeitintervall "
Months
ausgewählt ist.
- Vergewissern Sie sich, dass "
- Erweitern Sie den Abschnitt Modelloptionen.
- Markieren Sie das Feld Datensätze in die Zukunft verlängern. In diesem Feld wird die Anzahl der Intervalle festgelegt, die über das Ende des Schätzungszeitraums hinaus prognostiziert werden sollen. In diesem Fall entspricht das Zeitintervall dem Zeitintervall für die Analyse. Wenn Prognosen angefordert werden, werden automatisch autoregressive Modelle für alle Eingangsreihen erstellt, die nicht auch Zielgrößen sind. Diese Modelle werden dann verwendet, um für die Eingabezeitreihen in der Vorhersageperiode Werte zu generieren.
- Geben Sie "
3
für die Anzahl der Zeitintervalle ein.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt den Knoten Typ. Jetzt können Sie das Modell bauen.
Aufgabe 7: Erstellen des Modells
Mit dem Knoten Zeitreihen können Sie exponentielle Glättungsmodelle, univariate ARIMA-Modelle (Autoregressive Integrated Moving Average) oder multivariate ARIMA-Modelle (oder Übertragungsfunktionen) für Zeitreihen schätzen und erstellen und Prognosen auf der Grundlage der Zeitreihendaten erstellen.
Aufgabe 7a: Bestimmen Sie die Modelloptionen
Gehen Sie wie folgt vor, um die Modelloptionen im Knoten Zeitreihe festzulegen:
- In den Eigenschaften des Knotens " Zeitreihe (6 Felder)" geben Sie die Ziele und Kandidateneingaben an.
- Überprüfen Sie, ob die Tabelle " Ziele" alle fünf Marktfelder und das Feld "
Total
enthält. - Vergewissern Sie sich, dass die Eingabetabelle für Bewerber alle fünf Marktfelder enthält.
- Überprüfen Sie, ob die Tabelle " Ziele" alle fünf Marktfelder und das Feld "
- Erweitern Sie den Abschnitt Build-Optionen - Allgemein. Die folgenden Optionen sind verfügbar:
- Exponentielles Glätten ist eine Vorhersagemethode, bei der gewichtete Werte aus früheren Beobachtungen der Zeitreihe verwendet werden, um zukünftige Werte vorherzusagen. An sich beruht das exponentielle Glätten nicht auf einem theoretischen Verständnis der Daten. Es wird jeweils ein Punkt vorhergesagt und diese Vorhersagen werden angepasst, wenn neue Daten eingehen. Das Verfahren eignet sich für Vorhersagen, die einen Trend, Saisonalität oder beides aufweisen. Dabei können Sie zwischen verschiedenen Modellen mit exponentiellem Glätten wählen, die sich hinsichtlich der Behandlung von Trends und Saisonalität unterscheiden.
- ARIMA-Modelle bieten feinere Methoden für die Modellierung von Trend- und saisonalen Komponenten als die Modelle mit exponentiellem Glätten und weisen insbesondere den zusätzlichen Vorteil auf, dass unabhängige Variablen (Prädiktorvariablen) in das Modell integriert werden können. Dieser Ansatz beinhaltet die explizite Angabe von autoregressiven und gleitenden Durchschnittsordnungen sowie des Grades der Differenzenbildung. Sie können Prädiktorvariablen einschließen und Transferfunktionen für bestimmte oder alle dieser Variablen definieren und die automatische Erkennung von Ausreißern oder einer bestimmten Gruppe von Ausreißern festlegen.
- Expert Modeler versucht, das am besten passende ARIMA- oder exponentielle Glättungsmodell für eine oder mehrere Zielvariablen automatisch zu identifizieren und zu schätzen, so dass die Notwendigkeit entfällt, ein geeignetes Modell durch Versuch und Irrtum zu ermitteln. Im Zweifelsfall sollte die Option Expert Modeler verwendet werden.
- Vergewissern Sie sich, dass die Methode Expert Modeler ausgewählt ist. Mit dieser Methode kann der Expert Modeler entscheiden, welches Modell für die einzelnen Zeitreihen am besten geeignet ist.
- Stellen Sie sicher, dass im Feld Modelltyp die Option Alle Modelle ausgewählt ist. Diese Option berücksichtigt sowohl ARIMA- als auch exponentielle Glättungsmodelle.
- Stellen Sie sicher, dass das Feld Expertenmodell berücksichtigt saisonale Modi markiert ist. Wenn diese Option aktiviert ist, berücksichtigt der Expert Modeler sowohl saisonale als auch nicht saisonale Modelle.
Das folgende Bild zeigt die Build-Optionen - allgemeine Einstellungen. - Klicken Sie auf Speichern.
- Bewegen Sie den Mauszeiger über den Knoten Zeitreihe (6 Felder) und klicken Sie auf das Ausführungssymbol " .
Aufgabe 7b: Betrachten Sie die Modellausgabe
Gehen Sie wie folgt vor, um die Modellausgabe im Tabellenformat anzuzeigen:
- Bewegen Sie den Mauszeiger über den Tabellenknoten, der mit dem Modellnugget verbunden ist, und klicken Sie auf das Ausführungssymbol " .
- Klicken Sie im Fensterbereich Ausgaben und Modelle auf die Ausgabeergebnisse mit dem Namen Tabelle, um die Tabellenausgabe anzuzeigen.
Beachten Sie die drei neuen Zeilen, die an das Ende der ursprünglichen Daten angehängt werden. Diese Zeilen beziehen sich auf den Vorausschätzungszeitraum, in diesem Fall Januar bis März 2004.
Sie sehen mehrere neue Spalten. Der Knoten " Zeitreihen " hat die Spalten "
$TS-
hinzugefügt. Die Spalten enthalten folgende Angaben für die einzelnen Zeilen (d. h. für jedes Intervall in den Zeitreihendaten):Tabelle 1. Generierte Spalten im Zeitreihenmodell Spalte Beschreibung $TS-Spaltenname Die Daten des generierten Modells für die einzelnen Spalten der ursprünglichen Daten. $TSLCI-Spaltenname Der untere Wert des Konfidenzintervalls für die einzelnen Spalten der Daten des generierten Modells. $TSUCI-Spaltenname Der obere Wert des Konfidenzintervalls für die einzelnen Spalten der Daten des generierten Modells. $TS-Total Der Gesamtwert der $TS-Spaltenname-Werte für die betreffende Zeile. $TSLCI-Total Der Gesamtwert der $TSLCI-Spaltenname-Werte für die betreffende Zeile. $TSUCI-Total Der Gesamtwert der $TSUCI-Spaltenname-Werte für die betreffende Zeile. Die wichtigsten Spalten für den Prognosevorgang sind die Spalten "
$TS-Market_n
, "$TSLCI-Market_n
und "$TSUCI-Market_n
. Insbesondere enthalten diese Spalten in den letzten drei Zeilen die Vorhersagedaten für die Benutzerabonnements und die Konfidenzintervalle für die einzelnen lokalen Märkte.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt die Ausgabetabelle. Jetzt können Sie das Modell untersuchen.
Aufgabe 8: Prüfen Sie das Modell
Nun können Sie die Modellinformationen und die Vorhersageergebnisse prüfen.
Aufgabe 8a: Betrachten Sie die Modellinformationen
Gehen Sie folgendermaßen vor, um die Modellinformationen anzuzeigen:
- Bewegen Sie den Mauszeiger über das Zeitreihenmodell-Nugget und klicken Sie auf das Überlaufmenü " .
- Klicken Sie in der Spalte TARGET auf Market_2.
- Klicken Sie auf Modellinformationen. In der Zeile Anzahl der Prädiktoren wird angezeigt, wie viele Felder als Prädiktoren für die einzelnen Ziele verwendet wurden.
Die übrigen Zeilen in den Tabellen mit den Modellinformationen enthalten verschiedene Maße für die Anpassungsgüte für die einzelnen Modelle. Mit R-Quadrat für stationären Teil wird gemessen, inwieweit ein Modell besser als das Basismodell ist. Das endgültige Modell lautet ARIMA(p,d,q)(P,D,Q), das Basismodell ARIMA(0,d,0)(0,D,0). Wenn das endgültige Modell ein exponentielles Glättungsmodell ist, dann ist d 2 für das Brown-und Holt-Modell und 1 für andere Modelle und D ist 1, wenn die saisonale Länge größer als 1 ist, andernfalls ist D 0. Ein negatives stationäres R-Quadrat bedeutet, dass das betrachtete Modell schlechter ist als das Basismodell. Ein stationäres R-Quadrat von Null bedeutet, dass das Modell genauso gut oder schlecht ist wie das Basismodell, und ein positives stationäres R-Quadrat bedeutet, dass das Modell besser ist als das Basismodell.
Die Zeilen Statistik und df sowie die Signifikanz unter Parameterschätzungen beziehen sich auf die Ljung-Box-Statistik, einen Test der Zufälligkeit der Restfehler im Modell. Je zufälliger die Fehler, desto besser ist das Modell voraussichtlich. Die Statistik ist die Ljung-Box-Statistik selbst, während df (Freiheitsgrade) die Anzahl der Modellparameter angibt, die bei der Schätzung eines bestimmten Ziels variiert werden können.
Die Zeile Signifikanz enthält den Signifikanzwert der Ljung-Box-Statistik, der ein weiteres Anzeichen dafür darstellt, ob das Modell korrekt angegeben wurde. Ein Signifikanzwert von unter 0,05 bedeutet, dass die Restfehler nicht zufällig sind, was darauf hinweist, dass es in der beobachteten Zeitreihe eine Struktur gibt, die sich nicht durch das Modell erklären lässt.
Unter Berücksichtigung der Werte für das stationäre R-Quadrat und die Signifikanz sind die Modelle, die der Expert Modeler für "
Market_3
und "Market_4
ausgewählt hat, akzeptabel. Die Signifikanzwerte für 'Market_1
, 'Market_2
und 'Market_5
sind alle kleiner als 0.05, was darauf hindeutet, dass einige Experimente mit besser passenden Modellen für diese Märkte notwendig sein könnten.Die Anzeige zeigt mehrere Anpassungsgütekriterien an. Der Wert R-Quadrat ist eine Schätzung der Gesamtvariation in der Zeitreihe, die durch das Modell erklärt werden kann. Da der Höchstwert für diese Statistik 1.0 beträgt, sind Ihre Modelle in dieser Hinsicht in Ordnung.
RMSE ist der mittlere quadratische Fehler (root mean square error), ein Maß dafür, wie stark die tatsächlichen Werte einer Reihe von den durch das Modell vorhergesagten Werten abweichen, und wird in denselben Einheiten ausgedrückt, die für die Reihe selbst verwendet werden. Da es sich bei diesem Fehler um ein Maß für einen Fehler handelt, sollte dieser Wert so niedrig wie möglich sein. Auf den ersten Blick sind die Modelle für "
Market_2
und "Market_3
, obwohl sie nach den bisher gesehenen Statistiken noch akzeptabel sind, weniger erfolgreich als die Modelle für die anderen drei Märkte.Zu diesen zusätzlichen Maßen für die Anpassungsgüte gehören der mittlere absolute Fehler in Prozent (MAPE) sowie der zugehörige maximale Wert (MAXAPE). Der absolute Fehler in Prozent ist ein Maß dafür, wie stark eine Zielzeitreihe von dem vom Modell vorhergesagten Niveau abweicht. Dieses Maß wird als Prozentwert angegeben. Durch Untersuchung von Mittelwert und Maximalwert über alle Modelle hinweg erhalten Sie einen Hinweis auf die Unsicherheit in Ihren Prognosen.
Der MAPE-Wert zeigt, dass alle Modelle eine mittlere Unsicherheit von etwa 1 % aufweisen, was gering ist. Der MAXAPE-Wert gibt den maximalen absoluten Fehler in Prozent an und kann zur Erstellung eines Worst-Case-Szenarios für Ihre Vorhersagen herangezogen werden. Es zeigt sich, dass der größte prozentuale Fehler für die meisten Modelle in den Bereich von etwa 1.8 bis 3.7 fällt, was wiederum eine niedrige Zahl ist, wobei nur "
Market_4
mit fast 7 % höher liegt.Der MAE-Wert (mittlerer absoluter Fehler) zeigt den Mittelwert der absoluten Werte der Prognosefehler. Wie der RMSE-Wert wird auch dieser Wert in denselben Einheiten ausgedrückt, die für die Reihe selbst verwendet werden. MAXAE zeigt den größten Vorhersagefehler in denselben Einheiten und gibt das Worst-Case-Szenario für die Prognosen an.
So interessant diese absoluten Werte sein mögen, sind doch die Fehlerwerte in Prozent (MAPE und MAXAPE) in diesem Fall nützlicher, da die Zielzeitreihen auf Abonnentenzahlen für unterschiedlich große Märkte beruhen.
Stellen die Werte MAPE und MAXAPE einen Grad an Unsicherheit dar, der bei den Modellen akzeptabel ist? Sie sind sehr niedrig. In dieser Situation kommt der Geschäftssinn ins Spiel, denn das akzeptable Risiko ändert sich von Problem zu Problem. Sie gehen davon aus, dass die Anpassungsgüte-Statistiken innerhalb akzeptabler Grenzen liegen, und gehen daher zur Untersuchung der Restfehler über.
Eine Untersuchung der Autokorrelationsfunktion (ACF) und der partiellen Autokorrelationsfunktion (PACF) für die Modellresiduen bietet quantitativere Einblicke in die Modelle als die bloße Betrachtung von Statistiken für die Anpassungsgüte.
Ein gut spezifiziertes Zeitreihenmodell erfasst alle nicht zufälligen Schwankungen, einschließlich Saisonalität, Trend, zyklischer und anderer wichtiger Faktoren. Wenn dies der Fall ist, sollten etwaige Fehler nicht im Laufe der Zeit mit sich selbst korreliert sein (Autokorrelation). Eine signifikante Struktur in einer der Autokorrelationsfunktionen könnte darauf hindeuten, dass das zugrunde liegende Modell unvollständig ist.
- Schließen Sie das Fenster Market_2.
- Klicken Sie auf Modellinformationen. In der Zeile Anzahl der Prädiktoren wird angezeigt, wie viele Felder als Prädiktoren für die einzelnen Ziele verwendet wurden.
- Klicken Sie auf das Modell Market_4.
- Klicken Sie auf Korrelationsdiagramm, um die Werte der Autokorrelationsfunktion(ACF) und der partiellen Autokorrelationsfunktion(PACF) für die Restfehler im Modell anzuzeigen.
In diesen Diagrammen werden die Originalwerte der Fehlervariablen (unter BUILD OPTIONS - OUTPUT) bis zum Standardwert von 24 Zeitperioden zurückgestellt und mit dem Originalwert verglichen, um eine eventuelle Korrelation über die Zeit zu erkennen. Im Idealfall liegen die Balken, die alle Verzögerungen von ACF und PACF darstellen, innerhalb des schattierten Bereichs. In der Praxis kann es jedoch zu Verzögerungen kommen, die außerhalb des schattierten Bereichs liegen. Dies kann zum Beispiel der Fall sein, wenn versucht wird, einige größere Lags in das Modell aufzunehmen, um Rechenzeit zu sparen. Manche Verschiebungen sind nicht signifikant und werden aus dem Modell entfernt. Wenn Sie das Modell noch weiter verbessern möchten und es Ihnen nicht wichtig ist, ob diese Verschiebungen redundant sind oder nicht, dienen Ihnen diese Plots als Hinweis darauf, inwieweit Verschiebungen als potenzielle Prädiktoren herangezogen werden können.
Sollte dies der Fall sein, müssen Sie die untere(PACF-)Darstellung überprüfen, um zu sehen, ob die Struktur dort bestätigt wird. Der PACF-Plot untersucht Korrelationen unter Kontrolle der Zeitreihenwerte an den Zwischenzeitpunkten.
Die Werte für "
Market_4
liegen alle innerhalb des schattierten Bereichs, so dass Sie fortfahren und die Werte für die anderen Märkte überprüfen können. - Schließen Sie das Fenster Market_4.
- Klicken Sie auf Korrelationsdiagramm, um die Werte der Autokorrelationsfunktion(ACF) und der partiellen Autokorrelationsfunktion(PACF) für die Restfehler im Modell anzuzeigen.
- Öffnen Sie das Korrelogramm für alle anderen Märkte und die Summen.
Die Werte für die anderen Märkte zeigen alle einige Werte außerhalb des schattierten Bereichs und bestätigen damit, was Sie zuvor aufgrund der Signifikanzwerte vermutet haben. Sie müssen irgendwann mit einigen anderen Modellen für diese Märkte experimentieren, um zu sehen, ob Sie eine bessere Übereinstimmung erzielen können, aber für den Rest dieses Beispiels konzentrieren Sie sich darauf, was Sie sonst noch aus dem Modell "
Market_4
lernen können. - Schließen Sie die Modellfenster, um zu Ihrem Flow Canvas zurückzukehren.
Aufgabe 8b: Visualisieren Sie die Vorhersagen
Folgen Sie diesen Schritten, um die Vorhersagen zu visualisieren:
Darstellung von Ist und Prognose
- Doppelklicken Sie auf den Knoten Zeitdiagramm, der mit dem Nugget Zeitreihenmodell verbunden ist.
- Deaktivieren Sie die Option Serie in separatem Feld anzeigen.
- Löschen Sie in der Liste Serien alle Felder außer den Feldern "
Market_4
und "$TS-Market_4
. - Klicken Sie auf Speichern.
- Bewegen Sie den Mauszeiger über den Knoten Time PlotMarket_4 $TS-Market_4 $TSLCI-Market_4 $TSUCI-Market_4] und klicken Sie auf das Ausführungssymbol " .
- Klicken Sie im Bereich Ausgaben und Modelle auf die Ausgabeergebnisse mit dem Namen [Market_4 $TS-Market_4 $TSLCI-Market_4 $TSUCI-Market_4], um die Grafik anzuzeigen. Beachten Sie, wie die Vorhersagelinie (
$TS-Market_4
) über das Ende der Ist-Daten hinausgeht. Es liegt nun eine Vorhersage der erwarteten Nachfrage für die nächsten drei Monate in diesem Markt vor. Die Linien für die tatsächlichen und die prognostizierten Daten über die gesamte Zeitreihe liegen im Diagramm sehr nahe beieinander, was darauf hindeutet, dass dieses Modell für diese spezielle Zeitreihe zuverlässig ist.
Zeichnen Sie das Konfidenzintervall
- Doppelklicken Sie auf den Knoten Zeitdiagramm [Market_4 $TS-Market_4 $TSLCI-Market_4 $TSUCI-Market_4]. Sie verfügen über ein zuverlässiges Modell für den betreffenden Markt, aber welche Fehlermarge weist die Vorhersage auf? Anhand des Konfidenzintervalls können Sie einen Hinweis auf die Fehlermarge erhalten.
- Löschen Sie im Abschnitt Serien die Felder "
Market_4
und "$TS-Market_4
. - Klicken Sie auf Spalten hinzufügen.
- Wählen Sie die Felder "
$TSLCI-Market_4
und "$TSUCI-Market_4
aus. - Klicken Sie auf OK.
- Wählen Sie die Felder "
- Klicken Sie auf Speichern.
- Bewegen Sie den Mauszeiger über den Knoten Time Plot [Market_4 $TS-Market_4 $TSLCI-Market_4 $TSUCI-Market_4] und klicken Sie auf das Ausführungssymbol " .
- Klicken Sie im Bereich Ausgaben und Modelle auf die Ausgabeergebnisse mit dem Namen [Market_4 $TS-Market_4 $TSLCI-Market_4 $TSUCI-Market_4], um die Grafik anzuzeigen. Jetzt haben Sie das gleiche Diagramm wie zuvor, aber mit der oberen (
$TSUCI
) und unteren ($TSLCI
) Grenze des Konfidenzintervalls. Beachten Sie, wie die Grenzen des Konfidenzintervalls über die Vorhersageperiode divergieren, was auf zunehmende Unsicherheit hindeutet, je weiter sich die Vorhersage in die Zukunft erstreckt. Mit jedem weiteren Zeitraum haben Sie jedoch einen weiteren (in diesem Fall) Monat an tatsächlichen Nutzungsdaten, auf die Sie Ihre Prognose stützen können. In einem realen Szenario könnten Sie die neuen Daten in den Fluss einlesen und Ihr Modell erneut anwenden, da Sie nun wissen, dass es zuverlässig ist. - Schließen Sie das Diagrammfenster.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt den fertigen Ablauf.
Zusammenfassung
In diesem Beispiel wurde gezeigt, wie Sie den Expert Modeler verwenden, um Prognosen für mehrere Zeitreihen zu erstellen. In einem realen Szenario könnten Sie nun nicht standardisierte Zeitreihendaten in ein Format umwandeln, das für die Eingabe in einen Zeitreihenknoten geeignet ist.
Nächste Schritte
Sie sind nun bereit, einen anderen ' SPSS Modeler Tutorials auszuprobieren.