0 / 0
Zurück zur englischen Version der Dokumentation
Erstellen eines Zeitreihenexperiments
Letzte Aktualisierung: 28. Nov. 2024
Erstellen eines Zeitreihenexperiments

Verwenden Sie AutoAI , um ein Zeitreihenexperiment zu erstellen, um zukünftige Aktivitäten wie Aktienkurse oder Temperaturen über einen angegebenen Datums-oder Zeitbereich vorherzusagen.

Zeitreihe - Übersicht

Ein Zeitreihenexperiment ist eine Vorhersagemethode, bei der Langzeitbeobachtungen zur Vorhersage zukünftiger Werte verwendet werden. Das Experiment erstellt automatisch viele Pipelines mithilfe von Modellen für maschinelles Lernen, wie z. B. Random Forest-Regression und Support Vector Machines (SVMs), sowie statistischen Zeitreihenmodellen, wie z. B. ARIMA und Holt-Winters. Anschließend empfiehlt das Experiment die beste Pipeline entsprechend der Pipelineleistung, die für ein Holdout-Dataset oder Backtest-Datasets ausgewertet wird.

Im Gegensatz zu einem AutoAI -Standardexperiment, bei dem eine Gruppe von Pipelines bis zum Abschluss erstellt wird, werden sie dann eingestuft. Ein Zeitreihenexperiment wertet Pipelines früher im Prozess aus und führt nur die Pipelines mit der besten Leistung aus und testet sie.

AutoAI -Generierungsprozess für Zeitreihenpipeline

Details zu den verschiedenen Phasen des Trainings und Testens eines Zeitreihenexperiments finden Sie unter Details zur Implementierung von Zeitreihen.

Unterstützende Funktionen zur Verbesserung von Vorhersagen verwenden

Wenn Sie Ihr Zeitreihenexperiment konfigurieren, können Sie unterstützende Featuresangeben, die auch als exogene Featuresbezeichnet werden. Unterstützende Merkmale sind Merkmale, die das Vorhersageziel beeinflussen oder Kontext zum Vorhersageziel hinzufügen. Wenn Sie beispielsweise einen Eiscremeumsatz vorhersagen, wäre die tägliche Temperatur eine logische unterstützende Funktion, die die Vorhersage präziser machen würde.

Nutzung zukünftiger Werte für unterstützende Features

Wenn Sie die zukünftigen Werte für die unterstützenden Features kennen, können Sie diese zukünftigen Werte beim Bereitstellen des Modells nutzen. Wenn Sie beispielsweise ein Modell für die Vorhersage zukünftiger T-shirt-Verkäufe trainieren, können Sie Werbeaktionsrabatte als unterstützende Funktion einschließen, um die Vorhersage zu verbessern. Wenn Sie den zukünftigen Wert der Werbeaktion eingeben, wird die Vorhersage genauer.

Datenanforderungen

Im Folgenden sind die aktuellen Datenanforderungen für das Training eines Zeitreihenexperiments aufgeführt:

  • Die Trainingsdaten müssen eine einzelne Datei im CSV-Format sein.

  • Die Datei muss mindestens eine Zeitreihenspalte und wahlweise eine Zeitmarkenspalte enthalten. Eine Liste der unterstützten Datums-/Zeitformate finden Sie unter AutoAI -Zeitreihenimplementierungsdetails.

  • Wenn die Datenquelle eine Zeitmarkenspalte enthält, stellen Sie sicher, dass für die Daten eine Stichprobe mit einheitlicher Häufigkeit erstellt wird. Das heißt, die Differenz der Zeitmarken benachbarter Zeilen ist identisch. Daten können beispielsweise in Schritten von 1 Minute, 1 Stunde oder 1 Tag angegeben werden. Die angegebene Zeitmarke wird zur Bestimmung des Lookback-Fensters verwendet, um die Modellgenauigkeit zu verbessern.

    Hinweis:

    Wenn die Dateigröße größer als 1 GB ist, sortieren Sie die Daten in absteigender Reihenfolge nach der Zeitmarke. Zum Trainieren des Experiments werden nur die ersten 1 GB verwendet.

  • Wenn die Datenquelle keine Zeitmarkenspalte enthält, stellen Sie sicher, dass die Stichprobendaten in regelmäßigen Intervallen erfasst und in aufsteigender Reihenfolge entsprechend dem Stichprobendatum/der Stichprobenzeit sortiert werden. Das heißt, der Wert in der ersten Zeile ist der älteste und der Wert in der letzten Zeile ist der neueste.

    Hinweis: Wenn die Datei größer als 1 GB ist, schneiden Sie die Datei ab, sodass sie kleiner als 1 GB ist.
  • Wählen Sie aus, welche Daten für das Training der endgültigen Pipelines verwendet werden sollen. Wenn Sie nur die Trainingsdaten einbeziehen wollen, enthalten die generierten Notebooks eine Zelle zum Abrufen der Holdout-Daten, die zum Bewerten der einzelnen Pipelines verwendet werden.

Wählen Sie Daten aus Ihrem Projekt aus oder laden Sie sie aus dem Dateisystem oder im Asset-Browser hoch und klicken Sie dann auf Weiter. Klicken Sie auf das Symbol Vorschau alt="AutoAI " hinter dem Namen der Datenquelle, um Ihre Daten zu überprüfen. Optional können Sie eine zweite Datei als Holdout-Daten zum Testen der trainierten Pipelines hinzufügen.

Zeitreihenexperiment konfigurieren

Wenn Sie die Details für ein Experiment konfigurieren, klicken Sie auf Ja , um Zeitreihen aktivieren zu aktivieren und die Experimentdetails zu vervollständigen.

Feld Beschreibung
Vorhersagespalten Die Zeitreihenspalten, die auf der Basis der vorherigen Werte vorhergesagt werden sollen. Sie können eine oder mehrere Spalten angeben, die vorhergesagt werden sollen.
Datums-/Zeitspalte Die Spalte, die das Datum/die Uhrzeit angibt, zu dem/der die Zeitreihenwerte auftreten.
Rückschaufenster Ein Parameter, der angibt, wie viele vorherige Zeitreihenwerte zur Vorhersage des aktuellen Zeitpunkts verwendet werden.
Vorhersagefenster Der Bereich, den Sie auf der Basis der Daten im Lookback-Fenster vorhersagen möchten

In der Vorhersagezusammenfassung werden der Experimenttyp und die für die Optimierung des Experiments ausgewählte Metrik angezeigt.

Experimenteinstellungen konfigurieren

Klicken Sie auf Experimenteinstellungen, um weitere Details für Ihr Zeitreihenexperiment zu konfigurieren.

Allgemeine Vorhersageeinstellungen

In der Anzeige Allgemein für Vorhersageeinstellungen können Sie optional die zur Optimierung des Experiments verwendete Metrik ändern oder die Algorithmen, die berücksichtigt werden sollen, oder die Anzahl der zu generierenden Pipelines angeben.

Feld Beschreibung
Vorhersagetyp Zeigen Sie den Vorhersagetyp auf der Basis der Vorhersagespalte für Ihr Experiment an oder ändern Sie diesen. Für Zeitreihenexperimente ist Zeitreihenvorhersage standardmäßig ausgewählt.
Hinweis: Wenn Sie den Vorhersagetyp ändern, werden andere Vorhersageeinstellungen für Ihr Experiment automatisch geändert.
Optimierte Metrik Zeigen Sie die empfohlene optimierte Metrik für Ihr Experiment an, oder ändern Sie sie.
Auswahl des optimierten Algorithmus Nicht für Zeitreihenexperimente unterstützt.
Einzuschließende Algorithmen Wählen Sie Algorithmen aus, auf denen Ihr Experiment Pipelines erstellen soll. Algorithmen und Pipelines, die die Verwendung von Unterstützungsfunktionen unterstützen, sind durch ein Häkchen gekennzeichnet.
Pipelines zum Ausführen Zeigen Sie die Anzahl der Pipelines an, die für Ihr Experiment generiert werden sollen, oder ändern Sie sie.

Details der Zeitreihenkonfiguration

Konfigurieren Sie im Zeitreihenbereich für Vorhersageeinstellungen die Details zum Trainieren des Experiments und zum Generieren von Vorhersagen.

Feld Beschreibung
Datums-/Zeitspalte Die Datums-/Zeitspalte für das Experiment anzeigen oder ändern.
Rückschaufenster Die Anzahl vorheriger Zeitreihenwerte zur Vorhersage des aktuellen Zeitpunkts anzeigen oder aktualisieren.
Vorhersagefenster Zeigen Sie den Bereich, den Sie vorhersagen möchten, an oder aktualisieren Sie ihn.

Datenquelleneinstellungen konfigurieren

Um Details für Ihre Eingabedaten zu konfigurieren, klicken Sie auf Experimenteinstellungen und wählen Datenquelleaus.

Allgemeine Datenquelleneinstellungen

In der Anzeige Allgemein für Datenquelleneinstellungen können Sie Ihr Dataset ändern, um fehlende Werte zu interpolieren, Ihr Dataset in Trainings-und Holdout-Daten aufzuteilen und unterstützende Features einzugeben.

Feld Beschreibung
Doppelte Zeilen Nicht für Zeitreihenexperimente unterstützt.
Datenteilstichprobe erstellen Nicht für Zeitreihenexperimente unterstützt.
Merkmalsentwicklung für Text Nicht für Zeitreihenexperimente unterstützt.
Endgültiges Trainingsdataset Wählen Sie aus, welche Daten beim Trainieren der endgültigen Pipelines verwendet werden sollen: nur die Trainingsdaten oder die Trainings-und Holdout-Daten. Wenn Sie nur Trainingsdaten einschließen, enthalten generierte Notebooks für dieses Experiment eine Zelle zum Abrufen der Holdout-Daten, die zum Auswerten jeder Pipeline verwendet werden.
Unterstützende Merkmale Wählen Sie zusätzliche Spalten aus Ihrem Dataset als unterstützende Features aus, um Vorhersagen zu unterstützen und die Genauigkeit Ihres Modells zu erhöhen. Sie können auch zukünftige Werte für Unterstützungsfeatures verwenden, indem Sie Zukünftige Werte von Unterstützungsfeatures nutzenaktivieren.
Hinweis: Sie können nur unterstützende Features mit ausgewählten Algorithmen und Pipelines verwenden. Weitere Informationen zu Algorithmen und Pipelines, die die Verwendung unterstützender Features unterstützen, finden Sie unter Zeitreihenimplementierungsdetails.
Datenimputation Verwenden Sie Datenimputation, um fehlende Werte im Dataset durch ersetzte Werte zu ersetzen. Durch Aktivieren dieser Option können Sie angeben, wie fehlende Werte in Ihren Daten interpoliert werden sollen. Weitere Informationen zur Datenimputation finden Sie unter "Datenimputation" in AutoAI -Experimenten.
Trainings- und Holdout-Daten Geben Sie an, dass einige Daten aus Ihrem Trainingsdataset zum Testen des Experiments reserviert werden sollen. Alternativ können Sie eine separate Datei mit Holdout-Daten hochladen. Die Holdout-Datendatei muss dem Schema der Trainingsdaten entsprechen.

Zeitreihendaten konfigurieren

Zum Konfigurieren der Zeitreihendaten können Sie die Einstellungen für die Zeitreihendaten anpassen, die sich auf das Backtesting des Experiments beziehen. Backtesting bietet die Möglichkeit, ein Zeitreihenmodell mithilfe von Langzeitdaten zu validieren.

In einem typischen Experiment für maschinelles Lernen können Sie einen Teil der Daten nach dem Zufallsprinzip zurückhalten, um das resultierende Modell auf Genauigkeit zu testen. Zum Validieren eines Zeitreihenmodells müssen Sie die Zeitreihenbeziehung zwischen den Trainings-und Testdaten beibehalten.

Die folgenden Schritte beschreiben die Methode "backtest":

  1. Die Länge der Trainingsdaten wird anhand der Anzahl der Backtests, der Länge der Lücke und der Holdout-Größe bestimmt. Weitere Informationen zu diesen Parametern finden Sie unter Experiment für Zeitreihen erstellen.
  2. Ausgehend von den ältesten Daten wird das Experiment mithilfe der Trainingsdaten trainiert.
  3. Das Experiment wird im ersten Validierungsdataset ausgewertet. Wenn die Länge der Lücke ungleich null ist, werden alle Daten in der Lücke übersprungen.
  4. Das Fenster für Trainingsdaten wird erweitert, indem die Holdout-Größe und die Spaltlänge erhöht werden, um ein neues Trainingsset zu bilden.
  5. Ein neues Experiment wird mit diesen neuen Daten trainiert und mit dem nächsten Validierungsdataset ausgewertet.
  6. Die beiden vorherigen Schritte werden für die verbleibenden Rücktestzeiträume wiederholt.

Gehen Sie wie folgt vor, um die Backtestkonfiguration anzupassen:

  1. Öffnen Sie die Experimenteinstellungen.
  2. Klicken Sie unter Datenquellenauf Zeitreihe.
  3. (Optional): Passen Sie die Einstellungen wie in der Tabelle gezeigt an.
Feld Beschreibung
Anzahl der Backtests Backtesting (Rückvergleich) ist ähnlich wie die Kreuzvalidierung bei Datums-/Zeitperioden. Passen Sie die Anzahl Backtests für Ihr Experiment wahlweise an.
Penetrationswiderstand Die Größe des Holdout-Datasets und jedes Validierungsdatasets für Backtests. Die Validierungslänge kann durch Änderung der Holdout-Länge angepasst werden.
Lückenlänge Die Anzahl Zeitpunkte zwischen dem Trainingsdataset und dem Validierungsdataset für jeden Backtest. Wenn der Parameterwert ungleich null ist, werden die Zeitreihenwerte in der Lücke nicht zum Trainieren des Experiments oder zum Evaluieren des aktuellen Backtests verwendet.

Experimenteinstellungen auf der Seite "Datenquelle"

Die Visualisierung für die Konfigurationseinstellungen veranschaulicht den Rücktestablauf. Die Grafik ist interaktiv, sodass Sie die Einstellungen aus der Grafik oder aus den Konfigurationsfeldern bearbeiten können. Durch die Anpassung der Länge der Lücke können Sie z. B. die Ergebnisse der Modellvalidierung in früheren Zeiträumen der Daten anzeigen, ohne die Anzahl der Backtests zu erhöhen.

Ergebnisse eines Experiments interpretieren

Nach der Ausführung Ihres Zeitreihenexperiments können Sie die resultierenden Pipelines untersuchen, um Einblick in die Experimentdetails zu erhalten. Pipelines, die Unterstützungsfeatures verwenden, werden durch den SUP-Erweiterungstag angegeben, um sie von Pipelines zu unterscheiden, die diese Features nicht nutzen. Gehen Sie wie folgt vor, um Details anzuzeigen:

  • Bewegen Sie den Mauszeiger über Knoten in der Visualisierung, um Details zu den Pipelines während ihrer Generierung abzurufen.
  • Wechseln Sie in die Ansicht 'Fortschrittsübersicht', um eine andere Ansicht des Trainingsprozesses anzuzeigen. Sie können den Mauszeiger über jeden Knoten in dem Prozess bewegen, um Details zu erhalten.
  • Nachdem die endgültigen Pipelines abgeschlossen und in die Bestenliste aufgenommen wurden, können Sie auf eine Pipeline klicken, um die Leistungsdetails anzuzeigen.
  • Klicken Sie auf Gelöschte Pipelines anzeigen , um die Algorithmen anzuzeigen, die für die Pipelines verwendet werden, die nicht als ausführende Pipelines ausgewählt sind.
  • Speichern Sie den Experimentcode als Notebook, das Sie überprüfen können.
  • Speichern Sie eine bestimmte Pipeline als Notebook, das Sie überprüfen können.

Sehen Sie sich dieses Video an, um zu sehen, wie ein Zeitreihenexperiment ausgeführt und ein Modell in einem Jupyter-Notebook mithilfe von Trainings-und Holdout-Daten erstellt wird.

Video-Haftungsausschluss: Einige untergeordnete Schritte und grafische Elemente in diesem Video können von Ihrer Plattform abweichen.

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.

Nächste Schritte

Weitere Ressourcen

Nächste Schritte

Übergeordnetes Thema: AutoAI - Übersicht

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen