0 / 0
Go back to the English version of the documentation
Podrobnosti implementace časové řady
Last updated: 22. 8. 2023
Podrobnosti implementace časové řady

Tyto podrobnosti implementace popisují fáze a zpracování, které jsou specifické pro test časové řady AutoAI .

Podrobnosti implementace

Prohlédněte si tyto implementace a podrobnosti o konfiguraci vašeho testu časové řady.

Fáze časových řad

Experiment časových řad AutoAI zahrnuje tyto fáze při spuštění experimentu:

  1. Inicializace
  2. Výběr propojení procesů
  3. Vyhodnocení modelu
  4. Konečná generace potrubí
  5. Zpětný test

Fáze 1: Inicializace

Fáze inicializace zpracovává data o školení v tomto pořadí:

  • Načtení dat
  • Rozdělit datovou sadu L na data školení T a data holdout H
  • Nastavte ověření platnosti sloupce časového razítka a generování okna vyhledávání. Poznámky:
    • Výcviková data (T) se rovnají datové sadě (L) minus dudrand (H). Když nakonfigurujete experiment, můžete upravit velikost dat výzdu. Při výchozím nastavení je velikost dat z výtěz. 20 kroků.
    • Volitelně můžete určit sloupec časového razítka.
    • Ve výchozím nastavení je vyhledávací okno generováno automaticky zjišťováním období sezónního zpracování pomocí metody zpracování signálu. Máte-li však představu o příslušném okně zpětného hledání, můžete hodnotu zadat přímo.

Fáze 2: Výběr propojení procesů

Krok výběru propojení procesů používá účinnou metodu s názvem T-Daub (alokace dat časových řad pomocí horních bitů). Metoda vybírá potrubí tím, že přidělí více údajů o výcviku pro nejslibnější plynovody, a zároveň vyčleňují méně údajů o odborné přípravě na neslibné plynovody. Tímto způsobem, ne všechny kolony vidí kompletní sadu dat, a výběrový proces je obvykle rychlejší. Následující kroky popisují přehled procesu:

  1. Všechny ropovody jsou postupně přidělovány několika malým dílnám vzdělávacích dat. Poslední data jsou alokována jako první.
  2. Každý plynovod je vycvičen na každé přiděleném podskupině údajů o výcviku a vyhodnocován pomocí testovacích dat (data holdout).
  3. Lineární regresní model se používá u každého propojení procesů s použitím datové sady popsané v předchozím kroku.
  4. Skóre přesnosti ropovodu je promítnuta na celou sadu údajů o školení. Výsledkem této metody je datová sada obsahující přesnost a velikost alokovaných dat pro každý kolonu.
  5. Nejlepší plynovod je vybrán podle projektované přesnosti a přidělené hodnosti 1.
  6. Další data jsou alokována pro nejlepší propojení procesů. Pak se předpokládaná přesnost aktualizuje pro ostatní plynovody.
  7. Předchozí dva kroky se opakují, dokud se prvních N ropovodů necvičil na všech datech.

Fáze 3: Vyhodnocení modelu

V tomto kroku jsou vítězné produktovody N přeškoleny na celou sadu výukových dat T. Dále jsou vyhodnoceny pomocí dat holdout H.

Fáze 4: Závěrečné vytváření potrubí

V tomto kroku jsou vítězné plynovody přeškoleny na celou datovou sadu (L) a generované jako konečná potrubí.

Vzhledem k tomu, že rekvalifikace každého potrubí je dokončeno, plynovod je vyvěšený na žebříčku. Můžete si vybrat prohlédnout podrobnosti o propojení procesů nebo uložit kolonu jako model.

Fáze 5: Zpětný test

V posledním kroku se vycvičené ropovody přeškolí a vyhodnotí se metodou zpětného testu. Následující kroky popisují metodu zpětného testu:

  1. Délka dat proškolování je určena na základě počtu zpětných testů, délky mezery a velikosti výtěhonu. Další informace o těchto parametrech naleznete v tématu Budování experimentu časových řad.
  2. Od nejstarších dat je experiment vyškolen pomocí údajů o školení.
  3. Dále je tento experiment vyhodnocován na první ověřovací datové sadě. Je-li délka mezery nenulová, budou veškerá data v mezeře přeskočena.
  4. Okno s údaji o školení se zvyšuje zvýšením velikosti pouzdro a délkou mezery, aby se vytvořila nová sada výukových programů.
  5. Nový experiment je vycvičen s novými daty a vyhodnocuje se při příští ověřovací datové sadě.
  6. Předchozí dva kroky jsou opakovány pro zbývající období zpětného testování.

Metriky optimalizace časové řady

Přijměte výchozí metriku nebo zvolte metriku, kterou chcete optimalizovat pro váš experiment.

Metrika Popis
Symetrická střední absolutní chyba v procentech (SMAPE) V každém bodě namontování se absolutní rozdíl mezi skutečnou hodnotou a předpovězenou hodnotou dělí o polovinu součtu absolutní skutečné hodnoty a předpokládané hodnoty. Pak je průměr vypočten pro všechny tyto hodnoty napříč všemi vybavenými body.
MAE (Mean Absolute Error) Průměrný počet absolutních rozdílů mezi skutečnými hodnotami a předpovězenou hodnotou.
RMSE (Root Mean Squared Error) Druhá odmocnina střední kvadratická odlišnosti mezi skutečnými hodnotami a předpovězenou hodnotou.
Hodnota R2 Měření, jak výkon modelu porovnává se základním modelem, nebo průměrným modelem. Hodnota R2 musí být stejná nebo menší než 1. Záporná hodnota R2 znamená, že zvažovaný model je horší než průměrný model. Nula R2 znamená, že model, který je předmětem posouzení, je stejně dobrý nebo špatný jako střední model. Kladná hodnota R2 znamená, že uvažovaný model je lepší než střední model.

Algoritmy časových řad

Tyto algoritmy jsou k dispozici pro váš test časové řady. Můžete použít algoritmy, které jsou vybrány jako výchozí, nebo můžete svůj experiment nakonfigurovat tak, aby zahrnoval nebo vyloučil určité algoritmy.

algoritmus Popis
ARIMA Model Autogressive Integrated Moving Average (ARIMA) je typický model časové řady, který může transformovat nestacionární data na stacionární data prostřednictvím diferenciace, a pak předpovídat další hodnotu pomocí minulých hodnot, včetně nerovnoběžných hodnot a chyb s prognózou nesouvisejících s daty.
NETOPÝŘI Algoritmus BATS kombinuje Cbox-Cox Transformation, ARMA residus, Trend a Sezonality faktory pro předpovídání budoucích hodnot.
Ensembler Ensembler kombinuje více metod prognózy, aby překonal přesnost jednoduché predikce a aby se zabránilo možné overfit.
Holt-Winters Používá trojnásobné exponenciální vyrovnání k předpovídání datových bodů v řadě, pokud se série opakovala v čase (sezónní). K dispozici jsou dva typy Holt-Wintersových modelů: additive Holt-Winters a multiplikativní Holt-Winters
Náhodný les Regresní model založený na stromu, kde každý strom v kompletu je sestaven ze vzorku, který je vykreslen s náhradou (například, zaváděcí vzorek) ze sady školení.
Vektorový počítač podpory (SVM) Virtuální počítače jsou typem modelů strojového učení, které lze použít pro regresi a klasifikaci. Virtuální počítače používají hyperplane, aby rozdělily data do oddělených tříd.
Lineární regrese Sestaví lineární vztah mezi proměnnou časové řady a indexem data/času nebo času s reziduálními prostředky, které následují za procesem AR.

Podporované formáty data a času

Formáty data a času podporované v časových sériích experimentů jsou založeny na definicích, které jsou poskytnuty parametrem dateutil.

Podporované formáty data jsou:

Časté:

    YYYY
    YYYY-MM, YYYY/MM, or YYYYMM
    YYYY-MM-DD or YYYYMMDD
    mm/dd/yyyy
    mm-dd-yyyy
    JAN YYYY

Méně časté:

    YYYY-Www or YYYYWww - ISO week (day defaults to 0)
    YYYY-Www-D or YYYYWwwD - ISO week and day

Hodnota pro hodnoty ISO týden a den má stejnou logiku jako datetime.date.isocalendar().

Podporované formáty času jsou:

    hh
    hh:mm or hhmm
    hh:mm:ss or hhmmss
    hh:mm:ss.ssssss (Up to 6 sub-second digits)
    dd-MMM 
    yyyy/mm 

Poznámky:

  • Půlnoc může být reprezentována jako 00:00 nebo 24:00. Desetinný oddělovač může být buď tečka, nebo čárka.
  • Data lze odeslat jako řetězce s dvojitými uvozovkami, jako např. "1958-01-16".

Podpůrné funkce

Podpůrné funkce, známé také jako exogenní funkce, jsou vstupními funkcemi, které mohou ovlivnit cíl předpovědi. Podpůrné funkce můžete použít k zahrnutí dalších sloupců z datové sady, abyste vylepšili předpověď a zvýšili přesnost vašeho modelu. Například v experimentu časových řad za účelem předpovídání cen v průběhu času mohou být podpůrné funkce data o prodejích a propagaci. Nebo, v modelu, který předpovídá spotřebu energie, včetně denní teploty, je prognóza přesnější.

Algoritmy a potrubí, které používají podpůrné funkce

Pouze část algoritmů umožňuje podporu funkcí. Např. Holt-Winters a BATS nepodporují použití podpůrných funkcí. Algoritmy, které nepodporují podpůrné funkce, ignorují výběr podpůrných funkcí při spuštění experimentu.

Některé algoritmy používají podpůrné funkce pro určité varianty algoritmu, ale ne pro ostatní. Například můžete generovat dva různé kolony s algoritmem Náhodný doménový struktura, RandomForestRegressor a ExogenousRandomForestRegressor. Varianta ExogenousRandomForestRegressor poskytuje podporu pro podporu funkcí, zatímco RandomForestRegressor nikoli.

Tato tabulka uvádí podrobnosti o tom, zda algoritmus poskytuje podporu pro podpůrné funkce v testu časové řady:

algoritmus Kanál Poskytnout podporu pro podpůrné funkce
Náhodný les RandomForestRegressor Ne
Náhodný les ExogenousRandomForestRegressor Ano
SVM SVM Ne
SVM ExogenousSVM Ano
Ensembler LocalizedFlattenEnsembler Ano
Ensembler DifferenceFlattenEnsembler Ne
Ensembler FlattenEnsembler Ne
Ensembler ExogenousLocalizedFlattenEnsembler Ano
Ensembler ExogenousDifferenceFlattenEnsembler Ano
Ensembler ExogenousFlattenEnsembler Ano
Regrese MT2RForecaster Ne
Regrese ExogenousMT2RForecaster Ano
Holt-zimy HoltWinterAditivní položka Ne
Holt-zimy HoltWinterMultiplictive Ne
NETOPÝŘI NETOPÝŘI Ne
ARIMA ARIMA Ne
ARIMA ARIMAX Ano
ARIMA ARIMAX_RSAR Ano
ARIMA ARIMAX_PALR Ano
ARIMA ARIMAX_RAR Ano
ARIMA ARIMAX_DMLR Ano

Další informace

Přidělení modelu modelové řady

Nadřízené téma: Sestavení experimentu časových řad

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more