Translation not up to date
Tyto podrobnosti implementace popisují fáze a zpracování, které jsou specifické pro test časové řady AutoAI .
Podrobnosti implementace
Prohlédněte si tyto implementace a podrobnosti o konfiguraci vašeho testu časové řady.
- Fáze časové řady pro zpracování experimentu.
- Časová řada optimalizace metrik pro vyladění vašich produktovodů.
- Algoritmy časové řady pro sestavení ropovodů.
- Podporované formáty data a času.
Fáze časových řad
Experiment časových řad AutoAI zahrnuje tyto fáze při spuštění experimentu:
Fáze 1: Inicializace
Fáze inicializace zpracovává data o školení v tomto pořadí:
- Načtení dat
- Rozdělit datovou sadu L na data školení T a data holdout H
- Nastavte ověření platnosti sloupce časového razítka a generování okna vyhledávání. Poznámky:
- Výcviková data (T) se rovnají datové sadě (L) minus dudrand (H). Když nakonfigurujete experiment, můžete upravit velikost dat výzdu. Při výchozím nastavení je velikost dat z výtěz. 20 kroků.
- Volitelně můžete určit sloupec časového razítka.
- Ve výchozím nastavení je vyhledávací okno generováno automaticky zjišťováním období sezónního zpracování pomocí metody zpracování signálu. Máte-li však představu o příslušném okně zpětného hledání, můžete hodnotu zadat přímo.
Fáze 2: Výběr propojení procesů
Krok výběru propojení procesů používá účinnou metodu s názvem T-Daub (alokace dat časových řad pomocí horních bitů). Metoda vybírá potrubí tím, že přidělí více údajů o výcviku pro nejslibnější plynovody, a zároveň vyčleňují méně údajů o odborné přípravě na neslibné plynovody. Tímto způsobem, ne všechny kolony vidí kompletní sadu dat, a výběrový proces je obvykle rychlejší. Následující kroky popisují přehled procesu:
- Všechny ropovody jsou postupně přidělovány několika malým dílnám vzdělávacích dat. Poslední data jsou alokována jako první.
- Každý plynovod je vycvičen na každé přiděleném podskupině údajů o výcviku a vyhodnocován pomocí testovacích dat (data holdout).
- Lineární regresní model se používá u každého propojení procesů s použitím datové sady popsané v předchozím kroku.
- Skóre přesnosti ropovodu je promítnuta na celou sadu údajů o školení. Výsledkem této metody je datová sada obsahující přesnost a velikost alokovaných dat pro každý kolonu.
- Nejlepší plynovod je vybrán podle projektované přesnosti a přidělené hodnosti 1.
- Další data jsou alokována pro nejlepší propojení procesů. Pak se předpokládaná přesnost aktualizuje pro ostatní plynovody.
- Předchozí dva kroky se opakují, dokud se prvních N ropovodů necvičil na všech datech.
Fáze 3: Vyhodnocení modelu
V tomto kroku jsou vítězné produktovody N přeškoleny na celou sadu výukových dat T. Dále jsou vyhodnoceny pomocí dat holdout H.
Fáze 4: Závěrečné vytváření potrubí
V tomto kroku jsou vítězné plynovody přeškoleny na celou datovou sadu (L) a generované jako konečná potrubí.
Vzhledem k tomu, že rekvalifikace každého potrubí je dokončeno, plynovod je vyvěšený na žebříčku. Můžete si vybrat prohlédnout podrobnosti o propojení procesů nebo uložit kolonu jako model.
Fáze 5: Zpětný test
V posledním kroku se vycvičené ropovody přeškolí a vyhodnotí se metodou zpětného testu. Následující kroky popisují metodu zpětného testu:
- Délka dat proškolování je určena na základě počtu zpětných testů, délky mezery a velikosti výtěhonu. Další informace o těchto parametrech naleznete v tématu Budování experimentu časových řad.
- Od nejstarších dat je experiment vyškolen pomocí údajů o školení.
- Dále je tento experiment vyhodnocován na první ověřovací datové sadě. Je-li délka mezery nenulová, budou veškerá data v mezeře přeskočena.
- Okno s údaji o školení se zvyšuje zvýšením velikosti pouzdro a délkou mezery, aby se vytvořila nová sada výukových programů.
- Nový experiment je vycvičen s novými daty a vyhodnocuje se při příští ověřovací datové sadě.
- Předchozí dva kroky jsou opakovány pro zbývající období zpětného testování.
Metriky optimalizace časové řady
Přijměte výchozí metriku nebo zvolte metriku, kterou chcete optimalizovat pro váš experiment.
Metrika | Popis |
---|---|
Symetrická střední absolutní chyba v procentech (SMAPE) | V každém bodě namontování se absolutní rozdíl mezi skutečnou hodnotou a předpovězenou hodnotou dělí o polovinu součtu absolutní skutečné hodnoty a předpokládané hodnoty. Pak je průměr vypočten pro všechny tyto hodnoty napříč všemi vybavenými body. |
MAE (Mean Absolute Error) | Průměrný počet absolutních rozdílů mezi skutečnými hodnotami a předpovězenou hodnotou. |
RMSE (Root Mean Squared Error) | Druhá odmocnina střední kvadratická odlišnosti mezi skutečnými hodnotami a předpovězenou hodnotou. |
Hodnota R2 | Měření, jak výkon modelu porovnává se základním modelem, nebo průměrným modelem. Hodnota R2 musí být stejná nebo menší než 1. Záporná hodnota R2 znamená, že zvažovaný model je horší než průměrný model. Nula R2 znamená, že model, který je předmětem posouzení, je stejně dobrý nebo špatný jako střední model. Kladná hodnota R2 znamená, že uvažovaný model je lepší než střední model. |
Algoritmy časových řad
Tyto algoritmy jsou k dispozici pro váš test časové řady. Můžete použít algoritmy, které jsou vybrány jako výchozí, nebo můžete svůj experiment nakonfigurovat tak, aby zahrnoval nebo vyloučil určité algoritmy.
algoritmus | Popis |
---|---|
ARIMA | Model Autogressive Integrated Moving Average (ARIMA) je typický model časové řady, který může transformovat nestacionární data na stacionární data prostřednictvím diferenciace, a pak předpovídat další hodnotu pomocí minulých hodnot, včetně nerovnoběžných hodnot a chyb s prognózou nesouvisejících s daty. |
NETOPÝŘI | Algoritmus BATS kombinuje Cbox-Cox Transformation, ARMA residus, Trend a Sezonality faktory pro předpovídání budoucích hodnot. |
Ensembler | Ensembler kombinuje více metod prognózy, aby překonal přesnost jednoduché predikce a aby se zabránilo možné overfit. |
Holt-Winters | Používá trojnásobné exponenciální vyrovnání k předpovídání datových bodů v řadě, pokud se série opakovala v čase (sezónní). K dispozici jsou dva typy Holt-Wintersových modelů: additive Holt-Winters a multiplikativní Holt-Winters |
Náhodný les | Regresní model založený na stromu, kde každý strom v kompletu je sestaven ze vzorku, který je vykreslen s náhradou (například, zaváděcí vzorek) ze sady školení. |
Vektorový počítač podpory (SVM) | Virtuální počítače jsou typem modelů strojového učení, které lze použít pro regresi a klasifikaci. Virtuální počítače používají hyperplane, aby rozdělily data do oddělených tříd. |
Lineární regrese | Sestaví lineární vztah mezi proměnnou časové řady a indexem data/času nebo času s reziduálními prostředky, které následují za procesem AR. |
Podporované formáty data a času
Formáty data a času podporované v časových sériích experimentů jsou založeny na definicích, které jsou poskytnuty parametrem dateutil.
Podporované formáty data jsou:
Časté:
YYYY
YYYY-MM, YYYY/MM, or YYYYMM
YYYY-MM-DD or YYYYMMDD
mm/dd/yyyy
mm-dd-yyyy
JAN YYYY
Méně časté:
YYYY-Www or YYYYWww - ISO week (day defaults to 0)
YYYY-Www-D or YYYYWwwD - ISO week and day
Hodnota pro hodnoty ISO týden a den má stejnou logiku jako datetime.date.isocalendar().
Podporované formáty času jsou:
hh
hh:mm or hhmm
hh:mm:ss or hhmmss
hh:mm:ss.ssssss (Up to 6 sub-second digits)
dd-MMM
yyyy/mm
Poznámky:
- Půlnoc může být reprezentována jako 00:00 nebo 24:00. Desetinný oddělovač může být buď tečka, nebo čárka.
- Data lze odeslat jako řetězce s dvojitými uvozovkami, jako např. "1958-01-16".
Podpůrné funkce
Podpůrné funkce, známé také jako exogenní funkce, jsou vstupními funkcemi, které mohou ovlivnit cíl předpovědi. Podpůrné funkce můžete použít k zahrnutí dalších sloupců z datové sady, abyste vylepšili předpověď a zvýšili přesnost vašeho modelu. Například v experimentu časových řad za účelem předpovídání cen v průběhu času mohou být podpůrné funkce data o prodejích a propagaci. Nebo, v modelu, který předpovídá spotřebu energie, včetně denní teploty, je prognóza přesnější.
Algoritmy a potrubí, které používají podpůrné funkce
Pouze část algoritmů umožňuje podporu funkcí. Např. Holt-Winters a BATS nepodporují použití podpůrných funkcí. Algoritmy, které nepodporují podpůrné funkce, ignorují výběr podpůrných funkcí při spuštění experimentu.
Některé algoritmy používají podpůrné funkce pro určité varianty algoritmu, ale ne pro ostatní. Například můžete generovat dva různé kolony s algoritmem Náhodný doménový struktura, RandomForestRegressor a ExogenousRandomForestRegressor. Varianta ExogenousRandomForestRegressor poskytuje podporu pro podporu funkcí, zatímco RandomForestRegressor nikoli.
Tato tabulka uvádí podrobnosti o tom, zda algoritmus poskytuje podporu pro podpůrné funkce v testu časové řady:
algoritmus | Kanál | Poskytnout podporu pro podpůrné funkce |
---|---|---|
Náhodný les | RandomForestRegressor | Ne |
Náhodný les | ExogenousRandomForestRegressor | Ano |
SVM | SVM | Ne |
SVM | ExogenousSVM | Ano |
Ensembler | LocalizedFlattenEnsembler | Ano |
Ensembler | DifferenceFlattenEnsembler | Ne |
Ensembler | FlattenEnsembler | Ne |
Ensembler | ExogenousLocalizedFlattenEnsembler | Ano |
Ensembler | ExogenousDifferenceFlattenEnsembler | Ano |
Ensembler | ExogenousFlattenEnsembler | Ano |
Regrese | MT2RForecaster | Ne |
Regrese | ExogenousMT2RForecaster | Ano |
Holt-zimy | HoltWinterAditivní položka | Ne |
Holt-zimy | HoltWinterMultiplictive | Ne |
NETOPÝŘI | NETOPÝŘI | Ne |
ARIMA | ARIMA | Ne |
ARIMA | ARIMAX | Ano |
ARIMA | ARIMAX_RSAR | Ano |
ARIMA | ARIMAX_PALR | Ano |
ARIMA | ARIMAX_RAR | Ano |
ARIMA | ARIMAX_DMLR | Ano |
Další informace
Přidělení modelu modelové řady
Nadřízené téma: Sestavení experimentu časových řad