Estos detalles de implementación describen las etapas y el proceso que son específicos de un experimento de serie temporal de AutoAI .
Detalles de la implementación
Consulte estos detalles de implementación y configuración para el experimento de serie temporal.
- Etapas de las series temporales para procesar un experimento.
- Medidas de optimización de series temporales para ajustar las interconexiones.
- Algoritmos de serie temporal para crear las interconexiones.
- Formatos de fecha y hora soportados.
Etapas de series temporales
Un experimento de series temporales de AutoAI incluye estas etapas cuando se ejecuta un experimento:
- Inicialización
- Selección de la interconexión
- Evaluación del modelo
- Generación de la interconexión final
- Prueba de retroceso
Etapa 1: Inicialización
La etapa de inicialización procesa los datos de entrenamiento en esta secuencia:
- Cargar los datos
- Divida el conjunto de datos L en datos de entrenamiento T y datos de reserva H
- Establezca la validación, el manejo de columnas de indicación de fecha y hora y la generación de ventanas de búsqueda. Notas:
- Los datos de entrenamiento (T) son iguales al conjunto de datos (L) menos la reserva (H). Cuando configura el experimento, puede ajustar el tamaño de los datos de retención. De forma predeterminada, el tamaño de los datos reservados es de 20 pasos.
- Opcionalmente, puede especificar la columna de indicación de fecha y hora.
- De forma predeterminada, se genera automáticamente una ventana de búsqueda detectando el periodo estacional utilizando el método de proceso de señal. No obstante, si tiene pensado utilizar una ventana de retroceso apropiada, puede especificar el valor directamente.
Etapa 2: Selección de conducto
El paso de selección de interconexión utiliza un método eficiente denominado T-Daub (Asignación de datos de serie temporal utilizando límites superiores). El método selecciona las interconexiones asignando más datos de entrenamiento a las interconexiones más prometedoras, mientras que asigna menos datos de entrenamiento a las interconexiones no prometedoras. De esta forma, no todas las interconexiones ven el conjunto completo de datos, y el proceso de selección suele ser más rápido. Los pasos siguientes describen la visión general del proceso:
- Todas las interconexiones se asignan secuencialmente a varios subconjuntos pequeños de datos de entrenamiento. Los últimos datos se asignan en primer lugar.
- Cada conducto se entrena en cada subconjunto asignado de datos de entrenamiento y se evalúa con datos de prueba (datos reservados).
- Se aplica un modelo de regresión lineal a cada interconexión utilizando el conjunto de datos descrito en el paso anterior.
- La puntuación de precisión de la interconexión se proyecta en todo el conjunto de datos de entrenamiento. Este método da como resultado un conjunto de datos que contiene la precisión y el tamaño de los datos asignados para cada interconexión.
- La mejor tubería se selecciona de acuerdo con la precisión proyectada y se asigna el rango 1.
- Se asignan más datos a la mejor interconexión. A continuación, se actualiza la precisión proyectada para los otros conductos.
- Los dos pasos anteriores se repiten hasta que las N interconexiones principales se entrenan en todos los datos.
Etapa 3: Evaluación del modelo
En este paso, las interconexiones ganadoras N se vuelven a entrenar en todo el conjunto de datos de entrenamiento T. Además, se evalúan con los datos reservados H.
Etapa 4: Generación final de conducto
En este paso se vuelven a entrenar las interconexiones ganadoras en el conjunto de datos completo (L) y se generan como interconexiones finales.
A medida que se completa el reentrenamiento de cada conducto, el conducto se publica en la tabla de clasificación. Puede seleccionar inspeccionar los detalles del conducto o guardar el conducto como un modelo.
Etapa 5: En segundo plano
En el paso final, las interconexiones ganadoras se vuelven a entrenar y se evalúan utilizando el método backtest. Los pasos siguientes describen el método de prueba de retroceso:
- La longitud de los datos de entrenamiento se determina en función del número de pruebas de retroceso, la longitud de intervalo y el tamaño de retención. Para obtener más información sobre estos parámetros, consulte Creación de un experimento de serie temporal.
- A partir de los datos más antiguos, el experimento se entrena utilizando los datos de entrenamiento.
- Además, el experimento se evalúa en el primer conjunto de datos de validación. Si la longitud del espacio es distinta de cero, los datos del espacio se omiten.
- La ventana de datos de entrenamiento se avanza aumentando el tamaño de reserva y la longitud de espacio para formar un nuevo conjunto de entrenamiento.
- Se entrena un experimento nuevo con estos nuevos datos y se evalúa con el siguiente conjunto de datos de validación.
- Los dos pasos anteriores se repiten para los periodos de prueba posterior restantes.
Métricas de optimización de series temporales
Acepte la métrica predeterminada, o elija una métrica para optimizar su experimento.
Métrica | Descripción |
---|---|
SMAPE (Symmetric Mean Absolute Percentage Error) | En cada punto ajustado, la diferencia absoluta entre el valor real y el valor predicho se divide por la mitad de la suma del valor real absoluto y el valor predicho. A continuación, se calcula el promedio para todos estos valores en todos los puntos ajustados. |
Error absoluto promedio (MAE) | Promedio de diferencias absolutas entre los valores reales y los valores pronosticados. |
Error cuadrático promedio raíz (MSE) | Raíz cuadrada del promedio de las diferencias cuadráticas entre los valores reales y los valores pronosticados. |
R2 | La medida de cómo se compara el rendimiento del modelo con el modelo de línea base o el modelo promedio. El R2 debe ser igual o menor que 1. El valor de R2 negativo significa que el modelo que se está considerando es peor que el modelo medio. El valor2 de R cero significa que el modelo que se está considerando es tan bueno o malo como el modelo medio. El valor R2 positivo significa que el modelo considerado es mejor que el modelo medio. |
Revisión de las métricas para un experimento
Cuando visualiza los resultados de un experimento de serie temporal, ve los valores de las métricas utilizadas para entrenar el experimento en el marcador de interconexión:
Puede ver que las medidas de precisión para los experimentos de serie temporal pueden variar ampliamente, en función de los datos de experimento evaluados.
- La validación es la puntuación calculada sobre los datos de entrenamiento.
- Reserva es la puntuación calculada sobre los datos reservados.
- Prueba de retroceso es la puntuación media de todas las puntuaciones de prueba de retroceso.
Algoritmos de series temporales
Estos algoritmos están disponibles para su experimento de series temporales. Puede utilizar los algoritmos seleccionados de forma predeterminada, o puede configurar el experimento para incluir o excluir algoritmos específicos.
Algoritmo | Descripción |
---|---|
ARIMA | El modelo de media móvil integrada autorregresiva (ARIMA) es un modelo de serie temporal típico, que puede transformar datos no estacionarios en datos estacionarios a través de la diferenciación y, a continuación, pronosticar el siguiente valor utilizando los valores anteriores, incluidos los valores retardados y los errores de previsión retardados. |
BATS | El algoritmo BATS combina la transformación Box-Cox, los residuos ARMA y los factores de tendencia y estacionalidad para predecir los valores futuros. |
Ensembler | Ensembler combina varios métodos de previsión para superar la precisión de la predicción simple y para evitar un posible sobreajuste. |
Holt-Winters | Utiliza el suavizado exponencial triple para pronosticar puntos de datos en una serie, si la serie es repetitiva a lo largo del tiempo (estacional). Se proporcionan dos tipos de modelos Holt-Winters: Holt-Winters aditivo y Holt-Winters multiplicativo |
Bosque aleatorio | Modelo de regresión basado en árbol en el que cada árbol del conjunto se crea a partir de una muestra que se extrae con sustitución (por ejemplo, una muestra de simulación de muestreo) del conjunto de entrenamiento. |
Máquina de vectores de soporte (SVM) | Las MVSs son un tipo de modelos de aprendizaje automático que se pueden utilizar tanto para la regresión como para la clasificación. Las SVM utilizan un hiperplano para dividir los datos en clases separadas. |
Regresión lineal | Crea una relación lineal entre la variable de serie temporal y el índice de fecha/hora o tiempo con residuos que siguen el proceso AR. |
Formatos de fecha y hora soportados
Los formatos de fecha/hora soportados en experimentos de series temporales se basan en las definiciones proporcionadas por dateutil.
Los formatos de fecha soportados son:
Común:
YYYY
YYYY-MM, YYYY/MM, or YYYYMM
YYYY-MM-DD or YYYYMMDD
mm/dd/yyyy
mm-dd-yyyy
JAN YYYY
Poco común:
YYYY-Www or YYYYWww - ISO week (day defaults to 0)
YYYY-Www-D or YYYYWwwD - ISO week and day
Numberng para los valores de semana y día ISO sigue la misma lógica que datetime.date.isocalendar().
Los formatos de tiempo soportados son:
hh
hh:mm or hhmm
hh:mm:ss or hhmmss
hh:mm:ss.ssssss (Up to 6 sub-second digits)
dd-MMM
yyyy/mm
Notas:
- La medianoche se puede representar como 00:00 o 24:00. El separador decimal puede ser un punto o una coma.
- Las fechas se pueden enviar como series, con comillas dobles, como por ejemplo "1958-01-16".
Características de soporte
Las características de soporte, también conocidas como características exógenas, son características de entrada que pueden influir en el objetivo de predicción. Puede utilizar características de soporte para incluir columnas adicionales del conjunto de datos para mejorar la predicción y aumentar la precisión del modelo. Por ejemplo, en un experimento de serie temporal para predecir precios a lo largo del tiempo, una característica de soporte pueden ser datos sobre ventas y promociones. O, en un modelo que pronostica el consumo de energía, incluida la temperatura diaria hace que la previsión sea más precisa.
Algoritmos y conductos que utilizan características de soporte
Sólo un subconjunto de algoritmos permite características de soporte. Por ejemplo, Holt-winters y BATS no soportan el uso de características de soporte. Los algoritmos que no dan soporte a las características de soporte ignoran la selección para las características de soporte al ejecutar el experimento.
Algunos algoritmos utilizan características de soporte para determinadas variaciones del algoritmo, pero no para otros. Por ejemplo, puede generar dos pipelines diferentes con el algoritmo Random Forest, RandomForestRegressor y ExogenousRandomForestRegressor. La variación ExogenousRandomForestRegressor proporciona soporte para las funciones de apoyo, mientras que RandomForestRegressor no lo hace.
Esta tabla detalla si un algoritmo proporciona soporte para las características de soporte en un experimento de serie temporal:
Algoritmo | Interconexión | Proporcionar soporte para las características de soporte |
---|---|---|
Bosque aleatorio | RandomForestRegressor | Nee |
Bosque aleatorio | ExogenousRandomForestRegressor | Sí |
SVM | SVM | Nee |
SVM | ExogenousSVM | Sí |
Ensembler | LocalizedFlattenEnsembler | Sí |
Ensembler | DifferenceFlattenEnsembler | Nee |
Ensembler | FlattenEnsembler | Nee |
Ensembler | ExogenousLocalizedFlattenEnsembler | Sí |
Ensembler | ExogenousDifferenceFlattenEnsembler | Sí |
Ensembler | ExogenousFlattenEnsembler | Sí |
Regresión | MT2RForecaster | Nee |
Regresión | ExogenousMT2RForecaster | Sí |
Holt-Winters | HoltWinterAdditive | Nee |
Holt-Winters | HoltWinterMultiplicative | Nee |
BATS | BATS | Nee |
ARIMA | ARIMA | Nee |
ARIMA | ARIMAX | Sí |
ARIMA | ARIMAX_RSAR | Sí |
ARIMA | ARIMAX_PALR | Sí |
ARIMA | ARIMAX_RAR | Sí |
ARIMA | ARIMAX_DMLR | Sí |
Más información
Puntuación de un modelo de series temporales
Tema padre: Creación de un experimento de serie temporal