Tema traducido automáticamente Puede cambiar a la versión en inglés

Consulte la versión en inglés (original) para obtener la versión más precisa y actualizada de esta documentación. IBM no se responsabiliza de los daños o pérdidas resultantes del uso de contenido traducido automáticamente (máquina).

Detalles de la implementación de series temporales

Última actualización: 07 oct 2024

Estos detalles de implementación describen las etapas y el proceso que son específicos de un experimento de serie temporal de AutoAI .

Detalles de la implementación

Consulte estos detalles de implementación y configuración para el experimento de serie temporal.

Etapas de las series temporales para procesar un experimento.
Medidas de optimización de series temporales para ajustar las interconexiones.
Algoritmos de serie temporal para crear las interconexiones.
Formatos de fecha y hora soportados.

Etapas de series temporales

Un experimento de series temporales de AutoAI incluye estas etapas cuando se ejecuta un experimento:

Inicialización
Selección de la interconexión
Evaluación del modelo
Generación de la interconexión final
Prueba de retroceso

Etapa 1: Inicialización

La etapa de inicialización procesa los datos de entrenamiento en esta secuencia:

Cargar los datos
Divida el conjunto de datos L en datos de entrenamiento T y datos de reserva H
Establezca la validación, el manejo de columnas de indicación de fecha y hora y la generación de ventanas de búsqueda. Notas:
- Los datos de entrenamiento (T) son iguales al conjunto de datos (L) menos la reserva (H). Cuando configura el experimento, puede ajustar el tamaño de los datos de retención. De forma predeterminada, el tamaño de los datos reservados es de 20 pasos.
- Opcionalmente, puede especificar la columna de indicación de fecha y hora.
- De forma predeterminada, se genera automáticamente una ventana de búsqueda detectando el periodo estacional utilizando el método de proceso de señal. No obstante, si tiene pensado utilizar una ventana de retroceso apropiada, puede especificar el valor directamente.

Etapa 2: Selección de conducto

El paso de selección de interconexión utiliza un método eficiente denominado T-Daub (Asignación de datos de serie temporal utilizando límites superiores). El método selecciona las interconexiones asignando más datos de entrenamiento a las interconexiones más prometedoras, mientras que asigna menos datos de entrenamiento a las interconexiones no prometedoras. De esta forma, no todas las interconexiones ven el conjunto completo de datos, y el proceso de selección suele ser más rápido. Los pasos siguientes describen la visión general del proceso:

Todas las interconexiones se asignan secuencialmente a varios subconjuntos pequeños de datos de entrenamiento. Los últimos datos se asignan en primer lugar.
Cada conducto se entrena en cada subconjunto asignado de datos de entrenamiento y se evalúa con datos de prueba (datos reservados).
Se aplica un modelo de regresión lineal a cada interconexión utilizando el conjunto de datos descrito en el paso anterior.
La puntuación de precisión de la interconexión se proyecta en todo el conjunto de datos de entrenamiento. Este método da como resultado un conjunto de datos que contiene la precisión y el tamaño de los datos asignados para cada interconexión.
La mejor tubería se selecciona de acuerdo con la precisión proyectada y se asigna el rango 1.
Se asignan más datos a la mejor interconexión. A continuación, se actualiza la precisión proyectada para los otros conductos.
Los dos pasos anteriores se repiten hasta que las N interconexiones principales se entrenan en todos los datos.

Etapa 3: Evaluación del modelo

En este paso, las interconexiones ganadoras N se vuelven a entrenar en todo el conjunto de datos de entrenamiento T. Además, se evalúan con los datos reservados H.

Etapa 4: Generación final de conducto

En este paso se vuelven a entrenar las interconexiones ganadoras en el conjunto de datos completo (L) y se generan como interconexiones finales.

A medida que se completa el reentrenamiento de cada conducto, el conducto se publica en la tabla de clasificación. Puede seleccionar inspeccionar los detalles del conducto o guardar el conducto como un modelo.

Etapa 5: En segundo plano

En el paso final, las interconexiones ganadoras se vuelven a entrenar y se evalúan utilizando el método backtest. Los pasos siguientes describen el método de prueba de retroceso:

La longitud de los datos de entrenamiento se determina en función del número de pruebas de retroceso, la longitud de intervalo y el tamaño de retención. Para obtener más información sobre estos parámetros, consulte Creación de un experimento de serie temporal.
A partir de los datos más antiguos, el experimento se entrena utilizando los datos de entrenamiento.
Además, el experimento se evalúa en el primer conjunto de datos de validación. Si la longitud del espacio es distinta de cero, los datos del espacio se omiten.
La ventana de datos de entrenamiento se avanza aumentando el tamaño de reserva y la longitud de espacio para formar un nuevo conjunto de entrenamiento.
Se entrena un experimento nuevo con estos nuevos datos y se evalúa con el siguiente conjunto de datos de validación.
Los dos pasos anteriores se repiten para los periodos de prueba posterior restantes.

Métricas de optimización de series temporales

Acepte la métrica predeterminada, o elija una métrica para optimizar su experimento.

Métrica	Descripción
SMAPE (Symmetric Mean Absolute Percentage Error)	En cada punto ajustado, la diferencia absoluta entre el valor real y el valor predicho se divide por la mitad de la suma del valor real absoluto y el valor predicho. A continuación, se calcula el promedio para todos estos valores en todos los puntos ajustados.
Error absoluto promedio (MAE)	Promedio de diferencias absolutas entre los valores reales y los valores pronosticados.
Error cuadrático promedio raíz (MSE)	Raíz cuadrada del promedio de las diferencias cuadráticas entre los valores reales y los valores pronosticados.
R²	La medida de cómo se compara el rendimiento del modelo con el modelo de línea base o el modelo promedio. El R² debe ser igual o menor que 1. El valor de R² negativo significa que el modelo que se está considerando es peor que el modelo medio. El valor² de R cero significa que el modelo que se está considerando es tan bueno o malo como el modelo medio. El valor R² positivo significa que el modelo considerado es mejor que el modelo medio.

Revisión de las métricas para un experimento

Cuando visualiza los resultados de un experimento de serie temporal, ve los valores de las métricas utilizadas para entrenar el experimento en el marcador de interconexión:

Revisión de los resultados del experimento

Puede ver que las medidas de precisión para los experimentos de serie temporal pueden variar ampliamente, en función de los datos de experimento evaluados.

La validación es la puntuación calculada sobre los datos de entrenamiento.
Reserva es la puntuación calculada sobre los datos reservados.
Prueba de retroceso es la puntuación media de todas las puntuaciones de prueba de retroceso.

Algoritmos de series temporales

Estos algoritmos están disponibles para su experimento de series temporales. Puede utilizar los algoritmos seleccionados de forma predeterminada, o puede configurar el experimento para incluir o excluir algoritmos específicos.

Algoritmo	Descripción
ARIMA	El modelo de media móvil integrada autorregresiva (ARIMA) es un modelo de serie temporal típico, que puede transformar datos no estacionarios en datos estacionarios a través de la diferenciación y, a continuación, pronosticar el siguiente valor utilizando los valores anteriores, incluidos los valores retardados y los errores de previsión retardados.
BATS	El algoritmo BATS combina la transformación Box-Cox, los residuos ARMA y los factores de tendencia y estacionalidad para predecir los valores futuros.
Ensembler	Ensembler combina varios métodos de previsión para superar la precisión de la predicción simple y para evitar un posible sobreajuste.
Holt-Winters	Utiliza el suavizado exponencial triple para pronosticar puntos de datos en una serie, si la serie es repetitiva a lo largo del tiempo (estacional). Se proporcionan dos tipos de modelos Holt-Winters: Holt-Winters aditivo y Holt-Winters multiplicativo
Bosque aleatorio	Modelo de regresión basado en árbol en el que cada árbol del conjunto se crea a partir de una muestra que se extrae con sustitución (por ejemplo, una muestra de simulación de muestreo) del conjunto de entrenamiento.
Máquina de vectores de soporte (SVM)	Las MVSs son un tipo de modelos de aprendizaje automático que se pueden utilizar tanto para la regresión como para la clasificación. Las SVM utilizan un hiperplano para dividir los datos en clases separadas.
Regresión lineal	Crea una relación lineal entre la variable de serie temporal y el índice de fecha/hora o tiempo con residuos que siguen el proceso AR.

Formatos de fecha y hora soportados

Los formatos de fecha/hora soportados en experimentos de series temporales se basan en las definiciones proporcionadas por dateutil.

Los formatos de fecha soportados son:

Común:

    YYYY
    YYYY-MM, YYYY/MM, or YYYYMM
    YYYY-MM-DD or YYYYMMDD
    mm/dd/yyyy
    mm-dd-yyyy
    JAN YYYY

Poco común:

    YYYY-Www or YYYYWww - ISO week (day defaults to 0)
    YYYY-Www-D or YYYYWwwD - ISO week and day

Numberng para los valores de semana y día ISO sigue la misma lógica que datetime.date.isocalendar().

Los formatos de tiempo soportados son:

    hh
    hh:mm or hhmm
    hh:mm:ss or hhmmss
    hh:mm:ss.ssssss (Up to 6 sub-second digits)
    dd-MMM 
    yyyy/mm

Notas:

La medianoche se puede representar como 00:00 o 24:00. El separador decimal puede ser un punto o una coma.
Las fechas se pueden enviar como series, con comillas dobles, como por ejemplo "1958-01-16".

Características de soporte

Las características de soporte, también conocidas como características exógenas, son características de entrada que pueden influir en el objetivo de predicción. Puede utilizar características de soporte para incluir columnas adicionales del conjunto de datos para mejorar la predicción y aumentar la precisión del modelo. Por ejemplo, en un experimento de serie temporal para predecir precios a lo largo del tiempo, una característica de soporte pueden ser datos sobre ventas y promociones. O, en un modelo que pronostica el consumo de energía, incluida la temperatura diaria hace que la previsión sea más precisa.

Algoritmos y conductos que utilizan características de soporte

Sólo un subconjunto de algoritmos permite características de soporte. Por ejemplo, Holt-winters y BATS no soportan el uso de características de soporte. Los algoritmos que no dan soporte a las características de soporte ignoran la selección para las características de soporte al ejecutar el experimento.

Algunos algoritmos utilizan características de soporte para determinadas variaciones del algoritmo, pero no para otros. Por ejemplo, puede generar dos pipelines diferentes con el algoritmo Random Forest, RandomForestRegressor y ExogenousRandomForestRegressor. La variación ExogenousRandomForestRegressor proporciona soporte para las funciones de apoyo, mientras que RandomForestRegressor no lo hace.

Esta tabla detalla si un algoritmo proporciona soporte para las características de soporte en un experimento de serie temporal:

Algoritmo	Interconexión	Proporcionar soporte para las características de soporte
Bosque aleatorio	RandomForestRegressor	Nee
Bosque aleatorio	ExogenousRandomForestRegressor	Sí
SVM	SVM	Nee
SVM	ExogenousSVM	Sí
Ensembler	LocalizedFlattenEnsembler	Sí
Ensembler	DifferenceFlattenEnsembler	Nee
Ensembler	FlattenEnsembler	Nee
Ensembler	ExogenousLocalizedFlattenEnsembler	Sí
Ensembler	ExogenousDifferenceFlattenEnsembler	Sí
Ensembler	ExogenousFlattenEnsembler	Sí
Regresión	MT2RForecaster	Nee
Regresión	ExogenousMT2RForecaster	Sí
Holt-Winters	HoltWinterAdditive	Nee
Holt-Winters	HoltWinterMultiplicative	Nee
BATS	BATS	Nee
ARIMA	ARIMA	Nee
ARIMA	ARIMAX	Sí
ARIMA	ARIMAX_RSAR	Sí
ARIMA	ARIMAX_PALR	Sí
ARIMA	ARIMAX_RAR	Sí
ARIMA	ARIMAX_DMLR	Sí