0 / 0
Volver a la versión inglesa de la documentación
Detalles de implementación de imputación de datos para experimentos de series temporales
Última actualización: 07 oct 2024
Detalles de implementación de imputación de datos para experimentos de series temporales

Los valores de experimento utilizados para la imputación de datos en experimentos de serie temporal.

Métodos de imputación de datos

Aplique uno de estos métodos de imputación de datos en los valores de experimento para proporcionar valores perdidos en un conjunto de datos.

Métodos de imputación de datos para experimentos de clasificación y regresión
Método de imputación Descripción
FlattenIterative Los datos de serie temporal se aplanan en primer lugar y, a continuación, los valores perdidos se imputan con el imputador iterativo Scikit-learn.
Lineal El método de interpolación lineal se utiliza para imputar el valor perdido.
Cúbico El método de interpolación cúbica se utiliza para imputar el valor perdido.
Anterior El valor perdido se imputa con el valor anterior.
Siguiente El valor perdido se imputa con el siguiente valor.
Relleno El valor perdido se imputa utilizando el valor especificado por el usuario, o la media muestral o la mediana muestral.

Valores de entrada

Estos mandatos se utilizan para dar soporte a la imputación de datos para experimentos de series temporales en un cuaderno.

Métodos de imputación de datos para experimentos de series temporales
Nombre Descripción Valor DefaultValue
use_imputation Distintivo para activar o desactivar la imputación. True o False
imputer_list Lista de nombres de imputación (series) que buscar. Si no se especifica una lista, se busca en todos los imputados predeterminados. Si se pasa una lista vacía, se busca en todos los imputados. "FlattenIterative", "Linear", "Cubic", "Previous", "Fill", "Next" "FlattenIterative", "Linear", "Cubic", "Previous"
imputer_fill_type Categorías de imputación "Fill" "mean"/"median"/"value" "valor"
imputer_fill_value Un único valor numérico que debe rellenarse para todos los valores perdidos. Solo se aplica cuando se especifica "imputer_fill_type" como "value". Se ignora si se especifica "mean" o "median" para "imputer_fill_type. (Infinito negativo, Infinito positivo) 0
imputation_threshold Umbral de imputación. La proporción de valor perdido no debe ser mayor que el umbral en una columna. De lo contrario, se produce un error. (0, 1) 0.25

Notas para el uso de use_imputation

  • Si el método use_imputation se especifica como True y los datos de entrada tienen valores perdidos:

    • imputation_threshold entra en vigor.
    • Los candidatos a imputar en imputer_list se utilizarían para buscar el mejor imputado.
    • Si el mejor imputador es Fill, se aplican imputer_fill_type y imputer_fill_value ; de lo contrario, se ignoran.
  • Si el método use_imputation se especifica como True y los datos de entrada no tienen valores perdidos:

    • imputation_threshold is ignored.
    • los candidatos de imputador en imputer_list se utilizan para buscar el mejor imputador. Si el mejor imputador es Fill, se aplican imputer_fill_type y imputer_fill_value ; de lo contrario, se ignoran.
  • Si el método use_imputation se especifica como False pero los datos de entrada tienen valores perdidos:

    • use_imputation se activa con un aviso y, a continuación, el método sigue el comportamiento del primer escenario.
  • Si el método use_imputation se especifica como False y los datos de entrada no tienen valores perdidos, no es necesario ningún proceso adicional.

Por ejemplo:

"pipelines": [
      {
        "id": "automl",
        "runtime_ref": "hybrid",
        "nodes": [
          {
            "id": "automl-ts",
            "type": "execution_node",
            "op": "kube",
            "runtime_ref": "automl",
            "parameters": {
              "del_on_close": true,
              "optimization": {
	          "target_columns": [2,3,4],
	          "timestamp_column": 1,
	          "use_imputation": true
              }
            }
          }
        ]
      }
    ]

Tema padre: Imputación de datos en experimentos de AutoAI