0 / 0
Volver a la versión inglesa de la documentación
Imputación de datos en experimentos de AutoAI
Última actualización: 04 oct 2024
Imputación de datos en experimentos de AutoAI

La imputación de datos es el medio de sustituir valores perdidos en el conjunto de datos por valores sustituidos. Si habilita la imputación, puede especificar cómo se interpolan los valores perdidos en los datos.

Imputación por tipo de experimento

Los métodos de imputación dependen del tipo de experimento que cree.

  • Para la clasificación y la regresión, puede configurar métodos de imputación categóricos y numéricos.
  • Para los problemas de serie temporal, puede elegir entre un conjunto de métodos de imputación para aplicarlos a columnas numéricas. Cuando se ejecuta el experimento, el método de mejor rendimiento del conjunto se aplica automáticamente. También puede especificar un valor específico como valor de sustitución.

Habilitación de la imputación

Para ver y establecer opciones de imputación:

  1. Pulse Valores de experimento cuando configure el experimento.
  2. Pulse la opción Origen de datos.
  3. Pulse Habilitar imputación de datos. Tenga en cuenta que si no habilita explícitamente la imputación de datos pero su origen de datos tiene valores perdidos, AutoAI le avisa y aplica los métodos de imputación predeterminados. Consulte Detalles de imputación.
  4. Seleccione las opciones en la sección Imputación.
  5. Opcionalmente, establezca un umbral para el porcentaje de imputación aceptable para una columna de datos. Si el porcentaje de valores perdidos supera el umbral especificado, el experimento falla. Para resolverlo, actualice el origen de datos o ajuste el umbral.

Configuración de imputación para experimentos de clasificación y regresión

Elija uno de estos métodos para imputar los datos que faltan en la clasificación binaria, la clasificación multiclase o los experimentos de regresión. Tenga en cuenta que puede tener un método para completar valores para datos basados en texto (categóricos) y otro para datos numéricos.

Método Descripción
Más frecuente Sustituya el valor que falta por el valor que aparece con más frecuencia en la columna.
Mediana Sustituya el valor perdido por el valor de la mitad de la columna ordenada.
Media Sustituya el valor perdido por el valor promedio de la columna.

Configuración de imputación para experimentos de series temporales

Elija algunos o todos estos métodos. Cuando se seleccionan varios métodos, el método con mejor rendimiento se aplica automáticamente para el experimento.

Nota: La imputación no está soportada para los valores de fecha u hora.
Método Descripción
Cúbico Utiliza la interpolación cúbica utilizando el método pandas/scipy para rellenar los valores perdidos.
Relleno Seleccione valor como tipo para sustituir los valores perdidos por un valor numérico que especifique.
Iterativo simplificado Primero los datos se aplanan y luego se aplica el imputador iterativo Scikit-learn para encontrar valores perdidos.
Lineal Utilice la interpolación lineal utilizando el método pandas/scipy para rellenar los valores perdidos.
Siguiente Sustituya el valor perdido por el siguiente valor.
Anterior Sustituya el valor perdido por el valor anterior.

Próximos pasos

Detalles de implementación de imputación de datos para experimentos de series temporales

Tema principal: Visión general de AutoAI

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información