Tema traducido automáticamente Puede cambiar a la versión en inglésConsulte la declaración de limitación de responsabilidad
Consulte la versión en inglés (original) para obtener la versión más precisa y actualizada de esta documentación. IBM no se responsabiliza de los daños o pérdidas resultantes del uso de contenido traducido automáticamente (máquina).
Imputación de datos en experimentos de AutoAI
Última actualización: 04 oct 2024
Imputación de datos en experimentos de AutoAI
La imputación de datos es el medio de sustituir valores perdidos en el conjunto de datos por valores sustituidos. Si habilita la imputación, puede especificar cómo se interpolan los valores perdidos en los datos.
Imputación por tipo de experimento
Copy link to section
Los métodos de imputación dependen del tipo de experimento que cree.
Para la clasificación y la regresión, puede configurar métodos de imputación categóricos y numéricos.
Para los problemas de serie temporal, puede elegir entre un conjunto de métodos de imputación para aplicarlos a columnas numéricas. Cuando se ejecuta el experimento, el método de mejor rendimiento del conjunto se aplica automáticamente. También puede especificar un valor específico como valor de sustitución.
Habilitación de la imputación
Copy link to section
Para ver y establecer opciones de imputación:
Pulse Valores de experimento cuando configure el experimento.
Pulse la opción Origen de datos.
Pulse Habilitar imputación de datos. Tenga en cuenta que si no habilita explícitamente la imputación de datos pero su origen de datos tiene valores perdidos, AutoAI le avisa y aplica los métodos de imputación predeterminados. Consulte Detalles de imputación.
Seleccione las opciones en la sección Imputación.
Opcionalmente, establezca un umbral para el porcentaje de imputación aceptable para una columna de datos. Si el porcentaje de valores perdidos supera el umbral especificado, el experimento falla. Para resolverlo, actualice el origen de datos o ajuste el umbral.
Configuración de imputación para experimentos de clasificación y regresión
Copy link to section
Elija uno de estos métodos para imputar los datos que faltan en la clasificación binaria, la clasificación multiclase o los experimentos de regresión. Tenga en cuenta que puede tener un método para completar valores para datos basados en texto (categóricos) y otro para datos numéricos.
Método
Descripción
Más frecuente
Sustituya el valor que falta por el valor que aparece con más frecuencia en la columna.
Mediana
Sustituya el valor perdido por el valor de la mitad de la columna ordenada.
Media
Sustituya el valor perdido por el valor promedio de la columna.
Configuración de imputación para experimentos de series temporales
Copy link to section
Elija algunos o todos estos métodos. Cuando se seleccionan varios métodos, el método con mejor rendimiento se aplica automáticamente para el experimento.
Nota: La imputación no está soportada para los valores de fecha u hora.
Método
Descripción
Cúbico
Utiliza la interpolación cúbica utilizando el método pandas/scipy para rellenar los valores perdidos.
Relleno
Seleccione valor como tipo para sustituir los valores perdidos por un valor numérico que especifique.
Iterativo simplificado
Primero los datos se aplanan y luego se aplica el imputador iterativo Scikit-learn para encontrar valores perdidos.
Lineal
Utilice la interpolación lineal utilizando el método pandas/scipy para rellenar los valores perdidos.
Siguiente
Sustituya el valor perdido por el siguiente valor.