L'imputation des données est le moyen de remplacer les valeurs manquantes dans votre ensemble de données par des valeurs substituées. Si vous activez l'imputation, vous pouvez spécifier comment les valeurs manquantes sont interpolées dans vos données.
Imputation par type d'expérimentation
Les méthodes d'imputation dépendent du type d'expérimentation que vous générez.
- Pour la classification et la régression, vous pouvez configurer des méthodes d'imputation catégorielles et numériques.
- Pour les problèmes de série temporelle, vous pouvez choisir parmi un ensemble de méthodes d'imputation à appliquer aux colonnes numériques. Lors de l'exécution de l'expérimentation, la meilleure méthode d'exécution de l'ensemble est appliquée automatiquement. Vous pouvez également spécifier une valeur spécifique comme valeur de remplacement.
Activation de l'imputation
Pour afficher et définir les options d'imputation :
- Cliquez sur Paramètres d'expérimentation lorsque vous configurez votre expérimentation.
- Cliquez sur l'option Source de données.
- Cliquez sur Activer l'imputation des données. Notez que si vous n'activez pas explicitement l'imputation des données mais que votre source de données a des valeurs manquantes, AutoAI vous met en garde et applique les méthodes d'imputation par défaut. Voir Détails d'imputation.
- Sélectionnez les options dans la section Imputation.
- Définissez éventuellement un seuil pour le pourcentage d'imputation acceptable pour une colonne de données. Si le pourcentage de valeurs manquantes dépasse le seuil spécifié, l'expérimentation échoue. Pour résoudre, mettez à jour la source de données ou ajustez le seuil.
Configuration de l'imputation pour les expériences de classification et de régression
Choisissez l'une de ces méthodes pour imputer des données manquantes dans des expérimentations de classification binaire, de classification multi-classes ou de régression. Notez que vous pouvez utiliser une méthode pour compléter les valeurs des données textuelles (catégorielles) et une autre pour les données numériques.
Méthode | Descriptif |
---|---|
Le plus fréquent | Remplacez la valeur manquante par la valeur qui apparaît le plus fréquemment dans la colonne. |
Médiane | Remplacez la valeur manquante par la valeur au milieu de la colonne triée. |
Moyenne | Remplacez la valeur manquante par la valeur moyenne de la colonne. |
Configuration de l'imputation pour les expérimentations de temps partagé
Choisissez une ou plusieurs de ces méthodes. Lorsque plusieurs méthodes sont sélectionnées, la méthode la plus performante est automatiquement appliquée à l'expérimentation.
Méthode | Descriptif |
---|---|
Cubique | Utilise l'interpolation cubique en utilisant la méthode pandas / scipy pour remplir les valeurs manquantes. |
Compléter | Choisissez Valeur comme type pour remplacer les valeurs manquantes par une valeur numérique que vous spécifiez. |
Itératif de mise à plat | Les données sont d'abord aplaties, puis le Scikit - apprentissage d'itération itérative est appliqué pour trouver les valeurs manquantes. |
Linéaire | Utilisez l'interpolation linéaire à l'aide de la méthode pandas / scipy pour remplir les valeurs manquantes. |
Suivant | Remplacez la valeur manquante par la valeur suivante. |
Précédent | Remplacez la valeur manquante par la valeur précédente. |
Etapes suivantes
Rubrique parent : Présentation d'AutoAI