0 / 0
Retourner à la version anglaise de la documentation
L'imputation des données dans les expérimentations AutoAI
Dernière mise à jour : 07 oct. 2024
L'imputation des données dans les expérimentations AutoAI

L'imputation des données est le moyen de remplacer les valeurs manquantes dans votre ensemble de données par des valeurs substituées. Si vous activez l'imputation, vous pouvez spécifier comment les valeurs manquantes sont interpolées dans vos données.

Imputation par type d'expérimentation

Les méthodes d'imputation dépendent du type d'expérimentation que vous générez.

  • Pour la classification et la régression, vous pouvez configurer des méthodes d'imputation catégorielles et numériques.
  • Pour les problèmes de série temporelle, vous pouvez choisir parmi un ensemble de méthodes d'imputation à appliquer aux colonnes numériques. Lors de l'exécution de l'expérimentation, la meilleure méthode d'exécution de l'ensemble est appliquée automatiquement. Vous pouvez également spécifier une valeur spécifique comme valeur de remplacement.

Activation de l'imputation

Pour afficher et définir les options d'imputation :

  1. Cliquez sur Paramètres d'expérimentation lorsque vous configurez votre expérimentation.
  2. Cliquez sur l'option Source de données.
  3. Cliquez sur Activer l'imputation des données. Notez que si vous n'activez pas explicitement l'imputation des données mais que votre source de données a des valeurs manquantes, AutoAI vous met en garde et applique les méthodes d'imputation par défaut. Voir Détails d'imputation.
  4. Sélectionnez les options dans la section Imputation.
  5. Définissez éventuellement un seuil pour le pourcentage d'imputation acceptable pour une colonne de données. Si le pourcentage de valeurs manquantes dépasse le seuil spécifié, l'expérimentation échoue. Pour résoudre, mettez à jour la source de données ou ajustez le seuil.

Configuration de l'imputation pour les expériences de classification et de régression

Choisissez l'une de ces méthodes pour imputer des données manquantes dans des expérimentations de classification binaire, de classification multi-classes ou de régression. Notez que vous pouvez utiliser une méthode pour compléter les valeurs des données textuelles (catégorielles) et une autre pour les données numériques.

Méthode Descriptif
Le plus fréquent Remplacez la valeur manquante par la valeur qui apparaît le plus fréquemment dans la colonne.
Médiane Remplacez la valeur manquante par la valeur au milieu de la colonne triée.
Moyenne Remplacez la valeur manquante par la valeur moyenne de la colonne.

Configuration de l'imputation pour les expérimentations de temps partagé

Choisissez une ou plusieurs de ces méthodes. Lorsque plusieurs méthodes sont sélectionnées, la méthode la plus performante est automatiquement appliquée à l'expérimentation.

Remarque: L'imputation n'est pas prise en charge pour les valeurs de date ou d'heure.
Méthode Descriptif
Cubique Utilise l'interpolation cubique en utilisant la méthode pandas / scipy pour remplir les valeurs manquantes.
Compléter Choisissez Valeur comme type pour remplacer les valeurs manquantes par une valeur numérique que vous spécifiez.
Itératif de mise à plat Les données sont d'abord aplaties, puis le Scikit - apprentissage d'itération itérative est appliqué pour trouver les valeurs manquantes.
Linéaire Utilisez l'interpolation linéaire à l'aide de la méthode pandas / scipy pour remplir les valeurs manquantes.
Suivant Remplacez la valeur manquante par la valeur suivante.
Précédent Remplacez la valeur manquante par la valeur précédente.

Etapes suivantes

Détails de l'implémentation de l'imputation des données pour les expérimentations de série temporelle

Rubrique parent : Présentation d'AutoAI

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus