Si la majorité des valeurs manquantes est concentrée dans un petit nombre de champs, vous pouvez les traiter au niveau du champ plutôt qu'au niveau de l'enregistrement. Cette méthode vous permet de tester l'importance relative de certains champs avant de décider d'une méthode de traitement des valeurs manquantes. Si un champ n'est pas significatif en termes de modélisation, il n'est probablement pas utile de le conserver, quel que soit le nombre de valeurs manquantes qu'il comporte.
Par exemple, une société effectuant des études de marché peut recueillir des données à l'aide d'un questionnaire général de 50 questions. Deux des questions abordent l'âge et les idéologies politiques, informations que bon nombre de personnes hésitent à fournir. Dans ce cas, Age
et Political_persuasion
ont de nombreuses valeurs manquantes.
Niveau de mesure de champ
Pour choisir la méthode à utiliser, vous devez également tenir compte du niveau de mesure de champs contenant des valeurs manquantes.
Champs numériques. Pour les types de champ numérique, tels que Continuous
, vous devez toujours éliminer les valeurs non numériques avant de créer un modèle, car de nombreux modèles ne fonctionneront pas si des blancs sont inclus dans les champs numériques.
Champs catégoriels. Pour les champs catégoriels, tels que Nominal
et Flag
, la modification des valeurs manquantes n'est pas nécessaire, mais augmente la précision du modèle. Par exemple, un modèle qui utilise le champ Sex
fonctionnera toujours avec des valeurs non significatives, telles que Y
et Z
, mais la suppression de toutes les valeurs autres que M
et F
augmentera la précision du modèle.
Filtrage ou retrait de champs
Pour filtrer les champs présentant un nombre trop élevé de valeurs manquantes, vous disposez de plusieurs options :
- Vous pouvez utiliser un noeud Audit données pour filtrer les champs en fonction de la qualité
- Vous pouvez utiliser un noeud Sélection de fonction pour filtrer les champs avec plus d'un pourcentage spécifié de valeurs manquantes et classer les champs en fonction de l'importance par rapport à une cible spécifiée.
- Au lieu de supprimer les champs, vous pouvez utiliser un noeud type pour définir le rôle du champ sur Aucun. Ainsi, les champs resteront dans l'ensemble de données mais seront supprimés du processus de modélisation