Au cours de l'étape de préparation des données d'exploration de données, vous aurez souvent à remplacer des valeurs manquantes.
Les valeurs manquantes sont des valeurs de l'ensemble de données qui sont inconnues, non recueillies ou entrées de façon incorrecte. En général, ces valeurs ne sont pas valides pour leur champ. Par exemple, la zone Sex
doit contenir les valeurs M
et F
. Si vous découvrez les valeurs Y
ou Z
dans la zone, vous pouvez supposer en toute sécurité que ces valeurs ne sont pas valides et doivent donc être interprétées comme des blancs. De même, une valeur négative pour le champ Age
ne signifie rien et devrait également être considérée comme blanc. Souvent, de telles valeurs manifestement erronées sont volontairement entrées, ou les champs sont laissés vides, au cours d'un questionnaire pour indiquer une non-réponse. Il est recommandé d'apporter une attention particulière à ces blancs pour déterminer si une absence de réponse, telle que le refus d'indiquer son âge, est un facteur dans la prévision d'un résultat spécifique.
Certaines méthodes de modélisation traitent mieux les données manquantes que d'autres. Par exemple, le noeudC5.0 et le noeud Apriori font bien face aux valeurs explicitement déclarées comme "manquantes" dans un noeud type. D'autres méthodes de modélisation rencontrent des problèmes de traitement des données manquantes, entraînant ainsi des durées d'apprentissage prolongées et des modèles moins précis.
- Valeurs système nulles ou manquantes. Il s'agit de valeurs non chaîne qui ont été laissées vides dans la base de données ou le fichier source et qui n'ont pas été spécifiquement définies comme "manquantes" dans un noeud Importer ou Type. Les valeurs manquantes système sont affichées sous la forme
$null$
. Notez que les chaînes vides ne sont pas considérées comme des valeurs nulles dans, bien qu'elles puissent être traitées comme des valeurs nulles par certaines bases de données. - Chaînes vides et espaces blancs. Les chaînes vides et les espaces blancs (chaînes sans caractère visible) sont traités différemment des valeurs nulles. Dans la plupart des cas, les chaînes vides sont considérées comme des espaces blancs. Par exemple, si vous choisissez de traiter les espaces blancs comme blancs dans un noeud Importer ou Typer, ce paramètre s'applique également aux chaînes vides.
- Valeurs manquantes définies par l'utilisateur ou vides. Il s'agit de valeurs telles que
unknown
,99
ou–1
qui sont explicitement définies dans un noeud d'importation ou un noeud type comme manquantes. Vous pouvez également, si vous le souhaitez, préciser si les valeurs nulles et les espaces blancs doivent être traités comme des blancs ; un traitement spécial leur est alors appliqué et ils sont exclus de la plupart des calculs. Par exemple, vous pouvez utiliser la fonction@BLANK
pour traiter comme des blancs ces valeurs, ainsi que d'autres types de valeur manquante.
Lecture de données mixtes. Notez que lorsque vous lisez des champs avec un stockage numérique (entier, réel, temps, horodatage ou date), toutes les valeurs non numériques sont définies sur null
ou system missing
. En effet, contrairement à certaines applications, les types de stockage mixtes ne sont pas autorisés dans un champ. Pour éviter ce type de problème, faites en sorte que les champs comportant des données mixtes soient lus en tant que chaînes ; pour cela, modifiez le type de stockage dans le noeud Importer ou dans l'application externe si nécessaire.
Lecture de chaînes vides issues d'Oracle. Lors de la lecture ou de l'écriture dans une base de données Oracle , sachez que, contrairement à la plupart des autres bases de données, Oracle traite et stocke les valeurs de chaîne vides comme des valeurs nulles. Autrement dit, les mêmes données extraites d'une base de données Oracle, ou d'un fichier ou d'une autre base de données peuvent se comporter différemment, et donc renvoyer des résultats différents.