Le noeud Discrétiser permet de créer automatiquement de nouveaux champs nominaux sur la base des valeurs d'un ou de plusieurs champs continus numériques existants (intervalle numérique). Par exemple, vous pouvez transformer un champ continu de revenus en un nouveau champ catégoriel contenant des groupes de revenus de largeur égale ou comme écarts par rapport à la moyenne. Vous pouvez également sélectionner un champ de superviseur catégoriel afin de conserver la force de l'association d'origine entre deux champs.
La création d'intervalles peut s'avérer utile pour un certain nombre de raisons, notamment :
- Matrice de diagramme de dispersion. Certains algorithmes, Naive Bayes ou la régression logistique par exemple, nécessitent des entrées catégorielles.
- Performances. Les algorithmes comme la logistique multinomiale peuvent obtenir de meilleures performances si le nombre de valeurs distinctes des champs d'entrée est réduit. Utilisez par exemple la valeur médiane ou moyenne pour chaque noeud plutôt que la valeur d'origine.
- Data Privacy. Pour les informations personnelles et confidentielles, par exemple les salaires, vous pouvez indiquer des intervalles plutôt que les chiffres exacts afin de protéger la confidentialité.
Un certain nombre de méthode de regroupements par casiers sont disponibles. Après avoir créé des casiers pour le nouveau champ, vous pouvez générer un noeud Calculer en fonction des points de césure.
Quand faut-il utiliser un noeud Discrétiser ?
Avant d'utiliser un noeud Discrétiser, assurez-vous qu'aucune autre technique n'est plus adéquate pour cette tâche :
- Pour indiquer manuellement les points de césure des catégories, telles que des intervalles salariaux prédéfinis, utilisez un noeud Calculer. Pour plus d'informations, voir Noeud Calculer .
- Pour créer de nouvelles catégories pour des ensembles existants, utilisez un noeud Recoder. Pour plus d'informations, voir Noeud Recoder .
Gestion des valeurs manquantes
Le noeud Discrétiser traite les valeurs manquantes de l'une des manières suivantes :
- Blancs définis par l'utilisateur. Les valeurs manquantes définies comme des blancs sont incluses dans la transformation. Par exemple, si vous avez indiqué -99 pour indiquer une valeur non renseignée à l'aide du noeud Typer, cette valeur sera incluse dans la création des casiers. Pour ignorer les blancs au cours de la création des casiers, utilisez un noeud Remplacer pour remplacer les valeurs non renseignées par la valeur système nulle.
- Valeurs système manquantes ($null$). Les valeurs NULL sont ignorées lors de la transformation de regroupement et restent nulles après la transformation.
L'onglet Paramètres propose les options des différentes techniques. L'onglet Affichage affiche les points de césure établis pour les données précédemment passées dans ce noeud.