0 / 0
Retourner à la version anglaise de la documentation
Noeud Classificateur automatique
Dernière mise à jour : 04 oct. 2024
Noeud classificateur automatique (SPSS Modeler)

Le noeud Classificateur automatique évalue et compare des modèles pour des cibles nominales (ensemble) ou binaires (oui/non) à l'aide de plusieurs méthodes différentes, vous permettant de tester diverses approches dans une seule passe de modélisation. Vous pouvez sélectionner les algorithmes à utiliser et tester diverses combinaisons d'options. Par exemple, plutôt que de choisir entre la fonction de base radiale ou les méthodes Polynomiale, Sigmoïde ou Linéaire pour un SVM, vous pouvez les essayer toutes. Le noeud explore toutes les combinaisons d'options possibles, classe chaque modèle candidat en fonction de la mesure que vous spécifiez et sauvegarde les meilleurs modèles à utiliser dans le scoring ou une analyse supplémentaire.

Exemple
Une société possède des données d'historique sur les offres faites à des clients spécifiques lors des campagnes passées. La société souhaite maintenant obtenir des résultats plus rentables en faisant correspondre l'offre appropriée à chaque client.
Exigences
Un champ cible avec un niveau de mesure Nominal ou Flag (avec le rôle défini sur Cible) et au moins un champ d'entrée (avec le rôle défini sur Entrée). Pour un champ indicateur, la valeur True définie pour la cible est supposée représenter un hit lors du calcul des bénéfices, du lift et des statistiques associées. Les champs d'entrée peuvent avoir un niveau de mesure Continuous ou Categorical, avec la limitation que certaines entrées peuvent ne pas être appropriées pour certains types de modèle. Par exemple, les champs ordinaux utilisés comme entrées dans les modèles Arbre C&RT, CHAID et QUEST doivent disposer d'un stockage numérique (et non d'une chaîne), et seront ignorés par ces modèles si indication contraire. De la même manière, dans certains cas, les champs d'entrée continus peuvent être discrétisés. Les exigences sont les mêmes que pour les noeuds modélisation individuels ; par exemple, un modèle du réseau Bayes fonctionne de la même façon s'il est généré à partir du noeud du réseau Bayes ou du noeud Classificateur automatique.
Champs de fréquence et de pondération
La fréquence et la pondération sont utilisées pour donner plus d'importance à certains enregistrements ; par exemple, l'utilisateur sait que l'ensemble de données de création sous-représente une section de la population parent (Pondération) ou parce qu'un enregistrement représente un nombre d'observations identiques (Fréquence). S'il cela est indiqué, un champ de fréquence peut être utilisé par les modèles de réseau C&RT, CHAID, QUEST, Liste de décision et Bayes. Un champ de pondération peut être utilisé par les modèles C&RT, CHAID et C5.0. Les autres types de modèles ignoreront ces champs et créeront les modèles de toute façon. Les champs de fréquence et de pondération sont utilisés uniquement pour la création de modèles et ne sont pas pris en compte lors de l'évaluation des modèles.
Préfixes
Si vous associez un noeud table au nugget pour le noeud Classificateur automatique, plusieurs nouvelles variables figurent dans le tableau avec des noms commençant par le préfixe $.
Les noms des champs générés lors du scoring sont basés sur le champ cible, mais avec un préfixe standard. Les différents types de modèles utilisent des ensembles de préfixes distincts.
Par exemple, les préfixes $G, $R, $C sont utilisés comme préfixe pour les prévisions générées par le modèle Linear généralisé, le modèle CHAID et le modèle C5.0, respectivement. $X est généralement généré à l'aide d'un ensemble, et $XR, $XS et $XF sont utilisés comme préfixes dans les cas où la zone cible est une zone Continu, catégorielle ou Indicateur, respectivement.
$..Les préfixes C sont utilisés pour la fiabilité des prévisions d'une cible catégorielle ou indicateur ; par exemple, $XFC est utilisé comme préfixe pour la confiance des prévisions d'ensemble. $RC et $CC sont les préfixes pour une seule prédiction de confiance pour un modèle CHAID et le modèle C5.0 respectivement.

Types de modèle pris en charge

Les types de modèles pris en charge sont Réseau de neurones, Arbre C&RT, QUEST, CHAID, C5.0, Régression logistique, Liste de décision, Bayes Net, Discriminant, Agrégation suivant le saut minimum, SVM, XGBoost Tree et XGBoost-AS.

Paramètres de validation croisée

Dans les propriétés du noeud, notez que les paramètres de validation croisée sont disponibles. La validation croisée est une technique utile pour tester l'efficacité (éviter le surajustement) des modèles d'apprentissage automatique, et il s'agit également d'une procédure de rééchantillonnage que vous pouvez utiliser pour évaluer un modèle si vous avez des données limitées.

La méthode K-fold est un moyen connu et facile d'effectuer une validation croisée. Elle génère généralement un modèle moins biaisé comparé à une partition unique d'apprentissage et de test, car elle permet de s'assurer que chaque observation de l'ensemble de données d'origine a la possibilité d'apparaître dans les ensembles d'apprentissage et de test. La procédure générale de validation croisée par K est la suivante.
Remarque: La modélisation automatique parallèle en mode de validation croisée (exécution simultanée de plusieurs noeuds de modélisation automatique, par exemple via le bouton Exécuter tout ) n'est pas prise en charge pour le moment. Comme solution palliative, vous pouvez exécuter chaque noeud de modélisation automatique (avec la validation croisée activée, qui est désactivée par défaut) un par un.
  1. Mélangez l'ensemble de données de manière aléatoire.
  2. Scindez l'ensemble de données en k-folds/groupes.
  3. Pour chaque "fold"/groupe :
    1. Utilisez tour à tour chacun des "folds"/groupes en tant qu'ensemble de données de test.
    2. Utilisez les groupes restants pour l'apprentissage.
    3. Ajustez un modèle sur l'ensemble d'apprentissage et évaluez-le sur l'ensemble de test.
    4. Conservez le score d'évaluation et supprimez le modèle.
  4. Résumez l'évaluation globale du modèle à l'aide des scores d'évaluation des k-folds retenus.

La validation croisée est actuellement prise en charge via le noeud Classificateur automatique et le noeud Numérisation automatique. Cliquez deux fois sur le noeud pour ouvrir ses propriétés. En sélectionnant l'option Effectuer la validation croisée, une seule partition d'apprentissage et de test est désactivée et les noeuds Automatique utilisent la validation croisée k-fold pour évaluer l'ensemble sélectionné de différents algorithmes.

Vous pouvez spécifier le Nombre de folds (K). La valeur par défaut est 5, avec une plage de 3 à 10. Si vous souhaitez conserver l'échantillonnage reproductible pendant la validation croisée, afin d'avoir des mesures d'évaluation finale cohérentes pour les modèles générés à travers différentes exécutions, vous pouvez sélectionner l'option Affectation de partition de validation croisée répétable. Vous pouvez également définir la Valeur de départ aléatoire sur une valeur spécifique de sorte que le modèle obtenu soit exactement reproductible. Ou cliquez sur Générer pour générer toujours la même séquence de valeurs aléatoires, auquel cas l'exécution du noeud génère toujours le même modèle généré.

Machine learning en continu

L'inconvénient de la modélisation est que les modèles deviennent obsolètes en raison de l'évolution de vos données au fil du temps. Ce phénomène est appelé dérive des modèles ou dérive conceptuelle. Pour éviter cette dérive, SPSS Modeler offre une fonction de machine learning automatique en continu. Cette dernière est disponible pour les nuggets du modèle de noeud Classificateur automatique et Numérisation automatique. Pour plus d'informations, voir Apprentissage automatique continu.

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus