Le noeud Classificateur automatique évalue et compare des modèles pour des cibles nominales (ensemble) ou binaires (oui/non) à l'aide de plusieurs méthodes différentes, vous permettant de tester diverses approches dans une seule passe de modélisation. Vous pouvez sélectionner les algorithmes à utiliser et tester diverses combinaisons d'options. Par exemple, plutôt que de choisir entre la fonction de base radiale ou les méthodes Polynomiale, Sigmoïde ou Linéaire pour un SVM, vous pouvez les essayer toutes. Le noeud explore toutes les combinaisons d'options possibles, classe chaque modèle candidat en fonction de la mesure que vous spécifiez et sauvegarde les meilleurs modèles à utiliser dans le scoring ou une analyse supplémentaire.
- Exemple
- Une société possède des données d'historique sur les offres faites à des clients spécifiques lors des campagnes passées. La société souhaite maintenant obtenir des résultats plus rentables en faisant correspondre l'offre appropriée à chaque client.
- Exigences
- Un champ cible avec un niveau de mesure
Nominal
ouFlag
(avec le rôle défini sur Cible) et au moins un champ d'entrée (avec le rôle défini sur Entrée). Pour un champ indicateur, la valeurTrue
définie pour la cible est supposée représenter un hit lors du calcul des bénéfices, du lift et des statistiques associées. Les champs d'entrée peuvent avoir un niveau de mesureContinuous
ouCategorical
, avec la limitation que certaines entrées peuvent ne pas être appropriées pour certains types de modèle. Par exemple, les champs ordinaux utilisés comme entrées dans les modèles Arbre C&RT, CHAID et QUEST doivent disposer d'un stockage numérique (et non d'une chaîne), et seront ignorés par ces modèles si indication contraire. De la même manière, dans certains cas, les champs d'entrée continus peuvent être discrétisés. Les exigences sont les mêmes que pour les noeuds modélisation individuels ; par exemple, un modèle du réseau Bayes fonctionne de la même façon s'il est généré à partir du noeud du réseau Bayes ou du noeud Classificateur automatique. - Champs de fréquence et de pondération
- La fréquence et la pondération sont utilisées pour donner plus d'importance à certains enregistrements ; par exemple, l'utilisateur sait que l'ensemble de données de création sous-représente une section de la population parent (Pondération) ou parce qu'un enregistrement représente un nombre d'observations identiques (Fréquence). S'il cela est indiqué, un champ de fréquence peut être utilisé par les modèles de réseau C&RT, CHAID, QUEST, Liste de décision et Bayes. Un champ de pondération peut être utilisé par les modèles C&RT, CHAID et C5.0. Les autres types de modèles ignoreront ces champs et créeront les modèles de toute façon. Les champs de fréquence et de pondération sont utilisés uniquement pour la création de modèles et ne sont pas pris en compte lors de l'évaluation des modèles.
- Préfixes
- Si vous associez un noeud table au nugget pour le noeud Classificateur automatique, plusieurs nouvelles variables figurent dans le tableau avec des noms commençant par le préfixe $.
Types de modèle pris en charge
Les types de modèles pris en charge sont Réseau de neurones, Arbre C&RT, QUEST, CHAID, C5.0, Régression logistique, Liste de décision, Bayes Net, Discriminant, Agrégation suivant le saut minimum, SVM, XGBoost Tree et XGBoost-AS.
Paramètres de validation croisée
Dans les propriétés du noeud, notez que les paramètres de validation croisée sont disponibles. La validation croisée est une technique utile pour tester l'efficacité (éviter le surajustement) des modèles d'apprentissage automatique, et il s'agit également d'une procédure de rééchantillonnage que vous pouvez utiliser pour évaluer un modèle si vous avez des données limitées.
- Mélangez l'ensemble de données de manière aléatoire.
- Scindez l'ensemble de données en k-folds/groupes.
- Pour chaque "fold"/groupe :
- Utilisez tour à tour chacun des "folds"/groupes en tant qu'ensemble de données de test.
- Utilisez les groupes restants pour l'apprentissage.
- Ajustez un modèle sur l'ensemble d'apprentissage et évaluez-le sur l'ensemble de test.
- Conservez le score d'évaluation et supprimez le modèle.
- Résumez l'évaluation globale du modèle à l'aide des scores d'évaluation des k-folds retenus.
La validation croisée est actuellement prise en charge via le noeud Classificateur automatique et le noeud Numérisation automatique. Cliquez deux fois sur le noeud pour ouvrir ses propriétés. En sélectionnant l'option Effectuer la validation croisée, une seule partition d'apprentissage et de test est désactivée et les noeuds Automatique utilisent la validation croisée k-fold pour évaluer l'ensemble sélectionné de différents algorithmes.
Vous pouvez spécifier le Nombre de folds (K). La valeur par défaut est 5, avec une plage de 3 à 10. Si vous souhaitez conserver l'échantillonnage reproductible pendant la validation croisée, afin d'avoir des mesures d'évaluation finale cohérentes pour les modèles générés à travers différentes exécutions, vous pouvez sélectionner l'option Affectation de partition de validation croisée répétable. Vous pouvez également définir la Valeur de départ aléatoire sur une valeur spécifique de sorte que le modèle obtenu soit exactement reproductible. Ou cliquez sur Générer pour générer toujours la même séquence de valeurs aléatoires, auquel cas l'exécution du noeud génère toujours le même modèle généré.
Machine learning en continu
L'inconvénient de la modélisation est que les modèles deviennent obsolètes en raison de l'évolution de vos données au fil du temps. Ce phénomène est appelé dérive des modèles ou dérive conceptuelle. Pour éviter cette dérive, SPSS Modeler offre une fonction de machine learning automatique en continu. Cette dernière est disponible pour les nuggets du modèle de noeud Classificateur automatique et Numérisation automatique. Pour plus d'informations, voir Apprentissage automatique continu.