Le noeud Numérisation automatique évalue et compare les résultats d'intervalle numérique connu des modèles à l'aide de plusieurs méthodes différentes, vous permettant de tester diverses approches dans une seule passe de modélisation. Vous pouvez sélectionner les algorithmes à utiliser et tester diverses combinaisons d'options. Par exemple, vous pouvez prévoir des valeurs immobilières par le biais des modèles de réseau de neurones, de régression linéaire, de C&RT et de CHAID et voir les meilleurs résultats. Vous pouvez également essayer différentes combinaisons de méthodes de régression Pas à pas, Ascendante et Descendante. Le noeud explore toutes les combinaisons d'options possibles, classe chaque modèle candidat en fonction de la mesure que vous spécifiez et sauvegarde le meilleur à utiliser dans le scoring ou une analyse supplémentaire.
- Exemple
- Une municipalité souhaite pouvoir évaluer de façon plus précise les taxes immobilières et ajuster les valeurs de certaines propriétés sans avoir à vérifier toutes les propriétés. A l'aide du nœud Numérisation automatique, l'analyste peut générer et comparer un certain nombre de modèles qui prédisent les valeurs des propriétés en fonction du type de construction, du voisinage, de la taille et d'autres facteurs connus.
- Conditions requises
- Un champ cible unique (dont le rôle est défini comme Cible), et au moins un champ d'entrée (dont le rôle est défini comme Entrée). La cible doit être un champ continu (intervalle numérique), tel que âge ou revenu. Les champs d'entrée peuvent être des champs continus ou des champs catégoriels. Néanmoins, certaines entrées peuvent ne pas être adaptées à certains types de modèles. Par exemple, les modèles d'arbre C&RT peuvent utiliser des champs catégoriels de type chaîne comme entrées, tandis que les modèles de régression linéaire ne peuvent utiliser ces champs et les ignoreront selon l'indication. Les conditions requises sont les mêmes que celles des noeuds modélisation individuels. Par exemple, un modèles CHAID fonctionne de la même manière s'il est généré à partir d'un noeud CHAID ou d'un noeud Numérisation automatique.
- Champs de fréquence et de pondération
- La fréquence et la pondération sont utilisées pour donner plus d'importance à certains enregistrements ; par exemple, l'utilisateur sait que l'ensemble de données de création sous-représente une section de la population parent (Pondération) ou parce qu'un enregistrement représente un nombre d'observations identiques (Fréquence). Si cela est indiqué, les algorithmes CHAID et d'arbre C&RT peuvent utiliser un champ de fréquence. Un champs de pondération peut être utilisé par les algorithmes C&RT, CHAID, de régression et GenLin. Les autres types de modèles ignoreront ces champs et créeront les modèles de toute façon. Les champs de fréquence et de pondération sont utilisés uniquement pour la création de modèles et ne sont pas pris en compte lors de l'évaluation des modèles.
- Préfixes
- Si vous associez un noeud table au nugget pour le noeud Numérisation automatique, plusieurs nouvelles variables figurent dans le tableau avec des noms commençant par le préfixe $.
Types de modèle pris en charge
Les types de modèles pris en charge sont Réseau de neurones, Arbre C&RT, CHAID, Régression, GenLin, Agrégation suivant le saut minimum, SVM, XGBoost Linear, GLE et XGBoost-AS.
Paramètres de validation croisée
Dans les propriétés du noeud, notez que les paramètres de validation croisée sont disponibles. La validation croisée est une technique utile pour tester l'efficacité (éviter le surajustement) des modèles d'apprentissage automatique, et il s'agit également d'une procédure de rééchantillonnage que vous pouvez utiliser pour évaluer un modèle si vous avez des données limitées.
- Mélangez l'ensemble de données de manière aléatoire.
- Scindez l'ensemble de données en k-folds/groupes.
- Pour chaque "fold"/groupe :
- Utilisez tour à tour chacun des "folds"/groupes en tant qu'ensemble de données de test.
- Utilisez les groupes restants pour l'apprentissage.
- Ajustez un modèle sur l'ensemble d'apprentissage et évaluez-le sur l'ensemble de test.
- Conservez le score d'évaluation et supprimez le modèle.
- Résumez l'évaluation globale du modèle à l'aide des scores d'évaluation des k-folds retenus.
La validation croisée est actuellement prise en charge via le noeud Classificateur automatique et le noeud Numérisation automatique. Cliquez deux fois sur le noeud pour ouvrir ses propriétés. En sélectionnant l'option Effectuer la validation croisée, une seule partition d'apprentissage et de test est désactivée et les noeuds Automatique utilisent la validation croisée k-fold pour évaluer l'ensemble sélectionné de différents algorithmes.
Vous pouvez spécifier le Nombre de folds (K). La valeur par défaut est 5, avec une plage de 3 à 10. Si vous souhaitez conserver l'échantillonnage reproductible pendant la validation croisée, afin d'avoir des mesures d'évaluation finale cohérentes pour les modèles générés à travers différentes exécutions, vous pouvez sélectionner l'option Affectation de partition de validation croisée répétable. Vous pouvez également définir la Valeur de départ aléatoire sur une valeur spécifique de sorte que le modèle obtenu soit exactement reproductible. Ou cliquez sur Générer pour générer toujours la même séquence de valeurs aléatoires, auquel cas l'exécution du noeud génère toujours le même modèle généré.
Machine learning en continu
L'inconvénient de la modélisation est que les modèles deviennent obsolètes en raison de l'évolution de vos données au fil du temps. Ce phénomène est appelé dérive des modèles ou dérive conceptuelle. Pour éviter cette dérive, SPSS Modeler offre une fonction de machine learning automatique en continu. Cette dernière est disponible pour les nuggets du modèle de noeud Classificateur automatique et Numérisation automatique. Pour plus d'informations, voir Apprentissage automatique continu.