0 / 0
Retourner à la version anglaise de la documentation
Noeud Numérisation automatique
Dernière mise à jour : 22 nov. 2024
Nœud numérique automatique (SPSS Modeler)

Le noeud Numérisation automatique évalue et compare les résultats d'intervalle numérique connu des modèles à l'aide de plusieurs méthodes différentes, vous permettant de tester diverses approches dans une seule passe de modélisation. Vous pouvez sélectionner les algorithmes à utiliser et tester diverses combinaisons d'options. Par exemple, vous pouvez prévoir des valeurs immobilières par le biais des modèles de réseau de neurones, de régression linéaire, de C&RT et de CHAID et voir les meilleurs résultats. Vous pouvez également essayer différentes combinaisons de méthodes de régression Pas à pas, Ascendante et Descendante. Le noeud explore toutes les combinaisons d'options possibles, classe chaque modèle candidat en fonction de la mesure que vous spécifiez et sauvegarde le meilleur à utiliser dans le scoring ou une analyse supplémentaire.

Exemple
Une municipalité souhaite pouvoir évaluer de façon plus précise les taxes immobilières et ajuster les valeurs de certaines propriétés sans avoir à vérifier toutes les propriétés. A l'aide du nœud Numérisation automatique, l'analyste peut générer et comparer un certain nombre de modèles qui prédisent les valeurs des propriétés en fonction du type de construction, du voisinage, de la taille et d'autres facteurs connus.
Conditions requises
Un champ cible unique (dont le rôle est défini comme Cible), et au moins un champ d'entrée (dont le rôle est défini comme Entrée). La cible doit être un champ continu (intervalle numérique), tel que âge ou revenu. Les champs d'entrée peuvent être des champs continus ou des champs catégoriels. Néanmoins, certaines entrées peuvent ne pas être adaptées à certains types de modèles. Par exemple, les modèles d'arbre C&RT peuvent utiliser des champs catégoriels de type chaîne comme entrées, tandis que les modèles de régression linéaire ne peuvent utiliser ces champs et les ignoreront selon l'indication. Les conditions requises sont les mêmes que celles des noeuds modélisation individuels. Par exemple, un modèles CHAID fonctionne de la même manière s'il est généré à partir d'un noeud CHAID ou d'un noeud Numérisation automatique.
Champs de fréquence et de pondération
La fréquence et la pondération sont utilisées pour donner plus d'importance à certains enregistrements ; par exemple, l'utilisateur sait que l'ensemble de données de création sous-représente une section de la population parent (Pondération) ou parce qu'un enregistrement représente un nombre d'observations identiques (Fréquence). Si cela est indiqué, les algorithmes CHAID et d'arbre C&RT peuvent utiliser un champ de fréquence. Un champs de pondération peut être utilisé par les algorithmes C&RT, CHAID, de régression et GenLin. Les autres types de modèles ignoreront ces champs et créeront les modèles de toute façon. Les champs de fréquence et de pondération sont utilisés uniquement pour la création de modèles et ne sont pas pris en compte lors de l'évaluation des modèles.
Préfixes
Si vous associez un noeud table au nugget pour le noeud Numérisation automatique, plusieurs nouvelles variables figurent dans le tableau avec des noms commençant par le préfixe $.
Les noms des champs générés lors du scoring sont basés sur le champ cible, mais avec un préfixe standard. Les différents types de modèles utilisent des ensembles de préfixes distincts.
Par exemple, les préfixes $G, $R, $C sont utilisés comme préfixe pour les prévisions générées par le modèle Linear généralisé, le modèle CHAID et le modèle C5.0, respectivement. $X est généralement généré à l'aide d'un ensemble, et $XR, $XS et $XF sont utilisés comme préfixes dans les cas où la zone cible est une zone Continu, catégorielle ou Indicateur, respectivement.
$..Les préfixes E sont utilisés pour la confiance de prédiction d'une cible continue ; par exemple, $XRE est utilisé comme préfixe pour l'ensemble de la confiance en prévision continue. $GE est le préfixe d'une prédiction unique de confiance pour un modèle linéaire généralisé.

Types de modèle pris en charge

Les types de modèles pris en charge sont Réseau de neurones, Arbre C&RT, CHAID, Régression, GenLin, Agrégation suivant le saut minimum, SVM, XGBoost Linear, GLE et XGBoost-AS.

Paramètres de validation croisée

Dans les propriétés du noeud, notez que les paramètres de validation croisée sont disponibles. La validation croisée est une technique utile pour tester l'efficacité (éviter le surajustement) des modèles d'apprentissage automatique, et il s'agit également d'une procédure de rééchantillonnage que vous pouvez utiliser pour évaluer un modèle si vous avez des données limitées.

La méthode K-fold est un moyen connu et facile d'effectuer une validation croisée. Elle génère généralement un modèle moins biaisé comparé à une partition unique d'apprentissage et de test, car elle permet de s'assurer que chaque observation de l'ensemble de données d'origine a la possibilité d'apparaître dans les ensembles d'apprentissage et de test. La procédure générale de validation croisée par K est la suivante.
Remarque: La modélisation automatique parallèle en mode de validation croisée (exécution simultanée de plusieurs noeuds de modélisation automatique, par exemple via le bouton Exécuter tout ) n'est pas prise en charge pour le moment. Comme solution palliative, vous pouvez exécuter chaque noeud de modélisation automatique (avec la validation croisée activée, qui est désactivée par défaut) un par un.
  1. Mélangez l'ensemble de données de manière aléatoire.
  2. Scindez l'ensemble de données en k-folds/groupes.
  3. Pour chaque "fold"/groupe :
    1. Utilisez tour à tour chacun des "folds"/groupes en tant qu'ensemble de données de test.
    2. Utilisez les groupes restants pour l'apprentissage.
    3. Ajustez un modèle sur l'ensemble d'apprentissage et évaluez-le sur l'ensemble de test.
    4. Conservez le score d'évaluation et supprimez le modèle.
  4. Résumez l'évaluation globale du modèle à l'aide des scores d'évaluation des k-folds retenus.

La validation croisée est actuellement prise en charge via le noeud Classificateur automatique et le noeud Numérisation automatique. Cliquez deux fois sur le noeud pour ouvrir ses propriétés. En sélectionnant l'option Effectuer la validation croisée, une seule partition d'apprentissage et de test est désactivée et les noeuds Automatique utilisent la validation croisée k-fold pour évaluer l'ensemble sélectionné de différents algorithmes.

Vous pouvez spécifier le Nombre de folds (K). La valeur par défaut est 5, avec une plage de 3 à 10. Si vous souhaitez conserver l'échantillonnage reproductible pendant la validation croisée, afin d'avoir des mesures d'évaluation finale cohérentes pour les modèles générés à travers différentes exécutions, vous pouvez sélectionner l'option Affectation de partition de validation croisée répétable. Vous pouvez également définir la Valeur de départ aléatoire sur une valeur spécifique de sorte que le modèle obtenu soit exactement reproductible. Ou cliquez sur Générer pour générer toujours la même séquence de valeurs aléatoires, auquel cas l'exécution du noeud génère toujours le même modèle généré.

Machine learning en continu

L'inconvénient de la modélisation est que les modèles deviennent obsolètes en raison de l'évolution de vos données au fil du temps. Ce phénomène est appelé dérive des modèles ou dérive conceptuelle. Pour éviter cette dérive, SPSS Modeler offre une fonction de machine learning automatique en continu. Cette dernière est disponible pour les nuggets du modèle de noeud Classificateur automatique et Numérisation automatique. Pour plus d'informations, voir Apprentissage automatique continu.

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus