Ce didacticiel fournit un exemple de préparation des données pour l'analyse. La préparation des données est l'une des étapes les plus importantes de tout projet d'exploration de données et, traditionnellement, l'une des plus longues. Le nœud Auto Data Prep se charge de cette tâche pour vous, en analysant vos données et en identifiant les corrections, en éliminant les champs qui posent problème ou qui ne sont pas susceptibles d'être utiles, en dérivant de nouveaux attributs le cas échéant et en améliorant les performances grâce à des techniques de filtrage intelligentes.
Vous pouvez utiliser le nœud de préparation automatique des données de manière entièrement automatisée, en laissant le nœud choisir et appliquer les corrections, ou vous pouvez prévisualiser les modifications avant qu'elles ne soient effectuées et les accepter ou les rejeter. Avec ce noeud, vous pouvez préparer rapidement et facilement vos données pour le Data Mining sans connaissance préalable des concepts statistiques impliqués. Si vous exécutez le nœud avec les paramètres par défaut, les modèles ont tendance à se construire et à marquer des points plus rapidement.
Essayez le tutoriel
Dans ce tutoriel, vous exécutez les tâches suivantes :
Exemple de flux de modélisateurs et d'ensemble de données
Ce tutoriel utilise le flux de préparation automatisée des données dans le projet d'exemple. Le fichier de données utilisé est telco.csv. Cet exemple démontre la précision accrue que vous pouvez obtenir en utilisant les paramètres par défaut du nœud Auto Data Prep lors de la construction de modèles. L'image suivante montre un exemple de flux de modélisation.
Tâche 1 : Ouvrir le projet d'exemple
L'exemple de projet contient plusieurs ensembles de données et des exemples de flux de modélisation. Si vous n'avez pas encore le projet exemple, reportez-vous à la rubrique Tutoriels pour créer le projet exemple. Suivez ensuite les étapes suivantes pour ouvrir l'exemple de projet :
- Dans 'watsonx, à partir du menu de navigation ', choisissez Projets > Voir tous les projets.
- Cliquez sur SPSS Modeler Project.
- Cliquez sur l'onglet Actifs pour voir les ensembles de données et les flux du modélisateur.
Vérifier votre progression
L'image suivante montre l'onglet Actifs du projet. Vous êtes maintenant prêt à travailler avec l'exemple de flux du modeleur associé à ce tutoriel.
Tâche 2 : Examiner les nœuds Data Asset et Type
La préparation automatisée des données comprend plusieurs nœuds. Procédez comme suit pour examiner les nœuds Data Asset et Type:
- Dans l'onglet Actifs, ouvrez le flux du modeleur Préparation automatisée des données et attendez que le canevas se charge.
- Double-cliquez sur le nœud telco telco.csv. Ce nœud est un nœud de ressources de données qui pointe vers le fichier telco telco.csv dans le projet.
- Examinez les propriétés du format de fichier.
- Facultatif : cliquez sur "Aperçu des données" pour voir l'ensemble des données : Cliquez sur Aperçu des données pour voir l'ensemble des données.
- Double-cliquez sur le nœud Type. Notez que la mesure pour le champ "
churn
est définie sur Drapeau et que le rôle est défini sur Cible. Assurez-vous que le rôle de tous les autres champs est défini sur Entrée. - Facultatif : Cliquez sur Aperçu des données pour voir l'ensemble de données avec les propriétés Type appliquées.
Vérifier votre progression
L'image suivante montre le nœud Type. Vous êtes maintenant prêt à construire le modèle.
Tâche 3 : Construire les modèles
Vous construirez deux modèles, l'un sans et l'autre avec préparation automatisée des données. Suivez les étapes suivantes pour construire les modèles :
- Double-cliquez sur le nœud No ADP - churn qui est connecté au nœud Type pour voir ses propriétés.
- Développez la section Paramètres du modèle
- Vérifiez que la procédure est définie sur Binomiale.
- Vérifiez que le nom du modèle est défini sur Personnalisé et que le nom est " No ADP - churn.
- Passez la souris sur le nœud No ADP - churn et cliquez sur l'icône Run '.
- Dans le volet Sorties et modèles, cliquez sur le modèle intitulé Pas d'ADP - désabonnement pour afficher les résultats.
- Affichez la page récapitulative du modèle, qui présente les champs de prédiction utilisés par le modèle et le pourcentage de prédictions correctes.
- Consultez le résumé du traitement des cas, qui indique le nombre et le pourcentage d'enregistrements inclus dans l'analyse. Par ailleurs, il indique le nombre d'observations manquantes (s'il y a lieu) où un ou plusieurs des champs d'entrée ne sont pas disponibles, ainsi que toutes les observations qui n'ont pas été sélectionnées.
- Fermez les détails du modèle.
- Double-cliquez sur le nœud Auto Data Prep connecté au nœud Type pour afficher ses propriétés. La préparation automatisée des données prend en charge la tâche de préparation des données pour vous, en analysant vos données et en identifiant les corrections, en éliminant les champs qui posent problème ou qui ne sont pas susceptibles d'être utiles, en dérivant de nouveaux attributs le cas échéant et en améliorant les performances grâce à des techniques de filtrage intelligentes.
- Dans la section Objectifs, laissez les paramètres par défaut en place pour analyser et préparer vos données en équilibrant vitesse et précision. D'autres propriétés du nœud de préparation automatique des données permettent de spécifier si l'on souhaite se concentrer davantage sur la précision, sur la vitesse de traitement ou si l'on souhaite affiner de nombreuses étapes de traitement pour la préparation des données.Remarque : si vous souhaitez ajuster les propriétés du nœud et réexécuter le flux à l'avenir, puisque le modèle existe déjà, vous devez d'abord cliquer sur Effacer l'ancienne analyse, sous Objectifs, avant de réexécuter le flux.
- Facultatif : Cliquez sur Prévisualiser les données pour voir l'ensemble de données avec les propriétés Auto Data Prep appliquées.
- Cliquez sur Annuler.
- Dans la section Objectifs, laissez les paramètres par défaut en place pour analyser et préparer vos données en équilibrant vitesse et précision. D'autres propriétés du nœud de préparation automatique des données permettent de spécifier si l'on souhaite se concentrer davantage sur la précision, sur la vitesse de traitement ou si l'on souhaite affiner de nombreuses étapes de traitement pour la préparation des données.
- Double-cliquez sur le nœud After ADP - churn connecté au nœud Auto Data Prep pour afficher ses propriétés.
- Développez la section Paramètres du modèle
- Vérifiez que la procédure est définie sur Binomiale.
- Vérifiez que le nom du modèle est défini sur Personnalisé et que le nom est " After ADP - churn.
- Survolez le nœud After ADP - churn et cliquez sur l'icône Run '.
- Dans le volet Sorties et modèles, cliquez sur le modèle intitulé Après ADP - désabonnement pour afficher les résultats.
- Affichez la page récapitulative du modèle, qui présente les champs de prédiction utilisés par le modèle et le pourcentage de prédictions correctes.
- Consultez le résumé du traitement des cas, qui indique le nombre et le pourcentage d'enregistrements inclus dans l'analyse. Par ailleurs, il indique le nombre d'observations manquantes (s'il y a lieu) où un ou plusieurs des champs d'entrée ne sont pas disponibles, ainsi que toutes les observations qui n'ont pas été sélectionnées.
- Fermez les détails du modèle.
Vérifier votre progression
L'image suivante montre les détails du modèle. Vous êtes maintenant prêt à comparer les modèles.
Tâche 4 : Comparer les modèles
Maintenant que les deux modèles sont configurés, suivez les étapes suivantes pour générer et comparer les modèles :
- Survolez le nœud No ADP - LogReg (Analysis) et cliquez sur l'icône Run '.
- Survolez le nœud After ADP - LogReg (Analysis) et cliquez sur l'icône Run '.
- Dans le volet Sorties et modèles, cliquez sur les résultats de sortie portant le nom No ADP - LogReg pour afficher les résultats.
- Comparer les modèles :
- Cliquez sur Comparer.
- Dans le champ Select output, sélectionnez After ADP - LogReg.
L'analyse du modèle Auto Data Prep non dérivé montre que le simple fait de passer les données par le nœud de régression logistique avec ses paramètres par défaut donne un modèle de faible précision - seulement 10.6.L'analyse du modèle dérivé d'Auto-Data Prep montre qu'en exécutant les données avec les paramètres par défaut d'Auto Data Prep, vous avez construit un modèle beaucoup plus précis qui est correct à 78.3.
Vérifier votre progression
L'image suivante montre la comparaison des modèles.
Récapitulatif
En exécutant le nœud Auto Data Prep pour affiner le traitement de vos données, vous avez pu construire un modèle plus précis avec peu de manipulation directe des données.
Évidemment, si vous souhaitez prouver ou réfuter une certaine théorie, ou si vous voulez construire des modèles spécifiques, il peut être avantageux de travailler directement avec les paramètres du modèle. Cependant, si vous disposez d'un temps limité ou d'une grande quantité de données à préparer, le nœud Auto Data Prep peut vous donner un avantage.
Les résultats de cet exemple sont basés sur les données de formation uniquement. Pour évaluer le degré de généralisation des modèles à d'autres données dans le monde réel, vous pouvez utiliser un nœud Partition pour conserver un sous-ensemble d'enregistrements à des fins de test et de validation.
Etapes suivantes
Vous êtes maintenant prêt à essayer d'autres didacticielsSPSS® Modeler.