0 / 0
Retourner à la version anglaise de la documentation
Comprendre et préparer les données
Dernière mise à jour : 20 déc. 2024
Comprendre et préparer les données

Avant de commencer à extraire des données et à construire des modèles dans SPSS Modeler, vous devez préparer vos données. Préparer vos données signifie prendre le temps de comprendre les données et de les traiter de manière à ce qu'elles soient optimisées pour être utilisées dans l'exploration de données.

La qualité de vos données peut déterminer la qualité de vos modèles. La préparation des données permet de s'assurer que les données sont propres et prêtes à être analysées.

SPSS Modeler est construit autour de la méthodologie Cross-Industry Standard Process for Data Mining (CRISP-DM). qui comporte les phases suivantes.

  1. Compréhension de l'entreprise
  2. Compréhension des données
  3. Préparation des données
  4. Modélisation
  5. Evaluation
  6. déploiement

Les trois premières phases sont celles de la collecte, de l'évaluation et de la préparation des données. Une partie de ce travail peut être effectuée dans SPSS Modeler, mais une partie du travail dans ces phases a lieu avant même de travailler dans SPSS Modeler.

Compréhension de l'entreprise

Avant de commencer à utiliser SPSS Modeler, il est important de se faire une idée aussi précise que possible des objectifs de l'entreprise en matière d'exploration de données. Par exemple, il faut comprendre le point de vue de l'entreprise pour déterminer les points douloureux, les exigences du projet, les objectifs de l'entreprise en matière d'exploration de données et la manière dont l'exploration de données peut fournir des informations utiles pour résoudre les problèmes de l'entreprise.

Cette phase de collecte et de préparation des données se déroule en dehors de SPSS Modeler. Mais ce travail permet de déterminer les données qui doivent être collectées et celles qui méritent d'être privilégiées.

Compréhension des données

Comprendre vos données implique de les évaluer et de les explorer afin d'en déterminer la qualité. Prenez le temps de comprendre la structure des données, les relations et les modèles en utilisant des techniques telles que la visualisation des données, les statistiques sommaires et l'analyse des corrélations. Cette étape est essentielle pour éviter les problèmes inattendus lors de la préparation des données.

SPSS Modeler dispose d'un nœud Audit, que vous pouvez utiliser pour obtenir un premier aperçu complet des données. Il peut générer des informations telles que des statistiques sommaires, des histogrammes, des diagrammes en boîte, des diagrammes à barres, des diagrammes circulaires, etc. Ces informations peuvent être utiles pour une première compréhension des données. Il est également capable de générer des informations sur les valeurs aberrantes, les extrêmes et les valeurs manquantes.

Si vous avez accès à ces autres services sur Cloud Pak for Data, ils peuvent également être utiles ;

Data Refinery
Vous pouvez utiliser Data Refinery pour comprendre et visualiser vos données.
MANTA Automated Data Lineage
Vous pouvez utiliser MANTA Automated Data Lineage pour suivre et trouver l'origine des données.
RStudio®
RStudio est utile pour exécuter des commandes dans R afin d'explorer vos données.

Préparation des données

La préparation des données est l'une des parties les plus importantes de l'exploration de données et peut représenter une part importante du travail requis pour l'ensemble du projet. Les efforts déployés lors des phases précédentes de compréhension de l'activité et des données peuvent minimiser une partie de ce travail, mais vous devez toujours consacrer des efforts à la préparation et au conditionnement des données pour l'exploitation minière.

Effectuez les activités suivantes pour préparer vos données. Ces activités sont nécessaires pour garantir que les données sont bien préparées, propres et prêtes pour l'analyse.

nettoyage des données
Il est essentiel de traiter les valeurs manquantes, de supprimer les doublons et de corriger les problèmes de formatage.
Conversion des données
Standardisez et normalisez vos données afin de garantir leur cohérence et de réduire le bruit. Ces étapes peuvent impliquer une mise à l'échelle, une normalisation du score z ou un encodage à une touche.
Factorisation
Réduisez la dimensionnalité de vos données en sélectionnant les caractéristiques les plus pertinentes. Vous pouvez utiliser des techniques telles que l'analyse en composantes principales (ACP), l'analyse discriminante linéaire (LDA) ou l'intégration des voisins stochastiques distribués en t (t-SNE).
Intégration de données
Fusionner des données provenant de différentes sources pour créer une vue plus complète de vos données. Vous pouvez avoir besoin de joindre des tables, de fusionner des ensembles de données ou d'utiliser des techniques de fusion de données.
Validation de données
Validez vos données pour vous assurer qu'elles sont exactes et fiables. Vous pouvez vérifier les valeurs aberrantes, évaluer la variabilité ou comparer les données à des sources externes.
Stockage de Données
Stockez vos données de manière sécurisée, accessible et reproductible. Vous pouvez utiliser des bases de données, des entrepôts de données ou des solutions de stockage en nuage pour stocker vos données.

SPSS Modeler dispose de plusieurs nœuds que vous pouvez utiliser pour ces activités de préparation des données. Vous pouvez utiliser une combinaison de nœuds Record Operations et Field Operations pour créer des flux qui préparent les données.

Si vous avez accès aux services suivants, ils peuvent également être utilisés pour préparer les données.

Data Refinery
Vous pouvez utiliser Data Refinery pour nettoyer et transformer les données sans avoir besoin de compétences en programmation.
DataStage
Vous pouvez utiliser DataStage pour l'intégration des données et le développement de flux qui traitent et transforment les données.
IBM® Knowledge Catalog
Vous pouvez utiliser IBM Knowledge Catalog pour analyser et améliorer la qualité des données, ainsi que pour attribuer des classifications, des classes de données et des termes commerciaux à vos données
RStudio
Vous pouvez utiliser RStudio pour exécuter des commandes dans R afin d'explorer vos données.

Même si les données ne leur appartiennent pas, les utilisateurs doivent effectuer les mêmes activités pour comprendre ces données.

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus