La préparation des données pour l'analyse est une des étapes les plus importantes des projets et généralement, l'une de celles qui prend le plus de temps. La préparation automatique des données (ADP) s'occupe de cette tâche à votre place, analyse vos données, identifie les corrections, supprime les champs problématiques ou inutiles, dérive de nouveaux attributs si nécessaire et améliore les performances grâce à des techniques de balayage intelligentes. Vous pouvez utiliser l'algorithme de manière entièrement Automatique , ce qui lui permet de choisir et d'appliquer des correctifs, ou vous pouvez l'utiliser dans le mode Interactif, en prévisualtant les modifications avant qu'elles ne soient effectuées et les accepter ou les rejeter comme vous le souhaitez.
L'utilisation de l'ADP vous permet de préparer facilement et rapidement vos données pour la génération de modèle, sans qu'il soit nécessaire de maîtriser les concepts de statistiques utilisés. Les modèles auront tendance à générer et à évaluer plus rapidement
Exemple. Une compagnie d'assurances disposant de ressources restreintes pour enquêter sur les demandes de remboursement des propriétaires de biens immobiliers, souhaite construire un modèle pour signaler des réclamations suspectes et potentiellement frauduleuses. Avant de construire le modèle, il est nécessaire de préparer les données à l'aide de la préparation automatique des données. La compagnie souhaitant être capable de consulter et modifier les transformations avant de les appliquer, elle utilise la préparation automatique des données de manière interactive.
Un groupe automobile suit les ventes de véhicules automobiles personnels divers. Afin d'être en mesure d'identifier les modèles dont les ventes sont très satisfaisantes et ceux pour lesquels elles le sont moins, des responsables du groupe souhaitent établir une relation entre les ventes de véhicules et les caractéristiques des véhicules. Ils utilisent la préparation automatique des données pour cette analyse afin de construire des modèles à l'aide des données " avant" et " après " la préparation et de pouvoir en comparer les résultats.
Quel est votre objectif ? La préparation automatique des données recommande des étapes de préparation de données qui amélioreront la vitesse de création de modèles par les autres algorithmes et le pouvoir prédictif de ces modèles. Cela peut comprendre la transformation, la construction et la sélection de fonctions. La cible peut également être transformée. Vous pouvez spécifier les priorités de création de modèle sur lesquelles le processus de préparation des données doit se concentrer.
- Equilibre de la vitesse et de l'exactitude. Cette option prépare les données à accorder la même importance à la vitesse à laquelle les données sont traitées par les algorithmes de création de modèle et à la précision des prévisions.
- Optimiser la vitesse. Cette option prépare les données à accorder la priorité à la vitesse à laquelle les données sont traitées par les algorithmes de création de modèle. Lorsque vous travaillez avec de très grands jeux de données ou que vous recherchez une réponse rapide, sélectionnez cette option.
- Optimiser l'exactitude. Cette option prépare les données à accorder la priorité à la précision des prédictions produites par les algorithmes de création de modèle.
- Analyse personnalisée. Lorsque vous souhaitez modifier manuellement l'algorithme dans l'onglet Paramètres, sélectionnez cette option. Veuillez noter que ce paramètre est automatiquement sélectionné si vous modifiez ensuite des options dans l'onglet Paramètres qui ne sont pas compatibles avec l'un des autres objectifs.
Formation du noeud
Le nœud ADP est implémenté en tant que nœud de processus et fonctionne de manière similaire au nœud type ; entraînement le nœud ADP correspond à l'instanciation du nœud type. Une fois l'analyse effectuée, les transformations spécifiées sont appliquées aux données sans analyse supplémentaire tant que le modèle de données en amont ne change pas. Tout comme les noeuds Type et Filtre, si le noeud ADP est déconnecté, il se souvient du modèle de données et des transformations et n'a pas besoin d'être de nouveau formé lorsqu'il est reconnecté. Cela vous permet de le former sur un sous-de l'ensemble de données standard puis de le déployer ou de le copier pour l'utiliser avec des données en direct aussi souvent que possible.