Noeud de sélection de fonction
Les problèmes d'exploration de données peuvent impliquer des centaines, voire des milliers, de champs qui peuvent potentiellement être utilisés comme entrées. Par conséquent, on peut consacrer beaucoup de temps et d'efforts à l'examen des champs ou des variables à inclure dans le modèle. Pour réduire les choix, l'algorithme de sélection des fonctions peut être utilisé pour identifier les zones les plus importantes pour une analyse donnée. Par exemple, si vous essayez de prédire les résultats des patients en fonction d'un certain nombre de facteurs, quels sont les facteurs les plus susceptibles d'être importants?
La sélection des fonctions comprend trois étapes :
- Filtrage. Supprime les entrées et les enregistrements non importants et problématiques, ou les cas tels que les zones d'entrée avec trop de valeurs manquantes ou avec trop ou trop peu de variation pour être utile.
- Classement. Trie les entrées restantes et assigne les rangs en fonction de leur importance.
- Sélection. Identifie le sous-ensemble de fonctions à utiliser dans les modèles suivants-par exemple, en conservant uniquement les entrées et les filtres les plus importants ou en excluant tous les autres.
A un âge où de nombreuses organisations sont surchargées avec trop de données, les avantages de la sélection des fonctionnalités pour simplifier et accélérer le processus de modélisation peuvent être substantiels. En concentrant l'attention rapidement sur les domaines qui comptent le plus, vous pouvez réduire la quantité de calcul nécessaire ; plus facilement localiser les relations petites mais importantes qui pourraient autrement être négligées ; et, en fin de compte, obtenir des modèles plus simples, plus précis et plus facilement explicables. En réduisant le nombre de champs utilisés dans le modèle, vous pouvez constater que vous pouvez réduire les temps de scoring ainsi que la quantité de données collectées lors des itérations futures.
Exemple. Une compagnie de téléphone dispose d'un entrepôt de données contenant des informations sur les réponses à une promotion spéciale de 5 000 clients de l'entreprise. Les données comprennent un grand nombre de champs contenant les âges des clients, l'emploi, le revenu et les statistiques d'utilisation du téléphone. Trois zones cibles indiquent si le client a répondu à chacune des trois offres. L'entreprise souhaite utiliser ces données pour aider à prédire quels clients sont les plus susceptibles de répondre à des offres similaires à l'avenir.
Conditions requises. Un champ cible unique (dont le rôle est défini sur
), ainsi que plusieurs champs d'entrée que vous souhaitez filtrer ou classer par rapport à la cible. Les champs cible et les champs d'entrée peuvent avoir un niveau de mesure Target
(intervalle numérique) ou Continuous
.Categorical