L'un des problèmes de l'exploration de données réside dans le fait que des centaines, voire des milliers de champs peuvent servir de champs d'entrée. Vous pouvez ainsi passer beaucoup de temps à déterminer les champs ou variables à inclure dans le modèle. Il est possible de réduire le choix grâce à l'algorithme Sélection de fonction qui permet d'identifier les champs les plus importants pour une analyse donnée. Par exemple, si vous essayez de prévoir les résultats relatifs à des patients en fonction d'un certain nombre de facteurs, il convient de répondre à une question : quels facteurs semblent être les plus importants ?
La sélection de fonction se déroule en trois étapes :
- Filtrage. Retire les entrées (et les enregistrements ou observations) non significatives et problématiques, telles que les champs d'entrée comportant un trop grand nombre de valeurs manquantes ou présentant une variation trop ou pas assez importante pour être utiles.
- Classement. Trie les entrées restantes et leur affecte un rang en fonction de leur importance.
- Sélection. Identifie le sous-ensemble de fonctions à utiliser dans les modèles suivants (en ne conservant, par exemple, que les entrées les plus importantes, et en filtrant ou en excluant toutes les autres).
Alors que bon nombre d'entreprises croulent aujourd'hui sous une quantité excessive de données, la sélection de fonction, en simplifiant et en accélérant le processus de modélisation, peut s'avérer très bénéfique. Concentrez-vous rapidement sur les champs présentant le plus grand intérêt, et réduisez ainsi le nombre de calculs requis ; repérez plus facilement des relations ténues mais importantes qui auraient sinon pu être ignorées et, enfin, obtenez des modèles plus simples, plus précis et plus facilement explicables. En restreignant le nombre de champs utilisés dans le modèle, vous pouvez réduire le nombre de scorings, ainsi que la quantité de données collectées dans les futures itérations.
Exemple. Un opérateur de téléphonie possède un entrepôt de données contenant des informations concernant les réponses données par 5 000 clients de l'entreprise à une promotion spéciale. Ces données incluent un grand nombre de champs comprenant l'âge, la profession et les revenus des clients, ainsi que les statistiques d'utilisation de leur téléphone. Trois champs cible indiquent si le client a répondu à chacune des trois offres. L'opérateur souhaite utiliser ces données pour connaître les clients les plus susceptibles de répondre à des offres similaires à l'avenir.
Conditions requises. Un champ cible unique (dont le rôle est défini sur Target
), ainsi que plusieurs champs d'entrée que vous souhaitez filtrer ou classer par rapport à la cible. Les champs cible et les champs d'entrée peuvent avoir un niveau de mesure Continuous
(intervalle numérique) ou Categorical
.