Le noeud Evaluation permet d'évaluer et de comparer facilement des modèles prédictifs afin de choisir le modèle le mieux adapté à l'application. Les graphiques Evaluation montrent l'aptitude des modèles à prédire des résultats spécifiques. Ils trient les enregistrements en fonction de la valeur prédite et de la confiance dans cette prévision, divisent les enregistrements en groupes de taille égale (quantiles), puis reportent la valeur du critère traité pour chaque quantile, du plus élevé au plus faible. Les divers modèles apparaissent sous forme de lignes dans le graphique.
Les résultats sont traités grâce à la définition d'une valeur ou d'une amplitude de valeurs spécifique en tant qu'occurrence. Les occurrences indiquent généralement une réussite (telle qu'une vente conclue avec un client) ou un événement intéressant (tel qu'un diagnostic médical spécifique). Vous pouvez définir des critères d'occurrence dans la section OPTIONS des propriétés du noeud ou utiliser les critères d'occurrence par défaut comme suit :
- Les champs de sortie indicateurs sont simples ; les occurrences renvoient à des valeurs vraies.
- En ce qui concerne les champs de sortie nominaux, c'est la première valeur de l'ensemble qui définit une occurrence.
- Pour les champs de sortie continus, les occurrences sont les valeurs supérieures à la moitié de l'intervalle du champ.
Il existe six types de graphique Evaluation, chacun mettant en valeur un critère d'évaluation différent :
Graphiques de gain
Les gains sont définis comme la proportion du nombre total d'occurrences représentée dans chaque quantile. Les gains sont calculés comme suit: (number of hits in quantile / total number of hits) ×
100%
.
Graphiques de lift
Ces graphiques comparent le pourcentage d'enregistrements dans chaque quantile qui se sont traduits par des occurrences et le pourcentage total d'occurrences dans les données d'apprentissage. Il est calculé comme suit: (hits in quantile /
records in quantile) / (total hits / total records)
.
Graphiques de réponse
La réponse correspond tout simplement au pourcentage d'enregistrements dans le quantile qui sont des occurrences. La réponse est calculée comme suit: (hits in quantile / records in quantile) × 100%
.
Graphiques de profits
Le profit est égal au revenu de chaque enregistrement moins le coût de l'enregistrement. Les profits d'un quantile correspondent à la somme des profits de tous ses enregistrements. Les revenus sont supposés ne s'appliquer qu'aux occurrences, mais les coûts s'appliquent à tous les enregistrements. Les profits et les coûts peuvent être fixes ou peuvent être déterminés par les champs des données. Les bénéfices sont calculés comme suit: (sum of revenue for records in quantile − sum of costs for records in
quantile)
.
Graphiques de retour sur investissement
Le retour sur investissement est semblable au profit dans le sens où il s'agit de définir des revenus et des coûts. Le retour sur investissement compare les profits du quantile à ses coûts. Le retour sur investissement est calculé comme suit: (profits for quantile / costs for quantile) × 100%
.
Graphiques ROC
ROC (Receiver Operator Characteristic) ne peut être utilisé qu'avec des discriminants binaires. ROC peut être utilisé pour visualiser, organiser et sélectionner des discriminants en fonction de leurs performances. Un graphique ROC représente le taux de vrai positif (ou sensibilité) par rapport au taux de faux positif du discriminant. Il décrit les compromis relatifs entre les bénéfices (vrais positifs) et les coûts (faux positifs). Un vrai positif est une instance qui est une occurrence classée en tant que telle. Le taux de vrai positif est donc calculé sous la forme nombre de vrais positifs / nombre d'instances qui sont réellement des occurrences. Un faux positif est une instance qui est une occurrence manquée classée en tant qu'occurrence. Le taux de faux positif est donc calculé sous la forme nombre de faux positifs / nombre d'instances qui sont en fait des occurrences manquées.
Les graphiques Evaluation peuvent également être cumulatifs. Ainsi, chaque point est égal à la valeur du quantile correspondant, plus celle de tous les quantiles supérieurs. Les graphiques cumulatifs soulignent mieux la performance globale des modèles, alors que les graphiques non cumulatifs permettent de mettre en valeur les zones problématiques des modèles.