Les évaluations de la qualité mesurent la capacité de votre modèle à fournir des résultats corrects en fonction des performances du modèle à l'aide de données de test étiquetées appelées données de retour.
Mesure de la précision du modèle avec des évaluations de qualité
Les évaluations de la qualité surveillent la façon dont votre modèle prévoit des résultats précis. Il détermine quand la qualité du modèle diminue afin que vous puissiez le réentraîner pour corriger le tir. Pour évaluer le modèle, vous fournissez des données de retour, qui sont des données libellées dans lesquelles le résultat est connu. Les évaluations de la qualité utilisent un ensemble de métriques de science des données standard pour évaluer dans quelle mesure le modèle prévoit les résultats qui correspondent aux résultats réels dans le jeu de données étiqueté.
Vous pouvez définir des seuils de qualité acceptables pour les indicateurs utilisés pour évaluer votre modèle. Vous pouvez également définir la taille de l'échantillon, qui correspond au nombre de lignes de données de retour, à prendre en compte pour l'évaluation.
Avant de commencer: Fournir les données de retour
Les données de retour sont comme fournir une feuille de réponse avec les résultats observés réels. Le moniteur peut exécuter le modèle comme si les réponses n'étaient pas connues, puis comparer les résultats prévus aux résultats réels et fournir des scores d'exactitude basés sur des métriques de qualité.
Pour fournir des données de retour aux modèles d'apprentissage automatique, vous devez ouvrir la page Points finaux et effectuer l'une des opérations suivantes :
- Cliquez sur Télécharger les données de retour et téléchargez un fichier avec des données libellées.
- Cliquez sur l'onglet Noeuds finaux et spécifiez un noeud final qui se connecte à la source de données de retour.
Pour plus de détails, voir Gestion des données de retour.
Définition des seuils de qualité
Une fois que vos données de retour sont disponibles pour l'évaluation, configurez les paramètres du moniteur. Vous définissez des seuils de performances acceptables pour le modèle par rapport aux résultats connus.
Pour définir les valeurs de seuil, dans l'onglet Qualité , cliquez sur l'icône Editer pour entrer des valeurs dans la zone Seuil de qualité , puis modifiez les valeurs de la taille de l'échantillon.
Seuil d'alerte de qualité
Sélectionnez une valeur qui constitue un niveau d'exactitude acceptable. Par exemple, dans l'exemple de modèle German Credit Risk fourni avec la configuration automatique, l'alerte de l'indicateur Area under ROC est définie sur 95%. Si la qualité mesurée pour le modèle est inférieure à cette valeur, une alerte est déclenchée. Une valeur typique pour la zone sous ROC est 80%.
Pour plus de détails sur les métriques standard du moniteur de qualité, voir Présentation des métriques de qualité.
Tailles d'échantillon minimale et maximale
En définissant une taille d'échantillon minimale, vous évitez de mesurer la qualité tant qu'un nombre minimum d'enregistrements n'est pas disponible dans le jeu de données d'évaluation, afin que les résultats ne risquent pas d'être faussés. Chaque fois que le contrôle de qualité s'exécute, il utilise la taille d'échantillon minimale pour décider du nombre d'enregistrements sur lesquels effectuer le calcul des métriques de qualité.
La taille maximale de l'échantillon permet de mieux gérer le temps et les ressources nécessaires à l'évaluation de l'ensemble de données. Si elle est dépassée, seuls les enregistrements les plus récents sont évalués. Par exemple, dans l'exemple Modèle de risque de crédit allemand , la taille d'échantillon minimale est définie sur 50 et aucune taille maximale n'est spécifiée car il s'agit d'un petit échantillon.
Métriques de qualité prises en charge
Lorsque vous activez les évaluations de la qualité, vous pouvez générer des mesures qui vous aident à déterminer dans quelle mesure votre modèle prédit les résultats.
Vous pouvez consulter les résultats de vos évaluations de la qualité sur la page de synthèse des évaluations. Pour afficher les résultats, vous pouvez sélectionner une vignette de déploiement de modèle et cliquer sur la flèche dans la section d'évaluation Qualité pour afficher un récapitulatif des métriques de qualité de votre dernière évaluation. Pour plus d'informations, voir Examen des résultats de qualité.
Aire sous la courbe ROC
- Description: Surface sous la courbe des taux de rappels et de faux positifs pour calculer la sensibilité par rapport au taux de retombées
- Seuils par défaut : limite inférieure = 80%
- Type de problème : Classification binaire
- Valeurs de graphique : dernière valeur de la période
- Détails des métriques disponibles : Matrice de confusion
Aire sous la courbe PR
- Description : surface sous la courbe de précision et de rappel
- Seuils par défaut : limite inférieure = 80%
- Type de problème : Classification binaire
- Valeurs de graphique : dernière valeur de la période
- Détails des métriques disponibles : Matrice de confusion
- Effectuer les fonctions mathématiques:
La zone sous le rappel de précision donne le total pour les deux Precision + Recall
.
n
AveP = ∑ P(k)∆r(k)
k=1
La précision (P) est définie comme le nombre de vrais positifs (Tp - true positives) sur le nombre de vrais positifs plus le nombre de faux positifs (Fp).
number of true positives
Precision = ______________________________________________________
(number of true positives + number of false positives)
Le rappel (R) est défini comme le nombre de vrais positifs (Tp - true positives) sur le nombre de vrais positifs plus le nombre de faux négatifs (Fn).
number of true positives
Recall = ______________________________________________________
(number of true positives + number of false negatives)
Précision
- Description : Proportion des prévisions correctes
- Seuils par défaut : limite inférieure = 80%
- Types de problème : classification binaire et classification multi-classes
- Valeurs de graphique : dernière valeur de la période
- Détails des métriques disponibles : Matrice de confusion
- Comprendre l'exactitude:
l'exactitude peut signifier différentes choses en fonction du type d'algorithme ;Classification multi-classes : l'exactitude mesure le nombre de fois qu'une classe quelconque a été prévue correctement, normalisé par le nombre de points de données. Pour plus de détails, consultez Multi-class classification dans la documentation Apache Spark.
Classification binaire : pour un algorithme de classification binaire, l'exactitude est mesurée comme la zone située sous une courbe ROC. Pour plus de détails, consultez Binary classification dans la documentation Apache Spark.
Régression: les algorithmes de régression sont mesurés à l'aide du coefficient de détermination, ou R2. Pour plus de détails, consultez Regression model evaluation dans la documentation Apache Spark.
Taux de vrais positifs
- Description : proportion des prévisions correctes dans les prévisions de la classe positive
- Seuils par défaut : limite inférieure = 80 %
- Type de problème : Classification binaire
- Valeurs de graphique : dernière valeur de la période
- Détails des métriques disponibles : Matrice de confusion
- Effectuer les fonctions mathématiques:
Le taux de vrais positifs est calculé avec la formule suivante :
number of true positives
TPR = _________________________________________________________
(number of true positives + number of false negatives)
Taux de faux positifs
- Description : proportion des prévisions incorrectes dans la classe positive
- Seuils par défaut : limite inférieure = 80%
- Type de problème : Classification binaire
- Valeurs de graphique : dernière valeur de la période
- Détails des métriques disponibles : Matrice de confusion
- Effectuer les fonctions mathématiques:
Le taux de faux positifs est le quotient du nombre total de faux positifs divisé par la somme des faux positifs et des vrais négatifs.
number of false positives
False positive rate = ______________________________________________________
(number of false positives + number of true negatives)
Rappel
- Description : Proportion des prévisions correctes dans la classe positive
- Seuils par défaut : limite inférieure = 80%
- Type de problème : Classification binaire
- Valeurs de graphique : dernière valeur de la période
- Détails des métriques disponibles : Matrice de confusion
- Fonctions mathématiques:
Le rappel (R) est défini comme le nombre de vrais positifs (Tp - true positives) sur le nombre de vrais positifs plus le nombre de faux négatifs (Fn).
number of true positives
Recall = ______________________________________________________
(number of true positives + number of false negatives)
Précision
- Description : proportion des prévisions correctes dans les prévisions de la classe positive
- Seuils par défaut : limite inférieure = 80%
- Type de problème : Classification binaire
- Valeurs de graphique : dernière valeur de la période
- Détails des métriques disponibles : Matrice de confusion
- Effectuer les fonctions mathématiques:
La précision (P) est définie comme le nombre de vrais positifs (Tp - true positives) sur le nombre de vrais positifs plus le nombre de faux positifs (Fp).
number of true positives
Precision = __________________________________________________________
(number of true positives + the number of false positives)
F1-Measure
- Description : moyenne harmonique des précisions et rappels
- Seuils par défaut : limite inférieure = 80%
- Type de problème : Classification binaire
- Valeurs de graphique : dernière valeur de la période
- Détails des métriques disponibles : Matrice de confusion
- Effectuer les fonctions mathématiques:
La F1-measure est la moyenne harmonique pondérée ou la moyenne de précision et de rappel.
(precision * recall)
F1 = 2 * ____________________
(precision + recall)
Coefficient de Gini
- Description: Le coefficient de Gini mesure la façon dont les modèles distinguent deux classes. Elle est calculée comme deux fois l'aire entre la courbe ROC et la diagonale du tracé du graphique. Si la valeur du coefficient de gini est 0, le modèle ne montre aucune capacité de discrimination et une valeur de 1 indique une discrimination parfaite.
- Seuils par défaut:
- Limite inférieure = 80%
- Type de problème : Classification binaire
- Valeurs de graphique : dernière valeur de la période
- Détails des métriques disponibles : Matrice de confusion
- Effectuer les fonctions mathématiques:
La métrique du coefficient de gini est calculée à l'aide de la formule suivante:
Gini = 2 * Area under ROC - 1
Perte logarithmique
- Description : Moyenne des logarithmes des probabilités de classe cible (fiabilité). Egalement appelée log de vraisemblance attendu.
- Seuils par défaut : limite inférieure = 80%
- Type de problème : classification binaire et classification multi-classes
- Valeurs de graphique : dernière valeur de la période
- Détails des métriques disponibles : Aucun
- Effectuer les fonctions mathématiques:
Pour un modèle binaire, la perte logarithmique est calculée à l'aide de la formule suivante :
-(y log(p) + (1-y)log(1-p))
où p = étiquette vraie et y = probabilité prédite
Pour un modèle multi-classe, la perte logarithmique est calculée à l'aide de la formule suivante :
M
-SUM Yo,c log(Po,c)
c=1
où M > 2, p = étiquette vraie et y = probabilité prévue
Proportion de la variance expliquée
- Description : la proportion de la variance expliquée est le rapport entre la variance expliquée et de la variance cible. La variance expliquée est la différence entre la variance cible et la variance de l'erreur de prévision.
- Seuils par défaut : limite inférieure = 80%
- Type de problème : régression
- Valeurs de graphique : dernière valeur de la période
- Détails des métriques disponibles : Aucun
- Effectuer les fonctions mathématiques:
La proportion de la variance expliquée est calculée en faisant la moyenne des nombres, puis, pour chaque nombre, en soustrayant la moyenne et en carré des résultats. Ensuite, mettez au point les carrés.
sum of squares between groups
Proportion explained variance = ________________________________
sum of squares total
Erreur moyenne absolue
- Description : moyenne de la différence absolue entre la prévision du modèle et la valeur cible
- Seuils par défaut : Limite supérieure = 80 %
- Type de problème : régression
- Valeurs de graphique : dernière valeur de la période
- Détails des métriques disponibles : Aucun
- Effectuer les fonctions mathématiques:
L'erreur absolue moyenne est calculée en additionnant toutes les erreurs absolues et en les divisant par le nombre d'erreurs.
SUM | Yi - Xi |
Mean absolute errors = ____________________
number of errors
Erreur quadratique moyenne
- Description : moyenne du carré des différences entre la prévision du modèle et la valeur cible
- Seuils par défaut : Limite supérieure = 80 %
- Type de problème : régression
- Valeurs de graphique : dernière valeur de la période
- Détails des métriques disponibles : Aucun
- Effectuer les fonctions mathématiques:
L'erreur quadratique moyenne dans sa forme la plus simple est représentée par la formule suivante.
SUM (Yi - ^Yi) * (Yi - ^Yi)
Mean squared errors = ____________________________
number of errors
R-carré
- Description: Ratio de la différence entre la variance cible et la variance de l'erreur de prévision sur la variance cible
- Seuils par défaut : limite inférieure = 80%
- Type de problème : régression
- Valeurs de graphique : dernière valeur de la période
- Détails des métriques disponibles : Aucun
- Effectuer les fonctions mathématiques:
La métrique R-deux est définie dans la formule suivante.
explained variation
R-squared = _____________________
total variation
Racine de l'erreur quadratique moyenne
- Description : racine carrée de la moyenne du carré des différences entre la prévision du modèle et la valeur cible
- Seuils par défaut : Limite supérieure = 80 %
- Type de problème : régression
- Valeurs de graphique : dernière valeur de la période
- Détails des métriques disponibles : Aucun
- Effectuer les fonctions mathématiques:
La racine de l'erreur quadratique moyenne est égale à la racine carrée de la moyenne du carré (prévisions moins valeurs observées).
___________________________________________________________
RMSE = √(forecasts - observed values)*(forecasts - observed values)
Taux de vrais positifs pondéré
- Description : moyenne pondérée du TPR de classe avec des poids égaux à la probabilité de classe
- Seuils par défaut : limite inférieure = 80%
- Type de problème : classification multi-classes
- Valeurs de graphique : dernière valeur de la période
- Détails des métriques disponibles : Matrice de confusion
- Effectuer les fonctions mathématiques:
Le taux de vrais positifs est calculé avec la formule suivante :
number of true positives
TPR = _________________________________________________________
number of true positives + number of false negatives
Taux de faux positifs pondéré
- Description : proportion des prévisions incorrectes dans la classe positive
- Seuils par défaut : limite inférieure = 80%
- Type de problème : classification multi-classes
- Valeurs de graphique : dernière valeur de la période
- Détails des métriques disponibles : Matrice de confusion
- Effectuer les fonctions mathématiques:
Le taux de faux positifs pondéré est l'application du FPR avec des données pondérées.
number of false positives
FPR = ______________________________________________________
(number of false positives + number of true negatives)
Rappel pondéré
- Description : moyenne pondérée des rappels avec des poids égaux à la probabilité de classe
- Seuils par défaut : limite inférieure = 80%
- Type de problème : classification multi-classes
- Valeurs de graphique : dernière valeur de la période
- Détails des métriques disponibles : Matrice de confusion
- Effectuer les fonctions mathématiques:
Le rappel pondéré (wR - weighted recall) est défini comme le nombre de vrais positifs (Tp - true positives) sur le nombre de vrais positifs plus le nombre de faux négatifs (Fn) utilisés avec des données pondérées.
number of true positives
Recall = ______________________________________________________
number of true positives + number of false negatives
Précision pondérée
- Description : moyenne pondérée des précisions avec des poids égaux à la probabilité de classe
- Seuils par défaut : limite inférieure = 80%
- Type de problème : classification multi-classes
- Valeurs de graphique : dernière valeur de la période
- Détails des métriques disponibles : Matrice de confusion
- Effectuer les fonctions mathématiques:
La précision (P) est définie comme le nombre de vrais positifs (Tp - true positives) sur le nombre de vrais positifs plus le nombre de faux positifs (Fp).
number of true positives
Precision = ________________________________________________________
number of true positives + the number of false positives
Mesure F1 pondérée
- Description : Moyenne pondérée de la mesure F1 avec des poids égaux à la probabilité de classe
- Seuils par défaut : limite inférieure = 80%
- Type de problème : classification multi-classes
- Valeurs de graphique : dernière valeur de la période
- Détails des métriques disponibles : Matrice de confusion
- Effectuer les fonctions mathématiques:
La mesure F1 pondérée est le résultat de l'utilisation des données pondérées.
precision * recall
F1 = 2 * ____________________
precision + recall
Configuration des évaluations de la qualité à l'aide de données historiques
Vous pouvez également configurer les évaluations de la qualité de manière à ce qu'elles génèrent des métriques avec des données historiques de feedbacks notés provenant de fenêtres temporelles antérieures. Pour configurer des évaluations avec des données historiques de retour d'information, vous pouvez utiliser le SDKPython pour spécifier des paramètres afin de calculer des mesures dans une fenêtre temporelle unique avec des dates de début et de fin :
parameters = {
"start_date": "2024-08-05T11:00:18.0000Z",
"end_date": "2024-08-05T14:00:18.0000Z"
}
run_details = wos_client.monitor_instances.run(monitor_instance_id=quality_monitor_instance_id, parameters = run_parameters, background_mode=False).result
En savoir plus
Examen des résultats de qualité pour les modèles d'apprentissage automatique
Rubrique parent: Configuration des évaluations de modèle