Évaluations de la qualité

Dernière mise à jour : 26 nov. 2024

Les évaluations de la qualité mesurent la capacité de votre modèle à fournir des résultats corrects en fonction des performances du modèle à l'aide de données de test étiquetées appelées données de retour.

Mesure de la précision du modèle avec des évaluations de qualité

Les évaluations de la qualité surveillent la façon dont votre modèle prévoit des résultats précis. Il détermine quand la qualité du modèle diminue afin que vous puissiez le réentraîner pour corriger le tir. Pour évaluer le modèle, vous fournissez des données de retour, qui sont des données libellées dans lesquelles le résultat est connu. Les évaluations de la qualité utilisent un ensemble de métriques de science des données standard pour évaluer dans quelle mesure le modèle prévoit les résultats qui correspondent aux résultats réels dans le jeu de données étiqueté.

Vous pouvez définir des seuils de qualité acceptables pour les indicateurs utilisés pour évaluer votre modèle. Vous pouvez également définir la taille de l'échantillon, qui correspond au nombre de lignes de données de retour, à prendre en compte pour l'évaluation.

Avant de commencer: Fournir les données de retour

Les données de retour sont comme fournir une feuille de réponse avec les résultats observés réels. Le moniteur peut exécuter le modèle comme si les réponses n'étaient pas connues, puis comparer les résultats prévus aux résultats réels et fournir des scores d'exactitude basés sur des métriques de qualité.

Pour fournir des données de retour aux modèles d'apprentissage automatique, vous devez ouvrir la page Points finaux et effectuer l'une des opérations suivantes :

Cliquez sur Télécharger les données de retour et téléchargez un fichier avec des données libellées.
Cliquez sur l'onglet Noeuds finaux et spécifiez un noeud final qui se connecte à la source de données de retour.

Pour plus de détails, voir Gestion des données de retour.

Définition des seuils de qualité

Une fois que vos données de retour sont disponibles pour l'évaluation, configurez les paramètres du moniteur. Vous définissez des seuils de performances acceptables pour le modèle par rapport aux résultats connus.

Pour définir les valeurs de seuil, dans l'onglet Qualité , cliquez sur l'icône Editer pour entrer des valeurs dans la zone Seuil de qualité , puis modifiez les valeurs de la taille de l'échantillon.

Seuil d'alerte de qualité

Sélectionnez une valeur qui constitue un niveau d'exactitude acceptable. Par exemple, dans l'exemple de modèle German Credit Risk fourni avec la configuration automatique, l'alerte de l'indicateur Area under ROC est définie sur 95%. Si la qualité mesurée pour le modèle est inférieure à cette valeur, une alerte est déclenchée. Une valeur typique pour la zone sous ROC est 80%.

Pour plus de détails sur les métriques standard du moniteur de qualité, voir Présentation des métriques de qualité.

Tailles d'échantillon minimale et maximale

En définissant une taille d'échantillon minimale, vous évitez de mesurer la qualité tant qu'un nombre minimum d'enregistrements n'est pas disponible dans le jeu de données d'évaluation, afin que les résultats ne risquent pas d'être faussés. Chaque fois que le contrôle de qualité s'exécute, il utilise la taille d'échantillon minimale pour décider du nombre d'enregistrements sur lesquels effectuer le calcul des métriques de qualité.

La taille maximale de l'échantillon permet de mieux gérer le temps et les ressources nécessaires à l'évaluation de l'ensemble de données. Si elle est dépassée, seuls les enregistrements les plus récents sont évalués. Par exemple, dans l'exemple Modèle de risque de crédit allemand , la taille d'échantillon minimale est définie sur 50 et aucune taille maximale n'est spécifiée car il s'agit d'un petit échantillon.

Métriques de qualité prises en charge

Lorsque vous activez les évaluations de la qualité, vous pouvez générer des mesures qui vous aident à déterminer dans quelle mesure votre modèle prédit les résultats.

Vous pouvez consulter les résultats de vos évaluations de la qualité sur la page de synthèse des évaluations. Pour afficher les résultats, vous pouvez sélectionner une vignette de déploiement de modèle et cliquer sur la flèche dans la section d'évaluation Qualité pour afficher un récapitulatif des métriques de qualité de votre dernière évaluation. Pour plus d'informations, voir Examen des résultats de qualité.

Aire sous la courbe ROC

Description: Surface sous la courbe des taux de rappels et de faux positifs pour calculer la sensibilité par rapport au taux de retombées
Seuils par défaut : limite inférieure = 80%
Type de problème : Classification binaire
Valeurs de graphique : dernière valeur de la période
Détails des métriques disponibles : Matrice de confusion

Aire sous la courbe PR

Description : surface sous la courbe de précision et de rappel
Seuils par défaut : limite inférieure = 80%
Type de problème : Classification binaire
Valeurs de graphique : dernière valeur de la période
Détails des métriques disponibles : Matrice de confusion
Effectuer les fonctions mathématiques:

La zone sous le rappel de précision donne le total pour les deux Precision + Recall.

       n
AveP = ∑ P(k)∆r(k)
      k=1

La précision (P) est définie comme le nombre de vrais positifs (Tp - true positives) sur le nombre de vrais positifs plus le nombre de faux positifs (Fp).

               number of true positives
Precision =   ______________________________________________________

              (number of true positives + number of false positives)

Le rappel (R) est défini comme le nombre de vrais positifs (Tp - true positives) sur le nombre de vrais positifs plus le nombre de faux négatifs (Fn).

            number of true positives
Recall =   ______________________________________________________

           (number of true positives + number of false negatives)

Précision

Description : Proportion des prévisions correctes
Seuils par défaut : limite inférieure = 80%
Types de problème : classification binaire et classification multi-classes
Valeurs de graphique : dernière valeur de la période
Détails des métriques disponibles : Matrice de confusion
Comprendre l'exactitude:
l'exactitude peut signifier différentes choses en fonction du type d'algorithme ;
- Classification multi-classes : l'exactitude mesure le nombre de fois qu'une classe quelconque a été prévue correctement, normalisé par le nombre de points de données. Pour plus de détails, consultez Multi-class classification dans la documentation Apache Spark.
- Classification binaire : pour un algorithme de classification binaire, l'exactitude est mesurée comme la zone située sous une courbe ROC. Pour plus de détails, consultez Binary classification dans la documentation Apache Spark.
- Régression: les algorithmes de régression sont mesurés à l'aide du coefficient de détermination, ou R2. Pour plus de détails, consultez Regression model evaluation dans la documentation Apache Spark.

Taux de vrais positifs

Description : proportion des prévisions correctes dans les prévisions de la classe positive
Seuils par défaut : limite inférieure = 80 %
Type de problème : Classification binaire
Valeurs de graphique : dernière valeur de la période
Détails des métriques disponibles : Matrice de confusion
Effectuer les fonctions mathématiques:

Le taux de vrais positifs est calculé avec la formule suivante :

                  number of true positives
TPR =  _________________________________________________________

        (number of true positives + number of false negatives)

Taux de faux positifs

Description : proportion des prévisions incorrectes dans la classe positive
Seuils par défaut : limite inférieure = 80%
Type de problème : Classification binaire
Valeurs de graphique : dernière valeur de la période
Détails des métriques disponibles : Matrice de confusion
Effectuer les fonctions mathématiques:

Le taux de faux positifs est le quotient du nombre total de faux positifs divisé par la somme des faux positifs et des vrais négatifs.

                        number of false positives
False positive rate =  ______________________________________________________

                       (number of false positives + number of true negatives)

Rappel

Description : Proportion des prévisions correctes dans la classe positive
Seuils par défaut : limite inférieure = 80%
Type de problème : Classification binaire
Valeurs de graphique : dernière valeur de la période
Détails des métriques disponibles : Matrice de confusion
Fonctions mathématiques:

Le rappel (R) est défini comme le nombre de vrais positifs (Tp - true positives) sur le nombre de vrais positifs plus le nombre de faux négatifs (Fn).

                       number of true positives
Recall =   ______________________________________________________

           (number of true positives + number of false negatives)

Précision

Description : proportion des prévisions correctes dans les prévisions de la classe positive
Seuils par défaut : limite inférieure = 80%
Type de problème : Classification binaire
Valeurs de graphique : dernière valeur de la période
Détails des métriques disponibles : Matrice de confusion
Effectuer les fonctions mathématiques:

La précision (P) est définie comme le nombre de vrais positifs (Tp - true positives) sur le nombre de vrais positifs plus le nombre de faux positifs (Fp).

                           number of true positives
Precision =  __________________________________________________________

             (number of true positives + the number of false positives)

F1-Measure

Description : moyenne harmonique des précisions et rappels
Seuils par défaut : limite inférieure = 80%
Type de problème : Classification binaire
Valeurs de graphique : dernière valeur de la période
Détails des métriques disponibles : Matrice de confusion
Effectuer les fonctions mathématiques:

La F1-measure est la moyenne harmonique pondérée ou la moyenne de précision et de rappel.

          (precision * recall)
F1 = 2 *  ____________________

          (precision + recall)

Coefficient de Gini

Description: Le coefficient de Gini mesure la façon dont les modèles distinguent deux classes. Elle est calculée comme deux fois l'aire entre la courbe ROC et la diagonale du tracé du graphique. Si la valeur du coefficient de gini est 0, le modèle ne montre aucune capacité de discrimination et une valeur de 1 indique une discrimination parfaite.
Seuils par défaut:
- Limite inférieure = 80%
Type de problème : Classification binaire
Valeurs de graphique : dernière valeur de la période
Détails des métriques disponibles : Matrice de confusion
Effectuer les fonctions mathématiques:

La métrique du coefficient de gini est calculée à l'aide de la formule suivante:


Gini = 2 * Area under ROC - 1

Perte logarithmique

Description : Moyenne des logarithmes des probabilités de classe cible (fiabilité). Egalement appelée log de vraisemblance attendu.
Seuils par défaut : limite inférieure = 80%
Type de problème : classification binaire et classification multi-classes
Valeurs de graphique : dernière valeur de la période
Détails des métriques disponibles : Aucun
Effectuer les fonctions mathématiques:

Pour un modèle binaire, la perte logarithmique est calculée à l'aide de la formule suivante :

-(y log(p) + (1-y)log(1-p))

où p = étiquette vraie et y = probabilité prédite

Pour un modèle multi-classe, la perte logarithmique est calculée à l'aide de la formule suivante :

  M
-SUM Yo,c log(Po,c)
 c=1

où M > 2, p = étiquette vraie et y = probabilité prévue

Proportion de la variance expliquée

Description : la proportion de la variance expliquée est le rapport entre la variance expliquée et de la variance cible. La variance expliquée est la différence entre la variance cible et la variance de l'erreur de prévision.
Seuils par défaut : limite inférieure = 80%
Type de problème : régression
Valeurs de graphique : dernière valeur de la période
Détails des métriques disponibles : Aucun
Effectuer les fonctions mathématiques:

La proportion de la variance expliquée est calculée en faisant la moyenne des nombres, puis, pour chaque nombre, en soustrayant la moyenne et en carré des résultats. Ensuite, mettez au point les carrés.

                                  sum of squares between groups 
Proportion explained variance =  ________________________________

                                      sum of squares total

Erreur moyenne absolue

Description : moyenne de la différence absolue entre la prévision du modèle et la valeur cible
Seuils par défaut : Limite supérieure = 80 %
Type de problème : régression
Valeurs de graphique : dernière valeur de la période
Détails des métriques disponibles : Aucun
Effectuer les fonctions mathématiques:

L'erreur absolue moyenne est calculée en additionnant toutes les erreurs absolues et en les divisant par le nombre d'erreurs.

                         SUM  | Yi - Xi | 
Mean absolute errors =  ____________________

                          number of errors

Erreur quadratique moyenne

Description : moyenne du carré des différences entre la prévision du modèle et la valeur cible
Seuils par défaut : Limite supérieure = 80 %
Type de problème : régression
Valeurs de graphique : dernière valeur de la période
Détails des métriques disponibles : Aucun
Effectuer les fonctions mathématiques:

L'erreur quadratique moyenne dans sa forme la plus simple est représentée par la formule suivante.

                         SUM  (Yi - ^Yi) * (Yi - ^Yi)
Mean squared errors  =  ____________________________

                             number of errors

R-carré

Description: Ratio de la différence entre la variance cible et la variance de l'erreur de prévision sur la variance cible
Seuils par défaut : limite inférieure = 80%
Type de problème : régression
Valeurs de graphique : dernière valeur de la période
Détails des métriques disponibles : Aucun
Effectuer les fonctions mathématiques:

La métrique R-deux est définie dans la formule suivante.

                  explained variation
R-squared =       _____________________

                    total variation

Racine de l'erreur quadratique moyenne

Description : racine carrée de la moyenne du carré des différences entre la prévision du modèle et la valeur cible
Seuils par défaut : Limite supérieure = 80 %
Type de problème : régression
Valeurs de graphique : dernière valeur de la période
Détails des métriques disponibles : Aucun
Effectuer les fonctions mathématiques:

La racine de l'erreur quadratique moyenne est égale à la racine carrée de la moyenne du carré (prévisions moins valeurs observées).

          ___________________________________________________________
RMSE  =  √(forecasts - observed values)*(forecasts - observed values)

Taux de vrais positifs pondéré

Description : moyenne pondérée du TPR de classe avec des poids égaux à la probabilité de classe
Seuils par défaut : limite inférieure = 80%
Type de problème : classification multi-classes
Valeurs de graphique : dernière valeur de la période
Détails des métriques disponibles : Matrice de confusion
Effectuer les fonctions mathématiques:

Le taux de vrais positifs est calculé avec la formule suivante :

                  number of true positives
TPR =  _________________________________________________________

        number of true positives + number of false negatives

Taux de faux positifs pondéré

Description : proportion des prévisions incorrectes dans la classe positive
Seuils par défaut : limite inférieure = 80%
Type de problème : classification multi-classes
Valeurs de graphique : dernière valeur de la période
Détails des métriques disponibles : Matrice de confusion
Effectuer les fonctions mathématiques:

Le taux de faux positifs pondéré est l'application du FPR avec des données pondérées.

                   number of false positives
FPR =  ______________________________________________________

       (number of false positives + number of true negatives)

Rappel pondéré

Description : moyenne pondérée des rappels avec des poids égaux à la probabilité de classe
Seuils par défaut : limite inférieure = 80%
Type de problème : classification multi-classes
Valeurs de graphique : dernière valeur de la période
Détails des métriques disponibles : Matrice de confusion
Effectuer les fonctions mathématiques:

Le rappel pondéré (wR - weighted recall) est défini comme le nombre de vrais positifs (Tp - true positives) sur le nombre de vrais positifs plus le nombre de faux négatifs (Fn) utilisés avec des données pondérées.

                          number of true positives
Recall =   ______________________________________________________

           number of true positives + number of false negatives

Précision pondérée

Description : moyenne pondérée des précisions avec des poids égaux à la probabilité de classe
Seuils par défaut : limite inférieure = 80%
Type de problème : classification multi-classes
Valeurs de graphique : dernière valeur de la période
Détails des métriques disponibles : Matrice de confusion
Effectuer les fonctions mathématiques:

La précision (P) est définie comme le nombre de vrais positifs (Tp - true positives) sur le nombre de vrais positifs plus le nombre de faux positifs (Fp).

                            number of true positives
Precision =  ________________________________________________________

             number of true positives + the number of false positives

Mesure F1 pondérée

Description : Moyenne pondérée de la mesure F1 avec des poids égaux à la probabilité de classe
Seuils par défaut : limite inférieure = 80%
Type de problème : classification multi-classes
Valeurs de graphique : dernière valeur de la période
Détails des métriques disponibles : Matrice de confusion
Effectuer les fonctions mathématiques:

La mesure F1 pondérée est le résultat de l'utilisation des données pondérées.

           precision * recall
F1 = 2 *  ____________________

           precision + recall

Configuration des évaluations de la qualité à l'aide de données historiques

Vous pouvez également configurer les évaluations de la qualité de manière à ce qu'elles génèrent des métriques avec des données historiques de feedbacks notés provenant de fenêtres temporelles antérieures. Pour configurer des évaluations avec des données historiques de retour d'information, vous pouvez utiliser le SDKPython pour spécifier des paramètres afin de calculer des mesures dans une fenêtre temporelle unique avec des dates de début et de fin :

parameters = {
    "start_date": "2024-08-05T11:00:18.0000Z",
    "end_date": "2024-08-05T14:00:18.0000Z"
}
run_details = wos_client.monitor_instances.run(monitor_instance_id=quality_monitor_instance_id, parameters = run_parameters, background_mode=False).result

En savoir plus

Examen des résultats de qualité pour les modèles d'apprentissage automatique

Rubrique parent: Configuration des évaluations de modèle

La rubrique a-t-elle été utile ?

0/1000

Mesure de la précision du modèle avec des évaluations de qualitéCopy link to section

Avant de commencer: Fournir les données de retourCopy link to section

Définition des seuils de qualitéCopy link to section

Seuil d'alerte de qualitéCopy link to section

Tailles d'échantillon minimale et maximaleCopy link to section

Métriques de qualité prises en chargeCopy link to section

Aire sous la courbe ROCCopy link to section

Aire sous la courbe PRCopy link to section

PrécisionCopy link to section

Taux de vrais positifsCopy link to section

Taux de faux positifsCopy link to section

RappelCopy link to section

PrécisionCopy link to section

F1-MeasureCopy link to section

Coefficient de GiniCopy link to section

Perte logarithmiqueCopy link to section

Proportion de la variance expliquéeCopy link to section

Erreur moyenne absolueCopy link to section

Erreur quadratique moyenneCopy link to section

R-carréCopy link to section

Racine de l'erreur quadratique moyenneCopy link to section

Taux de vrais positifs pondéréCopy link to section

Taux de faux positifs pondéréCopy link to section

Rappel pondéréCopy link to section

Précision pondéréeCopy link to section

Mesure F1 pondéréeCopy link to section

Configuration des évaluations de la qualité à l'aide de données historiquesCopy link to section

En savoir plusCopy link to section

Mesure de la précision du modèle avec des évaluations de qualité

Avant de commencer: Fournir les données de retour

Définition des seuils de qualité

Seuil d'alerte de qualité

Tailles d'échantillon minimale et maximale

Métriques de qualité prises en charge

Aire sous la courbe ROC

Aire sous la courbe PR

Précision

Taux de vrais positifs

Taux de faux positifs

Rappel

Précision

F1-Measure

Coefficient de Gini

Perte logarithmique

Proportion de la variance expliquée

Erreur moyenne absolue

Erreur quadratique moyenne

R-carré

Racine de l'erreur quadratique moyenne

Taux de vrais positifs pondéré

Taux de faux positifs pondéré

Rappel pondéré

Précision pondérée

Mesure F1 pondérée

Configuration des évaluations de la qualité à l'aide de données historiques

En savoir plus