Vous pouvez configurer des évaluations de la qualité pour mesurer la capacité de votre modèle à fournir des résultats corrects en fonction de ses performances.
Les évaluations de la qualité mesurent la capacité de votre modèle à prédire des résultats exacts en identifiant le moment où la qualité du modèle diminue, afin que vous puissiez entraîner à nouveau votre modèle de manière appropriée. Pour évaluer le modèle, vous fournissez des données de retour, qui sont des données libellées dans lesquelles le résultat est connu. Les évaluations de la qualité utilisent des métriques pour évaluer dans quelle mesure le modèle prévoit les résultats qui correspondent aux résultats réels dans le jeu de données libellé.
Les sections suivantes décrivent comment configurer les évaluations de qualité:
Configuration des évaluations de la qualité des modèles d'apprentissage automatique
Copy link to section
Avant de commencer: Fournir les données de retour
Copy link to section
Les données de retour sont comme fournir une feuille de réponse avec les résultats observés réels. Le moniteur peut exécuter le modèle comme si les réponses n'étaient pas connues, puis comparer les résultats prévus aux résultats réels et fournir des scores d'exactitude basés sur des métriques de qualité.
Pour fournir les données de retour que vous utiliserez pour évaluer le modèle, cliquez sur la page Noeuds finaux et effectuez l'une des opérations suivantes:
Cliquez sur Télécharger les données de retour et téléchargez un fichier avec des données libellées.
Cliquez sur l'onglet Noeuds finaux et spécifiez un noeud final qui se connecte à la source de données de retour.
Une fois que vos données de retour sont disponibles pour l'évaluation, configurez les paramètres du moniteur. Vous définissez des seuils de performances acceptables pour le modèle par rapport aux résultats connus.
Pour définir les valeurs de seuil, dans l'onglet Qualité , cliquez sur l'icône Editer pour entrer des valeurs dans la zone Seuil de qualité , puis modifiez les valeurs de la taille de l'échantillon.
Seuil d'alerte de qualité
Copy link to section
Sélectionnez une valeur qui constitue un niveau d'exactitude acceptable. Par exemple, dans l'exemple de modèle German Credit Risk fourni avec la configuration automatique, l'alerte de l'indicateur Area under ROC est définie sur 95%. Si la qualité mesurée pour le modèle est inférieure à cette valeur, une alerte est déclenchée. Une valeur typique pour la zone sous ROC est 80%.
Tailles d'échantillon minimale et maximale
Copy link to section
En définissant une taille d'échantillon minimale,
vous évitez de mesurer la qualité tant qu'un nombre minimum d'enregistrements n'est pas disponible dans le jeu de données d'évaluation, afin que les résultats ne risquent pas d'être faussés. Chaque fois que le contrôle de qualité s'exécute, il utilise la taille d'échantillon minimale
pour décider du nombre d'enregistrements sur lesquels effectuer le calcul des métriques de qualité.
La taille maximale de l'échantillon permet de mieux gérer le temps et les ressources nécessaires à l'évaluation de l'ensemble de données. Si elle est dépassée, seuls les enregistrements les plus récents sont évalués. Par exemple, dans l'exemple Modèle de risque de crédit allemand , la taille d'échantillon minimale est définie sur 50 et aucune taille maximale n'est spécifiée car il s'agit d'un petit échantillon.
Configuration des évaluations de qualité pour les modèles génératifs d'IA
Copy link to section
Lorsque vous évaluez des modèles d'invite, vous pouvez consulter un récapitulatif des résultats d'évaluation de la qualité pour le type de tâche de classification de texte.
Le récapitulatif affiche les scores et les violations pour les indicateurs qui sont calculés avec les paramètres par défaut.
Pour configurer les évaluations de qualité avec vos propres paramètres, vous pouvez définir une taille d'échantillon minimale et des valeurs de seuil pour chaque métrique. La taille d'échantillon minimale indique le nombre minimal d'enregistrements de transaction de modèle que vous souhaitez évaluer et les valeurs de seuil créent des alertes lorsque vos scores d'indicateur ne respectent pas vos seuils. Les scores des indicateurs doivent être supérieurs aux valeurs de seuil pour éviter les violations. Des valeurs de métrique plus élevées indiquent de meilleurs scores.
Métriques de qualité prises en charge
Copy link to section
Langues prises en charge : Anglais uniquement
Lorsque vous activez les évaluations de la qualité, vous pouvez générer des mesures qui vous aident à déterminer dans quelle mesure votre modèle prédit les résultats. Les valeurs qui sont définies en tant que seuils de métrique déterminent la façon dont vous pouvez interpréter vos scores de métrique. Pour les indicateurs configurés avec des seuils plus bas, des scores plus élevés indiquent de meilleurs résultats. Pour les indicateurs configurés avec des seuils supérieurs, des scores inférieurs indiquent de meilleurs résultats.
Les évaluations de la qualité génèrent les indicateurs suivants:
Zone sous la courbe ROC
Copy link to section
Modèles pris en charge: Apprentissage automatique
Description: Surface sous la courbe des taux de rappels et de faux positifs pour calculer la sensibilité par rapport au taux de retombées
Seuils par défaut : limite inférieure = 80%
Type de problème : classification binaire
Valeurs de graphique : dernière valeur dans la période
Détails de métriques disponibles : matrice de confusion
Zone sous la courbe PR
Copy link to section
Modèles pris en charge: Apprentissage automatique
Description : surface sous la courbe de précision et de rappel
Seuils par défaut : limite inférieure = 80%
Type de problème : classification binaire
Valeurs de graphique : dernière valeur dans la période
Détails de métriques disponibles : matrice de confusion
Effectuer les fonctions mathématiques:
La zone sous le rappel de précision donne le total pour les deux Precision + Recall.
n
AveP = ∑ P(k)∆r(k)
k=1
Copy to clipboardCopié dans le presse-papiers
La précision (P) est définie comme le nombre de vrais positifs (Tp) sur le nombre de vrais positifs plus le nombre de faux positifs (Fp).
number of true positives
Precision = ______________________________________________________
(number of true positives + number of false positives)
Copy to clipboardCopié dans le presse-papiers
Le rappel (R) est défini comme le nombre de vrais positifs (Tp) sur le nombre de vrais positifs et le nombre de faux négatifs (Fn).
number of true positives
Recall = ______________________________________________________
(number of true positives + number of false negatives)
Copy to clipboardCopié dans le presse-papiers
Exactitude
Copy link to section
Modèles pris en charge: Apprentissage automatique et IA générative
Description : proportion des prédictions correctes
Seuils par défaut : limite inférieure = 80%
Types de problème : classification binaire et classification multi-classes
Valeurs de graphique : dernière valeur dans la période
Détails de métriques disponibles : matrice de confusion
Comprendre l'exactitude: l'exactitude peut signifier différentes choses en fonction du type d'algorithme ;
Classification multi-classes :
L'exactitude mesure le nombre de fois qu'une classe quelconque a été prédite correctement, normalisé par le nombre de points de données. Pour plus de détails, consultez Multi-class classification dans la documentation Apache Spark.
Classification binaire :
Pour un algorithme de classification binaire, l'exactitude est mesurée comme la zone située sous une courbe ROC. Pour plus de détails, consultez Binary classification dans la documentation Apache Spark.
Régression: les algorithmes de régression sont mesurés à l'aide du coefficient de détermination, ou R2. Pour plus de détails, consultez Regression model evaluation dans la documentation Apache Spark.
Taux de vrais positifs
Copy link to section
Modèles pris en charge: Apprentissage automatique
Description : proportion de prédictions correctes dans les prédictions de la classe positive
Seuils par défaut : limite inférieure = 80 %
Type de problème : classification binaire
Valeurs de graphique : dernière valeur dans la période
Détails de métriques disponibles : matrice de confusion
Effectuer les fonctions mathématiques:
Le taux de vrais positifs est calculé avec la formule suivante :
number of true positives
TPR = _________________________________________________________
(number of true positives + number of false negatives)
Copy to clipboardCopié dans le presse-papiers
Taux de faux positifs
Copy link to section
Modèles pris en charge: Apprentissage automatique
Description : proportion de prédictions incorrectes dans la classe positive
Seuils par défaut : limite inférieure = 80%
Type de problème : classification binaire
Valeurs de graphique : dernière valeur dans la période
Détails de métriques disponibles : matrice de confusion
Effectuer les fonctions mathématiques:
Le taux de faux positifs est le quotient du nombre total de faux positifs divisé par la somme des faux positifs et des vrais négatifs.
number of false positives
False positive rate = ______________________________________________________
(number of false positives + number of true negatives)
Copy to clipboardCopié dans le presse-papiers
Score Brier
Copy link to section
Modèles pris en charge: Apprentissage automatique
Description: mesure le carré de la différence moyenne entre la probabilité prédite et la valeur cible. Des scores plus élevés indiquent que les probabilités prédites du modèle ne correspondent pas à la valeur cible.
Seuils par défaut:
Limite supérieure = 80%
Type de problème : classification binaire
Effectuer les fonctions mathématiques:
L'indicateur de score de brier est calculé à l'aide de la formule suivante:
BrierScore = 1/N * sum( (p - y)^2 )
Where y = actual outcome, and p = predicted probability
Coefficient de Gini
Copy link to section
Modèles pris en charge: Apprentissage automatique
Description: Le coefficient de Gini mesure la façon dont les modèles distinguent deux classes. Elle est calculée comme deux fois l'aire entre la courbe ROC et la diagonale du tracé du graphique. Si la valeur du coefficient de gini est 0, le modèle ne montre aucune capacité de discrimination et une valeur de 1 indique une discrimination parfaite.
Seuils par défaut:
Limite inférieure = 80%
Type de problème : classification binaire
Valeurs de graphique : dernière valeur dans la période
Détails de métriques disponibles : matrice de confusion
Effectuer les fonctions mathématiques:
La métrique du coefficient de gini est calculée à l'aide de la formule suivante:
Gini = 2 * Area under ROC - 1
Copy to clipboardCopié dans le presse-papiers
Décalage d'étiquette
Copy link to section
Modèles pris en charge: IA générative et apprentissage automatique
Description: mesure l'asymétrie des distributions de libellé. Si l'asymétrie est égale à 0, l'ensemble de données est parfaitement équilibré, si elle est inférieure à -1 ou supérieure à 1, la distribution est fortement asymétrique, tout ce qui se situe entre les deux est modérément asymétrique.
Seuils par défaut:
Limite inférieure = -0.5
Limite supérieure = 0.5
Type de problème : classification binaire et classification multi-classes
Valeurs de graphique : dernière valeur dans la période
Coefficient de corrélation de Matthews
Copy link to section
Modèles pris en charge: IA générative et apprentissage automatique
Description: mesure la qualité des classifications binaires et multiclasses en prenant en compte les vrais et les faux positifs et négatifs. Mesure équilibrée qui peut être utilisée même si les classes sont de tailles différentes. Valeur du coefficient de corrélation comprise entre -1 et +1. Un coefficient de +1 représente une prédiction parfaite, 0 une prédiction aléatoire moyenne et -1 une prédiction inverse.
Seuils par défaut : limite inférieure = 80%
Type de problème : classification binaire et classification multi-classes
Valeurs de graphique : dernière valeur dans la période
Détails des métriques disponibles: matrice de confusion
Erreur absolue moyenne en pourcentage
Copy link to section
Modèles pris en charge: apprentissage automatique
Seuils par défaut : Limite supérieure = 0.2
Type de problème : régression
Description : Mesure le pourcentage moyen de différence d'erreur entre les valeurs prédites et les valeurs réelles
Effectuer les fonctions mathématiques:
Le pourcentage d'erreur absolue moyenne est calculé à l'aide de la formule suivante :
A est la valeur réelle et P est la valeur prédite.
Erreur absolue moyenne en pourcentage symétrique
Copy link to section
Modèles pris en charge: Apprentissage automatique
Seuils par défaut : Limite supérieure = 0.2
Type de problème : régression
Description : Mesure la moyenne symétrique du pourcentage d'erreur de différence entre les valeurs prédites et réelles
Effectuer les fonctions mathématiques:
Le pourcentage d'erreur absolue moyenne symétrique est calculé à l'aide de la formule suivante :
A est la valeur réelle et P est la valeur prédite.
Coefficient de corrélation de Pearson
Copy link to section
Modèles pris en charge: Apprentissage automatique
Seuil par défaut : Limite inférieure = 80%
Type de problème : régression
Description : Le coefficient de corrélation de Pearson (Pearson) mesure la relation linéaire entre la prédiction du modèle et les valeurs cibles. La métrique de Pearson calcule un coefficient de corrélation entre -1 et +1. Une valeur de corrélation de -1 ou +1 indique qu'il existe une relation linéaire exacte et une valeur de 0 indique qu'il n'y a pas de corrélation. Les corrélations positives indiquent que les variables augmentent simultanément et les corrélations négatives indiquent que lorsqu'une variable augmente, une autre variable diminue. Des valeurs positives élevées indiquent que le modèle prédit des valeurs similaires aux valeurs cibles.
coefficient de corrélation de Spearman
Copy link to section
Modèles pris en charge: Apprentissage automatique
Seuil par défaut : Limite inférieure = 80%
Type de problème : régression
Valeurs de graphique : dernière valeur dans la période
Description : Le coefficient de corrélation de rang de spearman (spearman) mesure la monotonicité de la relation entre les prédictions du modèle et les valeurs cibles. La métrique de Spearman calcule une valeur de coefficient de corrélation entre -1 et +1. Une valeur de corrélation de -1 ou +1 indique qu'il existe une relation monotone exacte et une valeur de 0 indique qu'il n'y a pas de corrélation. Les corrélations positives indiquent que les variables augmentent simultanément et les corrélations négatives indiquent que lorsqu'une variable augmente, une autre variable diminue.
Rappeler
Copy link to section
Modèles pris en charge: Apprentissage automatique
Description : proportion des prédictions correctes dans la classe positive
Seuils par défaut : limite inférieure = 80%
Type de problème : classification binaire
Valeurs de graphique : dernière valeur dans la période
Détails de métriques disponibles : matrice de confusion
Effectuer les fonctions mathématiques:
Le rappel (R) est défini comme le nombre de vrais positifs (Tp) sur le nombre de vrais positifs et le nombre de faux négatifs (Fn).
number of true positives
Recall = ______________________________________________________
(number of true positives + number of false negatives)
Copy to clipboardCopié dans le presse-papiers
Précision
Copy link to section
Modèles pris en charge: Apprentissage automatique
Description : proportion de prédictions correctes dans les prédictions de la classe positive
Seuils par défaut : limite inférieure = 80%
Type de problème : classification binaire
Valeurs de graphique : dernière valeur dans la période
Détails de métriques disponibles : matrice de confusion
Effectuer les fonctions mathématiques:
La précision (P) est définie comme le nombre de vrais positifs (Tp) sur le nombre de vrais positifs plus le nombre de faux positifs (Fp).
number of true positives
Precision = __________________________________________________________
(number of true positives + the number of false positives)
Copy to clipboardCopié dans le presse-papiers
F1-Measure
Copy link to section
Modèles pris en charge: Apprentissage automatique
Description : moyenne harmonique des précisions et rappels
Seuils par défaut : limite inférieure = 80%
Type de problème : classification binaire
Valeurs de graphique : dernière valeur dans la période
Détails de métriques disponibles : matrice de confusion
Effectuer les fonctions mathématiques:
La F1-measure est la moyenne harmonique pondérée ou la moyenne de précision et de rappel.
Description : moyenne des logarithmes des probabilités de classe cible (confiance). Aussi connu sous le nom de log de vraisemblance attendu.
Seuils par défaut : limite inférieure = 80%
Type de problème : classification binaire et classification multi-classes
Valeurs de graphique : dernière valeur dans la période
Détails de métriques disponibles : aucun
Effectuer les fonctions mathématiques:
Pour un modèle binaire, la perte logarithmique est calculée à l'aide de la formule suivante :
-(y log(p) + (1-y)log(1-p))
Copy to clipboardCopié dans le presse-papiers
où p = étiquette vraie et y = probabilité prédite
Pour un modèle multi-classe, la perte logarithmique est calculée à l'aide de la formule suivante :
M
-SUM Yo,c log(Po,c)
c=1
Copy to clipboardCopié dans le presse-papiers
où M > 2, p = étiquette vraie et y = probabilité prévue
Proportion de la variance expliquée
Copy link to section
Modèles pris en charge: Apprentissage automatique
Description : la proportion de la variance expliquée est le rapport entre la variance expliquée et de la variance cible. La variance expliquée est la différence entre la variance cible et la variance de l'erreur de prévision.
Seuils par défaut : limite inférieure = 80%
Type de problème : régression
Valeurs de graphique : dernière valeur dans la période
Détails de métriques disponibles : aucun
Effectuer les fonctions mathématiques:
La proportion de la variance expliquée est calculée en faisant la moyenne des nombres, puis, pour chaque nombre, en soustrayant la moyenne et en carré des résultats. Ensuite, mettez au point les carrés.
sum of squares between groups
Proportion explained variance = ________________________________
sum of squares total
Copy to clipboardCopié dans le presse-papiers
Erreur moyenne absolue
Copy link to section
Modèles pris en charge: Apprentissage automatique
Description : moyenne de la différence absolue entre la prédiction du modèle et la valeur cible
Seuils par défaut : Limite supérieure = 80 %
Type de problème : régression
Valeurs de graphique : dernière valeur dans la période
Détails de métriques disponibles : aucun
Effectuer les fonctions mathématiques:
L'erreur absolue moyenne est calculée en additionnant toutes les erreurs absolues et en les divisant par le nombre d'erreurs.
SUM | Yi - Xi |
Mean absolute errors = ____________________
number of errors
Copy to clipboardCopié dans le presse-papiers
Erreur quadratique moyenne
Copy link to section
Modèles pris en charge: Apprentissage automatique
Description : moyenne du carré des différences entre la prédiction du modèle et la valeur cible
Seuils par défaut : Limite supérieure = 80 %
Type de problème : régression
Valeurs de graphique : dernière valeur dans la période
Détails de métriques disponibles : aucun
Effectuer les fonctions mathématiques:
L'erreur quadratique moyenne dans sa forme la plus simple est représentée par la formule suivante.
SUM (Yi - ^Yi) * (Yi - ^Yi)
Mean squared errors = ____________________________
number of errors
Copy to clipboardCopié dans le presse-papiers
R-carré
Copy link to section
Modèles pris en charge: Apprentissage automatique
Description : ratio de la différence entre la variance cible et la variance de l'erreur de prédiction sur la variance cible.
Seuils par défaut : limite inférieure = 80%
Type de problème : régression
Valeurs de graphique : dernière valeur dans la période
Détails de métriques disponibles : aucun
Effectuer les fonctions mathématiques:
La métrique R-deux est définie dans la formule suivante.
explained variation
R-squared = _____________________
total variation
Copy to clipboardCopié dans le presse-papiers
Racine de l'erreur quadratique moyenne
Copy link to section
Modèles pris en charge: Apprentissage automatique
Description : racine carrée de la moyenne du carré des différences entre la prédiction du modèle et la valeur cible
Seuils par défaut : Limite supérieure = 80 %
Type de problème : régression
Valeurs de graphique : dernière valeur dans la période
Détails de métriques disponibles : aucun
Effectuer les fonctions mathématiques:
La racine de l'erreur quadratique moyenne est égale à la racine carrée de la moyenne du carré (prévisions moins valeurs observées).
Modèles pris en charge: Apprentissage automatique et IA générative
Description : moyenne pondérée du TPR de classe avec des poids égaux à la probabilité de classe
Seuils par défaut : limite inférieure = 80%
Type de problème : classification multi-classes
Valeurs de graphique : dernière valeur dans la période
Détails de métriques disponibles : matrice de confusion
Effectuer les fonctions mathématiques:
Le taux de vrais positifs est calculé avec la formule suivante :
number of true positives
TPR = _________________________________________________________
number of true positives + number of false negatives
Copy to clipboardCopié dans le presse-papiers
Taux de faux positifs pondéré
Copy link to section
Modèles pris en charge: Apprentissage automatique et IA générative
Description : proportion de prédictions incorrectes dans la classe positive
Seuils par défaut : limite inférieure = 80%
Type de problème : classification multi-classes
Valeurs de graphique : dernière valeur dans la période
Détails de métriques disponibles : matrice de confusion
Effectuer les fonctions mathématiques:
Le taux de faux positifs pondéré est l'application du FPR avec des données pondérées.
number of false positives
FPR = ______________________________________________________
(number of false positives + number of true negatives)
Copy to clipboardCopié dans le presse-papiers
Rappel pondéré
Copy link to section
Modèles pris en charge: Apprentissage automatique et IA générative
Description : moyenne pondérée des rappels avec des poids égaux à la probabilité de classe
Seuils par défaut : limite inférieure = 80%
Type de problème : classification multi-classes
Valeurs de graphique : dernière valeur dans la période
Détails de métriques disponibles : matrice de confusion
Effectuer les fonctions mathématiques:
Le rappel pondéré (wR - weighted recall) est défini comme
le nombre de vrais positifs (Tp - true positives) sur le nombre de vrais positifs plus le nombre de faux négatifs (Fn) utilisés avec des données pondérées.
number of true positives
Recall = ______________________________________________________
number of true positives + number of false negatives
Copy to clipboardCopié dans le presse-papiers
Précision pondérée
Copy link to section
Modèles pris en charge: Apprentissage automatique et IA générative
Description : moyenne pondérée des précisions avec des poids égaux à la probabilité de classe
Seuils par défaut : limite inférieure = 80%
Type de problème : classification multi-classes
Valeurs de graphique : dernière valeur dans la période
Détails de métriques disponibles : matrice de confusion
Effectuer les fonctions mathématiques:
La précision (P) est définie comme le nombre de vrais positifs (Tp) sur le nombre de vrais positifs plus le nombre de faux positifs (Fp).
number of true positives
Precision = ________________________________________________________
number of true positives + the number of false positives
Copy to clipboardCopié dans le presse-papiers
Mesure F1 pondérée
Copy link to section
Modèles pris en charge: Apprentissage automatique et IA générative
Description : moyenne pondérée de la mesure F1 avec des poids égaux à la probabilité de classe
Seuils par défaut : limite inférieure = 80%
Type de problème : classification multi-classes
Valeurs de graphique : dernière valeur dans la période
Détails de métriques disponibles : matrice de confusion
Effectuer les fonctions mathématiques:
La mesure F1 pondérée est le résultat de l'utilisation des données pondérées.
Configuration des évaluations de la qualité à l'aide de données historiques
Copy link to section
Vous pouvez également configurer les évaluations de la qualité de manière à ce qu'elles génèrent des métriques avec des données historiques de feedbacks notés provenant de fenêtres temporelles antérieures. Pour configurer des évaluations avec des données historiques de retour d'information, vous pouvez utiliser le SDKPython pour spécifier des paramètres afin de calculer des mesures dans une fenêtre temporelle unique avec des dates de début et de fin :