0 / 0
Retourner à la version anglaise de la documentation
Examen des résultats de l'évaluation
Dernière mise à jour : 25 oct. 2024
Examen des résultats de l'évaluation

Lorsque vous configurez des évaluations, vous pouvez analyser les résultats des évaluations afin d'obtenir des informations sur les performances de votre modèle. Un tableau de bord fournit les outils permettant d'examiner les informations sur les performances, de partager des informations sur les alertes ou d'imprimer des rapports.

Voici quelques-uns des détails que vous pouvez consulter dans le tableau de bord Insights:

  • Examinez les résultats de qualité pour voir une matrice de confusion qui vous aide à déterminer si votre modèle déployé a correctement analysé vos transactions.
  • Affichez les résultats de la dérive pour voir les transactions qui sont responsables d'une baisse de l'exactitude, d'une baisse de la cohérence des données ou des deux.
  • Inspectez les résultats de l'évaluation de la santé du modèle, où vous pouvez voir un récapitulatif des indicateurs générés lors de votre dernière évaluation avec des vignettes de fiche de score en corrélation avec des dimensions différentes.

Le graphique d'évaluation du déploiement de modèle s'affiche avec chaque évaluation affichant des détails sur la manière dont le modèle atteint les seuils définis.

Pour afficher les résultats dans le tableau de bord Insights:

  1. Dans Watson Openscale, cliquez sur l'icône Activité Icône de l'activité pour ouvrir le tableau de bord Insights.

  2. Sélectionnez la vignette du modèle de déploiement dont vous souhaitez afficher les résultats. Les résultats de votre dernière évaluation s'affichent.

  3. Cliquez sur la flèche flèche de navigation dans une section d'évaluation pour afficher les visualisations de données des résultats d'évaluation dans les paramètres délai et Plage de dates que vous spécifiez. La dernière évaluation de la période que vous sélectionnez est également affichée au cours de la plage de données associée.

  4. Utilisez le menu Actions pour afficher les détails de votre modèle en sélectionnant l'une des options d'analyse suivantes:

    • Toutes les évaluations: pour les modèles de préproduction, affichez un historique de vos évaluations afin de comprendre comment vos résultats évoluent dans le temps.
    • Comparer: comparez les modèles à un graphique matriciel qui met en évidence les métriques clés pour vous aider à déterminer quelle version d'un modèle est prête pour la production ou quels modèles peuvent avoir besoin de plus d'entraînement.
    • Afficher les informations sur le modèle: affichez les détails de votre modèle pour comprendre comment votre environnement de déploiement est configuré.
    • Télécharger le rapport PDF: génère un rapport récapitulatif de modèle qui fournit tous les indicateurs et explique pourquoi ils ont été évalués comme ils l'ont été.
    • Configurer une alerte: Envoie des alertes sur les violations de seuil à une adresse e-mail.

Vous pouvez également utiliser le menu Actions pour gérer les données des évaluations de modèle. Pour plus d'informations, voir Envoi de transactions de modèle.

Dans les graphiques de séries chronologiques, les évaluations agrégées sont affichées sous forme de points de données que vous pouvez sélectionner pour afficher les résultats à un moment précis. L'horodatage de chaque point de données qui s'affiche lorsque vous survolez les graphiques de séries temporelles ne correspond pas à l'horodatage de la dernière évaluation en raison du comportement d'agrégation par défaut.

Les sections suivantes décrivent comment vous pouvez analyser les résultats de vos évaluations de modèles :

Examen des résultats de l'équité

Pour vous aider à examiner les résultats de l'équité, des calculs sont fournis pour les types d'ensembles de données suivants :

  • Équilibré: le calcul équilibré inclut la demande d'évaluation reçue pour l'heure sélectionnée. Le calcul comprend également un plus grand nombre d'enregistrements des heures précédentes si le nombre minimal de documents requis pour l'évaluation n'a pas été atteint. Inclut des enregistrements plus perturbés et synthétisés qui sont utilisés pour tester la réponse du modèle lorsque la valeur de la fonction surveillée change.
  • Contenu : les demandes d'évaluation réelles reçues par le modèle pour l'heure sélectionnée.
  • Formation: enregistrements de données d'apprentissage utilisés pour la formation du modèle.
  • Données débiaisées : Sortie de l'algorithme de débiaisement après traitement des données d'exécution et perturbées.

visualisation des données des métriques d'équité pour chaque groupe surveillé

Avec le graphique, vous pouvez observer les groupes qui subissent un biais et voir le pourcentage de résultats attendus pour ces groupes. Vous pouvez également voir le pourcentage de résultats attendus pour les groupes de référence, qui correspond à la moyenne des résultats attendus dans tous les groupes de référence. Les graphiques indiquent la présence de biais en comparant le rapport entre le pourcentage de résultats attendus pour les groupes surveillés dans une plage de données et le pourcentage de résultats pour les groupes de référence.

Le graphique montre également la distribution des valeurs de référence et surveillées pour chaque valeur distincte de l'attribut dans les données provenant de la table de contenu utile analysée pour identifier le biais. La distribution des données de charge est affichée pour chaque valeur distincte des attributs. Vous pouvez utiliser ces données pour corréler la quantité de biais avec la quantité de données reçues par le modèle. Vous pouvez également voir le pourcentage de groupes ayant des résultats attendus pour identifier les sources de biais qui ont faussé les résultats et conduit à une augmentation du pourcentage de résultats attendus pour les groupes de référence.

Examen des résultats en matière de qualité

Pour vous aider à examiner la qualité des résultats, une matrice de confusion s'affiche pour vous aider à déterminer si le modèle déployé a analysé vos transactions de manière incorrecte. Pour les modèles de classification binaire, les enregistrements de transaction sont classés comme des faux positifs ou des faux négatifs et comme des affectations de classe incorrectes pour les modèles multi-classes. Pour les problèmes de classification binaire, la catégorie cible est assignée au niveau positive ou negative. La matrice de confusion indique également le pourcentage de transactions positives et négatives analysées correctement. Pour identifier l'exactitude des opérations, la matrice met également en évidence les catégories d'opérations avec des nuances de couleurs vertes et bleues pour indiquer les niveaux des catégories les plus ou les moins correctes. Vous pouvez utiliser les menus Valeur prédite et Valeur réelle pour spécifier la catégorie de transactions que vous souhaitez analyser.

tableau détaillé des indicateurs de qualité

Examen des résultats de dérive

Pour les évaluations de dérive, vous pouvez afficher les transactions qui sont responsables d'une baisse de l'exactitude, d'une baisse de la cohérence des données ou des deux. Vous pouvez également afficher le nombre de transactions identifiées et les fonctions de votre modèle qui sont responsables d'une précision ou d'une cohérence de données réduites.

La page des transactions de dérive de modèle s'affiche

Pour plus d'informations, voir Examen des transactions de dérive.

Examen des résultats de la dérive v2

Lorsque vous examinez les résultats de l'évaluation de la dérive v2, des tuiles pliables s'affichent, que vous pouvez ouvrir pour afficher différents détails sur les mesures. Vous pouvez afficher l'historique de l'évolution de chaque score d'indicateur au fil du temps à l'aide d'un graphique de série temporelle ou afficher les détails de calcul de la sortie des scores et des dérives des fonctions. Vous pouvez également consulter les détails de chaque caractéristique pour comprendre comment elle contribue aux scores générés.

Les résultats de l'évaluation de la dérive v2 sont affichés

Examen des résultats de santé du modèle

Lorsque vous examinez les résultats de l'évaluation de l'état de santé du modèle, un résumé des mesures générées lors de la dernière évaluation est fourni avec des tuiles de tableau de bord en corrélation avec les différentes dimensions. Pour les indicateurs comportant plusieurs dimensions, vous pouvez cliquer sur un menu déroulant dans les vignettes pour sélectionner l'indicateur à analyser. Pour analyser l'évolution de vos métriques au fil du temps, vous pouvez cliquer sur les vignettes réductibles de chaque catégorie pour afficher les graphiques de série temporelle.

Les métriques de santé du modèle sont affichées

Pour plus d'informations, voir Métriques d'évaluation de la santé du modèle.

Sujet parent : Examiner les perspectives du modèle

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus