0 / 0
Retourner à la version anglaise de la documentation
Calcul des métriques avec le SDK Python
Dernière mise à jour : 07 mars 2025
Calcul des métriques avec le SDK Python

Le SDK Python d' ibm-watsonx-gov est une bibliothèque d' Python s que vous pouvez utiliser pour surveiller, gérer et contrôler par programmation des modèles d'apprentissage automatique et des ressources d'IA générative. Vous pouvez utiliser le SDK d' Python s pour calculer des métriques et des algorithmes dans un environnement d'exécution de notebook ou les décharger sous forme de tâches Spark contre IBM Analytics Engine pour les évaluations de modèles.

Utilisez le ibm-watsonx-gov SDK Python, pour calculer les métriques d'évaluation et générer des informations. Vous pouvez automatiser ces tâches en utilisant des modules et en les intégrant à votre application. Vous pouvez également utiliser des carnets d'échantillons pour calculer les métriques.

Modules

Le kit de développement logiciel ( Python, SDK) prend en charge les modules suivants qui peuvent vous aider à automatiser les tâches d'évaluation des modèles et à générer des informations :

Métriques

Le SDK d' Python s prend en charge des métriques qui vous aident à évaluer les modèles d'apprentissage automatique traditionnels et à générer des évaluations de modèles pour les ressources d'IA générative. Pour plus d'informations, voir Paramètres d'évaluation.

Les mesures suivantes ne sont actuellement disponibles qu'avec le SDK d' Python :

Tableau 13. Python Descriptions des métriques d'évaluation SDK
Métrique Descriptif
Robustesse contradictoire Mesure la robustesse de votre modèle et de votre modèle de prompt face aux attaques adverses telles que les injections de prompt et les jailbreaks
Inclusion de mots-clés Mesure la similarité des noms et des pronoms entre la sortie du modèle de base et la référence ou la vérité terrain
Risque de fuite rapide Mesure le risque de fuite du modèle de saisie en calculant la similarité entre le modèle de saisie ayant fait l'objet d'une fuite et le modèle de saisie original
Question de robustesse Détecte les fautes d'orthographe en anglais dans les questions d'entrée du modèle

La catégorie de métriques suivante est également disponible uniquement avec le SDK d' Python :

Métriques de validation du contenu

Les mesures de validation du contenu utilisent des fonctions basées sur les chaînes de caractères pour analyser et valider le texte de sortie LLM généré. L'entrée doit contenir une liste de textes générés à partir de votre LLM pour générer des mesures de validation de contenu.

Si l'entrée ne contient pas d'enregistrements de transaction, les mesures mesurent le ratio de validations de contenu réussies et comparent ce ratio au nombre total de validations. Si l'entrée contient des enregistrements de transaction, les mesures mesurent le ratio des validations de contenu réussies par rapport au nombre total de validations et calculent les résultats de validation avec le record_id spécifié.

Vous pouvez calculer les paramètres de validation du contenu suivants :

Tableau 14. Descriptions des mesures d'évaluation de la validation du contenu
Métrique Descriptif
Contient tous les Mesure si les lignes de la prédiction contiennent tous les mots-clés spécifiés
Contient n'importe lequel Mesure si les lignes de la prédiction contiennent l'un des mots-clés spécifiés
Contient un e-mail Mesure si chaque ligne de la prédiction contient des e-mails
Contient_JSON Mesure si les lignes de la prédiction contiennent une syntaxe JSON
Contient un lien Mesure si les lignes de la prédiction contiennent des liens
Ne contient pas Vérifie si les lignes de la prédiction ne contiennent aucun des mots-clés spécifiés
Contient une chaîne Mesure si chaque ligne de la prédiction contient la chaîne spécifiée
Contient un lien valide Mesure si les lignes de la prédiction contiennent des liens valides
Se termine par Mesure si les lignes de la prédiction se terminent par la sous-chaîne spécifiée
Egal à Mesure si les lignes de la prédiction sont égales à la sous-chaîne spécifiée
Correspondance partielle Mesure si la prédiction correspond approximativement au mot-clé
Est-ce que l'e-mail Mesure si les lignes de la prédiction contiennent des e-mails valides
Est-ce que JSON Mesure si les lignes de la prédiction contiennent une syntaxe JSON valide
Longueur supérieure à Mesure si la longueur de chaque ligne de la prédiction est supérieure à une valeur maximale spécifiée
Longueur inférieure à Mesure si la longueur de chaque ligne de la prédiction est inférieure à une valeur maximale spécifiée
Aucun lien invalide Mesure si les lignes de la prédiction ne comportent pas de liens invalides
Expression régulière Mesure si les lignes de la prédiction contiennent l'expression regex spécifiée
Commence par Mesure si les lignes de la prédiction commencent par la sous-chaîne spécifiée