Le SDK Python d' ibm-watsonx-gov
est une bibliothèque d' Python s que vous pouvez utiliser pour surveiller, gérer et contrôler par programmation des modèles d'apprentissage automatique et des ressources d'IA générative. Vous pouvez utiliser le SDK d' Python s pour calculer des métriques et des algorithmes dans un environnement d'exécution de notebook ou les décharger sous forme de tâches Spark contre IBM Analytics Engine pour les évaluations de modèles.
Utilisez le ibm-watsonx-gov
SDK Python, pour calculer les métriques d'évaluation et générer des informations. Vous pouvez automatiser ces tâches en utilisant des modules et en les intégrant à votre application. Vous pouvez également utiliser des carnets d'échantillons pour calculer les métriques.
Modules
Le kit de développement logiciel ( Python, SDK) prend en charge les modules suivants qui peuvent vous aider à automatiser les tâches d'évaluation des modèles et à générer des informations :
Métriques
Le SDK d' Python s prend en charge des métriques qui vous aident à évaluer les modèles d'apprentissage automatique traditionnels et à générer des évaluations de modèles pour les ressources d'IA générative. Pour plus d'informations, voir Paramètres d'évaluation.
Les mesures suivantes ne sont actuellement disponibles qu'avec le SDK d' Python :
Métrique | Descriptif |
---|---|
Robustesse contradictoire | Mesure la robustesse de votre modèle et de votre modèle de prompt face aux attaques adverses telles que les injections de prompt et les jailbreaks |
Inclusion de mots-clés | Mesure la similarité des noms et des pronoms entre la sortie du modèle de base et la référence ou la vérité terrain |
Risque de fuite rapide | Mesure le risque de fuite du modèle de saisie en calculant la similarité entre le modèle de saisie ayant fait l'objet d'une fuite et le modèle de saisie original |
Question de robustesse | Détecte les fautes d'orthographe en anglais dans les questions d'entrée du modèle |
La catégorie de métriques suivante est également disponible uniquement avec le SDK d' Python :
Métriques de validation du contenu
Les mesures de validation du contenu utilisent des fonctions basées sur les chaînes de caractères pour analyser et valider le texte de sortie LLM généré. L'entrée doit contenir une liste de textes générés à partir de votre LLM pour générer des mesures de validation de contenu.
Si l'entrée ne contient pas d'enregistrements de transaction, les mesures mesurent le ratio de validations de contenu réussies et comparent ce ratio au nombre total de validations. Si l'entrée contient des enregistrements de transaction, les mesures mesurent le ratio des validations de contenu réussies par rapport au nombre total de validations et calculent les résultats de validation avec le record_id
spécifié.
Vous pouvez calculer les paramètres de validation du contenu suivants :
Métrique | Descriptif |
---|---|
Contient tous les | Mesure si les lignes de la prédiction contiennent tous les mots-clés spécifiés |
Contient n'importe lequel | Mesure si les lignes de la prédiction contiennent l'un des mots-clés spécifiés |
Contient un e-mail | Mesure si chaque ligne de la prédiction contient des e-mails |
Contient_JSON | Mesure si les lignes de la prédiction contiennent une syntaxe JSON |
Contient un lien | Mesure si les lignes de la prédiction contiennent des liens |
Ne contient pas | Vérifie si les lignes de la prédiction ne contiennent aucun des mots-clés spécifiés |
Contient une chaîne | Mesure si chaque ligne de la prédiction contient la chaîne spécifiée |
Contient un lien valide | Mesure si les lignes de la prédiction contiennent des liens valides |
Se termine par | Mesure si les lignes de la prédiction se terminent par la sous-chaîne spécifiée |
Egal à | Mesure si les lignes de la prédiction sont égales à la sous-chaîne spécifiée |
Correspondance partielle | Mesure si la prédiction correspond approximativement au mot-clé |
Est-ce que l'e-mail | Mesure si les lignes de la prédiction contiennent des e-mails valides |
Est-ce que JSON | Mesure si les lignes de la prédiction contiennent une syntaxe JSON valide |
Longueur supérieure à | Mesure si la longueur de chaque ligne de la prédiction est supérieure à une valeur maximale spécifiée |
Longueur inférieure à | Mesure si la longueur de chaque ligne de la prédiction est inférieure à une valeur maximale spécifiée |
Aucun lien invalide | Mesure si les lignes de la prédiction ne comportent pas de liens invalides |
Expression régulière | Mesure si les lignes de la prédiction contiennent l'expression regex spécifiée |
Commence par | Mesure si les lignes de la prédiction commencent par la sous-chaîne spécifiée |