Calcolo delle metriche con l'SDK Python

Ultimo aggiornamento: 07 mar 2025
Calcolo delle metriche con l'SDK Python

L'SDK (Software Development Kit) " ibm-watsonx-gov Python " è una libreria di " Python " che puoi utilizzare per monitorare, gestire e governare programmaticamente modelli di apprendimento automatico e risorse di IA generativa. È possibile utilizzare l'SDK di " Python " per calcolare metriche e algoritmi in un ambiente di runtime per notebook o scaricarli come lavori Spark contro " IBM Analytics Engine " per valutazioni di modelli.

Utilizzare il ibm-watsonx-gov Python SDK, per calcolare metriche di valutazione e generare approfondimenti. È possibile automatizzare queste attività utilizzando i moduli e integrandoli con l'applicazione. È inoltre possibile utilizzare i quaderni campione per calcolare le metriche.

Moduli

L'SDK di Python, che può aiutarti ad automatizzare le attività per le valutazioni dei modelli e generare approfondimenti, supporta i seguenti moduli:

Metriche

L'SDK di Machine Learning ( Python ) supporta metriche che aiutano a valutare le tradizionali valutazioni dei modelli di apprendimento automatico e a richiedere valutazioni dei modelli per le risorse di IA generativa. Per ulteriori informazioni, vedere Metriche di valutazione.

Le seguenti metriche sono attualmente disponibili solo con l'SDK di " Python ":

Tabella 13. Python Descrizioni metriche di valutazione SDK
Metrica Descrizione
Robustezza avversaria Misura la robustezza del modello e del prompt contro attacchi avversi come prompt injection e jailbreak
Inclusione di parole chiave Misura la somiglianza di nomi e pronomi tra l'output del modello di base e il riferimento o la verità di base
Rischio di perdite immediate Misura il rischio di perdita del modello di prompt calcolando la somiglianza tra il modello di prompt perso e il modello di prompt originale
Domanda: robustezza Rileva gli errori ortografici in lingua inglese nelle domande di input del modello

Anche la seguente categoria metrica è disponibile solo con l'SDK ( Python ):

Metriche di convalida dei contenuti

Le metriche di convalida dei contenuti utilizzano funzioni basate sulle stringhe per analizzare e convalidare il testo di output LLM generato. L'input deve contenere un elenco di testi generati dal vostro LLM per generare metriche di validazione dei contenuti.

Se l'input non contiene record di transazioni, le metriche misurano il rapporto tra le convalide del contenuto effettuate con successo e lo confrontano con il numero totale di convalide. Se l'input contiene record di transazioni, le metriche misurano il rapporto tra le convalide del contenuto riuscite rispetto al numero totale di convalide e calcolano i risultati della convalida con il valore specificato record_id.

È possibile calcolare le seguenti metriche di convalida dei contenuti:

Tabella 14. Descrizioni metriche di valutazione della convalida dei contenuti
Metrica Descrizione
Contiene tutti Misura se le righe nella previsione contengono tutte le parole chiave specificate
Contiene qualsiasi Misura se le righe nella previsione contengono una delle parole chiave specificate
Contiene e-mail Misura se ogni riga nella previsione contiene e-mail
Contiene_JSON Misura se le righe nella previsione contengono la sintassi JSON
Contiene link Misura se le righe nella previsione contengono collegamenti
Non contiene Verifica se le righe nella previsione non contengono nessuna delle parole chiave specificate
Contiene stringa Misura se ogni riga nella previsione contiene la stringa specificata
Contiene link validi Misura se le righe nella previsione contengono collegamenti validi
Termina con Misura se le righe nella previsione terminano con la sottostringa specificata
Uguale a Misura se le righe nella previsione sono uguali alla sottostringa specificata
Corrispondenza fuzzy Misura se la previsione fuzzy corrisponde alla parola chiave
L'e-mail è Misura se le righe nella previsione contengono email valide
È JSON Misura se le righe nella previsione contengono una sintassi JSON valida
Lunghezza maggiore di Misura se la lunghezza di ogni riga nella previsione è maggiore di un valore massimo specificato
Lunghezza inferiore a Misura se la lunghezza di ogni riga nella previsione è inferiore a un valore massimo specificato
Nessun collegamento non valido Misura se le righe nella previsione non hanno collegamenti non validi
REGEX Misura se le righe nella previsione contengono l'espressione regex specificata
Inizia con Misura se le righe nella previsione iniziano con la sottostringa specificata