Esempi di client Python per la valutazione dei modelli

Ultimo aggiornamento: 21 nov 2024
Esempi di client Python per la valutazione dei modelli

Esaminare e utilizzare i Quaderni Jupyter di esempio che utilizzano la libreria client Python per la valutazione dei modelli per dimostrare le caratteristiche e i compiti.

Quando si utilizza un notebook di esempio per dimostrare le funzionalità e le attività con il clientPython, è necessario essere a proprio agio con la codifica in un Jupyter Notebook. Un notebook Jupyter è un ambiente basato sul web per il calcolo interattivo. È possibile eseguire piccole parti di codice che elaborano i dati, quindi visualizzare immediatamente i risultati del calcolo. Con i Jupyter Notebook di esempio, è possibile completare le esercitazioni per dimostrare attività come la costruzione, l'addestramento e la distribuzione dei modelli e la configurazione delle valutazioni dei modelli.

Notebook di esempio

Visualizzare o eseguire i seguenti notebook Jupyter per informazioni su come completare diverse attività:

Nome di esempio Attività dimostrate
Utilizzare IBM watsonx.governance il toolkit di metriche per valutare la qualità del modello di prompt Calcolare l'analisi del contenuto e le metriche di robustezza delle domande per le valutazioni dei modelli di prompt.
Calcolo delle metriche di recupero e qualità delle risposte utilizzando LLM come Judge in IBM watsonx.governance per il compito RAG Calcolare le metriche RAG e di qualità delle risposte per generare risposte per le attività RAG.
Calcolo della robustezza avversaria e del rischio di fuga di notizie utilizzando IBM watsonx.governance Calcolate la metrica Adversarial robustness per misurare come il vostro modello si difende da attacchi quali iniezioni di prompt, jailbreak e leakage di prompt di sistema.
Generazione di embeddings per LLM Utilizzare i file CSV dei dati segnati per generare embeddings per le colonne di input e output e scaricare il file CSV con l'output del modello contenente gli embeddings.
Generazione e persistenza di embeddings per LLM Generare embeddings per i record esistenti nella tabella dei payload, fornire nuove cornici di dati segnate per generare e memorizzare i record con embeddings nella tabella dei payload, oppure configurare e valutare le valutazioni drift v2.
Taccuino di progettazione per il supporto multilingue dell'IA generativa Metriche di qualità per IBM WatsonX.governance Dimostrare i risultati della valutazione dei modelli generativi di qualità dell'IA in giapponese.

Passi successivi