Imparare i termini e i concetti utilizzati per valutare i modelli di apprendimento automatico.
Correttezza accettabile
La percentuale di risultati favorevoli che un gruppo monitorato deve ricevere per soddisfare la soglia di correttezza. Viene calcolato moltiplicando l'eguaglianza perfetta per la soglia di equità.
Avviso
Una notifica che una metrica delle prestazioni non rientra nell'intervallo accettabile specificato dai monitoraggi configurati.
dataset bilanciato
Un dataset che include le richieste di calcolo del punteggio ricevute dal modello per l'ora selezionata e i record perturbati.
Dati baseline
I dati precedenti raccolti prima dell'intervento o della modifica. Questi dati fungono da base per il confronto con i dati futuri raccolti.
Distribuzione batch
Elabora i dati di input da un file, da una connessione dati o da dati connessi in un bucket di archiviazione e scrive l'output in una destinazione selezionata. Un metodo per distribuire i modelli che elabora i dati di input da un file e scrive l'output in un file.
Elaborazione in batch '
Se si devono monitorare distribuzioni che comportano enormi dati di payload/feedback, si consiglia l'elaborazione in batch.
Distorsione
Quando un modello di machine learning produce un risultato per una persona monitorata, un gruppo o una cosa considerata non equa rispetto a un risultato di riferimento. Può essere causato da un problema con i dati di addestramento per un modello. Il monitoraggio della correttezza può rilevare la distorsione che rientra in una soglia impostata. Termine correlato: annullamento della distorsione.
Cloud Object Storage
Un servizio offerto da IBM per archiviare e accedere ai dati. Se il Cloud Object Storage è il repository per le risorse di apprendimento automatico, le credenziali del servizio associato devono essere utilizzate per connettersi alle risorse per le valutazioni dei modelli.
Vedere anche: ID risorsa, chiave API.
Punteggio di affidabilità
La probabilità che la previsione di un modello di machine learning sia corretta. Un punteggio più alto indica una probabilità più elevata che il risultato previsto corrisponda al risultato effettivo.
Spiegazione di contrasto
Le spiegazioni che indicano l'insieme minimo di modifiche del valore della colonna della funzione per modificare la previsione del modello. Viene calcolato per un singolo punto di dati.
Data mart '
Spazio di lavoro in cui vengono salvati tutti i metadati per le valutazioni del modello. Dietro le quinte, è connesso a un livello di persistenza del database in cui i metadati vengono salvati.
Transazioni con distorsione annullata
Le transazioni per cui viene generato un risultato con distorsione annullata.
Annullamento distorsione
Quando il monitoraggio della correttezza rileva la distorsione. Quando un gruppo monitorato riceve risultati distorti, effettuare le operazioni per mitigare la distorsione automaticamente o manualmente.
Distribuzione
Si distribuisce un modello per rendere disponibile un endpoint in modo da poter immettere nuovi dati (la richiesta) nel modello e ottenere un punteggio o una risposta. Una distribuzione del modello può trovarsi in un ambiente di pre - produzione per il test o in un ambiente di produzione per l'utilizzo effettivo.
Drift
Quando la precisione del modello diminuisce nel tempo. Può essere causato da una modifica nei dati di input del modello che porta al deterioramento delle prestazioni del modello. Per monitorare la bozza, è possibile creare avvisi per quando la precisione del modello scende al di sotto di una soglia accettabile specificata.
Valutazione
Il processo di utilizzo delle metriche per valutare un modello di machine learning e misurare le prestazioni del modello (in aree quali correttezza e precisione). I monitor possono valutare un modello per aree importanti per gli obiettivi.
Spiegazione
Comprensione della valutazione di una particolare misurazione di un modello. Una spiegazione aiuta a comprendere i risultati della valutazione del modello e a sperimentare scenari "what-if" per risolvere i problemi.
Correttezza
Determinare se un modello produce risultati distorti che favoriscono un gruppo monitorato rispetto a un gruppo di riferimento. La valutazione della correttezza verifica quando il modello mostra una tendenza a fornire un risultato favorevole / preferibile più spesso per un gruppo rispetto a un altro. Le categorie tipiche da monitorare sono età, sesso e razza.
Caratteristiche
Elenco dei nomi delle colonne del dataset (colonne funzione) utilizzati per addestrare un modello di machine learning.
Esempio: in un modello che prevede se una persona si qualifica per un prestito, le funzioni per lo stato di impiego e la cronologia del credito potrebbero avere un peso maggiore del codice postale.
Dati di feedback
Dati etichettati che corrispondono allo schema e alla struttura dei dati utilizzati per addestrare un modello di machine learning (incluso l'obiettivo) ma che non sono stati utilizzati per l'addestramento. Questi dati sono già dati noti o effettivi utilizzati dal monitor Qualità per misurare l'accuratezza di un modello distribuito. Determina se le previsioni sono accurate quando vengono misurate rispetto al risultato noto.
Spiegazione globale
Spiega la previsione del modello su un campione di dati.
Sottoscrizione indipendente
Una sottoscrizione che ha una distribuzione in tempo reale dietro le quinte. Tramite la sottoscrizione headless, l'utente può monitorare l'installazione client utilizzando i dati (Payload/Feedback) forniti all'installazione client, senza fornire alcun URL di punteggio.
Dati etichettati
I dati etichettati in modo uniforme per gli algoritmi di machine learning da riconoscere durante l'addestramento del modello.
Esempio: una tabella di dati con colonne etichettate è tipica per il machine learning supervisionato. Le immagini possono anche essere etichettate per l'utilizzo in problemi di machine learning.
Spiegazione locale
Spiega la previsione di un modello utilizzando singoli esempi specifici.
Meta - campi
Dati specializzati univoci tra i prodotti.
Monitorare '
Tracciare i risultati delle prestazioni per le diverse valutazioni del modello '
Esempio: Equità, deriva, qualità, spiegabilità.
Gruppo monitorato
Quando si valuta la correttezza, il gruppo monitorato rappresenta i valori più a rischio per i risultati distorti.
Esempio: nella funzione sesso, Female e Nonbinary possono essere impostati come gruppi monitorati.
Distribuzione online
Metodo di accesso a una distribuzione tramite un endpoint API che fornisce un punteggio in tempo reale o una soluzione sui nuovi dati.
Dati di payload
Tutti i dati in tempo reale forniti a un modello. Consiste in richieste a un modello (input) e risposte da un modello (output).
Registrazione payload
Persistenza dei dati payload.
Uguaglianza perfetta
La percentuale di risultati favorevoli forniti a tutti i gruppi di riferimento. Per i dataset bilanciati e senza distorsione, il calcolo include le transazioni del gruppo monitorato che sono state modificate per diventare transazioni del gruppo di riferimento.
Perturbazioni
I punti di dati simulati intorno ai punti di dati reali durante il calcolo di diverse metriche associate ai monitoraggi, come la correttezza, l'esplicabilità.
Spazio di pre - produzione
Un ambiente utilizzato per verificare prontamente i dati per le convalide del modello.
Colonna Previsione
La variabile che un modello di machine learning supervisionato (addestrato con dati etichettati) prevede quando viene presentato con nuovi dati.
Vedere anche: Destinazione.
Probabilità
La confidenza con cui un modello prevede l'output. Applicabile per i modelli di classificazione.
Spazio di produzione
Uno spazio di distribuzione utilizzato per rendere operativi i modelli di machine learning. Le distribuzioni da uno spazio di produzione vengono valutate per il confronto delle prestazioni effettive rispetto alle metriche specificate.
Qualità
Un monitoraggio che valuta in che modo un modello prevede risultati accurati in base alla valutazione dei dati di feedback. Utilizza una serie di metriche di scienza dei dati standard per valutare il modo in cui il modello prevede i risultati che corrispondono ai risultati effettivi nel dataset etichettato.
Record
Transazioni su cui vengono valutati i monitor.
Gruppo di riferimento
Quando si valuta la correttezza, il gruppo di riferimento rappresenta i valori che sono meno a rischio per i risultati distorti.
Esempio: per la funzione Età, è possibile impostare 30-55 come gruppo di riferimento e confrontare i risultati per altre coorti con tale gruppo.
Peso relativo
Il peso relativo di una funzione nella previsione della variabile di destinazione. Un peso maggiore indica una maggiore importanza. Conoscere il peso relativo aiuta a spiegare i risultati del modello.
ID risorsa
L'identificativo univoco per una risorsa memorizzata in Cloud Object Storage. Per ottenere:
- Aprire https://cloud.ibm.com/resources
- Trovare ed espandere la risorsa (ad esempio un servizio di archiviazione)
- Copiare il valore per ID risorsa senza le virgolette
Tempo di risposta
Il tempo impiegato per elaborare una richiesta di calcolo del punteggio da parte della distribuzione del modello
Dati di runtime
Dati ottenuti dall'esecuzione del ciclo di vita di un modello.
Endpoint del punteggio
endpoint HTTPS che gli utenti possono chiamare per ricevere l'output del punteggio di un modello distribuito.
Richiesta di calcolo del punteggio
L'input per una distribuzione.
Vedere anche: Payload.
Calcolo del punteggio
In un'inferenza del modello, l'operazione di invio della richiesta al modello e di ottenimento di una risposta.
Auto - gestito
Modella le transazioni memorizzate nel proprio data warehouse e valutate dal motore di analisi Spark.
Credenziali del servizio
Gli ID di accesso richiesti per la connessione alle risorse IBM Cloud .
Service Provider
provider di apprendimento automatico (in genere un motore di modello: WML, AWS, Azure, Custom) che ospita le implementazioni.
Sottoscrizione '
Un'installazione client che viene monitorata. Esiste un'associazione 1-1 tra la distribuzione e la sottoscrizione.
" gestito dal sistema Modello di transazioni memorizzato in un database e valutato utilizzando risorse informatiche.
Obiettivo
La funzione o la colonna di un dataset previsto dal modello sottoposto a training. Il modello viene addestrato utilizzando i dati preesistenti per apprendere i modelli e rilevare le relazioni tra le funzioni del set di dati e la destinazione.
Vedere anche: colonna Previsione.
Soglia
Quando i monitor sono configurati per valutare un modello di machine learning. Viene stabilito un parametro di riferimento per una gamma accettabile di risultati. Quando il risultato rientra nella soglia configurata, viene attivato un avviso per valutare e risolvere la situazione.
Dati di addestramento
I dati utilizzati per insegnare e formare un algoritmo di apprendimento del modello.
Transazioni
I record per le valutazioni del modello di machine learning archiviati nella tabella di registrazione del payload.
Dati senza etichetta
I dati non associati alle etichette che identificano caratteristiche, classificazioni e proprietà. Dati non strutturati che non sono etichettati in modo uniforme.
Esempio: le immagini email o senza etichetta sono tipiche dei dati senza etichetta. I dati senza etichetta possono essere utilizzati nell'apprendimento automatico non supervisionato.
ID utente
L'ID dell'utente associato alla richiesta di calcolo del punteggio
Argomento principale: Valutazione dei modelli AI con Watson OpenScale