Piani Watson Machine Learning e utilizzo del calcolo | IBM Cloud Pak for Data as a Service

Traduzione non aggiornata

La traduzione di questa pagina non rappresenta l'ultima versione. Per gli ultimi aggiornamenti, consultare la versione inglese della documentazione.

Torna alla versione inglese della documentazione

Piani Watson Machine Learning e utilizzo del calcolo

Utilizzi le risorse Watson Machine Learning , misurate in CUH (Capacity Unit Ore), quando addestra i modelli AutoAI , esegui i modelli di machine learning o calcola il punteggio dei modelli distribuiti. Utilizzi le risorse Watson Machine Learning , misurate in unità di risorse (RU), quando esegui i servizi di deduzione con i modelli di base. Questo argomento descrive i vari piani che è possibile scegliere, quali servizi sono inclusi e come vengono calcolate le risorse di elaborazione.

Watson Machine Learning in Cloud Pak for Data as a Service e watsonx

Importante:

Il piano Watson Machine Learning include dettagli per watsonx.ai. Watsonx.ai è uno studio di strumenti integrati per lavorare con l'intelligenza artificiale generativa, basato su modelli di base e modelli di machine learning. Se stai utilizzando Cloud Pak for Data as a Service, i dettagli per lavorare con i modelli di base e l'inferenza del prompt di misurazione utilizzando le unità di risorse non si applicano al tuo piano.

Se sei abilitato sia per watsonx che per Cloud Pak for Data as a Service, puoi passare da una piattaforma all'altra.

Scelta di un piano Watson Machine Learning

Visualizza un confronto di piani e considera i dettagli per scegliere un piano che si adatti alle tue necessità.

PianiWatson Machine Learning
CUH (Capacity Unit Hours), token e RU (Resource Unit)
Dettagli del pianoWatson Machine Learning
Misurazione ore unità di capacità
Monitoraggio dell'utilizzo di CUH e RU

Piani Watson Machine Learning

I piani Watson Machine Learning regolano la modalità di fatturazione per i modelli addestrati e distribuiti con Watson Machine Learning e per i prompt utilizzati con i modelli di base. Scegli un piano in base alle tue necessità:

Lite è un piano gratuito con capacità limitata. Scegliere questo piano se si sta valutando Watson Machine Learning e si desidera provare le funzioni. Il piano Lite non supporta l'esecuzione di un esperimento di ottimizzazione del modello di base su watsonx.
Essentials è un piano pay - as - you - go che ti offre la flessibilità di creare, distribuire e gestire modelli in base alle tue necessità.
Standard è un piano aziendale ad alta capacità progettato per supportare tutte le esigenze di machine learning di un'organizzazione. Le ore di unità di capacità sono fornite a tariffa fissa, mentre il consumo di unità di risorsa è pay - as - you - go.

Per i dettagli del piano e i prezzi, vedi IBM Cloud Machine Learning.

CUH (Capacity Unit Ore), token e RU (Resource Unit)

Per scopi di misurazione e fatturazione, i modelli di machine learning e le distribuzioni o i modelli di base vengono misurati con queste unità:

Capacity Unit Hours (CUH) misura il consumo di risorse di calcolo per unità oraria per scopi di utilizzo e fatturazione. CUH misura tutte le attività di Watson Machine Learning ad eccezione dell'inferenza del modello Foundation.
Unità di risorsa (RU) misurano il consumo del modello di base. L'inferenza è il processo di richiamo del modello di base per generare l'output in risposta a un prompt. Ogni RU equivale a 1.000 token. Un token è un'unità di testo di base (in genere 4 caratteri o 0.75 parole) utilizzata nell'input o nell'output per un prompt del modello di base. Scegliere un piano che corrisponda ai propri requisiti di utilizzo.
Un limite di frequenza monitora e limita il numero di richieste di deduzione al secondo elaborate per modelli di base per una determinata istanza del piano Watson Machine Learning . Il limite di frequenza è più elevato per i piani a pagamento rispetto al piano Lite gratuito.

Che cosa viene misurato per il consumo di CUH o RU?

Le risorse, misurate con CUH (Capacity Unit Ore) o RU (Resource Unit), vengono utilizzate per l'esecuzione degli asset e non per l'utilizzo degli strumenti. Cioè, non è previsto alcun costo di consumo per la definizione di un esperimentoAutoAI, ma è previsto un costo per l'esecuzione dell'esperimento per addestrare le pipeline dell'esperimento. Allo stesso modo, non è previsto alcun addebito per la creazione di uno spazio di distribuzione o la definizione di un lavoro di distribuzione, ma è previsto un addebito per l'esecuzione di un lavoro di distribuzione o l'inferenza rispetto a un asset installato. Gli asset che vengono eseguiti continuamente, come i notebook Jupyter, gli asset RStudio e gli script Bash, consumano le risorse per tutto il tempo in cui sono attivi.

Dettagli del piano Watson Machine Learning

Il piano Lite ti fornisce risorse gratuite sufficienti per valutare le funzionalità di watsonx.ai. Puoi quindi scegliere un piano a pagamento che corrisponda alle esigenze della tua organizzazione, in base alle caratteristiche e alla capacità del piano.

Tabella 1. Dettagli del piano
Funzioni del piano	Lite	Elementi essenziali	Standard
Utilizzo di Machine Learning in CUH	20 CUH al mese	Fatturazione CUH basata sulla tariffa CUH moltiplicata per le ore di consumo	2500 CUH al mese
Deduzione del modello Foundation in token o RU (Resource Unit)	50.000 token al mese	Fatturato per l'utilizzo (1000 token = 1 RU)	Fatturato per l'utilizzo (1000 token = 1 RU)
Numero massimo di lavori batch Decision Optimization paralleli per distribuzione	2	5	100
Lavori di distribuzione conservati per spazio	100	1000	3000
Tempo di inattività della distribuzione	1 giorno	3 giorni	3 giorni
Supporto HIPAA	ND	ND	Solo regione Dallas Deve essere abilitato nel tuo account IBM Cloud
Limite di frequenza per ID piano	2 richieste di inferenza al secondo	8 richieste di inferenza al secondo	8 richieste di inferenza al secondo

Nota: se si esegue l'aggiornamento da Essentials a Standard, non è possibile ripristinare un piano Essentials. È necessario creare un nuovo piano.

Per tutti i piani:

Il modello di base che deduce le unità di risorsa (RU) può essere utilizzato per l'inferenza Prompt Lab, inclusi input e output. Ciò significa che la richiesta immessa per l'input viene conteggiata in aggiunta all'output generato. (solowatsonx )
L'inferenza del modello Foundation è disponibile dai data center di Dallas, Francoforte, Londra e Tokyo. (solowatsonx )
L'ottimizzazione del modello Foundation in Tuning Studio è disponibile nei data center di Dallas, Francoforte, Londra e Tokyo. (solowatsonx )
Le classi di modelli determinano la velocità RU. Il prezzo per RU varia in base alla classe di modelli. (solowatsonx )
Il consumo della velocità CUH (Capacity - unit - hour) per l'addestramento è basato sullo strumento di addestramento, sulla specifica hardware e sull'ambiente di runtime.
L'utilizzo della velocità CUH (Capacity - unit - hour) per la distribuzione è basato sul tipo di installazione, sulla specifica hardware e sulla specifica software.
Watson Machine Learning pone dei limiti sul numero di lavori di distribuzione conservati per ogni singolo spazio di distribuzione . Se si supera il limite, non è possibile creare nuovi lavori di distribuzione fino a quando non si eliminano i lavori esistenti o si aggiorna il piano. Per impostazione predefinita, i metadati dei job verranno eliminati automaticamente dopo 30 giorni. È possibile sovrascrivere questo valore durante la creazione di un lavoro. Consultare Gestione dei lavori.
Il tempo di inattività si riferisce alla quantità di tempo per considerare una distribuzione attiva tra le richieste di calcolo del punteggio. Se una distribuzione non riceve richieste di calcolo del punteggio per una data durata, viene considerata inattiva o inattiva e la fatturazione si arresta per tutti i framework diversi da SPSS.
Un piano consente almeno il limite di frequenza indicato e il limite di frequenza effettivo può essere superiore al limite indicato. Ad esempio, il piano Lite potrebbe elaborare più di 2 richieste al secondo senza emettere un errore. Se hai un piano a pagamento e ritieni di aver raggiunto il limite di frequenza per errore, contatta il supporto IBM per assistenza.

Per i dettagli del piano e i prezzi, vedi IBM Cloud Machine Learning.

Misurazione dell'unità di risorsa (watsonx)

La fatturazione delle unità di risorsa è basata sulla frequenza della classe di fatturazione per il modello di fondazione moltiplicata per il numero di unità di risorsa (RU). Un'unità di risorsa è uguale a 1000 token dall'input e dall'output dell'inferenza del modello di base. Le tre classi di fatturazione del modello di base hanno tariffe RU differenti. I modelli incorporati che vettorizzano le stringhe di testo vengono fatturati a una tariffa diversa.

Tassi di fatturazione unità di risorsa per classe di modelli

Classe di fatturazione modello	Prezzo per RU
Classe 1	$0.0006
Classe 2	$0.0018
Classe 3	$0.0050
Classe C1	$0.0001
Classe 5	$0.00025
Classe 7	$0.035
Mistral Grande	$0.01

Tariffe di fatturazione delle unità di risorsa per i modelli di base

Per i modelli seguenti, la frequenza di fatturazione è la stessa per i token di input e output.

Tabella 2. Dettagli di fatturazione del modello Foundation
Modello	Origine	Classe di fatturazione	Prezzo per RU
granite-13b-instruct-v2	IBM	Classe 1	$0.0006 per RU
granite-13b-chat-v2	IBM	Classe 1	$0.0006 per RU
granite-7b-lab	IBM	Classe 1	$0.0006 per RU
granite-8b-japanese	IBM	Classe 1	$0.0006 per RU
granite-20b-multilingual	IBM	Classe 1	$0.0006 per RU
granite-3b-code-instruct	IBM	Classe 1	$0.0006 per RU
granite-8b-code-instruct	IBM	Classe 1	$0.0006 per RU
granite-20b-code-instruct	IBM	Classe 1	$0.0006 per RU
granite-34b-code-instruct	IBM	Classe 1	$0.0006 per RU
allam-1-13b-instruct	Terza parte	Classe 2	$0.0018 per RU
codellama-34b-instruct-hf	Terza parte	Classe 2	$0.0018 per RU
elyza-japanese-llama-2-7b-instruct	Terza parte	Classe 2	$0.0018 per RU
flan-t5-xl-3b	Apri origine	Classe 1	$0.0006 per RU
flan-t5-xxl-11b	Apri origine	Classe 2	$0.0018 per RU
flan-ul2-20b	Apri origine	Classe 3	$0.0050 per RU
jais-13b-chat	Apri origine	Classe 2	$0.0018 per RU
llama-3-8b-instruct	Terza parte	Classe 1	$0.0006 per RU
llama-3-70b-instruct	Terza parte	Classe 2	$0.0018 per RU
llama-2-13b-chat	Terza parte	Classe 1	$0.0006 per RU
llama-2-70b-chat	Terza parte	Classe 2	$0.0018 per RU
llama2-13b-dpo-v7	Terza parte	Classe 2	$0.0018 per RU
merlinite-7b	Apri origine	Classe 1	$0.0006 per RU
maestrale-grande	Terza parte	Mistral Grande	$0.01 per IF
mixtral-8x7b-instruct-v01	Apri origine	Classe 1	$0.0006 per RU
mixtral-8x7b-instruct-v01-q	Apri origine	Classe 1	$0.0006 per RU
mt0-xxl-13b	Apri origine	Classe 2	$0.0018 per RU

Tariffe di fatturazione dell'unità di risorsa per i modelli di integrazione

I modelli di incorporazione trasformano le frasi in vettori per confrontare e recuperare in modo più accurato il testo simile.

Tabella 3. Integrazione dei dettagli di fatturazione del modello
Modello	Origine	Classe di fatturazione	Prezzo per RU
slate.125m.english.rtrvr	IBM	Classe C1	$0.0001 per RU
slate.30m.english.rtrvr	IBM	Classe C1	$0.0001 per RU
all-MiniLM-L12-v2	Apri origine	Classe C1	$0.0001 per RU
multilingual-e5-large	Apri origine	Classe C1	$0.0001 per RU

Misurazione ore unità di capacità (watsonx e Watson Machine Learning)

Il consumo CUH è influenzato dalle risorse hardware di calcolo applicate per un'attività e da altri fattori quali la specifica del software e il tipo di modello.

Tassi di consumo CUH per tipo di asset

Tabella 3. Tassi di consumo CUH per tipo di asset
Tipo di asset	Tipo di capacità	Unità di capacità per ora
Esperimento AutoAI	8 vCPU e 32 GB di RAM	20
Formazione Decision Optimization	2 vCPU e 8 GB RAM 4 vCPU e 16 GB RAM 8 vCPU e 32 GB RAM 16 vCPU e 64 GB RAM	6 7 9 13
Distribuzioni Decision Optimization	2 vCPU e 8 GB RAM 4 vCPU e 16 GB RAM 8 vCPU e 32 GB RAM 16 vCPU e 64 GB RAM	30 40 50 60
Machine Learning modelli (formazione, valutazione o calcolo del punteggio)	1 vCPU e 4 GB RAM 2 vCPU e 8 GB RAM 4 vCPU e 16 GB RAM 8 vCPU e 32 GB RAM 16 vCPU e 64 GB RAM	0.5 1 2 4 8
Esperimento di ottimizzazione del modello Foundation (solowatsonx )	GPU NVIDIA A100 80GB	43

Utilizzo CUH per distribuzione e tipo di framework

Il consumo di CUH viene calcolato utilizzando queste formule:

Tabella 4. Utilizzo CUH per distribuzione e tipo di framework
Tipo di distribuzione	Framework	calcolo CUH
Online	AutoAI,AI function ,SPSS , librerie personalizzate Scikit-Learn,Tensorflow , RLucido	deployment_active_duration_in_hours * no_of_nodes * CUH_rate_for_capacity_type_framework
Online	Spark, PMML, Scikit-Learn, Pytorch, XGBoost	score_duration_in_hours * no_of_nodes * CUH_rate_for_capacity_type_framework
Batch	tutti i framework	job_duration_in_hours * no_of_nodes * CUH_rate_for_capacity_type_framework

Ad esempio, considerare un lavoro di distribuzione batch Decision Optimization che viene eseguito per 15 minuti. Il consumo di risorse viene calcolato in questo modo: 15 minuti = 0.25 ore, su 2 nodi e con 2 vCPU e 8 GB di RAM. Questa combinazione risulta in una frequenza CUH di 30, quindi ogni volta che il lavoro viene eseguito consuma 0.25 * 2 * 30, che equivale a 15 CUH.

Monitoraggio dell'utilizzo delle risorse

È possibile tenere traccia dell'utilizzo di CUH o RU per gli asset di cui si è proprietari o su cui si collabora in un progetto o in uno spazio. Se sei un proprietario o un amministratore dell'account, puoi tenere traccia dell'utilizzo di CUH o RU per un intero account.

Traccia dell'utilizzo di CUH o RU in un progetto

Per monitorare l'utilizzo di CUH o RU in un progetto:

Passare alla scheda Gestisci per un progetto.
Fare clic su Risorse per esaminare un riepilogo del consumo di risorse per gli asset nel progetto o nello spazio o per esaminare i dettagli del consumo di risorse per determinati asset.

Monitoraggio dell'utilizzo di CUH per un account

Puoi tenere traccia dell'utilizzo del runtime per un account nella pagina Runtime di ambiente se sei l'amministratore o il proprietario dell'account IBM Cloud o il proprietario del servizio Watson Machine Learning . Per i dettagli, consultare Monitoraggio delle risorse.

Monitoraggio del consumo di CUH per il machine learning in un notebook

Per calcolare le ore dell'unità di capacità in un notebook, utilizzare:

CP =  client.service_instance.get_details()
CUH = CUH["entity"]["usage"]["capacity_units"]["current"]/(3600*1000)
print(CUH)

Ad esempio:

'capacity_units': {'current': 19773430}

19773430/(3600*1000)

restituisce 5.49 CUH

Per i dettagli, vedere la sezione Istanze di servizio delIBMWatson Machine Learning API documentazione.

Ulteriori informazioni

Argomento principale Watson Machine Learning