0 / 0
Torna alla versione inglese della documentazione
Piani Watson Machine Learning e utilizzo del calcolo

Piani Watson Machine Learning e utilizzo del calcolo

Utilizzi le risorse Watson Machine Learning , misurate in CUH (Capacity Unit Ore), quando addestra i modelli AutoAI , esegui i modelli di machine learning o calcola il punteggio dei modelli distribuiti. Utilizzi le risorse Watson Machine Learning , misurate in unità di risorse (RU), quando esegui i servizi di deduzione con i modelli di base. Questo argomento descrive i vari piani che è possibile scegliere, quali servizi sono inclusi e come vengono calcolate le risorse di elaborazione.

Watson Machine Learning in Cloud Pak for Data as a Service e watsonx

Importante:

Il piano Watson Machine Learning include dettagli per watsonx.ai. Watsonx.ai è uno studio di strumenti integrati per lavorare con l'intelligenza artificiale generativa, basato su modelli di base e modelli di machine learning. Se stai utilizzando Cloud Pak for Data as a Service, i dettagli per lavorare con i modelli di base e l'inferenza del prompt di misurazione utilizzando le unità di risorse non si applicano al tuo piano.

Se sei abilitato sia per watsonx che per Cloud Pak for Data as a Service, puoi passare da una piattaforma all'altra.

Scelta di un piano Watson Machine Learning

Visualizza un confronto di piani e considera i dettagli per scegliere un piano che si adatti alle tue necessità.

Piani Watson Machine Learning

I piani Watson Machine Learning regolano la modalità di fatturazione per i modelli addestrati e distribuiti con Watson Machine Learning e per i prompt utilizzati con i modelli di base. Scegli un piano in base alle tue necessità:

  • Lite è un piano gratuito con capacità limitata. Scegliere questo piano se si sta valutando Watson Machine Learning e si desidera provare le funzioni. Il piano Lite non supporta l'esecuzione di un esperimento di ottimizzazione del modello di base su watsonx.
  • Essentials è un piano pay - as - you - go che ti offre la flessibilità di creare, distribuire e gestire modelli in base alle tue necessità.
  • Standard è un piano aziendale ad alta capacità progettato per supportare tutte le esigenze di machine learning di un'organizzazione. Le ore di unità di capacità sono fornite a tariffa fissa, mentre il consumo di unità di risorsa è pay - as - you - go.

Per i dettagli del piano e i prezzi, vedi IBM Cloud Machine Learning.

CUH (Capacity Unit Ore), token e RU (Resource Unit)

Per scopi di misurazione e fatturazione, i modelli di machine learning e le distribuzioni o i modelli di base vengono misurati con queste unità:

  • Capacity Unit Hours (CUH) misura il consumo di risorse di calcolo per unità oraria per scopi di utilizzo e fatturazione. CUH misura tutte le attività di Watson Machine Learning ad eccezione dell'inferenza del modello Foundation.

  • Unità di risorsa (RU) misurano il consumo del modello di base. L'inferenza è il processo di richiamo del modello di base per generare l'output in risposta a un prompt. Ogni RU equivale a 1.000 token. Un token è un'unità di testo di base (in genere 4 caratteri o 0.75 parole) utilizzata nell'input o nell'output per un prompt del modello di base. Scegliere un piano che corrisponda ai propri requisiti di utilizzo.

  • Un limite di frequenza monitora e limita il numero di richieste di deduzione al secondo elaborate per modelli di base per una determinata istanza del piano Watson Machine Learning . Il limite di frequenza è più elevato per i piani a pagamento rispetto al piano Lite gratuito.

Dettagli del piano Watson Machine Learning

Il piano Lite ti fornisce risorse gratuite sufficienti per valutare le funzionalità di watsonx.ai. Puoi quindi scegliere un piano a pagamento che corrisponda alle esigenze della tua organizzazione, in base alle caratteristiche e alla capacità del piano.

Tabella 1. Dettagli del piano
Funzioni del piano Lite Elementi essenziali Standard
Utilizzo di Machine Learning in CUH 20 CUH al mese Fatturazione CUH basata sulla tariffa CUH moltiplicata per le ore di consumo 2500 CUH al mese
Deduzione del modello Foundation in token o RU (Resource Unit) 50.000 token al mese Fatturato per l'utilizzo (1000 token = 1 RU) Fatturato per l'utilizzo (1000 token = 1 RU)
Numero massimo di lavori batch Decision Optimization paralleli per distribuzione 2 5 100
Lavori di distribuzione conservati per spazio 100 1000 3000
Tempo di inattività della distribuzione 1 giorno 3 giorni 3 giorni
Supporto HIPAA ND ND Solo regione Dallas
Deve essere abilitato nel tuo account IBM Cloud
Limite di frequenza per ID piano 2 richieste di inferenza al secondo 8 richieste di inferenza al secondo 8 richieste di inferenza al secondo

Nota: se si esegue l'aggiornamento da Essentials a Standard, non è possibile ripristinare un piano Essentials. È necessario creare un nuovo piano.

Per tutti i piani:

  • Il modello di base che deduce le unità di risorsa (RU) può essere utilizzato per l'inferenza Prompt Lab, inclusi input e output. Ciò significa che la richiesta immessa per l'input viene conteggiata in aggiunta all'output generato. (solowatsonx )
  • L'inferenza del modello di base è disponibile solo per i data center di Dallas, Francoforte e Tokyo. (solowatsonx )
  • L'ottimizzazione del modello Foundation in Tuning Studio è disponibile solo per i data center di Dallas, Francoforte e Tokyo. (solowatsonx )
  • Tre classi di modelli determinano la velocità RU. Il prezzo per RU varia in base alla classe di modelli. (solowatsonx )
  • Il consumo della velocità CUH (Capacity - unit - hour) per l'addestramento è basato sullo strumento di addestramento, sulla specifica hardware e sull'ambiente di runtime.
  • L'utilizzo della velocità CUH (Capacity - unit - hour) per la distribuzione è basato sul tipo di installazione, sulla specifica hardware e sulla specifica software.
  • Watson Machine Learning pone dei limiti sul numero di lavori di distribuzione conservati per ogni singolo spazio di distribuzione . Se si supera il limite, non è possibile creare nuovi lavori di distribuzione fino a quando non si eliminano i lavori esistenti o si aggiorna il piano. Per impostazione predefinita, i metadati dei job verranno eliminati automaticamente dopo 30 giorni. È possibile sovrascrivere questo valore durante la creazione di un lavoro. Consultare Gestione dei lavori.
  • Il tempo di inattività si riferisce alla quantità di tempo per considerare una distribuzione attiva tra le richieste di calcolo del punteggio. Se una distribuzione non riceve richieste di calcolo del punteggio per una data durata, viene considerata inattiva o inattiva e la fatturazione si arresta per tutti i framework diversi da SPSS.
  • Un piano consente almeno il limite di frequenza indicato e il limite di frequenza effettivo può essere superiore al limite indicato. Ad esempio, il piano Lite potrebbe elaborare più di 2 richieste al secondo senza emettere un errore. Se hai un piano a pagamento e ritieni di aver raggiunto il limite di frequenza per errore, contatta il supporto IBM per assistenza.

Per i dettagli del piano e i prezzi, vedi IBM Cloud Machine Learning.

Misurazione dell'unità di risorsa (watsonx)

La fatturazione delle unità di risorsa è basata sulla frequenza della classe di fatturazione per il modello di fondazione moltiplicata per il numero di unità di risorsa (RU). Un'unità di risorsa è uguale a 1000 token dall'input e dall'output dell'inferenza del modello di base. Le tre classi di fatturazione del modello di base hanno tariffe RU differenti. I modelli incorporati che vettorizzano le stringhe di testo vengono fatturati a una tariffa diversa.

Tariffe di fatturazione delle unità di risorsa per i modelli di base

Tabella 2. Dettagli di fatturazione del modello Foundation
Modello Origine Classe di fatturazione Prezzo per RU
granite-13b-instruct-v2 IBM Classe 1 $0.0006 per RU
granite-13b-chat-v2 IBM Classe 1 $0.0006 per RU
granite-8b-japanese IBM Classe 1 $0.0006 per RU
granite-20b-multilingual IBM Classe 1 $0.0006 per RU
codellama-34b-instruct-hf Apri origine Classe 2 $0.0018 per RU
elyza-japanese-llama-2-7b-instruct Apri origine Classe 2 $0.0018 per RU
flan-t5-xl-3b Apri origine Classe 1 $0.0006 per RU
flan-t5-xxl-11b Apri origine Classe 2 $0.0018 per RU
flan-ul2-20b Apri origine Classe 3 $0.0050 per RU
jais-13b-chat Apri origine Classe 2 $0.0018 per RU
llama-3-8b-instruct Apri origine Classe 1 $0.0006 per RU
llama-3-70b-instruct Apri origine Classe 2 $0.0018 per RU
llama-2-13b-chat Apri origine Classe 1 $0.0006 per RU
llama-2-70b-chat Apri origine Classe 2 $0.0018 per RU
llama2-13b-dpo-v7 Apri origine Classe 2 $0.0018 per RU
mixtral-8x7b-instruct-v01 Apri origine Classe 1 $0.0006 per RU
mixtral-8x7b-instruct-v01-q Apri origine Classe 1 $0.0006 per RU
mt0-xxl-13b Apri origine Classe 2 $0.0018 per RU
starcoder-15.5b Apri origine Classe 2 $0.0018 per RU
merlinite-7b Apri origine Classe 1 $0.0006 per RU
granite-7b-lab IBM Classe 1 $0.0006 per RU

Tariffe di fatturazione dell'unità di risorsa per i modelli di integrazione

I modelli di incorporazione trasformano le frasi in vettori per confrontare e recuperare in modo più accurato il testo simile.

Tabella 3. Integrazione dei dettagli di fatturazione del modello
Modello Origine Classe di fatturazione Prezzo per RU
slate.125m.english.rtrvr IBM Classe C1 $0.0001 per RU
slate.30m.english.rtrvr IBM Classe C1 $0.0001 per RU

Misurazione ore unità di capacità (watsonx e Watson Machine Learning)

Il consumo CUH è influenzato dalle risorse hardware di calcolo applicate per un'attività e da altri fattori quali la specifica del software e il tipo di modello.

Tassi di consumo CUH per tipo di asset

Tabella 3. Tassi di consumo CUH per tipo di asset
Tipo di asset Tipo di capacità Unità di capacità per ora
Esperimento AutoAI 8 vCPU e 32 GB di RAM 20
Formazione Decision Optimization 2 vCPU e 8 GB RAM
4 vCPU e 16 GB RAM
8 vCPU e 32 GB RAM
16 vCPU e 64 GB RAM
6
7
9
13
Distribuzioni Decision Optimization 2 vCPU e 8 GB RAM
4 vCPU e 16 GB RAM
8 vCPU e 32 GB RAM
16 vCPU e 64 GB RAM
30
40
50
60
Machine Learning modelli
(formazione, valutazione o calcolo del punteggio)
1 vCPU e 4 GB RAM
2 vCPU e 8 GB RAM
4 vCPU e 16 GB RAM
8 vCPU e 32 GB RAM
16 vCPU e 64 GB RAM
0.5
1
2
4
8
Esperimento di ottimizzazione del modello Foundation
(solowatsonx )
GPU NVIDIA A100 80GB 43

Utilizzo CUH per distribuzione e tipo di framework

Il consumo CUH per le installazioni viene calcolato utilizzando le seguenti formule:

Tabella 4. Utilizzo CUH per distribuzione e tipo di framework
Tipo di distribuzione Framework calcolo CUH
Online AutoAI, funzioni e script Python , SPSS, Scikit - Learn custom libraries, Tensorflow, RShiny deployment_active_duration * no_of_nodes * CUH_rate_for_capacity_type_framework
Online Spark, PMML, Scikit-Learn, Pytorch, XGBoost score_duration_in_seconds * no_of_nodes * CUH_rate_for_capacity_type_framework
Batch tutti i framework job_duration_in_seconds * no_of_nodes * CUH_rate_for_capacity_type_framework

Monitoraggio dell'utilizzo delle risorse

È possibile tenere traccia dell'utilizzo di CUH o RU per gli asset di cui si è proprietari o su cui si collabora in un progetto o in uno spazio. Se sei un proprietario o un amministratore dell'account, puoi tenere traccia dell'utilizzo di CUH o RU per un intero account.

Traccia dell'utilizzo di CUH o RU in un progetto

Per monitorare l'utilizzo di CUH o RU in un progetto:

  1. Passare alla scheda Gestisci per un progetto.

  2. Fare clic su Risorse per esaminare un riepilogo del consumo di risorse per gli asset nel progetto o nello spazio o per esaminare i dettagli del consumo di risorse per determinati asset.

    Traccia delle risorse in un progetto

Monitoraggio dell'utilizzo di CUH per un account

Puoi tenere traccia dell'utilizzo del runtime per un account nella pagina Runtime di ambiente se sei l'amministratore o il proprietario dell'account IBM Cloud o il proprietario del servizio Watson Machine Learning . Per i dettagli, consultare Monitoraggio delle risorse.

Monitoraggio del consumo di CUH per il machine learning in un notebook

Per calcolare le ore dell'unità di capacità in un notebook, utilizzare:

CP =  client.service_instance.get_details()
CUH = CUH["entity"]["usage"]["capacity_units"]["current"]/(3600*1000)
print(CUH)

Ad esempio:

'capacity_units': {'current': 19773430}

19773430/(3600*1000)

restituisce 5.49 CUH

Per i dettagli, vedi la sezione Istanze del servizio della documentazione IBM Watson Machine Learning API .

Ulteriori informazioni

Argomento principale Watson Machine Learning

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni