Piani Watson Machine Learning e utilizzo del calcolo
Utilizzi le risorse Watson Machine Learning , misurate in CUH (Capacity Unit Ore), quando addestra i modelli AutoAI , esegui i modelli di machine learning o calcola il punteggio dei modelli distribuiti. Utilizzi le risorse Watson Machine Learning , misurate in unità di risorse (RU), quando esegui i servizi di deduzione con i modelli di base. Questo argomento descrive i vari piani che è possibile scegliere, quali servizi sono inclusi e come vengono calcolate le risorse di elaborazione.
Watson Machine Learning in Cloud Pak for Data as a Service e watsonx
Il piano Watson Machine Learning include dettagli per watsonx.ai. Watsonx.ai è uno studio di strumenti integrati per lavorare con l'intelligenza artificiale generativa, basato su modelli di base e modelli di machine learning. Se stai utilizzando Cloud Pak for Data as a Service, i dettagli per lavorare con i modelli di base e l'inferenza del prompt di misurazione utilizzando le unità di risorse non si applicano al tuo piano.
Per ulteriori informazioni su watsonx.ai, consultare:
- Panoramica di IBM watsonx.ai
- Confronto tra IBM watsonx e Cloud Pak for Data as a Service
- Iscriviti a IBM watsonx.ai
Se sei abilitato sia per watsonx che per Cloud Pak for Data as a Service, puoi passare da una piattaforma all'altra.
Scelta di un piano Watson Machine Learning
Visualizza un confronto di piani e considera i dettagli per scegliere un piano che si adatti alle tue necessità.
- PianiWatson Machine Learning
- CUH (Capacity Unit Hours), token e RU (Resource Unit)
- Dettagli del pianoWatson Machine Learning
- Misurazione ore unità di capacità
- Monitoraggio dell'utilizzo di CUH e RU
Piani Watson Machine Learning
I piani Watson Machine Learning regolano la modalità di fatturazione per i modelli addestrati e distribuiti con Watson Machine Learning e per i prompt utilizzati con i modelli di base. Scegli un piano in base alle tue necessità:
- Lite è un piano gratuito con capacità limitata. Scegliere questo piano se si sta valutando Watson Machine Learning e si desidera provare le funzioni. Il piano Lite non supporta l'esecuzione di un esperimento di ottimizzazione del modello di base su watsonx.
- Essentials è un piano pay - as - you - go che ti offre la flessibilità di creare, distribuire e gestire modelli in base alle tue necessità.
- Standard è un piano aziendale ad alta capacità progettato per supportare tutte le esigenze di machine learning di un'organizzazione. Le ore di unità di capacità sono fornite a tariffa fissa, mentre il consumo di unità di risorsa è pay - as - you - go.
Per i dettagli del piano e i prezzi, vedi IBM Cloud Machine Learning.
CUH (Capacity Unit Ore), token e RU (Resource Unit)
Per scopi di misurazione e fatturazione, i modelli di machine learning e le distribuzioni o i modelli di base vengono misurati con queste unità:
Capacity Unit Hours (CUH) misura il consumo di risorse di calcolo per unità oraria per scopi di utilizzo e fatturazione. CUH misura tutte le attività di Watson Machine Learning ad eccezione dell'inferenza del modello Foundation.
Unità di risorsa (RU) misurano il consumo del modello di base. L'inferenza è il processo di richiamo del modello di base per generare l'output in risposta a un prompt. Ogni RU equivale a 1.000 token. Un token è un'unità di testo di base (in genere 4 caratteri o 0.75 parole) utilizzata nell'input o nell'output per un prompt del modello di base. Scegliere un piano che corrisponda ai propri requisiti di utilizzo. Per i dettagli sui token, vedi Token e token.
Un limite di frequenza monitora e limita il numero di richieste di deduzione al secondo elaborate per modelli di base per una determinata istanza del piano Watson Machine Learning . Il limite di frequenza è più elevato per i piani a pagamento rispetto al piano Lite gratuito.
Che cosa viene misurato per il consumo di CUH o RU?
Le risorse, misurate con CUH (Capacity Unit Ore) o RU (Resource Unit), vengono utilizzate per l'esecuzione degli asset e non per l'utilizzo degli strumenti. Cioè, non è previsto alcun costo di consumo per la definizione di un esperimentoAutoAI, ma è previsto un costo per l'esecuzione dell'esperimento per addestrare le pipeline dell'esperimento. Allo stesso modo, non è previsto alcun addebito per la creazione di uno spazio di distribuzione o la definizione di un lavoro di distribuzione, ma è previsto un addebito per l'esecuzione di un lavoro di distribuzione o l'inferenza rispetto a un asset installato. Gli asset che vengono eseguiti continuamente, come i notebook Jupyter, gli asset RStudio e gli script Bash, consumano le risorse per tutto il tempo in cui sono attivi.
Dettagli del piano Watson Machine Learning
Il piano Lite ti fornisce risorse gratuite sufficienti per valutare le funzionalità di watsonx.ai. Puoi quindi scegliere un piano a pagamento che corrisponda alle esigenze della tua organizzazione, in base alle caratteristiche e alla capacità del piano.
Funzioni del piano | Leggero | Elementi essenziali | Standard |
---|---|---|---|
Utilizzo di Machine Learning in CUH | 20 CUH al mese | Fatturazione CUH basata sulla tariffa CUH moltiplicata per le ore di consumo | 2500 CUH al mese |
Deduzione del modello Foundation in token o RU (Resource Unit) | 50.000 token al mese | Fatturato per l'utilizzo (1000 token = 1 RU) | Fatturato per l'utilizzo (1000 token = 1 RU) |
Numero massimo di lavori batch Decision Optimization paralleli per distribuzione | 2 | 5 | 100 |
Lavori di distribuzione conservati per spazio | 100 | 1000 | 3000 |
Tempo di inattività della distribuzione | 1 giorno | 3 giorni | 3 giorni |
Supporto HIPAA | ND | ND | Solo regione Dallas Deve essere abilitato nel tuo account IBM Cloud |
Limite di frequenza per ID piano | 2 richieste di inferenza al secondo | 8 richieste di inferenza al secondo | 8 richieste di inferenza al secondo |
Supporto per modelli di fondazione personalizzati | Non disponibile | Non disponibile | Fatturazione in base alla configurazione |
Per tutti i piani:
- Il modello di base che deduce le unità di risorsa (RU) può essere utilizzato per l'inferenza Prompt Lab, inclusi input e output. Ciò significa che la richiesta immessa per l'input viene conteggiata in aggiunta all'output generato. (solowatsonx )
- L'inferenza del modello Foundation è disponibile dai data center di Dallas, Francoforte, Londra e Tokyo. (solowatsonx )
- L'ottimizzazione del modello Foundation in Tuning Studio è disponibile nei data center di Dallas, Francoforte, Londra e Tokyo. (solowatsonx )
- Le classi di modelli determinano la velocità RU. Il prezzo per RU varia in base alla classe di modelli. (solowatsonx )
- Il consumo della velocità CUH (Capacity - unit - hour) per l'addestramento è basato sullo strumento di addestramento, sulla specifica hardware e sull'ambiente di runtime.
- L'utilizzo della velocità CUH (Capacity - unit - hour) per la distribuzione è basato sul tipo di installazione, sulla specifica hardware e sulla specifica software.
- Watson Machine Learning pone dei limiti sul numero di lavori di distribuzione conservati per ogni singolo spazio di distribuzione . Se si supera il limite, non è possibile creare nuovi lavori di distribuzione fino a quando non si eliminano i lavori esistenti o si aggiorna il piano. Per impostazione predefinita, i metadati dei job verranno eliminati automaticamente dopo 30 giorni. È possibile sovrascrivere questo valore durante la creazione di un lavoro. Consultare Gestione dei lavori.
- Il tempo di inattività si riferisce alla quantità di tempo per considerare una distribuzione attiva tra le richieste di calcolo del punteggio. Se una distribuzione non riceve richieste di calcolo del punteggio per una data durata, viene considerata inattiva o inattiva e la fatturazione si arresta per tutti i framework diversi da SPSS.
- Un piano consente almeno il limite di frequenza indicato e il limite di frequenza effettivo può essere superiore al limite indicato. Ad esempio, il piano Lite potrebbe elaborare più di 2 richieste al secondo senza emettere un errore. Se hai un piano a pagamento e ritieni di aver raggiunto il limite di frequenza per errore, contatta il supporto IBM per assistenza.
Per i dettagli del piano e i prezzi, vedere IBM Cloud Machine Learning.
Misurazione dell'unità di risorsa (watsonx)
La fatturazione delle unità di risorsa è basata sulla frequenza della classe di fatturazione per il modello di fondazione moltiplicata per il numero di unità di risorsa (RU). Un'unità di risorsa è uguale a 1000 token dall'input e dall'output dell'inferenza del modello di base. Le tre classi di fatturazione del modello di base hanno tariffe RU differenti. I modelli incorporati che vettorizzano le stringhe di testo vengono fatturati a una tariffa diversa.
Tassi di fatturazione unità di risorsa per classe di modelli
Classe di fatturazione modello | Prezzo per IF in USD |
---|---|
Classe 1 | $0.0006 |
Classe 2 | $0.0018 |
Classe 3 | $0.0050 |
Classe C1 | $0.0001 |
Classe 5 | $0.00025 |
Classe 7 | $0.016 |
Mistral Grande | $0.01 |
Tariffe di fatturazione delle unità di risorsa per i modelli di base
Per i modelli seguenti, la frequenza di fatturazione è la stessa per i token di input e output.
Modello | Origine | Classe di fatturazione | Prezzo per IF in USD |
---|---|---|---|
granite-13b-instruct-v2 | IBM | Classe 1 | $0.0006 per RU |
granite-13b-chat-v2 | IBM | Classe 1 | $0.0006 per RU |
granite-7b-lab | IBM | Classe 1 | $0.0006 per RU |
granite-8b-japanese | IBM | Classe 1 | $0.0006 per RU |
granite-20b-multilingual | IBM | Classe 1 | $0.0006 per RU |
granite-3b-code-instruct | IBM | Classe 1 | $0.0006 per RU |
granite-8b-code-instruct | IBM | Classe 1 | $0.0006 per RU |
granite-20b-code-instruct | IBM | Classe 1 | $0.0006 per RU |
granite-34b-code-instruct | IBM | Classe 1 | $0.0006 per RU |
allam-1-13b-instruct | Terza parte | Classe 2 | $0.0018 per RU |
codellama-34b-instruct-hf | Terza parte | Classe 2 | $0.0018 per RU |
elyza-japanese-llama-2-7b-instruct | Terza parte | Classe 2 | $0.0018 per RU |
flan-t5-xl-3b | Apri origine | Classe 1 | $0.0006 per RU |
flan-t5-xxl-11b | Apri origine | Classe 2 | $0.0018 per RU |
flan-ul2-20b | Apri origine | Classe 3 | $0.0050 per RU |
jais-13b-chat | Apri origine | Classe 2 | $0.0018 per RU |
llama-3-1-8b-instruct | Terza parte | Classe 1 | $0.0006 per RU |
llama-3-1-70b-instruct | Terza parte | Classe 2 | $0.0018 per RU |
llama-3-8b-instruct | Terza parte | Classe 1 | $0.0006 per RU |
llama-3-70b-instruct | Terza parte | Classe 2 | $0.0018 per RU |
llama-2-13b-chat | Terza parte | Classe 1 | $0.0006 per RU |
llama-2-70b-chat | Terza parte | Classe 2 | $0.0018 per RU |
llama2-13b-dpo-v7 | Terza parte | Classe 2 | $0.0018 per RU |
maestrale-grande | Terza parte | Mistral Grande | $0.01 per IF |
mixtral-8x7b-instruct-v01 | Apri origine | Classe 1 | $0.0006 per RU |
mt0-xxl-13b | Apri origine | Classe 2 | $0.0018 per RU |
Per i seguenti modelli, la tariffa di fatturazione è diversa per i token di input e di output. I prezzi sono espressi in dollari USA.
Modello | Origine | Token di input | Token di output |
---|---|---|---|
llama-3-405b-instruct | Meta | Classe 3: $0.0050 per IF | Classe 7: $0.016 per IF |
Tariffe di fatturazione dell'unità di risorsa per i modelli di integrazione
I modelli di incorporazione trasformano le frasi in vettori per confrontare e recuperare in modo più accurato il testo simile.
Modello | Origine | Classe di fatturazione | Prezzo per IF in USD |
---|---|---|---|
slate.125m.english.rtrvr-v2 | IBM | Classe C1 | $0.0001 per RU |
slate.125m.english.rtrvr | IBM | Classe C1 | $0.0001 per RU |
slate.30m.english.rtrvr-v2 | IBM | Classe C1 | $0.0001 per RU |
slate.30m.english.rtrvr | IBM | Classe C1 | $0.0001 per RU |
all-MiniLM-L12-v2 | Apri origine | Classe C1 | $0.0001 per RU |
multilingual-e5-large | Apri origine | Classe C1 | $0.0001 per RU |
Tariffe di fatturazione oraria per modelli di fondazione personalizzati
La distribuzione di modelli di fondazione personalizzati richiede il piano Standard. Le tariffe di fatturazione dipendono dalla configurazione hardware del modello e si applicano per l'hosting e l'inferenza del modello. L'addebito inizia quando il modello viene distribuito con successo e continua finché il modello non viene cancellato.
Dimensione della configurazione | Tariffa di fatturazione all'ora in USD |
---|---|
Piccolo | $5.22 |
Medio | $10.40 |
Grande | $20.85 |
Per i dettagli sulla scelta di una configurazione per un modello di fondazione personalizzato, vedere Pianificazione della distribuzione di un modello di fondazione personalizzato.
Tariffe di fatturazione per l'estrazione del testo dei documenti
Utilizzare il metodo di estrazione del testo del documento dell'API REST watsonx.ai per convertire i file PDF altamente strutturati e che utilizzano diagrammi e tabelle per trasmettere le informazioni, in un formato di file JSON adatto ai modelli AI. Per ulteriori informazioni, vedere Estrazione di testo dai documenti.
La fatturazione si basa sul numero di pagine elaborate e sul tipo di piano.
Tipo di piano | Prezzo per pagina in USD |
---|---|
Essenziale | $0.038 |
Standard | $0.030 |
Note sui modelli AI generativi
- Un modello di fondazione ottimizzato viene assegnato alla stessa classe di fatturazione del modello di fondazione sottostante. Ad esempio, se richiedi di ottimizzare un modello di base di classe 1, il costo per dedurre il modello ottimizzato viene misurato alla tariffa di fatturazione di classe 1. Per informazioni sui modelli di base ottimizzati, vedere Tuning Studio.
- Per ulteriori informazioni su ciascun modello, vedi Supported foundation models.
- Per informazioni sul supporto regionale per ciascun modello, vedi Disponibilità regionale per i modelli di base.
Misurazione ore unità di capacità (watsonx e Watson Machine Learning)
Il consumo CUH è influenzato dalle risorse hardware di calcolo applicate per un'attività e da altri fattori quali la specifica del software e il tipo di modello.
Tassi di consumo CUH per tipo di asset
Tipo di asset | Tipo di capacità | Unità di capacità per ora |
---|---|---|
Esperimento AutoAI | 8 vCPU e 32 GB di RAM | 20 |
Formazione Decision Optimization | 2 vCPU e 8 GB RAM 4 vCPU e 16 GB RAM 8 vCPU e 32 GB RAM 16 vCPU e 64 GB RAM |
6 7 9 13 |
Distribuzioni Decision Optimization | 2 vCPU e 8 GB RAM 4 vCPU e 16 GB RAM 8 vCPU e 32 GB RAM 16 vCPU e 64 GB RAM |
30 40 50 60 |
Machine Learning modelli (formazione, valutazione o calcolo del punteggio) |
1 vCPU e 4 GB RAM 2 vCPU e 8 GB RAM 4 vCPU e 16 GB RAM 8 vCPU e 32 GB RAM 16 vCPU e 64 GB RAM |
0.5 1 2 4 8 |
Esperimento di ottimizzazione del modello Foundation (solowatsonx ) |
GPU NVIDIA A100 80GB | 43 |
Utilizzo CUH per distribuzione e tipo di framework
Il consumo di CUH viene calcolato utilizzando queste formule:
Tipo di distribuzione | Framework | calcolo CUH |
---|---|---|
In linea | AutoAI,AI function ,SPSS , librerie personalizzate Scikit-Learn,Tensorflow , RLucido | deployment_active_duration_in_hours * no_of_nodes * CUH_rate_for_capacity_type_framework |
In linea | Spark, PMML, Scikit-Learn, Pytorch, XGBoost | score_duration_in_hours * no_of_nodes * CUH_rate_for_capacity_type_framework |
Lavori | tutti i framework | job_duration_in_hours * no_of_nodes * CUH_rate_for_capacity_type_framework |
Ad esempio, considerare un lavoro di distribuzione batch Decision Optimization che viene eseguito per 15 minuti. Il consumo di risorse viene calcolato in questo modo: 15 minuti = 0.25 ore, su 2 nodi e con 2 vCPU e 8 GB di RAM. Questa combinazione risulta in una frequenza CUH di 30, quindi ogni volta che il lavoro viene eseguito consuma 0.25 * 2 * 30, che equivale a 15 CUH.
Monitoraggio dell'utilizzo delle risorse
Puoi monitorare l'utilizzo delle risorse per le risorse che possiedi o a cui collabori in un progetto o spazio. Se sei il proprietario o l'amministratore di un account, puoi monitorare CUH, utilizzo RU o addebiti orari per un intero account.
Monitoraggio dell'utilizzo delle risorse in un progetto
Per monitorare il consumo di CUH o RU o l'utilizzo orario in un progetto:
Passare alla scheda Gestisci per un progetto.
Fare clic su Risorse per esaminare un riepilogo del consumo di risorse per gli asset nel progetto o nello spazio o per esaminare i dettagli del consumo di risorse per determinati asset.
Monitoraggio dell'utilizzo delle risorse per un account
Puoi tenere traccia dell'utilizzo del runtime per un account nella pagina Runtime di ambiente se sei l'amministratore o il proprietario dell'account IBM Cloud o il proprietario del servizio Watson Machine Learning . Per i dettagli, consultare Monitoraggio delle risorse.
Monitoraggio del consumo di CUH per il machine learning in un notebook
Per calcolare le ore dell'unità di capacità in un notebook, utilizzare:
CP = client.service_instance.get_details()
CUH = CUH["entity"]["usage"]["capacity_units"]["current"]/(3600*1000)
print(CUH)
Ad esempio:
'capacity_units': {'current': 19773430}
19773430/(3600*1000)
restituisce 5.49 CUH
Per i dettagli, consultare la sezione Istanze di servizio della documentazione IBM Watson Machine Learning API.
Ulteriori informazioni
- Opzioni di calcolo per gli esperimenti AutoAI
- Opzioni di calcolo per l'addestramento del modello e il calcolo del punteggio
Argomento principale Watson Machine Learning