Quando si addestrano i modelli AutoAI, si eseguono i modelli di apprendimento automatico o si valutano i modelli distribuiti, si utilizzano le risorse di runtime watsonx.ai, misurate in unità di ore di capacità (CUH). Quando si eseguono i servizi di inferenza con i modelli di fondazione, si utilizzano le risorse di watsonx.ai Runtime, misurate in base ai token consumati o a una tariffa oraria. Questo argomento descrive i vari piani che è possibile scegliere, quali servizi sono inclusi e come vengono calcolate le risorse di elaborazione.
Nota: il servizio watsonx.ai Runtime era precedentemente noto come servizio Watson Machine Learning.
watsonx.ai Runtime in Cloud Pak for Data as a Service e watsonx
Copy link to section
Importante:
Il piano Runtime watsonx.ai include i dettagli di watsonx.ai. Watsonx.ai è uno studio di strumenti integrati per lavorare con l'intelligenza artificiale generativa, basato su modelli di base e modelli di machine learning. Se stai utilizzando Cloud Pak for Data as a Service, i dettagli per lavorare con i modelli di base e l'inferenza del prompt di misurazione utilizzando le unità di risorse non si applicano al tuo piano.
Per ulteriori informazioni su watsonx.ai, consultare:
Se sei abilitato sia per watsonx che per Cloud Pak for Data as a Service, puoi passare da una piattaforma all'altra.
Scelta di un piano di runtime watsonx.ai
Copy link to section
i piani watsonx.ai Runtime regolano le modalità di fatturazione dei modelli addestrati e distribuiti con watsonx.ai Runtime e dei prompt utilizzati con i modelli della fondazione. Scegli un piano in base alle tue necessità:
Lite è un piano gratuito con capacità limitata. Scegliete questo piano se state valutando watsonx.ai Runtime e volete provarne le funzionalità. Il piano Lite non supporta l'esecuzione di un esperimento di ottimizzazione del modello di base su watsonx.
Essentials è un piano pay - as - you - go che ti offre la flessibilità di creare, distribuire e gestire modelli in base alle tue necessità.
Standard è un piano aziendale ad alta capacità, progettato per supportare tutte le esigenze di AI di un'organizzazione. Questo piano prevede un canone mensile di istanza che include un blocco di 2500 unità orarie di capacità (CUH). Ogni utilizzo di CUH superiore a questo importo viene addebitato alla tariffa del piano. Tutti gli altri usi sono misurati a consumo. Importante: il costo dell'istanza per il piano watsonx.ai Runtime Standard (ad esempio, $1050/month USD) viene fatturato indipendentemente dall'utilizzo di CUH. Ad esempio, se si consumano solo unità di risorse, viene comunque addebitato il costo dell'istanza. In caso di annullamento del piano, la tariffa è proporzionale.
Ai fini della misurazione e della fatturazione, i modelli di apprendimento automatico e le implementazioni o i modelli di base vengono misurati con queste metriche di addebito:
Le misure di capacità oraria (CUH) calcolano il consumo di risorse per unità oraria ai fini dell'utilizzo e della fatturazione. CUH misura tutte le attività di runtime watsonx.ai, tranne l'inferenza del modello Foundation.
L'unità di risorse (RU) misura il consumo di inferenza del modello di fondazione. L'inferenza è il processo che chiama il modello di base per generare un output in risposta a un prompt. Ogni RU equivale a 1.000 token. Un token è un'unità di testo di base (in genere 4 caratteri o un 0.75 i parole) utilizzata nell'input o nell'output per un prompt del modello di base. Per i dettagli sui token, vedi Token e token.
La tariffa oraria viene utilizzata per calcolare i costi dei modelli di fondazione personalizzati importati in watsonx.ai e distribuiti. La tariffa si basa sulle dimensioni della configurazione e viene addebitata per la durata della distribuzione del modello.
La tariffa di pagina viene utilizzata per calcolare le spese per l'estrazione del testo del documento. La tariffa di pagina è stabilita in base al piano.
Cosa si misura per il consumo di risorse?
Copy link to section
Le risorse, misurate con CUH (Capacity Unit Ore) o RU (Resource Unit), vengono utilizzate per l'esecuzione degli asset e non per l'utilizzo degli strumenti. Cioè, non è previsto alcun costo di consumo per la definizione di un esperimentoAutoAI, ma è previsto un costo per l'esecuzione dell'esperimento per addestrare le pipeline dell'esperimento. Allo stesso modo, non è previsto alcun addebito per la creazione di uno spazio di distribuzione o la definizione di un lavoro di distribuzione, ma è previsto un addebito per l'esecuzione di un lavoro di distribuzione o l'inferenza rispetto a un asset installato. Le risorse che vengono eseguite continuamente, come i notebook Jupyter, le risorse RStudio, gli script Bash e le distribuzioni di modelli personalizzati, consumano risorse per tutto il tempo in cui sono attive.
Nota: non si utilizzano i token quando si utilizza l'app di ricerca e risposta AI generativa per questo sito della documentazione.
watsonx.ai Dettagli del piano di runtime
Copy link to section
Il piano Lite ti fornisce risorse gratuite sufficienti per valutare le funzionalità di watsonx.ai. Puoi quindi scegliere un piano a pagamento che corrisponda alle esigenze della tua organizzazione, in base alle caratteristiche e alla capacità del piano.
Tabella 1. Détails du plan
Funzioni del piano
Leggero
Elementi essenziali
Standard
watsonx.ai Utilizzo del runtime in CUH
20 CUH al mese
Fatturazione CUH basata sulla tariffa CUH moltiplicata per le ore di consumo
2500 CUH al mese
Deduzione del modello Foundation in token o RU (Resource Unit)
50.000 token al mese
Fatturato per l'utilizzo (1000 token = 1 RU)
Fatturato per l'utilizzo (1000 token = 1 RU)
Numero massimo di lavori batch Decision Optimization paralleli per distribuzione
2
5
100
Lavori di distribuzione conservati per spazio
100
1000
3000
Tempo di inattività della distribuzione
1 giorno
3 giorni
3 giorni
Supporto HIPAA
ND
ND
- Disponibile solo per i piani legacy Watson Studio e Watson Machine Learning su Cloud Pak for Data as a Service nella regione di Dallas - Deve essere abilitato nell' account IBM Cloud - Non disponibile per i piani watsonx.
Limite di frequenza per ID piano
2 richieste di inferenza al secondo
8 richieste di inferenza al secondo
8 richieste di inferenza al secondo
Supporto per modelli di fondazione personalizzati
Non disponibile
Non disponibile
Fatturazione oraria in base alla configurazione
Estrazione del testo del documento
Non disponibile
Fatturato per pagina
Fatturato per pagina
Messa a punto del modello di fondazione
Non disponibile
Tuning fatturato a 43 CUH all'ora Inferencing fatturato per l'utilizzo dei token
Tuning fatturato a 43 CUH all'ora Inferencing fatturato per l'utilizzo dei token
Nota: se si esegue l'aggiornamento da Essentials a Standard, non è possibile ripristinare un piano Essentials. È necessario creare un nuovo piano.