piani di servizio watsonx.ai Runtime
Quando si addestrano i modelli AutoAI, si eseguono i modelli di apprendimento automatico o si valutano i modelli distribuiti, si utilizzano le risorse di runtime watsonx.ai, misurate in unità di ore di capacità (CUH). Quando si eseguono i servizi di inferenza con i modelli di fondazione, si utilizzano le risorse di watsonx.ai Runtime, misurate in base ai token consumati o a una tariffa oraria. Questo argomento descrive i vari piani che è possibile scegliere, quali servizi sono inclusi e come vengono calcolate le risorse di elaborazione.
watsonx.ai Runtime in Cloud Pak for Data as a Service e watsonx
Il piano Runtime watsonx.ai include i dettagli di watsonx.ai. Watsonx.ai è uno studio di strumenti integrati per lavorare con l'intelligenza artificiale generativa, basato su modelli di base e modelli di machine learning. Se stai utilizzando Cloud Pak for Data as a Service, i dettagli per lavorare con i modelli di base e l'inferenza del prompt di misurazione utilizzando le unità di risorse non si applicano al tuo piano.
Per ulteriori informazioni su watsonx.ai, consultare:
- Panoramica di IBM watsonx.ai
- Confronto tra IBM watsonx e Cloud Pak for Data as a Service
- Iscriviti a IBM watsonx.ai
Se sei abilitato sia per watsonx che per Cloud Pak for Data as a Service, puoi passare da una piattaforma all'altra.
Scelta di un piano di runtime watsonx.ai
i piani watsonx.ai Runtime regolano le modalità di fatturazione dei modelli addestrati e distribuiti con watsonx.ai Runtime e dei prompt utilizzati con i modelli della fondazione. Scegli un piano in base alle tue necessità:
- Lite è un piano gratuito con capacità limitata. Scegliete questo piano se state valutando watsonx.ai Runtime e volete provarne le funzionalità. Il piano Lite non supporta l'esecuzione di un esperimento di messa a punto foundation model su watsonx.
- Essentials è un piano pay - as - you - go che ti offre la flessibilità di creare, distribuire e gestire modelli in base alle tue necessità.
- Standard è un piano aziendale ad alta capacità progettato per supportare tutte le esigenze di machine learning di un'organizzazione. Le ore di unità di capacità sono fornite a tariffa fissa, mentre il consumo di unità di risorsa è pay - as - you - go.
Per i dettagli sul piano e i prezzi, vedere .
Come viene monitorato il consumo di risorse
Ai fini della misurazione e della fatturazione, i modelli di apprendimento automatico e le implementazioni o i modelli di base vengono misurati con queste metriche di addebito:
Le misure di capacità oraria (CUH) calcolano il consumo di risorse per unità oraria ai fini dell'utilizzo e della fatturazione. CUH misura tutte le attività di runtime watsonx.ai, tranne l'inferenza del modello Foundation.
L'unità di risorse (RU) misura il consumo di inferenza foundation model. L'inferenza è il processo di richiamo del foundation model per generare un output in risposta a una richiesta. Ogni RU equivale a 1.000 token. Un token è un'unità di testo di base (in genere 4 caratteri o 0.75 parole) utilizzata nell'input o nell'output di un prompt foundation model. Per i dettagli sui token, vedi Token e token.
La tariffa oraria viene utilizzata per calcolare i costi dei modelli di fondazione personalizzati importati in watsonx.ai e distribuiti. La tariffa si basa sulle dimensioni della configurazione e viene addebitata per la durata della distribuzione del modello.
La tariffa di pagina viene utilizzata per calcolare le spese per l'estrazione del testo del documento. La tariffa di pagina è stabilita in base al piano.
Cosa si misura per il consumo di risorse?
Le risorse, misurate con CUH (Capacity Unit Ore) o RU (Resource Unit), vengono utilizzate per l'esecuzione degli asset e non per l'utilizzo degli strumenti. Cioè, non è previsto alcun costo di consumo per la definizione di un esperimentoAutoAI, ma è previsto un costo per l'esecuzione dell'esperimento per addestrare le pipeline dell'esperimento. Allo stesso modo, non è previsto alcun addebito per la creazione di uno spazio di distribuzione o la definizione di un lavoro di distribuzione, ma è previsto un addebito per l'esecuzione di un lavoro di distribuzione o l'inferenza rispetto a un asset installato. Le risorse che vengono eseguite continuamente, come i notebook Jupyter, le risorse RStudio, gli script Bash e le distribuzioni di modelli personalizzati, consumano risorse per tutto il tempo in cui sono attive.
watsonx.ai Dettagli del piano di runtime
Il piano Lite ti fornisce risorse gratuite sufficienti per valutare le funzionalità di watsonx.ai. Puoi quindi scegliere un piano a pagamento che corrisponda alle esigenze della tua organizzazione, in base alle caratteristiche e alla capacità del piano.
Funzioni del piano | Leggero | Elementi essenziali | Standard |
---|---|---|---|
watsonx.ai Utilizzo del runtime in CUH | 20 CUH al mese | Fatturazione CUH basata sulla tariffa CUH moltiplicata per le ore di consumo | 2500 CUH al mese |
Deduzione del modello Foundation in token o RU (Resource Unit) | 50.000 token al mese | Fatturato per l'utilizzo (1000 token = 1 RU) | Fatturato per l'utilizzo (1000 token = 1 RU) |
Numero massimo di lavori batch Decision Optimization paralleli per distribuzione | 2 | 5 | 100 |
Lavori di distribuzione conservati per spazio | 100 | 1000 | 3000 |
Tempo di inattività della distribuzione | 1 giorno | 3 giorni | 3 giorni |
Supporto HIPAA | ND | ND | Solo regione Dallas Deve essere abilitato nel tuo account IBM Cloud |
Limite di frequenza per ID piano | 2 richieste di inferenza al secondo | 8 richieste di inferenza al secondo | 8 richieste di inferenza al secondo |
Supporto per modelli di fondazione personalizzati | Non disponibile | Non disponibile | Fatturazione oraria in base alla configurazione |
Estrazione del testo del documento | Non disponibile | Fatturato per pagina | Fatturato per pagina |
dettagli sui prezzi di watsonx.ai Runtime
Per ulteriori informazioni sulle tariffe di fatturazione e sulle modalità di calcolo del consumo di risorse, vedere:
Ulteriori informazioni
- Dettagli di fatturazione per le risorse di IA generativa
- Dettagli di fatturazione per le attività di apprendimento automatico
- Per ulteriori informazioni sul monitoraggio dell'allocazione e del consumo delle risorse di calcolo, vedere Utilizzo del runtime.
Argomento principale: watsonx.ai Runtime