Watson Machine Learning-Pläne und -Rechenleistungsnutzung
Sie verwenden Watson Machine Learning -Ressourcen, die in Kapazitätseinheitenstunden (CUH) gemessen werden, wenn Sie AutoAI -Modelle trainieren, Modelle für maschinelles Lernen ausführen oder bereitgestellte Modelle bewerten. Sie verwenden Watson Machine Learning -Ressourcen, gemessen in Ressourceneinheiten, wenn Sie Inferenzservices mit Basismodellen ausführen. In diesem Thema werden die verschiedenen Pläne beschrieben, die Sie auswählen können, welche Services eingeschlossen sind und wie IT-Ressourcen berechnet werden.
Watson Machine Learning in Cloud Pak for Data as a Service und watsonx
Der Plan Watson Machine Learning enthält Details für watsonx.ai. Watsonx.ai ist ein Studio mit integrierten Tools für die Arbeit mit generativer KI, basierend auf Basismodellen und Modellen für maschinelles Lernen. Wenn Sie Cloud Pak for Data as a Serviceverwenden, gelten die Details für das Arbeiten mit Basismodellen und die Inferenzierung von Messungen mit Ressourceneinheiten nicht für Ihren Plan.
Weitere Informationen zu watsonx.aifinden Sie unter:
- Übersicht über IBM watsonx.ai
- Vergleich von IBM watsonx und Cloud Pak for Data as a Service
- Für IBM watsonx.ai
Wenn Sie sowohl für watsonx als auch für Cloud Pak for Data as a Serviceaktiviert sind, können Sie zwischen den beiden Plattformen wechseln.
Watson Machine Learning -Plan auswählen
Zeigen Sie einen Vergleich der Pläne an und berücksichtigen Sie die Details, um einen Plan auszuwählen, der Ihren Anforderungen entspricht.
- Watson Machine Learning-Pläne
- Kapazitätseinheitenstunden (CUH), Token und Ressourceneinheiten (RU)
- Watson Machine Learning -Plandetails
- Nutzungsmessung in Kapazitätseinheitenstunden
- CUH-und RU-Nutzung überwachen
Watson Machine Learning-Pläne
Watson Machine Learning -Pläne regeln, wie Ihnen Modelle in Rechnung gestellt werden, die Sie mit Watson Machine Learning trainieren und bereitstellen, und für Eingabeaufforderungen, die Sie mit Basismodellen verwenden. Wählen Sie einen Ihren Anforderungen entsprechenden Plan aus:
- Lite ist ein kostenloser Plan mit begrenzter Kapazität. Wählen Sie diesen Plan aus, wenn Sie Watson Machine Learning evaluieren und die Funktionalität testen. Der Lite-Plan unterstützt nicht die Ausführung eines Experiments zur Basismodelloptimierung unter watsonx.
- Essentials ist ein nutzungsabhängiger Plan, der Ihnen die Flexibilität bietet, Modelle zu erstellen, bereitzustellen und zu verwalten, die Ihren Anforderungen entsprechen.
- Standard ist ein Unternehmensplan mit hoher Kapazität, der alle Anforderungen eines Unternehmens an maschinelles Lernen unterstützt. Kapazitätseinheitenstunden werden zu einem Pauschalbetrag bereitgestellt, während der Verbrauch von Ressourceneinheiten nutzungsabhängige Bezahlung ist.
Informationen zu Tarifdetails und zur Preisgestaltung finden Sie unter IBM Cloud Machine Learning.
Kapazitätseinheitenstunden (CUH), Token und Ressourceneinheiten (RU)
Für Mess-und Abrechnungszwecke werden Modelle für maschinelles Lernen und Bereitstellungen oder Basismodelle mit den folgenden Einheiten gemessen:
Kapazitätseinheitenstunden (CUH) messen die Nutzung von Rechenressourcen pro Stunde zu Nutzungs-und Abrechnungszwecken. CUH misst die gesamte Watson Machine Learning -Aktivität mit Ausnahme der Foundation Model-Inferenz.
Ressourceneinheiten (RU) messen den Inferenzverbrauch des Basismodells. Inferenzen sind der Prozess, bei dem das Basismodell aufgerufen wird, um als Antwort auf eine Eingabeaufforderung eine Ausgabe zu generieren. Jede RU entspricht 1.000 Tokens. Ein Token ist eine Basistexteinheit (normalerweise 4 Zeichen oder 0.75 Wörter), die in der Eingabe oder Ausgabe für eine Basismodelleingabeaufforderung verwendet wird. Wählen Sie einen Plan aus, der Ihren Nutzungsanforderungen entspricht. Details zu Tokens finden Sie unter Tokens und Zerlegung in Tokens.
Eine Ratenbegrenzung überwacht und beschränkt die Anzahl der Inferenzanforderungen pro Sekunde, die für Basismodelle für eine bestimmte Watson Machine Learning -Planinstanz verarbeitet werden. Die Ratenbegrenzung ist für gebührenpflichtige Pläne höher als für den kostenlosen Lite-Plan.
Was wird für den CUH-oder RU-Verbrauch gemessen?
Ressourcen, unabhängig davon, ob sie mit Kapazitätseinheitenstunden (CUH) oder Ressourceneinheiten (RU) gemessen werden, werden für die Ausführung von Assets und nicht für die Arbeit in Tools verbraucht. Das heißt, es gibt keine Verbrauchsgebühr für die Definition eines Experiments inAutoAI, Für die Durchführung des Experiments zum Trainieren der Experiment-Pipelines fallen jedoch Gebühren an. In ähnlicher Weise fallen keine Kosten für die Erstellung eines Bereitstellungsbereichs oder die Definition eines Bereitstellungsjobs an, aber es fallen Kosten für die Ausführung eines Bereitstellungsjobs oder die Inferenz für eine implementierte Anlage an. Assets, die kontinuierlich ausgeführt werden, wie z. B. Jupyter-Notebooks, RStudio-Assets und Bash-Scripts, verbrauchen Ressourcen, solange sie aktiv sind.
Details zum Plan Watson Machine Learning
Der Lite-Plan bietet genügend freie Ressourcen, um die Funktionalität von watsonx.aiauszuwerten. Anschließend können Sie basierend auf den Tarifoptionen und der Kapazität einen kostenpflichtigen Plan auswählen, der den Anforderungen Ihrer Organisation entspricht.
Tarifoptionen | Tarif „Lite" | Allgemeine Informationen | Standardwert |
---|---|---|---|
Verwendung von Machine Learning in CUH | 20 CUH pro Monat | CUH-Abrechnung auf der Basis des CUH-Satzes multipliziert mit dem Verbrauch in Stunden | 2500 CUH pro Monat |
Basismodellinferenz in Tokens oder Ressourceneinheiten (RU) | 50.000 Token pro Monat | Nutzungsrechnung (1000 Tokens = 1 RU) | Nutzungsrechnung (1000 Tokens = 1 RU) |
Max. parallele Decision Optimization -Stapeljobs pro Bereitstellung | 2 | 5 | 100 |
Pro Bereich beibehaltene Bereitstellungsjobs | 100 | 1.000 | 3.000 |
Bereitstellungszeit bis zur Inaktivität | 1 Tag | 30 Tage | 30 Tage |
HIPAA-Unterstützung | Nicht zutreffend | Nicht zutreffend | Nur Region Dallas Muss in Ihrem IBM Cloud -Konto aktiviert sein |
Ratenbegrenzung pro Plan-ID | 2 Inferenzanforderungen pro Sekunde | 8 Inferenzanforderungen pro Sekunde | 8 Inferenzanforderungen pro Sekunde |
Unterstützung für benutzerdefinierte Fundamentmodelle | Nicht verfügbar | Nicht verfügbar | Abrechnung nach Konfiguration |
Für alle Pläne:
- Foundational Model Inferenzressourceneinheiten (RU) können für Inferenzen im Eingabeaufforderungslabor verwendet werden, einschließlich Eingabe und Ausgabe. Das heißt, die Eingabeaufforderung, die Sie für die Eingabe eingeben, wird zusätzlich zur generierten Ausgabe gezählt. (nurwatsonx )
- Foundation Model Inferencing ist in den Rechenzentren Dallas, Frankfurt, London und Tokio verfügbar. (nurwatsonx )
- Die Basismodelloptimierung in Tuning Studio ist in den Rechenzentren Dallas, Frankfurt, London und Tokio verfügbar. (nurwatsonx )
- Modellklassen bestimmen die RU-Rate. Der Preis pro RU variiert je nach Modellklasse. (nurwatsonx )
- Die Nutzung der CUH-Rate (Capacity-Unit-Hour) für das Training basiert auf dem Trainingstool, der Hardwarespezifikation und der Laufzeitumgebung.
- Die CUH-Rate (Capacity-Unit-Hour) für die Implementierung basiert auf dem Implementierungstyp, der Hardwarespezifikation und der Softwarespezifikation.
- Watson Machine Learning begrenzt die Anzahl der Bereitstellungsjobs, die für jeden einzelnen Bereitstellungsbereich gespeichert werden. Wenn Sie den Grenzwert überschreiten, können Sie keine neuen Bereitstellungsjobs erstellen, bis Sie vorhandene Jobs löschen oder ein Upgrade für Ihren Plan durchführen. Standardmäßig werden die Metadaten für Jobs nach 30 Tagen automatisch gelöscht. Sie können diesen Wert überschreiben, wenn Sie einen Job erstellen. Siehe Jobs verwalten.
- Die Zeit bis zur Inaktivität bezieht sich auf den Zeitraum, in dem eine Bereitstellung zwischen Scoring-Anforderungen als aktiv betrachtet wird. Wenn eine Implementierung keine Scoring-Anforderungen für eine bestimmte Dauer empfängt, wird sie als inaktiv oder inaktiv behandelt, und die Fakturierung wird für alle anderen Frameworks als SPSS gestoppt.
- Ein Plan ermöglicht mindestens die angegebene Ratenbegrenzung und die tatsächliche Ratenbegrenzung kann höher als die angegebene Begrenzung sein. Der Lite-Plan kann beispielsweise mehr als 2 Anforderungen pro Sekunde verarbeiten, ohne einen Fehler auszugeben. Wenn Sie einen gebührenpflichtigen Plan haben und glauben, dass Sie die fehlerhafte Ratenbegrenzung erreichen, wenden Sie sich an den IBM Support, um Unterstützung zu erhalten.
Informationen zu Tarifdetails und zur Preisgestaltung finden Sie unter IBM Cloud Machine Learning.
Ressourceneinheitenmessung (watsonx)
Die Abrechnung der Ressourceneinheiten basiert auf dem Gebührensatz der Abrechnungsklasse für das Basismodell, das durch die Anzahl der Ressourceneinheiten (RU) mit einem Vielfachen verbunden ist. Eine Ressourceneinheit entspricht 1000 Token aus der Eingabe und Ausgabe der Basismodellinferenz. Die drei Abrechnungsklassen des Basismodells haben unterschiedliche RU-Tarife. Einbettungsmodelle, die Textzeichenfolgen vektorisieren, werden zu einem anderen Tarif berechnet.
Abrechnungssätze für Ressourceneinheiten nach Modellklasse
Modellfakturierungsklasse | Preis pro RU |
---|---|
Klasse 1 | $0.0006 |
Klasse 2 | $0.0018 |
Klasse 3 | $0.0050 |
Klasse C1 | $0.0001 |
Klasse 5 | $0.00025 |
Klasse 7 | $0.035 |
Mistral Groß | $0.01 |
Abrechnungssätze für Ressourceneinheiten für Basismodelle
Bei den folgenden Modellen ist der Abrechnungssatz für Eingabe-und Ausgabetoken identisch.
Modell | Ursprung | Rechnungsklasse | Preis pro RU |
---|---|---|---|
granite-13b-instruct-v2 | IBM | Klasse 1 | 0.0006 USD pro RU |
granite-13b-chat-v2 | IBM | Klasse 1 | 0.0006 USD pro RU |
granite-7b-lab | IBM | Klasse 1 | 0.0006 USD pro RU |
granite-8b-japanese | IBM | Klasse 1 | 0.0006 USD pro RU |
granite-20b-multilingual | IBM | Klasse 1 | 0.0006 USD pro RU |
granite-3b-code-instruct | IBM | Klasse 1 | 0.0006 USD pro RU |
granite-8b-code-instruct | IBM | Klasse 1 | 0.0006 USD pro RU |
granite-20b-code-instruct | IBM | Klasse 1 | 0.0006 USD pro RU |
granite-34b-code-instruct | IBM | Klasse 1 | 0.0006 USD pro RU |
allam-1-13b-instruct | Andere Anbieter | Klasse 2 | 0.0018 USD pro RU |
codellama-34b-instruct-hf | Andere Anbieter | Klasse 2 | 0.0018 USD pro RU |
elyza-japanese-llama-2-7b-instruct | Andere Anbieter | Klasse 2 | 0.0018 USD pro RU |
flan-t5-xl-3b | Open-Source | Klasse 1 | 0.0006 USD pro RU |
flan-t5-xxl-11b | Open-Source | Klasse 2 | 0.0018 USD pro RU |
flan-ul2-20b | Open-Source | Klasse 3 | $0.0050 pro RU |
jais-13b-chat | Open-Source | Klasse 2 | 0.0018 USD pro RU |
llama-3-8b-instruct | Andere Anbieter | Klasse 1 | 0.0006 USD pro RU |
llama-3-70b-instruct | Andere Anbieter | Klasse 2 | 0.0018 USD pro RU |
llama-2-13b-chat | Andere Anbieter | Klasse 1 | 0.0006 USD pro RU |
llama-2-70b-chat | Andere Anbieter | Klasse 2 | 0.0018 USD pro RU |
llama2-13b-dpo-v7 | Andere Anbieter | Klasse 2 | 0.0018 USD pro RU |
merlinite-7b | Open-Source | Klasse 1 | 0.0006 USD pro RU |
Mistral-groß | Andere Anbieter | Mistral Groß | $0.01 pro RU |
mixtral-8x7b-instruct-v01 | Open-Source | Klasse 1 | 0.0006 USD pro RU |
mixtral-8x7b-instruct-v01-q | Open-Source | Klasse 1 | 0.0006 USD pro RU |
mt0-xxl-13b | Open-Source | Klasse 2 | 0.0018 USD pro RU |
Bei den folgenden Modellen ist der Abrechnungssatz für Eingabe- und Ausgabetoken unterschiedlich.
Modell | Ursprung | Eingabetoken | Ausgabetoken |
---|---|---|---|
llama-3-405b-instruct | Meta | Klasse 3: $0.0050 pro RU | Klasse 7: $0.035 pro RU |
Fakturierungssätze für Ressourceneinheiten für Einbettungsmodelle
Durch das Einbetten von Modellen werden Sätze in Vektoren umgewandelt, um ähnlichen Text genauer zu vergleichen und abzurufen.
Modell | Ursprung | Rechnungsklasse | Preis pro RU |
---|---|---|---|
slate.125m.english.rtrvr | IBM | Klasse C1 | 0.0001 USD pro RU |
slate.30m.english.rtrvr | IBM | Klasse C1 | 0.0001 USD pro RU |
all-MiniLM-L12-v2 | Open-Source | Klasse C1 | 0.0001 USD pro RU |
multilingual-e5-large | Open-Source | Klasse C1 | 0.0001 USD pro RU |
Hinweise zu generativen KI-Modellen
- Ein zeitnahe optimiertes Basismodell wird derselben Abrechnungsklasse zugeordnet wie das zugrunde liegende Basismodell. Wenn Sie beispielsweise die Optimierung eines Basismodells der Klasse 1 anfordern, werden die Kosten für die Inferenz des optimierten Modells mit dem Abrechnungssatz der Klasse 1 gemessen. Informationen zu optimierten Basismodellen finden Sie unter Tuning Studio.
- Weitere Informationen zu den einzelnen Modellen finden Sie unter Unterstützte Basismodelle.
- Informationen zur regionalen Unterstützung für jedes Modell finden Sie unter Regionale Verfügbarkeit für Basismodelle.
Messung der Kapazitätseinheitenstunden (watsonx und Watson Machine Learning)
Der CUH-Verbrauch wird durch die Rechenhardwareressourcen beeinflusst, die Sie für eine Task anwenden, sowie durch andere Faktoren wie die Softwarespezifikation und den Modelltyp.
CUH-Verbrauchsraten nach Assettyp
Assettyp | Kapazitätstyp | Capacity-Units pro Stunde |
---|---|---|
AutoAI-Experiment | 8 vCPU und 32 GB RAM | 20 Jahre |
Decision Optimization -Training | 2 vCPU und 8 GB RAM 4 vCPU und 16 GB RAM 8 vCPU und 32 GB RAM 16 vCPU und 64 GB RAM |
6 7 9 13 |
Implementierungen von Decision Optimization | 2 vCPU und 8 GB RAM 4 vCPU und 16 GB RAM 8 vCPU und 32 GB RAM 16 vCPU und 64 GB RAM |
30 40 50 60 |
Machine Learning -Modelle (Training, Auswertung oder Scoring) |
1 vCPU und 4 GB RAM 2 vCPU und 8 GB RAM 4 vCPU und 16 GB RAM 8 vCPU und 32 GB RAM 16 vCPU und 64 GB RAM |
0.5 1 2 4 8 |
Experiment zur Basismodelloptimierung (nurwatsonx ) |
NVIDIA A100 80GB GPU | 43 |
CUH-Verbrauch nach Implementierungs-und Framework-Typ
Der CUH-Verbrauch wird mit Hilfe dieser Formeln berechnet:
Implementierungstyp | Framework | Berechnung der CUH |
---|---|---|
Online | AutoAI, AI Funktion, SPSS, Scikit-Erfahren Sie benutzerdefinierte Bibliotheken, Tensorflow, RShiny | deployment_active_duration_in_hours * no_of_nodes * CUH_rate_for_capacity_type_framework |
Online | Spark, PMML, Scikit-Learn, Pytorch, XGBoost | score_duration_in_hours * no_of_nodes * CUH_rate_for_capacity_type_framework |
Stapel- | Alle Frameworks | job_duration_in_hours * no_of_nodes * CUH_rate_for_capacity_type_framework |
Angenommen, Sie haben einen Decision Optimization -Stapelbereitstellungsjob, der 15 Minuten lang ausgeführt wird. Die Ressourcenauslastung wird folgendermaßen berechnet: 15 Minuten = 0.25 Stunden, auf 2 Knoten und mit 2 vCPU und 8 GB RAM. Diese Kombination führt zu einer CUH-Rate von 30, sodass bei jeder Ausführung des Jobs 0.25 * 2 * 30 verbraucht wird, was 15 CUH entspricht.
Ressourcennutzung überwachen
Sie können die Ressourcennutzung für Assets verfolgen, die Ihnen gehören oder an denen Sie in einem Projekt oder Bereich zusammenarbeiten. Wenn Sie Kontoinhaber oder Administrator sind, können Sie die CUH- und RU-Nutzung oder die stündlichen Abrechnungsgebühren für ein gesamtes Konto verfolgen.
Nachverfolgen der Ressourcennutzung in einem Projekt
So überwachen Sie den CUH- oder RU-Verbrauch oder die stündliche Nutzung in einem Projekt:
Navigieren Sie zur Registerkarte Verwalten für ein Projekt.
Klicken Sie auf Ressourcen , um eine Zusammenfassung der Ressourcennutzung für Assets im Projekt oder Bereich oder Details zur Ressourcennutzung für bestimmte Assets anzuzeigen.
Nachverfolgen der Ressourcennutzung für ein Konto
Sie können die Laufzeitnutzung für ein Konto auf der Seite Umgebungslaufzeiten verfolgen, wenn Sie der IBM Cloud-Kontoeigner oder -Administrator oder der Watson Machine Learning-Serviceeigentümer sind. Details finden Sie unter Ressourcen überwachen.
CUH-Verbrauch für maschinelles Lernen in einem Notebook verfolgen
Verwenden Sie Folgendes, um die Kapazitätseinheitenstunden in einem Notebook zu berechnen:
CP = client.service_instance.get_details()
CUH = CUH["entity"]["usage"]["capacity_units"]["current"]/(3600*1000)
print(CUH)
Beispiel:
'capacity_units': {'current': 19773430}
19773430/(3600*1000)
Rückgabe: 5,49 CUH
Details finden Sie im Abschnitt zu den Serviceinstanzen in der IBM Watson Machine Learning-API-Dokumentation.
Weitere Informationen
Übergeordnetes Thema: Watson Machine Learning