0 / 0
Zurück zur englischen Version der Dokumentation
Watson Machine Learning-Pläne und -Rechenleistungsnutzung

Watson Machine Learning-Pläne und -Rechenleistungsnutzung

Sie verwenden Watson Machine Learning -Ressourcen, die in Kapazitätseinheitenstunden (CUH) gemessen werden, wenn Sie AutoAI -Modelle trainieren, Modelle für maschinelles Lernen ausführen oder bereitgestellte Modelle bewerten. Sie verwenden Watson Machine Learning -Ressourcen, gemessen in Ressourceneinheiten, wenn Sie Inferenzservices mit Basismodellen ausführen. In diesem Thema werden die verschiedenen Pläne beschrieben, die Sie auswählen können, welche Services eingeschlossen sind und wie IT-Ressourcen berechnet werden.

Watson Machine Learning in Cloud Pak for Data as a Service und watsonx

Wichtig:

Der Plan Watson Machine Learning enthält Details für watsonx.ai. Watsonx.ai ist ein Studio mit integrierten Tools für die Arbeit mit generativer KI, basierend auf Basismodellen und Modellen für maschinelles Lernen. Wenn Sie Cloud Pak for Data as a Serviceverwenden, gelten die Details für das Arbeiten mit Basismodellen und die Inferenzierung von Messungen mit Ressourceneinheiten nicht für Ihren Plan.

Weitere Informationen zu watsonx.aifinden Sie unter:

Wenn Sie sowohl für watsonx als auch für Cloud Pak for Data as a Serviceaktiviert sind, können Sie zwischen den beiden Plattformen wechseln.

Watson Machine Learning -Plan auswählen

Zeigen Sie einen Vergleich der Pläne an und berücksichtigen Sie die Details, um einen Plan auszuwählen, der Ihren Anforderungen entspricht.

Watson Machine Learning-Pläne

Watson Machine Learning -Pläne regeln, wie Ihnen Modelle in Rechnung gestellt werden, die Sie mit Watson Machine Learning trainieren und bereitstellen, und für Eingabeaufforderungen, die Sie mit Basismodellen verwenden. Wählen Sie einen Ihren Anforderungen entsprechenden Plan aus:

  • Lite ist ein kostenloser Plan mit begrenzter Kapazität. Wählen Sie diesen Plan aus, wenn Sie Watson Machine Learning evaluieren und die Funktionalität testen. Der Lite-Plan unterstützt nicht die Ausführung eines Experiments zur Basismodelloptimierung unter watsonx.
  • Essentials ist ein nutzungsabhängiger Plan, der Ihnen die Flexibilität bietet, Modelle zu erstellen, bereitzustellen und zu verwalten, die Ihren Anforderungen entsprechen.
  • Standard ist ein Unternehmensplan mit hoher Kapazität, der alle Anforderungen eines Unternehmens an maschinelles Lernen unterstützt. Kapazitätseinheitenstunden werden zu einem Pauschalbetrag bereitgestellt, während der Verbrauch von Ressourceneinheiten nutzungsabhängige Bezahlung ist.

Informationen zu Tarifdetails und zur Preisgestaltung finden Sie unter IBM Cloud Machine Learning.

Kapazitätseinheitenstunden (CUH), Token und Ressourceneinheiten (RU)

Für Mess-und Abrechnungszwecke werden Modelle für maschinelles Lernen und Bereitstellungen oder Basismodelle mit den folgenden Einheiten gemessen:

  • Kapazitätseinheitenstunden (CUH) messen die Nutzung von Rechenressourcen pro Stunde zu Nutzungs-und Abrechnungszwecken. CUH misst die gesamte Watson Machine Learning -Aktivität mit Ausnahme der Foundation Model-Inferenz.

  • Ressourceneinheiten (RU) messen den Inferenzverbrauch des Basismodells. Inferenzen sind der Prozess, bei dem das Basismodell aufgerufen wird, um als Antwort auf eine Eingabeaufforderung eine Ausgabe zu generieren. Jede RU entspricht 1.000 Tokens. Ein Token ist eine Basistexteinheit (normalerweise 4 Zeichen oder 0.75 Wörter), die in der Eingabe oder Ausgabe für eine Basismodelleingabeaufforderung verwendet wird. Wählen Sie einen Plan aus, der Ihren Nutzungsanforderungen entspricht. Details zu Tokens finden Sie unter Tokens und Zerlegung in Tokens.

  • Eine Ratenbegrenzung überwacht und beschränkt die Anzahl der Inferenzanforderungen pro Sekunde, die für Basismodelle für eine bestimmte Watson Machine Learning -Planinstanz verarbeitet werden. Die Ratenbegrenzung ist für gebührenpflichtige Pläne höher als für den kostenlosen Lite-Plan.

Was wird für den CUH-oder RU-Verbrauch gemessen?

Ressourcen, unabhängig davon, ob sie mit Kapazitätseinheitenstunden (CUH) oder Ressourceneinheiten (RU) gemessen werden, werden für die Ausführung von Assets und nicht für die Arbeit in Tools verbraucht. Das heißt, es gibt keine Verbrauchsgebühr für die Definition eines Experiments in AutoAI, aber es gibt eine Gebühr für die Ausführung des Experiments zum Trainieren der Experimentpipelines. In ähnlicher Weise fallen keine Kosten für die Erstellung eines Bereitstellungsbereichs oder die Definition eines Bereitstellungsjobs an, aber es fallen Kosten für die Ausführung eines Bereitstellungsjobs oder die Inferenz für eine implementierte Anlage an. Assets, die kontinuierlich ausgeführt werden, wie z. B. Jupyter-Notebooks, RStudio-Assets und Bash-Scripts, verbrauchen Ressourcen, solange sie aktiv sind.

Details zum Plan Watson Machine Learning

Der Lite-Plan bietet genügend freie Ressourcen, um die Funktionalität von watsonx.aiauszuwerten. Anschließend können Sie basierend auf den Tarifoptionen und der Kapazität einen kostenpflichtigen Plan auswählen, der den Anforderungen Ihrer Organisation entspricht.

Tabelle 1. Details
Tarifoptionen Tarif „Lite" Allgemeine Informationen Standardwert
Verwendung von Machine Learning in CUH 20 CUH pro Monat CUH-Abrechnung auf der Basis des CUH-Satzes multipliziert mit dem Verbrauch in Stunden 2500 CUH pro Monat
Basismodellinferenz in Tokens oder Ressourceneinheiten (RU) 50.000 Token pro Monat Nutzungsrechnung (1000 Tokens = 1 RU) Nutzungsrechnung (1000 Tokens = 1 RU)
Max. parallele Decision Optimization -Stapeljobs pro Bereitstellung 2 5 100
Pro Bereich beibehaltene Bereitstellungsjobs 100 1.000 3.000
Bereitstellungszeit bis zur Inaktivität 1 Tag 30 Tage 30 Tage
HIPAA-Unterstützung Nicht zutreffend Nicht zutreffend Nur Region Dallas
Muss in Ihrem IBM Cloud -Konto aktiviert sein
Ratenbegrenzung pro Plan-ID 2 Inferenzanforderungen pro Sekunde 8 Inferenzanforderungen pro Sekunde 8 Inferenzanforderungen pro Sekunde

Hinweis: Wenn Sie ein Upgrade von Essentials auf Standard durchführen, können Sie nicht zu einem Essentials-Plan zurückkehren. Sie müssen einen neuen Plan erstellen.

Für alle Pläne:

  • Foundational Model Inferenzressourceneinheiten (RU) können für Inferenzen im Eingabeaufforderungslabor verwendet werden, einschließlich Eingabe und Ausgabe. Das heißt, die Eingabeaufforderung, die Sie für die Eingabe eingeben, wird zusätzlich zur generierten Ausgabe gezählt. (nurwatsonx )
  • Foundation Model Inferencing ist in den Rechenzentren Dallas, Frankfurt, London und Tokio verfügbar. (nurwatsonx )
  • Die Basismodelloptimierung in Tuning Studio ist in den Rechenzentren Dallas, Frankfurt, London und Tokio verfügbar. (nurwatsonx )
  • Modellklassen bestimmen die RU-Rate. Der Preis pro RU variiert je nach Modellklasse. (nurwatsonx )
  • Die Nutzung der CUH-Rate (Capacity-Unit-Hour) für das Training basiert auf dem Trainingstool, der Hardwarespezifikation und der Laufzeitumgebung.
  • Die CUH-Rate (Capacity-Unit-Hour) für die Implementierung basiert auf dem Implementierungstyp, der Hardwarespezifikation und der Softwarespezifikation.
  • Watson Machine Learning begrenzt die Anzahl der Bereitstellungsjobs, die für jeden einzelnen Bereitstellungsbereich gespeichert werden. Wenn Sie den Grenzwert überschreiten, können Sie keine neuen Bereitstellungsjobs erstellen, bis Sie vorhandene Jobs löschen oder ein Upgrade für Ihren Plan durchführen. Standardmäßig werden die Metadaten für Jobs nach 30 Tagen automatisch gelöscht. Sie können diesen Wert überschreiben, wenn Sie einen Job erstellen. Siehe Jobs verwalten.
  • Die Zeit bis zur Inaktivität bezieht sich auf den Zeitraum, in dem eine Bereitstellung zwischen Scoring-Anforderungen als aktiv betrachtet wird. Wenn eine Implementierung keine Scoring-Anforderungen für eine bestimmte Dauer empfängt, wird sie als inaktiv oder inaktiv behandelt, und die Fakturierung wird für alle anderen Frameworks als SPSS gestoppt.
  • Ein Plan ermöglicht mindestens die angegebene Ratenbegrenzung und die tatsächliche Ratenbegrenzung kann höher als die angegebene Begrenzung sein. Der Lite-Plan kann beispielsweise mehr als 2 Anforderungen pro Sekunde verarbeiten, ohne einen Fehler auszugeben. Wenn Sie einen gebührenpflichtigen Plan haben und glauben, dass Sie die fehlerhafte Ratenbegrenzung erreichen, wenden Sie sich an den IBM Support, um Unterstützung zu erhalten.

Informationen zu Tarifdetails und zur Preisgestaltung finden Sie unter IBM Cloud Machine Learning.

Ressourceneinheitenmessung (watsonx)

Die Abrechnung der Ressourceneinheiten basiert auf dem Gebührensatz der Abrechnungsklasse für das Basismodell, das durch die Anzahl der Ressourceneinheiten (RU) mit einem Vielfachen verbunden ist. Eine Ressourceneinheit entspricht 1000 Token aus der Eingabe und Ausgabe der Basismodellinferenz. Die drei Abrechnungsklassen des Basismodells haben unterschiedliche RU-Tarife. Einbettungsmodelle, die Textzeichenfolgen vektorisieren, werden zu einem anderen Tarif berechnet.

Abrechnungssätze für Ressourceneinheiten nach Modellklasse

Modellfakturierungsklasse Preis pro RU
Klasse 1 $0.0006
Klasse 2 $0.0018
Klasse 3 $0.0050
Klasse C1 $0.0001

Abrechnungssätze für Ressourceneinheiten für Basismodelle

Tabelle 2. Details zur Abrechnung des Basismodells
Modell Ursprung Rechnungsklasse Preis pro RU
granite-13b-instruct-v2 IBM Klasse 1 0.0006 USD pro RU
granite-13b-chat-v2 IBM Klasse 1 0.0006 USD pro RU
granite-7b-lab IBM Klasse 1 0.0006 USD pro RU
granite-8b-japanese IBM Klasse 1 0.0006 USD pro RU
granite-20b-multilingual IBM Klasse 1 0.0006 USD pro RU
granite-3b-code-instruct IBM Klasse 1 0.0006 USD pro RU
granite-8b-code-instruct IBM Klasse 1 0.0006 USD pro RU
granite-20b-code-instruct IBM Klasse 1 0.0006 USD pro RU
granite-34b-code-instruct IBM Klasse 1 0.0006 USD pro RU
allam-1-13b-instruct Andere Anbieter Klasse 2 0.0018 USD pro RU
codellama-34b-instruct-hf Andere Anbieter Klasse 2 0.0018 USD pro RU
elyza-japanese-llama-2-7b-instruct Andere Anbieter Klasse 2 0.0018 USD pro RU
flan-t5-xl-3b Open-Source Klasse 1 0.0006 USD pro RU
flan-t5-xxl-11b Open-Source Klasse 2 0.0018 USD pro RU
flan-ul2-20b Open-Source Klasse 3 $0.0050 pro RU
jais-13b-chat Open-Source Klasse 2 0.0018 USD pro RU
llama-3-8b-instruct Andere Anbieter Klasse 1 0.0006 USD pro RU
llama-3-70b-instruct Andere Anbieter Klasse 2 0.0018 USD pro RU
llama-2-13b-chat Andere Anbieter Klasse 1 0.0006 USD pro RU
llama-2-70b-chat Andere Anbieter Klasse 2 0.0018 USD pro RU
llama2-13b-dpo-v7 Andere Anbieter Klasse 2 0.0018 USD pro RU
merlinite-7b Open-Source Klasse 1 0.0006 USD pro RU
mixtral-8x7b-instruct-v01 Open-Source Klasse 1 0.0006 USD pro RU
mixtral-8x7b-instruct-v01-q Open-Source Klasse 1 0.0006 USD pro RU
mt0-xxl-13b Open-Source Klasse 2 0.0018 USD pro RU

Fakturierungssätze für Ressourceneinheiten für Einbettungsmodelle

Durch das Einbetten von Modellen werden Sätze in Vektoren umgewandelt, um ähnlichen Text genauer zu vergleichen und abzurufen.

Tabelle 3. Details zur Modellfakturierung integrieren
Modell Ursprung Rechnungsklasse Preis pro RU
slate.125m.english.rtrvr IBM Klasse C1 0.0001 USD pro RU
slate.30m.english.rtrvr IBM Klasse C1 0.0001 USD pro RU
all-MiniLM-L12-v2 Open-Source Klasse C1 0.0001 USD pro RU
bge-large-en-v1.5 OpenSource Klasse C1 0.0001 USD pro RU
multilingual-e5-large Open-Source Klasse C1 0.0001 USD pro RU

Hinweise zu generativen KI-Modellen

  • Ein zeitnahe optimiertes Basismodell wird derselben Abrechnungsklasse zugeordnet wie das zugrunde liegende Basismodell. Wenn Sie beispielsweise die Optimierung eines Basismodells der Klasse 1 anfordern, werden die Kosten für die Inferenz des optimierten Modells mit dem Abrechnungssatz der Klasse 1 gemessen. Informationen zu optimierten Basismodellen finden Sie unter Tuning Studio.
  • Weitere Informationen zu den einzelnen Modellen finden Sie unter Unterstützte Basismodelle.
  • Informationen zur regionalen Unterstützung für jedes Modell finden Sie unter Regionale Verfügbarkeit für Basismodelle.
Hinweis: Sie verwenden keine Tokens, wenn Sie die abgeleitete App für KI-Suche und -Antwort für diese Dokumentationssite verwenden.

Messung der Kapazitätseinheitenstunden (watsonx und Watson Machine Learning)

Der CUH-Verbrauch wird durch die Rechenhardwareressourcen beeinflusst, die Sie für eine Task anwenden, sowie durch andere Faktoren wie die Softwarespezifikation und den Modelltyp.

CUH-Verbrauchsraten nach Assettyp

Tabelle 3. CUH-Verbrauchsraten nach Assettyp
Assettyp Kapazitätstyp Capacity-Units pro Stunde
AutoAI-Experiment 8 vCPU und 32 GB RAM 20 Jahre
Decision Optimization -Training 2 vCPU und 8 GB RAM
4 vCPU und 16 GB RAM
8 vCPU und 32 GB RAM
16 vCPU und 64 GB RAM
6
7
9
13
Implementierungen von Decision Optimization 2 vCPU und 8 GB RAM
4 vCPU und 16 GB RAM
8 vCPU und 32 GB RAM
16 vCPU und 64 GB RAM
30
40
50
60
Machine Learning -Modelle
(Training, Auswertung oder Scoring)
1 vCPU und 4 GB RAM
2 vCPU und 8 GB RAM
4 vCPU und 16 GB RAM
8 vCPU und 32 GB RAM
16 vCPU und 64 GB RAM
0.5
1
2
4
8
Experiment zur Basismodelloptimierung
(nurwatsonx )
NVIDIA A100 80GB GPU 43

CUH-Verbrauch nach Implementierungs-und Framework-Typ

Der CUH-Verbrauch wird mit Hilfe dieser Formeln berechnet:

Tabelle 4. CUH-Verbrauch nach Implementierungs-und Framework-Typ
Implementierungstyp Framework Berechnung der CUH
Online AutoAI, AI Funktion, SPSS, Scikit-Erfahren Sie benutzerdefinierte Bibliotheken, Tensorflow, RShiny deployment_active_duration_in_hours * no_of_nodes * CUH_rate_for_capacity_type_framework
Online Spark, PMML, Scikit-Learn, Pytorch, XGBoost score_duration_in_hours * no_of_nodes * CUH_rate_for_capacity_type_framework
Stapel- Alle Frameworks job_duration_in_hours * no_of_nodes * CUH_rate_for_capacity_type_framework

Angenommen, Sie haben einen Decision Optimization -Stapelbereitstellungsjob, der 15 Minuten lang ausgeführt wird. Die Ressourcenauslastung wird folgendermaßen berechnet: 15 Minuten = 0.25 Stunden, auf 2 Knoten und mit 2 vCPU und 8 GB RAM. Diese Kombination führt zu einer CUH-Rate von 30, sodass bei jeder Ausführung des Jobs 0.25 * 2 * 30 verbraucht wird, was 15 CUH entspricht.

Ressourcennutzung überwachen

Sie können die CUH-oder RU-Nutzung für Assets verfolgen, deren Eigner Sie sind oder an denen Sie in einem Projekt oder Bereich zusammenarbeiten. Wenn Sie Kontoeigner oder Administrator sind, können Sie die CUH-oder RU-Nutzung für ein gesamtes Konto verfolgen.

CUH-oder RU-Nutzung in einem Projekt verfolgen

So überwachen Sie den Verbrauch von CUH oder RU in einem Projekt:

  1. Navigieren Sie zur Registerkarte Verwalten für ein Projekt.

  2. Klicken Sie auf Ressourcen , um eine Zusammenfassung der Ressourcennutzung für Assets im Projekt oder Bereich oder Details zur Ressourcennutzung für bestimmte Assets anzuzeigen.

    Ressourcen in einem Projekt verfolgen

CUH-Nutzung für ein Konto verfolgen

Sie können die Laufzeitnutzung für ein Konto auf der Seite Umgebungslaufzeiten verfolgen, wenn Sie der IBM Cloud-Kontoeigner oder -Administrator oder der Watson Machine Learning-Serviceeigentümer sind. Details finden Sie unter Ressourcen überwachen.

CUH-Verbrauch für maschinelles Lernen in einem Notebook verfolgen

Verwenden Sie Folgendes, um die Kapazitätseinheitenstunden in einem Notebook zu berechnen:

CP =  client.service_instance.get_details()
CUH = CUH["entity"]["usage"]["capacity_units"]["current"]/(3600*1000)
print(CUH)

Beispiel:

'capacity_units': {'current': 19773430}

19773430/(3600*1000)

Rückgabe: 5,49 CUH

Details finden Sie im Abschnitt zu den Serviceinstanzen in der IBM Watson Machine Learning-API-Dokumentation.

Weitere Informationen

Übergeordnetes Thema: Watson Machine Learning

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen