0 / 0
Zurück zur englischen Version der Dokumentation
Watson Machine Learning-Pläne und -Rechenleistungsnutzung

Watson Machine Learning-Pläne und -Rechenleistungsnutzung

Sie verwenden Watson Machine Learning -Ressourcen, die in Kapazitätseinheitenstunden (CUH) gemessen werden, wenn Sie AutoAI -Modelle trainieren, Modelle für maschinelles Lernen ausführen oder bereitgestellte Modelle bewerten. Sie verwenden Watson Machine Learning -Ressourcen, gemessen in Ressourceneinheiten, wenn Sie Inferenzservices mit Basismodellen ausführen. In diesem Thema werden die verschiedenen Pläne beschrieben, die Sie auswählen können, welche Services eingeschlossen sind und wie IT-Ressourcen berechnet werden.

Watson Machine Learning in Cloud Pak for Data as a Service und watsonx

Wichtig:

Der Plan Watson Machine Learning enthält Details für watsonx.ai. Watsonx.ai ist ein Studio mit integrierten Tools für die Arbeit mit generativer KI, basierend auf Basismodellen und Modellen für maschinelles Lernen. Wenn Sie Cloud Pak for Data as a Serviceverwenden, gelten die Details für das Arbeiten mit Basismodellen und die Inferenzierung von Messungen mit Ressourceneinheiten nicht für Ihren Plan.

Wenn Sie sowohl für watsonx als auch für Cloud Pak for Data as a Serviceaktiviert sind, können Sie zwischen den beiden Plattformen wechseln.

Watson Machine Learning -Plan auswählen

Zeigen Sie einen Vergleich der Pläne an und berücksichtigen Sie die Details, um einen Plan auszuwählen, der Ihren Anforderungen entspricht.

Watson Machine Learning-Pläne

Watson Machine Learning -Pläne regeln, wie Ihnen Modelle in Rechnung gestellt werden, die Sie mit Watson Machine Learning trainieren und bereitstellen, und für Eingabeaufforderungen, die Sie mit Basismodellen verwenden. Wählen Sie einen Ihren Anforderungen entsprechenden Plan aus:

  • Lite ist ein kostenloser Plan mit begrenzter Kapazität. Wählen Sie diesen Plan aus, wenn Sie Watson Machine Learning evaluieren und die Funktionalität testen. Der Lite-Plan unterstützt nicht die Ausführung eines Experiments zur Basismodelloptimierung unter watsonx.
  • Essentials ist ein nutzungsabhängiger Plan, der Ihnen die Flexibilität bietet, Modelle zu erstellen, bereitzustellen und zu verwalten, die Ihren Anforderungen entsprechen.
  • Standard ist ein Unternehmensplan mit hoher Kapazität, der alle Anforderungen eines Unternehmens an maschinelles Lernen unterstützt. Kapazitätseinheitenstunden werden zu einem Pauschalbetrag bereitgestellt, während der Verbrauch von Ressourceneinheiten nutzungsabhängige Bezahlung ist.

Informationen zu Tarifdetails und zur Preisgestaltung finden Sie unter IBM Cloud Machine Learning.

Kapazitätseinheitenstunden (CUH), Token und Ressourceneinheiten (RU)

Für Mess-und Abrechnungszwecke werden Modelle für maschinelles Lernen und Bereitstellungen oder Basismodelle mit den folgenden Einheiten gemessen:

  • Kapazitätseinheitenstunden (CUH) messen die Nutzung von Rechenressourcen pro Stunde zu Nutzungs-und Abrechnungszwecken. CUH misst die gesamte Watson Machine Learning -Aktivität mit Ausnahme der Foundation Model-Inferenz.

  • Ressourceneinheiten (RU) messen den Inferenzverbrauch des Basismodells. Inferenzen sind der Prozess, bei dem das Basismodell aufgerufen wird, um als Antwort auf eine Eingabeaufforderung eine Ausgabe zu generieren. Jede RU entspricht 1.000 Tokens. Ein Token ist eine Basistexteinheit (normalerweise 4 Zeichen oder 0.75 Wörter), die in der Eingabe oder Ausgabe für eine Basismodelleingabeaufforderung verwendet wird. Wählen Sie einen Plan aus, der Ihren Nutzungsanforderungen entspricht.

  • Eine Ratenbegrenzung überwacht und beschränkt die Anzahl der Inferenzanforderungen pro Sekunde, die für Basismodelle für eine bestimmte Watson Machine Learning -Planinstanz verarbeitet werden. Die Ratenbegrenzung ist für gebührenpflichtige Pläne höher als für den kostenlosen Lite-Plan.

Details zum Plan Watson Machine Learning

Der Lite-Plan bietet genügend freie Ressourcen, um die Funktionalität von watsonx.aiauszuwerten. Anschließend können Sie basierend auf den Tarifoptionen und der Kapazität einen kostenpflichtigen Plan auswählen, der den Anforderungen Ihrer Organisation entspricht.

Tabelle 1. Plandetails
Tarifoptionen Lite Allgemeine Informationen Standardwert
Verwendung von Machine Learning in CUH 20 CUH pro Monat CUH-Abrechnung auf der Basis des CUH-Satzes multipliziert mit dem Verbrauch in Stunden 2500 CUH pro Monat
Basismodellinferenz in Tokens oder Ressourceneinheiten (RU) 50.000 Token pro Monat Nutzungsrechnung (1000 Tokens = 1 RU) Nutzungsrechnung (1000 Tokens = 1 RU)
Max. parallele Decision Optimization -Stapeljobs pro Bereitstellung 2 5 100
Pro Bereich beibehaltene Bereitstellungsjobs 100 1.000 3000
Bereitstellungszeit bis zur Inaktivität 1 Tag 30 Tage 30 Tage
HIPAA-Unterstützung Nicht zutreffend Nicht zutreffend Nur Region Dallas
Muss in Ihrem IBM Cloud -Konto aktiviert sein
Ratenbegrenzung pro Plan-ID 2 Inferenzanforderungen pro Sekunde 8 Inferenzanforderungen pro Sekunde 8 Inferenzanforderungen pro Sekunde

Hinweis: Wenn Sie ein Upgrade von Essentials auf Standard durchführen, können Sie nicht zu einem Essentials-Plan zurückkehren. Sie müssen einen neuen Plan erstellen.

Für alle Pläne:

  • Foundational Model Inferenzressourceneinheiten (RU) können für Inferenzen im Eingabeaufforderungslabor verwendet werden, einschließlich Eingabe und Ausgabe. Das heißt, die Eingabeaufforderung, die Sie für die Eingabe eingeben, wird zusätzlich zur generierten Ausgabe gezählt. (nurwatsonx )
  • Die Basismodellinferenz ist nur für die Rechenzentren Dallas, Frankfurt und Tokio verfügbar. (nurwatsonx )
  • Die Basismodelloptimierung in Tuning Studio ist nur für die Rechenzentren Dallas, Frankfurt und Tokio verfügbar. (nurwatsonx )
  • Die RU-Rate wird durch drei Modellklassen bestimmt. Der Preis pro RU variiert je nach Modellklasse. (nurwatsonx )
  • Die Nutzung der CUH-Rate (Capacity-Unit-Hour) für das Training basiert auf dem Trainingstool, der Hardwarespezifikation und der Laufzeitumgebung.
  • Die CUH-Rate (Capacity-Unit-Hour) für die Implementierung basiert auf dem Implementierungstyp, der Hardwarespezifikation und der Softwarespezifikation.
  • Watson Machine Learning begrenzt die Anzahl der Bereitstellungsjobs, die für jeden einzelnen Bereitstellungsbereich gespeichert werden. Wenn Sie den Grenzwert überschreiten, können Sie keine neuen Bereitstellungsjobs erstellen, bis Sie vorhandene Jobs löschen oder ein Upgrade für Ihren Plan durchführen. Standardmäßig werden die Metadaten für Jobs nach 30 Tagen automatisch gelöscht. Sie können diesen Wert überschreiben, wenn Sie einen Job erstellen. Siehe Jobs verwalten.
  • Die Zeit bis zur Inaktivität bezieht sich auf den Zeitraum, in dem eine Bereitstellung zwischen Scoring-Anforderungen als aktiv betrachtet wird. Wenn eine Implementierung keine Scoring-Anforderungen für eine bestimmte Dauer empfängt, wird sie als inaktiv oder inaktiv behandelt, und die Fakturierung wird für alle anderen Frameworks als SPSS gestoppt.
  • Ein Plan ermöglicht mindestens die angegebene Ratenbegrenzung und die tatsächliche Ratenbegrenzung kann höher als die angegebene Begrenzung sein. Der Lite-Plan kann beispielsweise mehr als 2 Anforderungen pro Sekunde verarbeiten, ohne einen Fehler auszugeben. Wenn Sie einen gebührenpflichtigen Plan haben und glauben, dass Sie die fehlerhafte Ratenbegrenzung erreichen, wenden Sie sich an den IBM Support, um Unterstützung zu erhalten.

Informationen zu Tarifdetails und zur Preisgestaltung finden Sie unter IBM Cloud Machine Learning.

Ressourceneinheitenmessung (watsonx)

Die Abrechnung der Ressourceneinheiten basiert auf dem Gebührensatz der Abrechnungsklasse für das Basismodell, das durch die Anzahl der Ressourceneinheiten (RU) mit einem Vielfachen verbunden ist. Eine Ressourceneinheit entspricht 1000 Token aus der Eingabe und Ausgabe der Basismodellinferenz. Die drei Abrechnungsklassen des Basismodells haben unterschiedliche RU-Tarife. Einbettungsmodelle, die Textzeichenfolgen vektorisieren, werden zu einem anderen Tarif berechnet.

Abrechnungssätze für Ressourceneinheiten für Basismodelle

Tabelle 2. Details zur Abrechnung des Basismodells
Modell Ursprung Rechnungsklasse Preis pro RU
granite-13b-instruct-v2 IBM Klasse 1 0.0006 USD pro RU
granite-13b-chat-v2 IBM Klasse 1 0.0006 USD pro RU
granite-8b-japanese IBM Klasse 1 0.0006 USD pro RU
granite-20b-multilingual IBM Klasse 1 0.0006 USD pro RU
codellama-34b-instruct-hf Open Source Klasse 2 0.0018 USD pro RU
elyza-japanese-llama-2-7b-instruct Open Source Klasse 2 0.0018 USD pro RU
flan-t5-xl-3b Open Source Klasse 1 0.0006 USD pro RU
flan-t5-xxl-11b Open Source Klasse 2 0.0018 USD pro RU
flan-ul2-20b Open Source Klasse 3 $0.0050 pro RU
jais-13b-chat Open Source Klasse 2 0.0018 USD pro RU
llama-3-8b-instruct Open Source Klasse 1 0.0006 USD pro RU
llama-3-70b-instruct Open Source Klasse 2 0.0018 USD pro RU
llama-2-13b-chat Open Source Klasse 1 0.0006 USD pro RU
llama-2-70b-chat Open Source Klasse 2 0.0018 USD pro RU
llama2-13b-dpo-v7 Open Source Klasse 2 0.0018 USD pro RU
mixtral-8x7b-instruct-v01 Open Source Klasse 1 0.0006 USD pro RU
mixtral-8x7b-instruct-v01-q Open Source Klasse 1 0.0006 USD pro RU
mt0-xxl-13b Open Source Klasse 2 0.0018 USD pro RU
starcoder-15.5b Open Source Klasse 2 0.0018 USD pro RU
merlinite-7b Open Source Klasse 1 0.0006 USD pro RU
granite-7b-lab IBM Klasse 1 0.0006 USD pro RU

Fakturierungssätze für Ressourceneinheiten für Einbettungsmodelle

Durch das Einbetten von Modellen werden Sätze in Vektoren umgewandelt, um ähnlichen Text genauer zu vergleichen und abzurufen.

Tabelle 3. Details zur Modellfakturierung integrieren
Modell Ursprung Rechnungsklasse Preis pro RU
slate.125m.english.rtrvr IBM Klasse C1 0.0001 USD pro RU
slate.30m.english.rtrvr IBM Klasse C1 0.0001 USD pro RU

Messung der Kapazitätseinheitenstunden (watsonx und Watson Machine Learning)

Der CUH-Verbrauch wird durch die Rechenhardwareressourcen beeinflusst, die Sie für eine Task anwenden, sowie durch andere Faktoren wie die Softwarespezifikation und den Modelltyp.

CUH-Verbrauchsraten nach Assettyp

Tabelle 3. CUH-Verbrauchsraten nach Assettyp
Assettyp Kapazitätstyp Capacity-Units pro Stunde
AutoAI-Experiment 8 vCPU und 32 GB RAM 20
Decision Optimization -Training 2 vCPU und 8 GB RAM
4 vCPU und 16 GB RAM
8 vCPU und 32 GB RAM
16 vCPU und 64 GB RAM
6
7
9
13
Implementierungen von Decision Optimization 2 vCPU und 8 GB RAM
4 vCPU und 16 GB RAM
8 vCPU und 32 GB RAM
16 vCPU und 64 GB RAM
30
40
50
60
Machine Learning -Modelle
(Training, Auswertung oder Scoring)
1 vCPU und 4 GB RAM
2 vCPU und 8 GB RAM
4 vCPU und 16 GB RAM
8 vCPU und 32 GB RAM
16 vCPU und 64 GB RAM
0.5
1
2
4
8
Experiment zur Basismodelloptimierung
(nurwatsonx )
NVIDIA A100 80GB GPU 43

CUH-Verbrauch nach Implementierungs-und Framework-Typ

Der CUH-Verbrauch für Implementierungen wird mit den folgenden Formeln berechnet:

Tabelle 4. CUH-Verbrauch nach Implementierungs-und Framework-Typ
Bereitstellungstyp Framework Berechnung der CUH
Online AutoAI, Python -Funktionen und -Scripts, SPSS, Scikit-Learn custom libraries, Tensorflow, RShiny deployment_active_duration * no_of_nodes * CUH_rate_for_capacity_type_framework
Online Spark, PMML, Scikit-Learn, Pytorch, XGBoost score_duration_in_seconds * no_of_nodes * CUH_rate_for_capacity_type_framework
Batch Alle Frameworks job_duration_in_seconds * no_of_nodes * CUH_rate_for_capacity_type_framework

Ressourcennutzung überwachen

Sie können die CUH-oder RU-Nutzung für Assets verfolgen, deren Eigner Sie sind oder an denen Sie in einem Projekt oder Bereich zusammenarbeiten. Wenn Sie Kontoeigner oder Administrator sind, können Sie die CUH-oder RU-Nutzung für ein gesamtes Konto verfolgen.

CUH-oder RU-Nutzung in einem Projekt verfolgen

So überwachen Sie den Verbrauch von CUH oder RU in einem Projekt:

  1. Navigieren Sie zur Registerkarte Verwalten für ein Projekt.

  2. Klicken Sie auf Ressourcen , um eine Zusammenfassung der Ressourcennutzung für Assets im Projekt oder Bereich oder Details zur Ressourcennutzung für bestimmte Assets anzuzeigen.

    Ressourcen in einem Projekt verfolgen

CUH-Nutzung für ein Konto verfolgen

Sie können die Laufzeitnutzung für ein Konto auf der Seite Umgebungslaufzeiten verfolgen, wenn Sie der IBM Cloud-Kontoeigner oder -Administrator oder der Watson Machine Learning-Serviceeigentümer sind. Details finden Sie unter Ressourcen überwachen.

CUH-Verbrauch für maschinelles Lernen in einem Notebook verfolgen

Verwenden Sie Folgendes, um die Kapazitätseinheitenstunden in einem Notebook zu berechnen:

CP =  client.service_instance.get_details()
CUH = CUH["entity"]["usage"]["capacity_units"]["current"]/(3600*1000)
print(CUH)

Beispiel:

'capacity_units': {'current': 19773430}

19773430/(3600*1000)

Rückgabe: 5,49 CUH

Details finden Sie im Abschnitt zu den Serviceinstanzen in der IBM Watson Machine Learning-API-Dokumentation.

Weitere Informationen

Übergeordnetes Thema: Watson Machine Learning

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen