Watson Machine Learning-Pläne und -Rechenleistungsnutzung
Sie verwenden Watson Machine Learning -Ressourcen, die in Kapazitätseinheitenstunden (CUH) gemessen werden, wenn Sie AutoAI -Modelle trainieren, Modelle für maschinelles Lernen ausführen oder bereitgestellte Modelle bewerten. Sie verwenden Watson Machine Learning -Ressourcen, gemessen in Ressourceneinheiten, wenn Sie Inferenzservices mit Basismodellen ausführen. In diesem Thema werden die verschiedenen Pläne beschrieben, die Sie auswählen können, welche Services eingeschlossen sind und wie IT-Ressourcen berechnet werden.
Watson Machine Learning in Cloud Pak for Data as a Service und watsonx
Der Plan Watson Machine Learning enthält Details für watsonx.ai. Watsonx.ai ist ein Studio mit integrierten Tools für die Arbeit mit generativer KI, basierend auf Basismodellen und Modellen für maschinelles Lernen. Wenn Sie Cloud Pak for Data as a Serviceverwenden, gelten die Details für das Arbeiten mit Basismodellen und die Inferenzierung von Messungen mit Ressourceneinheiten nicht für Ihren Plan.
Wenn Sie sowohl für watsonx als auch für Cloud Pak for Data as a Serviceaktiviert sind, können Sie zwischen den beiden Plattformen wechseln.
Watson Machine Learning -Plan auswählen
Zeigen Sie einen Vergleich der Pläne an und berücksichtigen Sie die Details, um einen Plan auszuwählen, der Ihren Anforderungen entspricht.
- Watson Machine Learning-Pläne
- Kapazitätseinheitenstunden (CUH), Token und Ressourceneinheiten (RU)
- Watson Machine Learning -Plandetails
- Nutzungsmessung in Kapazitätseinheitenstunden
- CUH-und RU-Nutzung überwachen
Watson Machine Learning-Pläne
Watson Machine Learning -Pläne regeln, wie Ihnen Modelle in Rechnung gestellt werden, die Sie mit Watson Machine Learning trainieren und bereitstellen, und für Eingabeaufforderungen, die Sie mit Basismodellen verwenden. Wählen Sie einen Ihren Anforderungen entsprechenden Plan aus:
- Lite ist ein kostenloser Plan mit begrenzter Kapazität. Wählen Sie diesen Plan aus, wenn Sie Watson Machine Learning evaluieren und die Funktionalität testen.
- Essentials ist ein nutzungsabhängiger Plan, der Ihnen die Flexibilität bietet, Modelle zu erstellen, bereitzustellen und zu verwalten, die Ihren Anforderungen entsprechen.
- Standard ist ein Unternehmensplan mit hoher Kapazität, der alle Anforderungen eines Unternehmens an maschinelles Lernen unterstützt. Kapazitätseinheitenstunden werden zu einem Pauschalbetrag bereitgestellt, während der Verbrauch von Ressourceneinheiten nutzungsabhängige Bezahlung ist.
Informationen zu Tarifdetails und zur Preisgestaltung finden Sie unter IBM Cloud Machine Learning.
Kapazitätseinheitenstunden (CUH), Token und Ressourceneinheiten (RU)
Für Mess-und Abrechnungszwecke werden Modelle für maschinelles Lernen und Bereitstellungen oder Basismodelle mit den folgenden Einheiten gemessen:
Kapazitätseinheitenstunden (CUH) messen die Nutzung von Rechenressourcen pro Stunde zu Nutzungs-und Abrechnungszwecken. CUH misst die gesamte Watson Machine Learning -Aktivität mit Ausnahme der Foundation Model-Inferenz.
Ressourceneinheiten (RU) messen den Inferenzverbrauch des Basismodells. Inferenzen sind der Prozess, bei dem das Basismodell aufgerufen wird, um als Antwort auf eine Eingabeaufforderung eine Ausgabe zu generieren. Jede RU entspricht 1.000 Tokens. Ein Token ist eine Basistexteinheit (normalerweise 4 Zeichen oder 0.75 Wörter), die in der Eingabe oder Ausgabe für eine Basismodelleingabeaufforderung verwendet wird. Wählen Sie einen Plan aus, der Ihren Nutzungsanforderungen entspricht.
Eine Ratenbegrenzung überwacht und beschränkt die Anzahl der Inferenzanforderungen pro Sekunde, die für Basismodelle für eine bestimmte Watson Machine Learning -Planinstanz verarbeitet werden. Die Ratenbegrenzung ist für gebührenpflichtige Pläne höher als für den kostenlosen Lite-Plan.
Details zum Plan Watson Machine Learning
Der Lite-Plan bietet genügend freie Ressourcen, um die Funktionalität von watsonx.aiauszuwerten. Anschließend können Sie basierend auf den Tarifoptionen und der Kapazität einen kostenpflichtigen Plan auswählen, der den Anforderungen Ihrer Organisation entspricht.
Tarifoptionen | Lite | Grundlagen | Standardwert |
---|---|---|---|
Verwendung von Machine Learning in CUH | 20 CUH pro Monat | CUH-Abrechnung auf der Basis des CUH-Satzes multipliziert mit dem Verbrauch in Stunden | 2500 CUH pro Monat |
Basismodellinferenz in Tokens oder Ressourceneinheiten (RU) | 50.000 Token pro Monat | Nutzungsrechnung (1000 Tokens = 1 RU) | Nutzungsrechnung (1000 Tokens = 1 RU) |
Max. parallele Decision Optimization -Stapeljobs pro Bereitstellung | 2 | 5 | 100 |
Pro Bereich beibehaltene Bereitstellungsjobs | 100 | 1.000 | 3000 |
Bereitstellungszeit bis zur Inaktivität | 1 Tag | 30 Tage | 30 Tage |
HIPAA-Unterstützung | Nicht zutreffend | Nicht zutreffend | Nur Region Dallas Muss in Ihrem IBM Cloud -Konto aktiviert sein |
Ratenbegrenzung pro Plan-ID | 2 Inferenzanforderungen pro Sekunde | 8 Inferenzanforderungen pro Sekunde | 8 Inferenzanforderungen pro Sekunde |
Für alle Pläne:
- Foundational Model Inferenzressourceneinheiten (RU) können für Inferenzen im Eingabeaufforderungslabor verwendet werden, einschließlich Eingabe und Ausgabe. Das heißt, die Eingabeaufforderung, die Sie für die Eingabe eingeben, wird zusätzlich zur generierten Ausgabe gezählt. (nurwatsonx )
- Die Basismodellinferenz ist nur für die Rechenzentren Dallas und Frankfurt verfügbar. (nurwatsonx )
- Die RU-Rate wird durch drei Modellklassen bestimmt. Der Preis pro RU variiert je nach Modellklasse. (nurwatsonx )
- Die Nutzung der CUH-Rate (Capacity-Unit-Hour) für das Training basiert auf dem Trainingstool, der Hardwarespezifikation und der Laufzeitumgebung.
- Die CUH-Rate (Capacity-Unit-Hour) für die Implementierung basiert auf dem Implementierungstyp, der Hardwarespezifikation und der Softwarespezifikation.
- Watson Machine Learning begrenzt die Anzahl der Bereitstellungsjobs, die für jeden einzelnen Bereitstellungsbereich gespeichert werden. Wenn Sie den Grenzwert überschreiten, können Sie keine neuen Bereitstellungsjobs erstellen, bis Sie vorhandene Jobs löschen oder ein Upgrade für Ihren Plan durchführen. Standardmäßig werden die Metadaten für Jobs nach 30 Tagen automatisch gelöscht. Sie können diesen Wert überschreiben, wenn Sie einen Job erstellen. Siehe Jobs verwalten.
- Die Zeit bis zur Inaktivität bezieht sich auf den Zeitraum, in dem eine Bereitstellung zwischen Scoring-Anforderungen als aktiv betrachtet wird. Wenn eine Implementierung keine Scoring-Anforderungen für eine bestimmte Dauer empfängt, wird sie als inaktiv oder inaktiv behandelt, und die Fakturierung wird für alle anderen Frameworks als SPSS gestoppt.
- Ein Plan ermöglicht mindestens die angegebene Ratenbegrenzung und die tatsächliche Ratenbegrenzung kann höher als die angegebene Begrenzung sein. Der Lite-Plan kann beispielsweise mehr als 2 Anforderungen pro Sekunde verarbeiten, ohne einen Fehler auszugeben. Wenn Sie einen gebührenpflichtigen Plan haben und glauben, dass Sie die fehlerhafte Ratenbegrenzung erreichen, wenden Sie sich an den IBM Support, um Unterstützung zu erhalten.
Informationen zu Tarifdetails und zur Preisgestaltung finden Sie unter IBM Cloud Machine Learning.
Ressourceneinheitenmessung (watsonx)
Die Abrechnung der Ressourceneinheiten basiert auf dem Gebührensatz der Abrechnungsklasse für das Basismodell, das durch die Anzahl der Ressourceneinheiten (RU) mit einem Vielfachen verbunden ist. Eine Ressourceneinheit entspricht 1000 Token aus der Eingabe und Ausgabe der Basismodellinferenz. Die drei Abrechnungsklassen des Basismodells haben unterschiedliche RU-Tarife.
Modell | Ursprung | Rechnungsklasse | Preis pro RU |
---|---|---|---|
granite-13b-instruct-v2 | IBM | Klasse 2 | 0.0018 USD pro RU |
granite-13b-instruct-v1 | IBM | Klasse 2 | 0.0018 USD pro RU |
granite-13b-chat-v2 | IBM | Klasse 2 | 0.0018 USD pro RU |
granite-13b-chat-v1 | IBM | Klasse 2 | 0.0018 USD pro RU |
flan-t5-xxl-11b | Open Source | Klasse 2 | 0.0018 USD pro RU |
flan-ul2-20b | Open Source | Klasse 3 | $0.0050 pro RU |
gpt-neox-20b | Open Source | Klasse 3 | $0.0050 pro RU |
llama-2-13b-chat | Open Source | Klasse 1 | 0.0006 USD pro RU |
llama-2-70b-chat | Open Source | Klasse 2 | 0.0018 USD pro RU |
mpt-7b-instruct2 | Open Source | Klasse 1 | 0.0006 USD pro RU |
mt0-xxl-13b | Open Source | Klasse 2 | 0.0018 USD pro RU |
starcoder-15.5b | Open Source | Klasse 2 | 0.0018 USD pro RU |
Messung der Kapazitätseinheitenstunden (watsonx und Watson Machine Learning)
Der CUH-Verbrauch wird durch die Rechenhardwareressourcen beeinflusst, die Sie für eine Task anwenden, sowie durch andere Faktoren wie die Softwarespezifikation und den Modelltyp.
CUH-Verbrauchsraten nach Assettyp
Assettyp | Kapazitätstyp | Capacity-Units pro Stunde |
---|---|---|
AutoAI-Experiment | 8 vCPU und 32 GB RAM | 20 |
Decision Optimization -Training | 2 vCPU und 8 GB RAM 4 vCPU und 16 GB RAM 8 vCPU und 32 GB RAM 16 vCPU und 64 GB RAM |
6 7 9 13 |
Implementierungen von Decision Optimization | 2 vCPU und 8 GB RAM 4 vCPU und 16 GB RAM 8 vCPU und 32 GB RAM 16 vCPU und 64 GB RAM |
30 40 50 60 |
Machine Learning -Modelle (Training, Auswertung oder Scoring) |
1 vCPU und 4 GB RAM 2 vCPU und 8 GB RAM 4 vCPU und 16 GB RAM 8 vCPU und 32 GB RAM 16 vCPU und 64 GB RAM |
0.5 1 2 4 8 |
CUH-Verbrauch nach Implementierungs-und Framework-Typ
Der CUH-Verbrauch für Implementierungen wird mit den folgenden Formeln berechnet:
Bereitstellungstyp | Framework | Berechnung der CUH |
---|---|---|
Online | AutoAI, Python -Funktionen und -Scripts, SPSS, Scikit-Learn custom libraries, Tensorflow, RShiny | deployment_active_duration * no_of_nodes * CUH_rate_for_capacity_type_framework |
Online | Spark, PMML, Scikit-Learn, Pytorch, XGBoost | score_duration_in_seconds * no_of_nodes * CUH_rate_for_capacity_type_framework |
Batch | Alle Frameworks | job_duration_in_seconds * no_of_nodes * CUH_rate_for_capacity_type_framework |
Ressourcennutzung überwachen
Sie können die CUH-oder RU-Nutzung für Assets verfolgen, deren Eigner Sie sind oder an denen Sie in einem Projekt oder Bereich zusammenarbeiten. Wenn Sie Kontoeigner oder Administrator sind, können Sie die CUH-oder RU-Nutzung für ein gesamtes Konto verfolgen.
CUH-oder RU-Nutzung in einem Projekt verfolgen
So überwachen Sie den Verbrauch von CUH oder RU in einem Projekt:
Navigieren Sie zur Registerkarte Verwalten für ein Projekt.
Klicken Sie auf Ressourcen , um eine Zusammenfassung der Ressourcennutzung für Assets im Projekt oder Bereich oder Details zur Ressourcennutzung für bestimmte Assets anzuzeigen.
CUH-Nutzung für ein Konto verfolgen
Sie können die Laufzeitnutzung für ein Konto auf der Seite Umgebungslaufzeiten verfolgen, wenn Sie der IBM Cloud-Kontoeigner oder -Administrator oder der Watson Machine Learning-Serviceeigentümer sind. Details finden Sie unter Ressourcen überwachen.
CUH-Verbrauch für maschinelles Lernen in einem Notebook verfolgen
Verwenden Sie Folgendes, um die Kapazitätseinheitenstunden in einem Notebook zu berechnen:
CP = client.service_instance.get_details()
CUH = CUH["entity"]["usage"]["capacity_units"]["current"]/(3600*1000)
print(CUH)
Beispiel:
'capacity_units': {'current': 19773430}
19773430/(3600*1000)
Rückgabe: 5,49 CUH
Details finden Sie im Abschnitt zu den Serviceinstanzen in der IBM Watson Machine Learning-API-Dokumentation.
Weitere Informationen
Übergeordnetes Thema: Watson Machine Learning