Abrechnungsdetails für generative AI-Assets
Erfahren Sie, wie die Nutzung von generativen KI-Assets anhand von Ressourceneinheiten (RU), Stundensätzen oder einem Pauschalpreis gemessen wird.
Die Arbeit mit generativen KI-Assets mit watsonx.ai Runtime setzt voraus, dass Sie watsonx.ai verwenden. Weitere Informationen über watsonx.ai finden Sie unter Übersicht über IBM watsonx.ai.
Überprüfen Sie die Details, wie die Ressourcen gemessen werden:
- Ressourceneinheiten zur Messung von Schlussfolgerungsaktivitäten für Fundamentmodelle, bereitgestellt von watsonx.ai.
- Stundensätze für benutzerdefinierte Basismodelle, die Sie mit watsonx.ai importieren und einsetzen.
- Stundensätze für kuratierte Foundation-Modelle, die bei Bedarf auf dedizierter Hardware bereitgestellt werden.
- Pauschalpreise pro Seite für die Extraktion von Dokumententext.
Eine Ressourceneinheit wird zur Messung der folgenden Ressourcen verwendet:
- Token, die zur Inferenz eines Basismodells verwendet werden, um Text oder Texteinbettungen zu erzeugen.
- Datenpunkte, die von einem auf Zeitreihen basierenden Modell für die Vorhersage künftiger Werte verwendet werden.
Abrechnungssätze für Inferencing Foundation-Modelle, die von IBM
Die Inferenz oder Vorhersage des Basismodells wird durch die Verfolgung der Tokens, Datenpunkte oder Zeichen gemessen, die in der Eingabe und Ausgabe für ein Basismodell oder für die Ausgabe eines Encodermodells verwendet werden. Ein Token ist eine grundlegende Texteinheit (normalerweise 4 Zeichen oder 0.75 Wörter). Ein Datenpunkt ist eine Einheit von Eingabe- und Ausgabecontent, der als eine oder mehrere Zahlen ausgedrückt wird.
Einzelheiten zu den Abrechnungsraten finden Sie unter Berechnung der Token-Nutzungsrate pro Modell auf IBM Cloud.
Einzelheiten zu den Abrechnungsraten finden Sie unter Berechnung der Token-Nutzungsrate pro Modell auf AWS.
Eine Liste der unterstützten Grundmodelle für die Texterstellung und deren Preise finden Sie unter "Unterstützte Grundmodelle ". Eine Liste der unterstützten Encoder-Modelle für die Neusortierung und Generierung von Texteinbettungen sowie deren Preise finden Sie unter "Unterstützte Encoder-Modelle ".
Einem zeitnah abgestimmten Fundamentmodell wird derselbe Preis zugewiesen wie dem zugrunde liegenden Fundamentmodell. Für Informationen über abgestimmte Gründungsmodelle siehe Tuning Studio. Die Abstimmung eines Modells auf Tuning Studio verbraucht Kapazitätsstunden (CUH). Weitere Informationen finden Sie unter Details zur Abrechnung von Assets für maschinelles Lernen.
Abrechnungssätze für die Inferenz von Zeitreihengrundmodellen
Bei der Messung der Prognosen des Stiftungsmodells entspricht eine Ressourceneinheit (EVU) 1.000 Datenpunkten im Input und Output des Stiftungsmodells. Ein Datenpunkt ist eine Einheit von Eingabe- und Ausgabecontent, der als eine oder mehrere Zahlen ausgedrückt wird.
Bei der Messung der Nutzung des Gründungsmodells auf AWS wird die Anzahl der Datenpunkte in Stapeln von 1000 gezählt. Ein Datenpunkt ist eine Einheit von Eingabe- und Ausgabecontent, der als eine oder mehrere Zahlen ausgedrückt wird. Die Gesamtzahl der Lose wird dann mit einem modellspezifischen Multiplikator skaliert. Eine Ressourceneinheit (EVU) entspricht 10.000 solcher Partien.
Abrechnungsklassen nach Multiplikator
Wenn Sie die Modellnutzung mit der watsonx.ai API überwachen, werden die Modellpreise wie folgt nach Preisstufen aufgelistet:
Modell der Preisstufe | Ressourcentyp | Preis pro RU in USD ( IBM Cloud ) |
Multiplikator |
---|---|---|---|
Klasse 1 | Token | $0.0006 | 6 |
Klasse 2 | Token | $0.0018 | 18. |
Klasse 3 | Token | $0.0050 | 50 |
Klasse C1 | Token | $0.0001 | 1 |
Klasse 5 | Token | $0.00025 | 2.5 |
Klasse 7 | Token | $0.016 | 160 |
Klasse 8 | Token | $0.00015 | 1.5 |
Klasse 9 | Token | $0.00035 | 3.5 |
Klasse 10 | Token | $0.0020 | 20 Jahre |
Klasse 11 | Token | $0.000005 | 0.05 |
Klasse 12 | Token | $0.0002 | 2 |
Klasse 13 | Token | $0.00071 | 7.1 |
Klasse 14 | Datenpunkte | $0.00013 | 1.3 |
Klasse 15 | Datenpunkte | $0.00038 | 3.8 |
Klasse 16 | Token | $0.0014 | 14. |
Klasse 17 | Token | $0.0003 | 3 |
Bestimmte Modelle, wie z. B. der Mistral Large, haben spezielle Preise, die nicht durch einen Multiplikator bestimmt werden. Die Preise sind in unterstützten Gründungsmodellen aufgeführt.
Berechnung des Anteils der Token-Nutzung pro Modell auf IBM Cloud
Zur Berechnung der Kosten für die Inferenz des Stiftungsmodells teilen Sie die Gesamtzahl der im Monat verbrauchten Token durch 1000 und runden auf die nächsten 1000 auf, um die Gesamtzahl der Ressourceneinheiten (RU) zu erhalten. Multiplizieren Sie die Gesamtzahl der EVUs mit dem modellspezifischen Multiplikator, um die Gesamtnutzungsgebühren zu erhalten. Der Modellpreis variiert je nach Modell und kann auch für Eingabe- oder Ausgabe-Token für ein bestimmtes Modell variieren.
Die Grundformel lautet wie folgt:
Total tokens used/1000 = Resource Units (RU) consumed
RUs consumed x base price per RU x model multiplier = Total usage charge
Der Grundpreis für ein EVU beträgt 00.0001$. Der Preis für jedes Gründungsmodell ist ein Vielfaches des Grundpreises.
Berechnung des Anteils der Token-Nutzung pro Modell auf AWS
Um die Kosten für die Inferenz des Basismodells zu berechnen, teilen Sie die Gesamtzahl der verbrauchten Token durch 1000 und runden Sie auf die nächsten 1000 auf, um die Anzahl der verbrauchten Tokenchargen zu erhalten. Multiplizieren Sie die Anzahl der verbrauchten Chargen mit einem modellspezifischen Multiplikator, um die Gesamtzahl der Chargen zu erhalten. Teilen Sie die Gesamtzahl der Lose durch 10.000, um die Gesamtzahl der EVUs zu erhalten.
Die Grundformel lautet wie folgt:
Total tokens used/1000 = Batches of tokens consumed
Batches of tokens consumed x model multiplier = Total number of token batches
Total number of token batches / 10,000 = Resource Units (RUs) measured
Sie erwerben die für Ihren Anwendungsfall erforderlichen EVUs.
Berechnung der Ressourceneinheit von Datenpunkten pro Modell
Zur Berechnung der Gebühren für die Prognose mit einem Zeitreihengrundmodell sind die folgenden Gleichungen zu verwenden:
- Eingabeberechnung:
context length x number of series x number of channels
- Outputberechnung:
prediction length x number of series x number of channels
Diese Gleichungen verwenden die folgenden Parameter:
- Die Kontextlänge bezieht sich auf die Anzahl der historischen Datenpunkte, die ein Zeitreihengrundmodell als Input für seine Prognosen verwendet.
- Eine Reihe ist eine Sammlung von Beobachtungen, die nacheinander im Laufe der Zeit gemacht werden. Wenn man beispielsweise die Aktienkurse vieler Unternehmen vergleicht, ist die beobachtete Aktienkursentwicklung für jedes Unternehmen eine separate Reihe.
- Kanäle sind die spezifischen Merkmale oder Variablen, die innerhalb eines Zeitreihendatensatzes gemessen werden.
- Die Vorhersagelänge ist die Anzahl der zukünftigen Datenpunkte, die das Modell vorhersagen soll.
Weitere Informationen zu diesen Werten finden Sie unter "Prognose zukünftiger Datenwerte ".
Ressourcentyp | Modell der Preisstufe | Preis in USD pro RU ( IBM Cloud ) |
---|---|---|
Eingabedatenpunkte | Klasse 14 | $0.00013 |
Ausgangsdatenpunkte | Klasse 15 | $0.00038 |
Das folgende Beispiel zeigt, wie die Kosten für eine Zeitreihenprognoseanforderung mit den folgenden Parametern berechnet werden:
Parameter | Beispielmenge |
---|---|
Länge des Kontexts (Modell granite-ttm-1536-96-r2 ) | 1.536 |
Kanäle | 10 |
Serie | 1000 |
Länge der Vorhersage | 96 |
Gesamtzahl der Eingabedatenpunkte: 15.360.000 (Kontextlänge von 1.536, 10 Kanäle, für 1.000 Serien)
15,360,000 / 1,000 = 15,360 x 0.00013 = 1.9968
Gesamtzahl der ausgegebenen Datenpunkte: 960.000 (Prognose für 96 Zeitpunkte, 10 Kanäle, für 1.000 Serien)
960,000 / 1,000 = 960 x 0.00038 = 0.3648
Gesamtpreis für die Zeitreihenprognose: 2.36 (Eingabekosten: 1.9968 + Ausgabekosten: 0.3648 )
1.9968 + 0.3648 = 2.3616
Stundensätze für individuelle Gründungsmodelle
Für die Bereitstellung von benutzerdefinierten Basismodellen ist der Standardplan erforderlich.
Die Gebührensätze richten sich nach der Hardwarekonfiguration des Modells und gelten für das Hosting und die Inferenz des Modells. Die Gebühren beginnen, wenn das Modell erfolgreich eingesetzt wird, und laufen weiter, bis das Modell gelöscht wird.
Konfigurationsgröße | Abrechnungssatz pro Stunde in USD |
---|---|
Klein | $5.22 |
Mittel | $10.40 |
Groß | $20.85 |
Einzelheiten zur Auswahl einer Konfiguration für ein benutzerdefiniertes Basismodell finden Sie unter Planung der Bereitstellung eines benutzerdefinierten Basismodells.
Stündliche Abrechnungssätze für Bereitstellungsmodelle auf Anfrage
Stellen Sie die Basismodelle bei Bedarf bereit, wenn Sie eine gehostete Lösung wünschen, die ausschließlich für die Nutzung durch Ihr Unternehmen reserviert ist. Nur Kollegen, denen Sie Zugriff auf die Bereitstellung gewähren, können auf das Basismodell zugreifen. Eine dedizierte Bereitstellung bedeutet schnellere und reaktionsschnellere Interaktionen und ermöglicht Eingabeaufforderungen mit größeren Kontextfenstern. Die Gebührensätze werden pro Modell festgelegt und gelten für das Hosting und die Inferenz des Modells. Die Aufladung beginnt, wenn das Modell eingesetzt wird, und dauert an, bis das Modell gelöscht wird.
Einzelheiten zur Bereitstellung eines Foundation-Modells bei Bedarf, einschließlich der Preise, finden Sie unter Unterstützte Foundation-Modelle.
Preise pro Seite für die Extraktion von Dokumententext
Verwenden Sie die Methode der Dokumentenextraktion der watsonx.ai REST API, um stark strukturierte PDF-Dateien mit Diagrammen und Tabellen in ein AI-Modell-freundliches JSON-Dateiformat zu konvertieren. Weitere Informationen finden Sie unter Extrahieren von Text aus Dokumenten.
Eine Seite kann eine Textseite (bis zu 3000 Zeichen), ein Bild oder ein.tiff-Frame sein.
Die Abrechnung erfolgt pauschal pro verarbeitete Seite und ist abhängig von Ihrem IBM Cloud Tarif.
Plantyp | Preis pro Seite in USD |
---|---|
Wesentlich | $0.038 |
Standardwert | $0.030 |
Der Verbrauch wird in verbrauchten Ressourceneinheiten (RUs) gemessen. Für die Verarbeitung von 33 Seiten eines Dokuments wird 1 RU benötigt.
Weitere Informationen
- Einzelheiten zu den Preisen für maschinelle Lernressourcen finden Sie unter Abrechnungssätze für maschinelle Lernressourcen.
- Weitere Informationen zur Nachverfolgung der Zuweisung und des Verbrauchs von Computerressourcen finden Sie unter "Laufzeitnutzung ".
- Weitere Informationen zu den einzelnen Modellen finden Sie unter Unterstützte Stiftungsmodelle.
- Weitere Informationen zur regionalen Verfügbarkeit der einzelnen Modelle finden Sie unter "Regionale Verfügbarkeit für Stiftungsmodelle ".
Übergeordnetes Thema: Services und Integrationen