Détails de la facturation pour les actifs d'IA générative
Dernière mise à jour : 13 févr. 2025
Détails de la facturation pour les actifs d'IA générative
Découvrez comment l'utilisation des ressources d'IA générative est mesurée à l'aide d'unités de ressources (UR), de taux horaires ou d'un taux forfaitaire.
Travailler avec des actifs d'IA générative avec watsonx.ai Runtime nécessite que vous utilisiez watsonx.ai Pour plus d'informations sur watsonx.ai, voir Présentation d'IBM watsonx.ai
Examinez les détails de l'évaluation des ressources à l'aide de :
Unités de ressources pour mesurer les activités d'inférence pour les modèles de base fournis par watsonx.ai.
Tarifs horaires pour les modèles de fondation personnalisés que vous importez et déployez avec watsonx.ai
Tarifs horaires pour les modèles de fondations curatées déployés à la demande sur du matériel dédié.
Tarifs forfaitaires par page pour l'extraction de textes de documents.
Une unité de ressource est utilisée pour mesurer les ressources suivantes :
Jetons utilisés pour référencer un site foundation model afin de générer du texte ou des éléments de texte.
Points de données utilisés par une série chronologique foundation model pour prévoir les valeurs futures.
Mesure des unités de ressources pour l'inférence des modèles de fondation
Copy link to section
Pour obtenir la liste des modèles de base pris en charge pour la génération de texte et leur prix, voir Modèles de base pris en charge. Pour obtenir la liste des modèles d'encodeurs pris en charge pour le reclassement et la génération de text embeddings et leurs prix, voir Modèles d'encodeurs pris en charge.
Lors de la mesure de l'inférence foundation model, une unité de ressource (UR) est égale à 1 000 jetons provenant de l'entrée et de la sortie du site foundation model. Un token est une unité de texte de base (généralement 4 caractères ou 0.75 mots) utilisée en entrée ou en sortie d'une invite foundation model ou en entrée d'un modèle d'intégration.
Chaque foundation model fourni par IBM watsonx.ai se voit attribuer un prix d'inférence pour l'entrée et la sortie. Le prix est calculé comme un multiple du prix de base de l'EF (0.0001). Par exemple, un modèle dont le prix est de0.0006 a un multiplicateur de 6 fois le taux de base.
Important : le nombre de requêtes d'inférence soumises à un modèle par seconde est limité par le plan. Si un utilisateur dépasse une limite de demande de référencement, une notification du système lui fournit des conseils.
Le prix d'un foundation model à réglage rapide est le même que celui du foundation model sous-jacent. Pour plus d'informations sur les modèles de fondation adaptés, voir Tuning Tuning Studio. La mise au point d'un modèle dans le Tuning Studio consomme des unités d'heures de capacité (CUH). Pour plus d'informations, voir Détails de la facturation pour les ressources d'apprentissage automatique.
Comptage des unités de ressources pour l'inférence de modèles de fondations de séries temporelles
Copy link to section
Lors de la mesure des prévisions sur le site foundation model, une unité de ressource (UR) équivaut à 1 000 points de données dans l'entrée et la sortie du site foundation model. Un point de données est une unité de contenu d'entrée et de sortie exprimée sous la forme d'un ou de plusieurs nombres.
Classes de facturation par multiplicateur
Copy link to section
Si vous surveillez l'utilisation des modèles avec l'API watsonx.ai, les prix des modèles sont répertoriés par niveau de tarification, comme suit :
Tableau 1. Paliers de tarification de l'API
Modèle d'échelon de prix
Type de ressource
Prix de l'UR en USD
Multiplicateur taux de base
Classe 1
Jetons
$0.0006
6
Classe 2
Jetons
$0.0018
18
Classe 3
Jetons
$0.0050
50
Classe C1
Jetons
$0.0001
1
Classe 5
Jetons
$0.00025
2.5
Classe 7
Jetons
$0.016
160
Classe 8
Jetons
$0.00015
1.5
Classe 9
Jetons
$0.00035
3.5
Classe 10
Jetons
$0.0020
20
Classe 11
Jetons
$0.000005
0.05
Classe 12
Jetons
$0.0002
2
Classe 13
Jetons
$0.00071
7.1
Classe 14
Points de données
$0.00013
1.3
Classe 15
Points de données
$0.00038
3.8
Remarque :
Certains modèles, comme le Mistral Large, ont une tarification spéciale qui n'est pas affectée par un multiplicateur. Les prix sont indiqués en modèles soutenus.
Calcul du taux unitaire de ressources en jetons par modèle
Copy link to section
Pour calculer les frais d'inférence du foundation model, divisez le nombre total de jetons consommés au cours du mois par 1000 et arrondissez à la centaine supérieure pour obtenir le nombre total d'UR. Multipliez le nombre total d'UR par le prix du modèle pour obtenir le total des frais d'utilisation. Le prix du modèle varie selon le modèle et peut également varier en fonction des jetons d'entrée ou de sortie pour un modèle donné.
La formule de base est la suivante :
Total tokens used/1000 = Resource Units (RU) consumed
RU consumed x model price = Total usage charge
Le prix de base d'une UR est de0.0001. Le prix de chaque foundation model est un multiple du prix de base.
Calcul du taux unitaire de points de données par modèle
Copy link to section
Pour calculer les frais de prévision à l'aide d'une série temporelle foundation model, utilisez les équations suivantes :
Calcul des entrées : context length x number of series x number of channels
Calcul de la production : prediction length x number of series x number of channels
Ces équations utilisent les paramètres suivants :
La longueur du contexte fait référence au nombre de points de données historiques qu'une série temporelle foundation model utilise comme entrée pour faire des prédictions.
Une série est un ensemble d'observations effectuées séquentiellement dans le temps. Par exemple, lorsque l'on compare les prix des actions de plusieurs entreprises, l'historique des prix des actions observés pour chaque entreprise constitue une série distincte.
Les canaux sont les caractéristiques ou variables spécifiques qui sont mesurées dans un ensemble de données de séries temporelles.
La longueur de la prédiction est le nombre de points de données futurs que le modèle doit prédire.
Les taux de facturation sont fonction de la configuration matérielle du modèle et s'appliquent à l'hébergement et à l'inférence du modèle. Les frais commencent lorsque le modèle est déployé avec succès et se poursuivent jusqu'à ce que le modèle soit supprimé.
Taux de facturation du foundation model personnalisé
Taille de la configuration
Taux de facturation par heure en USD
Petit
$5.22
Moyen
$10.40
Grand
$20.85
Important : vous pouvez déployer au maximum quatre petits modèles de fondation personnalisés, deux modèles moyens ou un grand modèle par compte.
Taux de facturation horaire pour les modèles de déploiement à la demande
Copy link to section
Déployez des modèles de fondation à la demande lorsque vous souhaitez une solution hébergée réservée à l'usage exclusif de votre organisation. Seuls les collègues à qui vous donnez accès au déploiement peuvent déduire le foundation model. Un déploiement dédié signifie des interactions plus rapides et plus réactives, et permet des invites avec des fenêtres contextuelles plus longues. Les taux de facturation sont fixés par modèle et s'appliquent à l'hébergement et à l'inférence du modèle. Les frais commencent lorsque le modèle est déployé et se poursuivent jusqu'à ce que le modèle soit supprimé.
Note : Le déploiement de modèles de fondation à la demande nécessite le plan Standard.
Tarifs par page pour l'extraction de textes de documents
Copy link to section
Utilisez la méthode d'extraction de texte du document de l'API REST watsonx.ai pour convertir les fichiers PDF qui sont très structurés et utilisent des diagrammes et des tableaux pour transmettre des informations, dans un format de fichier JSON adapté aux modèles d'IA. Pour plus d'informations, voir Extraction de texte à partir de documents.
La facturation se fait sur la base d'un forfait par page traitée. Une page peut être une page de texte (jusqu'à 1800 caractères), une image ou un cadre .tiff. Le taux de facturation dépend de votre type de plan.