Détails de la facturation pour les actifs d'IA générative

Dernière mise à jour : 13 févr. 2025
Détails de la facturation pour les actifs d'IA générative

Découvrez comment l'utilisation des ressources d'IA générative est mesurée à l'aide d'unités de ressources (UR), de taux horaires ou d'un taux forfaitaire.

Travailler avec des actifs d'IA générative avec watsonx.ai Runtime nécessite que vous utilisiez watsonx.ai Pour plus d'informations sur watsonx.ai, voir Présentation d'IBM watsonx.ai

Examinez les détails de l'évaluation des ressources à l'aide de :

  • Unités de ressources pour mesurer les activités d'inférence pour les modèles de base fournis par watsonx.ai.
  • Tarifs horaires pour les modèles de fondation personnalisés que vous importez et déployez avec watsonx.ai
  • Tarifs horaires pour les modèles de fondations curatées déployés à la demande sur du matériel dédié.
  • Tarifs forfaitaires par page pour l'extraction de textes de documents.

Une unité de ressource est utilisée pour mesurer les ressources suivantes :

  • Jetons utilisés pour référencer un site foundation model afin de générer du texte ou des éléments de texte.
  • Points de données utilisés par une série chronologique foundation model pour prévoir les valeurs futures.

Mesure des unités de ressources pour l'inférence des modèles de fondation

Pour obtenir la liste des modèles de base pris en charge pour la génération de texte et leur prix, voir Modèles de base pris en charge. Pour obtenir la liste des modèles d'encodeurs pris en charge pour le reclassement et la génération de text embeddings et leurs prix, voir Modèles d'encodeurs pris en charge.

Lors de la mesure de l'inférence foundation model, une unité de ressource (UR) est égale à 1 000 jetons provenant de l'entrée et de la sortie du site foundation model. Un token est une unité de texte de base (généralement 4 caractères ou 0.75 mots) utilisée en entrée ou en sortie d'une invite foundation model ou en entrée d'un modèle d'intégration.

Chaque foundation model fourni par IBM watsonx.ai se voit attribuer un prix d'inférence pour l'entrée et la sortie. Le prix est calculé comme un multiple du prix de base de l'EF (0.0001). Par exemple, un modèle dont le prix est de0.0006 a un multiplicateur de 6 fois le taux de base.

Important : le nombre de requêtes d'inférence soumises à un modèle par seconde est limité par le plan. Si un utilisateur dépasse une limite de demande de référencement, une notification du système lui fournit des conseils.

Le prix d'un foundation model à réglage rapide est le même que celui du foundation model sous-jacent. Pour plus d'informations sur les modèles de fondation adaptés, voir Tuning Tuning Studio. La mise au point d'un modèle dans le Tuning Studio consomme des unités d'heures de capacité (CUH). Pour plus d'informations, voir Détails de la facturation pour les ressources d'apprentissage automatique.

Comptage des unités de ressources pour l'inférence de modèles de fondations de séries temporelles

Lors de la mesure des prévisions sur le site foundation model, une unité de ressource (UR) équivaut à 1 000 points de données dans l'entrée et la sortie du site foundation model. Un point de données est une unité de contenu d'entrée et de sortie exprimée sous la forme d'un ou de plusieurs nombres.

Classes de facturation par multiplicateur

Si vous surveillez l'utilisation des modèles avec l'API watsonx.ai, les prix des modèles sont répertoriés par niveau de tarification, comme suit :

Tableau 1. Paliers de tarification de l'API
Modèle d'échelon de prix Type de ressource Prix de l'UR en USD Multiplicateur
taux de base
Classe 1 Jetons $0.0006 6
Classe 2 Jetons $0.0018 18
Classe 3 Jetons $0.0050 50
Classe C1 Jetons $0.0001 1
Classe 5 Jetons $0.00025 2.5
Classe 7 Jetons $0.016 160
Classe 8 Jetons $0.00015 1.5
Classe 9 Jetons $0.00035 3.5
Classe 10 Jetons $0.0020 20
Classe 11 Jetons $0.000005 0.05
Classe 12 Jetons $0.0002 2
Classe 13 Jetons $0.00071 7.1
Classe 14 Points de données $0.00013 1.3
Classe 15 Points de données $0.00038 3.8
Remarque :

Certains modèles, comme le Mistral Large, ont une tarification spéciale qui n'est pas affectée par un multiplicateur. Les prix sont indiqués en modèles soutenus.

Calcul du taux unitaire de ressources en jetons par modèle

Pour calculer les frais d'inférence du foundation model, divisez le nombre total de jetons consommés au cours du mois par 1000 et arrondissez à la centaine supérieure pour obtenir le nombre total d'UR. Multipliez le nombre total d'UR par le prix du modèle pour obtenir le total des frais d'utilisation. Le prix du modèle varie selon le modèle et peut également varier en fonction des jetons d'entrée ou de sortie pour un modèle donné.

La formule de base est la suivante :

Total tokens used/1000 = Resource Units (RU) consumed
RU consumed x model price = Total usage charge

Le prix de base d'une UR est de0.0001. Le prix de chaque foundation model est un multiple du prix de base.

Calcul du taux unitaire de points de données par modèle

Pour calculer les frais de prévision à l'aide d'une série temporelle foundation model, utilisez les équations suivantes :

  • Calcul des entrées : context length x number of series x number of channels
  • Calcul de la production : prediction length x number of series x number of channels

Ces équations utilisent les paramètres suivants :

  • La longueur du contexte fait référence au nombre de points de données historiques qu'une série temporelle foundation model utilise comme entrée pour faire des prédictions.
  • Une série est un ensemble d'observations effectuées séquentiellement dans le temps. Par exemple, lorsque l'on compare les prix des actions de plusieurs entreprises, l'historique des prix des actions observés pour chaque entreprise constitue une série distincte.
  • Les canaux sont les caractéristiques ou variables spécifiques qui sont mesurées dans un ensemble de données de séries temporelles.
  • La longueur de la prédiction est le nombre de points de données futurs que le modèle doit prédire.

Pour plus d'informations sur ces valeurs, voir Prévision des valeurs des données futures.

Tarification au point de données
Type de ressource Modèle d'échelon de prix Prix en USD par RU
Points de données d'entrée Classe 14 $0.00013
Points de données de sortie Classe 15 $0.00038

L'exemple suivant montre comment calculer le coût d'une demande de prévision de série temporelle avec les paramètres suivants :

Paramètres utilisés pour calculer l'utilisation des points de données
Paramètre Exemple de quantité
Longueur du contexte (modèle granite-ttm-1536-96-r2 ) 1 536
Canaux 10
Série 1 000
Durée de la prédiction 96
  • Total des points de données d'entrée : 15 360 000 (longueur de texte de 1 536, 10 canaux, pour 1 000 séries)

    15,360,000 / 1,000 = 15,360 x 0.00013 = 1.9968
    
  • Total des points de données de sortie : 960 000 (prévision de 96 points temporels, 10 canaux, pour 1 000 séries)

    960,000 / 1,000 = 960 x 0.00038 = 0.3648
    
  • Prix total pour la demande de prévisions de séries temporelles : $ 2.36 (coût d'entrée $ 1.9968 + coût de sortie $ 0.3648 )

    1.9968 + 0.3648 = 2.3616
    

Taux de facturation horaire pour les modèles de fondation personnalisés

Le déploiement de modèles de base personnalisés nécessite le plan Standard.

Les taux de facturation sont fonction de la configuration matérielle du modèle et s'appliquent à l'hébergement et à l'inférence du modèle. Les frais commencent lorsque le modèle est déployé avec succès et se poursuivent jusqu'à ce que le modèle soit supprimé.

Taux de facturation du foundation model personnalisé
Taille de la configuration Taux de facturation par heure en USD
Petit $5.22
Moyen $10.40
Grand $20.85
Important : vous pouvez déployer au maximum quatre petits modèles de fondation personnalisés, deux modèles moyens ou un grand modèle par compte.

Pour plus d'informations sur le choix d'une configuration pour un foundation model personnalisé, voir Planification du déploiement d'un foundation model personnalisé.

Taux de facturation horaire pour les modèles de déploiement à la demande

Déployez des modèles de fondation à la demande lorsque vous souhaitez une solution hébergée réservée à l'usage exclusif de votre organisation. Seuls les collègues à qui vous donnez accès au déploiement peuvent déduire le foundation model. Un déploiement dédié signifie des interactions plus rapides et plus réactives, et permet des invites avec des fenêtres contextuelles plus longues. Les taux de facturation sont fixés par modèle et s'appliquent à l'hébergement et à l'inférence du modèle. Les frais commencent lorsque le modèle est déployé et se poursuivent jusqu'à ce que le modèle soit supprimé.

Note : Le déploiement de modèles de fondation à la demande nécessite le plan Standard.

Pour plus de détails sur le déploiement d'une foundation model à la demande, y compris les tarifs, voir Modèles de base pris en charge dans watsonx.ai.

Tarifs par page pour l'extraction de textes de documents

Utilisez la méthode d'extraction de texte du document de l'API REST watsonx.ai pour convertir les fichiers PDF qui sont très structurés et utilisent des diagrammes et des tableaux pour transmettre des informations, dans un format de fichier JSON adapté aux modèles d'IA. Pour plus d'informations, voir Extraction de texte à partir de documents.

La facturation se fait sur la base d'un forfait par page traitée. Une page peut être une page de texte (jusqu'à 1800 caractères), une image ou un cadre .tiff. Le taux de facturation dépend de votre type de plan.

Tarification de l'extraction de texte
Type de plan Prix par page en USD
Main-d'œuvre $0.038
Norme $0.030

En savoir plus

Sujet parent : plans d'exécution dewatsonx.ai