0 / 0
Retourner à la version anglaise de la documentation
Détails de la facturation pour les actifs d'IA générative
Dernière mise à jour : 05 déc. 2024
Détails de la facturation pour les actifs d'IA générative

Découvrez comment l'utilisation des ressources d'IA générative est mesurée à l'aide d'unités de ressources (UR), de taux horaires ou d'un taux forfaitaire.

Travailler avec des actifs d'IA générative avec watsonx.ai Runtime nécessite que vous utilisiez watsonx.ai Présentation d'IBM watsonx.ai

Examinez les détails de l'évaluation des ressources à l'aide de :

  • Unités de ressources pour mesurer les activités d'inférence pour les modèles de fondation fournis par watsonx.ai
  • Tarifs horaires pour les modèles de fondation personnalisés que vous importez et déployez avec watsonx.ai
  • Tarifs horaires pour les modèles de fondations curatées déployés à la demande sur du matériel dédié.
  • Tarifs forfaitaires par page pour l'extraction de textes de documents.

Comptage des unités de ressources pour les modèles de fondation

Pour obtenir la liste des modèles de fondations pris en charge et leur prix, voir Modèles de fondations pris en charge. Pour obtenir la liste des modèles d'encodeurs pris en charge et leur prix, voir Modèles d'encodeurs pris en charge.

Une unité de ressource (UR) est égale à 1 000 jetons provenant de l'entrée et de la sortie de l'inférence du modèle de fondation. Un jeton est une unité de texte de base (généralement 4 caractères ou 0.75 mot) utilisée dans l'entrée ou la sortie d'un modèle de base ou pour l'entrée d'un modèle d'intégration.

Chaque modèle de base fourni par IBM watsonx.ai se voit attribuer un prix d'inférence pour l'entrée et la sortie. Le prix est calculé comme un multiple du prix de base de l'EF (0.0001). Par exemple, un modèle dont le prix est de0.0006 a un multiplicateur de 6 fois le taux de base.

Important : le nombre de requêtes d'inférence soumises à un modèle par seconde est limité par le plan. Si un utilisateur dépasse une limite de demande de référencement, une notification du système lui fournit des conseils.

Le prix d'un modèle de base à réglage rapide est le même que celui du modèle de base sous-jacent. Pour plus d'informations sur les modèles de fondation adaptés, voir Tuning Tuning Studio. La mise au point d'un modèle dans le Tuning Studio consomme des unités d'heures de capacité (CUH). Pour plus d'informations, voir Détails de la facturation pour les ressources d'apprentissage automatique.

Calcul du taux unitaire de ressources par modèle

Pour calculer les frais d'inférence du modèle de base, divisez le nombre total de jetons consommés au cours du mois par 1000 et arrondissez à la centaine supérieure pour obtenir le nombre total d'UR. Multipliez le nombre total d'UR par le prix du modèle pour obtenir le total des frais d'utilisation. Le prix du modèle varie selon le modèle et peut également varier en fonction des jetons d'entrée ou de sortie pour un modèle donné.

La formule de base est la suivante :

Total tokens used/1000 = Resource Units (RU) consumed
RU consumed x model price = Total usage charge

Le prix de base d'une UR est de0.0001. Le prix de chaque modèle de fondation est un multiple du prix de base.

Classes de facturation par multiplicateur

Si vous surveillez l'utilisation des modèles avec l'API watsonx.ai, les prix des modèles sont répertoriés par niveau de tarification, comme suit :

Tableau 1. Paliers de tarification de l'API
Modèle d'échelon de prix Prix de l'UR en USD Multiplicateur
taux de base
Classe 1 $0.0006 6
Classe 2 $0.0018 18
Classe 3 $0.0050 50
Classe C1 $0.0001 1
Classe 5 $0.00025 2.5
Classe 7 $0.016 160
Classe 8 $0.00015 1.5
Classe 9 $0.00035 3.5
Classe 10 $0.0020 20
Classe 11 $0.000005 0.05
Classe 12 $0.0002 2
Remarque :

Certains modèles, comme le Mistral Large, ont une tarification spéciale qui n'est pas affectée par un multiplicateur. Les prix sont indiqués en modèles soutenus.

Taux de facturation horaire pour les modèles de fondation personnalisés

Le déploiement de modèles de base personnalisés nécessite le plan Standard.

Les taux de facturation sont fonction de la configuration matérielle du modèle et s'appliquent à l'hébergement et à l'inférence du modèle. Les frais commencent lorsque le modèle est déployé avec succès et se poursuivent jusqu'à ce que le modèle soit supprimé.

Tableau 2. Taux de facturation du modèle de fondation personnalisé
Taille de la configuration Taux de facturation par heure en USD
Petite $5.22
Moyen $10.40
Grande $20.85
Important : vous pouvez déployer au maximum quatre petits modèles de fondation personnalisés, deux modèles moyens ou un grand modèle par compte.

Pour plus d'informations sur le choix d'une configuration pour un modèle de fondation personnalisé, voir Planification du déploiement d'un modèle de fondation personnalisé.

Taux de facturation horaire pour les modèles de déploiement à la demande

Déployez des modèles de fondation à la demande lorsque vous souhaitez une solution hébergée réservée à l'usage exclusif de votre organisation. Seuls les collègues à qui vous donnez accès au déploiement peuvent déduire le modèle de fondation. Un déploiement dédié signifie des interactions plus rapides et plus réactives, et permet des invites avec des fenêtres contextuelles plus longues. Les taux de facturation sont fixés par modèle et s'appliquent à l'hébergement et à l'inférence du modèle. Les frais commencent lorsque le modèle est déployé et se poursuivent jusqu'à ce que le modèle soit supprimé.

Note : Le déploiement de modèles de fondation à la demande nécessite le plan Standard. Cette fonction n'est actuellement disponible que pour le centre de données de Dallas.

Pour plus de détails sur le déploiement d'un modèle de base à la demande, y compris les prix, voir Modèles de base pris en charge disponibles avec watsonx.ai

Tarifs par page pour l'extraction de textes de documents

Utilisez la méthode d'extraction de texte du document de l'API REST watsonx.ai pour convertir les fichiers PDF qui sont très structurés et utilisent des diagrammes et des tableaux pour transmettre des informations, dans un format de fichier JSON adapté aux modèles d'IA.

La facturation se fait sur la base d'un forfait par page traitée. Une page peut être une page de texte (jusqu'à 1800 caractères), une image ou un cadre .tiff. Le taux de facturation dépend de votre type de régime.

Tableau 3. Tarification de l'extraction de texte
Type de plan Prix par page en USD
Main-d'œuvre $0.038
Standard $0.030

En savoir plus

Sujet parent : plans d'exécution dewatsonx.ai

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus