Découvrez comment l'utilisation des ressources d'IA générative est mesurée à l'aide d'unités de ressources (UR), de taux horaires ou d'un taux forfaitaire.
Travailler avec des actifs d'IA générative avec watsonx.ai Runtime nécessite que vous utilisiez watsonx.ai Présentation d'IBM watsonx.ai
Examinez les détails de l'évaluation des ressources à l'aide de :
- Unités de ressources pour mesurer les activités d'inférence pour les modèles de fondation fournis par watsonx.ai
- Tarifs horaires pour les modèles de fondation personnalisés que vous importez et déployez avec watsonx.ai
- Tarifs horaires pour les modèles de fondations curatées déployés à la demande sur du matériel dédié.
- Tarifs forfaitaires par page pour l'extraction de textes de documents.
Comptage des unités de ressources pour les modèles de fondation
Pour obtenir la liste des modèles de fondations pris en charge et leur prix, voir Modèles de fondations pris en charge. Pour obtenir la liste des modèles d'encodeurs pris en charge et leur prix, voir Modèles d'encodeurs pris en charge.
Une unité de ressource (UR) est égale à 1 000 jetons provenant de l'entrée et de la sortie de l'inférence du modèle de fondation. Un jeton est une unité de texte de base (généralement 4 caractères ou 0.75 mot) utilisée dans l'entrée ou la sortie d'un modèle de base ou pour l'entrée d'un modèle d'intégration.
Chaque modèle de base fourni par IBM watsonx.ai se voit attribuer un prix d'inférence pour l'entrée et la sortie. Le prix est calculé comme un multiple du prix de base de l'EF (0.0001). Par exemple, un modèle dont le prix est de0.0006 a un multiplicateur de 6 fois le taux de base.
Le prix d'un modèle de base à réglage rapide est le même que celui du modèle de base sous-jacent. Pour plus d'informations sur les modèles de fondation adaptés, voir Tuning Tuning Studio. La mise au point d'un modèle dans le Tuning Studio consomme des unités d'heures de capacité (CUH). Pour plus d'informations, voir Détails de la facturation pour les ressources d'apprentissage automatique.
Calcul du taux unitaire de ressources par modèle
Pour calculer les frais d'inférence du modèle de base, divisez le nombre total de jetons consommés au cours du mois par 1000 et arrondissez à la centaine supérieure pour obtenir le nombre total d'UR. Multipliez le nombre total d'UR par le prix du modèle pour obtenir le total des frais d'utilisation. Le prix du modèle varie selon le modèle et peut également varier en fonction des jetons d'entrée ou de sortie pour un modèle donné.
La formule de base est la suivante :
Total tokens used/1000 = Resource Units (RU) consumed
RU consumed x model price = Total usage charge
Le prix de base d'une UR est de0.0001. Le prix de chaque modèle de fondation est un multiple du prix de base.
Classes de facturation par multiplicateur
Si vous surveillez l'utilisation des modèles avec l'API watsonx.ai, les prix des modèles sont répertoriés par niveau de tarification, comme suit :
Modèle d'échelon de prix | Prix de l'UR en USD | Multiplicateur taux de base |
---|---|---|
Classe 1 | $0.0006 | 6 |
Classe 2 | $0.0018 | 18 |
Classe 3 | $0.0050 | 50 |
Classe C1 | $0.0001 | 1 |
Classe 5 | $0.00025 | 2.5 |
Classe 7 | $0.016 | 160 |
Classe 8 | $0.00015 | 1.5 |
Classe 9 | $0.00035 | 3.5 |
Classe 10 | $0.0020 | 20 |
Classe 11 | $0.000005 | 0.05 |
Classe 12 | $0.0002 | 2 |
Certains modèles, comme le Mistral Large, ont une tarification spéciale qui n'est pas affectée par un multiplicateur. Les prix sont indiqués en modèles soutenus.
Taux de facturation horaire pour les modèles de fondation personnalisés
Le déploiement de modèles de base personnalisés nécessite le plan Standard.
Les taux de facturation sont fonction de la configuration matérielle du modèle et s'appliquent à l'hébergement et à l'inférence du modèle. Les frais commencent lorsque le modèle est déployé avec succès et se poursuivent jusqu'à ce que le modèle soit supprimé.
Taille de la configuration | Taux de facturation par heure en USD |
---|---|
Petite | $5.22 |
Moyen | $10.40 |
Grande | $20.85 |
Pour plus d'informations sur le choix d'une configuration pour un modèle de fondation personnalisé, voir Planification du déploiement d'un modèle de fondation personnalisé.
Taux de facturation horaire pour les modèles de déploiement à la demande
Déployez des modèles de fondation à la demande lorsque vous souhaitez une solution hébergée réservée à l'usage exclusif de votre organisation. Seuls les collègues à qui vous donnez accès au déploiement peuvent déduire le modèle de fondation. Un déploiement dédié signifie des interactions plus rapides et plus réactives, et permet des invites avec des fenêtres contextuelles plus longues. Les taux de facturation sont fixés par modèle et s'appliquent à l'hébergement et à l'inférence du modèle. Les frais commencent lorsque le modèle est déployé et se poursuivent jusqu'à ce que le modèle soit supprimé.
Pour plus de détails sur le déploiement d'un modèle de base à la demande, y compris les prix, voir Modèles de base pris en charge disponibles avec watsonx.ai
Tarifs par page pour l'extraction de textes de documents
Utilisez la méthode d'extraction de texte du document de l'API REST watsonx.ai pour convertir les fichiers PDF qui sont très structurés et utilisent des diagrammes et des tableaux pour transmettre des informations, dans un format de fichier JSON adapté aux modèles d'IA.
La facturation se fait sur la base d'un forfait par page traitée. Une page peut être une page de texte (jusqu'à 1800 caractères), une image ou un cadre .tiff. Le taux de facturation dépend de votre type de régime.
Type de plan | Prix par page en USD |
---|---|
Main-d'œuvre | $0.038 |
Standard | $0.030 |
En savoir plus
- Pour plus d'informations sur la tarification des ressources d'apprentissage automatique, voir Tarifs de facturation des ressources d'apprentissage automatique.
- Pour plus d'informations sur le suivi de l'allocation et de la consommation des ressources informatiques, voir Utilisation du temps d'exécution.
- Pour plus d'informations sur chaque modèle, voir Modèles de fondations pris en charge.
- Pour plus d'informations sur l'assistance régionale pour chaque modèle, voir Disponibilité régionale des modèles de fondation.
Sujet parent : plans d'exécution dewatsonx.ai