Détails de la facturation pour les actifs d'IA générative
Découvrez comment l'utilisation des ressources d'IA générative est mesurée à l'aide d'unités de ressources (UR), de taux horaires ou d'un taux forfaitaire.
Travailler avec des actifs d'IA générative avec watsonx.ai Runtime nécessite que vous utilisiez watsonx.ai Présentation d'IBM watsonx.ai
Examinez les détails de l'évaluation des ressources à l'aide de :
- Unités de ressources pour mesurer les activités d'inférence pour les modèles de base fournis par watsonx.ai.
- Tarifs horaires pour les modèles de fondation personnalisés que vous importez et déployez avec watsonx.ai
- Tarifs horaires pour les modèles de fondations curatées déployés à la demande sur du matériel dédié.
- Tarifs forfaitaires par page pour l'extraction de textes de documents.
Une unité de ressource est utilisée pour mesurer les ressources suivantes :
- Jetons utilisés pour déduire un modèle de base afin de générer du texte ou des enchâssements de texte.
- Points de données utilisés par un modèle de fondation de séries temporelles pour prévoir les valeurs futures.
Mesure des unités de ressources pour l'inférence des modèles de fondation
Pour obtenir la liste des modèles de fondations pris en charge et leur prix, voir Modèles de fondations pris en charge. Pour obtenir la liste des modèles d'encodeurs pris en charge et leur prix, voir Modèles d'encodeurs pris en charge.
Lors de la mesure de l'inférence du modèle de base, une unité de ressource (UR) est égale à 1 000 jetons de l'entrée et de la sortie du modèle de base. Un jeton est une unité de texte de base (généralement 4 caractères ou 0.75 mot) utilisée dans l'entrée ou la sortie d'un modèle de base ou pour l'entrée d'un modèle d'intégration.
Chaque modèle de base fourni par IBM watsonx.ai se voit attribuer un prix d'inférence pour l'entrée et la sortie. Le prix est calculé comme un multiple du prix de base de l'EF (0.0001). Par exemple, un modèle dont le prix est de0.0006 a un multiplicateur de 6 fois le taux de base.
Le prix d'un modèle de base à réglage rapide est le même que celui du modèle de base sous-jacent. Pour plus d'informations sur les modèles de fondation adaptés, voir Tuning Tuning Studio. La mise au point d'un modèle dans le Tuning Studio consomme des unités d'heures de capacité (CUH). Pour plus d'informations, voir Détails de la facturation pour les ressources d'apprentissage automatique.
Comptage des unités de ressources pour l'inférence de modèles de fondations de séries temporelles
Lors de la mesure des prévisions du modèle de fondation, une unité de ressource (UR) est égale à 1 000 points de données dans les entrées et les sorties du modèle de fondation. Un point de données est une unité de contenu d'entrée et de sortie exprimée sous la forme d'un ou de plusieurs nombres.
Classes de facturation par multiplicateur
Si vous surveillez l'utilisation des modèles avec l'API watsonx.ai, les prix des modèles sont répertoriés par niveau de tarification, comme suit :
Modèle d'échelon de prix | Type de ressource | Prix de l'UR en USD | Multiplicateur taux de base |
---|---|---|---|
Classe 1 | Jetons | $0.0006 | 6 |
Classe 2 | Jetons | $0.0018 | 18 |
Classe 3 | Jetons | $0.0050 | 50 |
Classe C1 | Jetons | $0.0001 | 1 |
Classe 5 | Jetons | $0.00025 | 2.5 |
Classe 7 | Jetons | $0.016 | 160 |
Classe 8 | Jetons | $0.00015 | 1.5 |
Classe 9 | Jetons | $0.00035 | 3.5 |
Classe 10 | Jetons | $0.0020 | 20 |
Classe 11 | Jetons | $0.000005 | 0.05 |
Classe 12 | Jetons | $0.0002 | 2 |
Classe 13 | Jetons | $0.00071 | 7.1 |
Classe 14 | Points de données | $0.00013 | 1.3 |
Classe 15 | Points de données | $0.00038 | 3.8 |
Certains modèles, comme le Mistral Large, ont une tarification spéciale qui n'est pas affectée par un multiplicateur. Les prix sont indiqués en modèles soutenus.
Calcul du taux unitaire de ressources en jetons par modèle
Pour calculer les frais d'inférence du modèle de base, divisez le nombre total de jetons consommés au cours du mois par 1000 et arrondissez à la centaine supérieure pour obtenir le nombre total d'UR. Multipliez le nombre total d'UR par le prix du modèle pour obtenir le total des frais d'utilisation. Le prix du modèle varie selon le modèle et peut également varier en fonction des jetons d'entrée ou de sortie pour un modèle donné.
La formule de base est la suivante :
Total tokens used/1000 = Resource Units (RU) consumed
RU consumed x model price = Total usage charge
Le prix de base d'une UR est de0.0001. Le prix de chaque modèle de fondation est un multiple du prix de base.
Calcul du taux unitaire de points de données par modèle
Pour calculer les frais de prévision à l'aide d'un modèle de base à séries temporelles, utilisez les équations suivantes :
- Calcul des entrées :
context length x number of series x number of channels
- Calcul de la production :
prediction length x number of series x number of channels
Ces équations utilisent les paramètres suivants :
- La longueur du contexte fait référence au nombre de points de données historiques qu'un modèle de fondation de séries temporelles utilise comme données d'entrée pour faire des prédictions.
- Une série est un ensemble d'observations effectuées séquentiellement dans le temps. Par exemple, lorsque l'on compare les prix des actions de plusieurs entreprises, l'historique des prix des actions observés pour chaque entreprise constitue une série distincte.
- Les canaux sont les caractéristiques ou variables spécifiques qui sont mesurées dans un ensemble de données de séries temporelles.
- La longueur de la prédiction est le nombre de points de données futurs que le modèle doit prédire.
Type de ressource | Modèle d'échelon de prix | Prix en USD par RU |
---|---|---|
Points de données d'entrée | Classe 14 | $0.00013 |
Points de données de sortie | Classe 15 | $0.00038 |
L'exemple suivant montre comment calculer le coût d'une demande de prévision de série temporelle avec les paramètres suivants :
Paramètre | Exemple de quantité |
---|---|
Longueur du contexte (modèle granite-ttm-1536-96-r2 ) | 1 536 |
Canaux | 10 |
Série | 1 000 |
Durée de la prédiction | 96 |
Total des points de données d'entrée : 15 360 000 (longueur de texte de 1 536, 10 canaux, pour 1 000 séries)
15,360,000 / 1,000 = 15,360 x 0.00013 = 1.9968
Total des points de données de sortie : 960 000 (prévision de 96 points temporels, 10 canaux, pour 1 000 séries)
960,000 / 1,000 = 960 x 0.00038 = 0.3648
Prix total pour la demande de prévisions de séries temporelles : $ 2.36 (coût d'entrée $ 1.9968 + coût de sortie $ 0.3648 )
1.9968 + 0.3648 = 2.3616
Taux de facturation horaire pour les modèles de fondation personnalisés
Le déploiement de modèles de base personnalisés nécessite le plan Standard.
Les taux de facturation sont fonction de la configuration matérielle du modèle et s'appliquent à l'hébergement et à l'inférence du modèle. Les frais commencent lorsque le modèle est déployé avec succès et se poursuivent jusqu'à ce que le modèle soit supprimé.
Taille de la configuration | Taux de facturation par heure en USD |
---|---|
Petite | $5.22 |
Moyen | $10.40 |
Grande | $20.85 |
Pour plus d'informations sur le choix d'une configuration pour un modèle de fondation personnalisé, voir Planification du déploiement d'un modèle de fondation personnalisé.
Taux de facturation horaire pour les modèles de déploiement à la demande
Déployez des modèles de fondation à la demande lorsque vous souhaitez une solution hébergée réservée à l'usage exclusif de votre organisation. Seuls les collègues à qui vous donnez accès au déploiement peuvent déduire le modèle de fondation. Un déploiement dédié signifie des interactions plus rapides et plus réactives, et permet des invites avec des fenêtres contextuelles plus longues. Les taux de facturation sont fixés par modèle et s'appliquent à l'hébergement et à l'inférence du modèle. Les frais commencent lorsque le modèle est déployé et se poursuivent jusqu'à ce que le modèle soit supprimé.
Pour plus de détails sur le déploiement d'un modèle de base à la demande, y compris les tarifs, voir Modèles de base pris en charge dans watsonx.ai.
Tarifs par page pour l'extraction de textes de documents
Utilisez la méthode d'extraction de texte du document de l'API REST watsonx.ai pour convertir les fichiers PDF qui sont très structurés et utilisent des diagrammes et des tableaux pour transmettre des informations, dans un format de fichier JSON adapté aux modèles d'IA.
La facturation se fait sur la base d'un forfait par page traitée. Une page peut être une page de texte (jusqu'à 1800 caractères), une image ou un cadre .tiff. Le taux de facturation dépend de votre type de régime.
Type de plan | Prix par page en USD |
---|---|
Main-d'œuvre | $0.038 |
Standard | $0.030 |
En savoir plus
- Pour plus d'informations sur la tarification des ressources d'apprentissage automatique, voir Tarifs de facturation des ressources d'apprentissage automatique.
- Pour plus de détails sur le suivi de l'allocation et de la consommation des ressources informatiques, voir Utilisation du temps d'exécution.
- Pour plus de détails sur chaque modèle, voir Modèles de fondations pris en charge.
- Pour plus de détails sur l'assistance régionale pour chaque modèle, voir Disponibilité régionale des modèles de fondation.
Sujet parent : plans d'exécution dewatsonx.ai