Plans et utilisation du calcul Watson Machine Learning
Vous utilisez des ressources Watson Machine Learning , qui sont mesurées en heures d'unité de capacité (CUH), lorsque vous entraînez des modèles AutoAI , exécutez des modèles d'apprentissage automatique ou évaluez des modèles déployés. Vous utilisez des ressources Watson Machine Learning , mesurées en unités de ressources (RU), lorsque vous exécutez des services d'inférence avec des modèles de base. Cette rubrique décrit les différents plans que vous pouvez choisir, les services inclus et la façon dont les ressources de calcul sont calculées.
Watson Machine Learning dans Cloud Pak for Data as a Service et watsonx
Le plan Watson Machine Learning inclut des détails pour watsonx.ai. Watsonx.ai est un studio d'outils intégrés pour travailler avec l'IA générative, basée sur des modèles de base et des modèles d'apprentissage automatique. Si vous utilisez Cloud Pak for Data as a Service, les détails relatifs à l'utilisation des modèles de base et à l'inférence des invites de décompte à l'aide des unités de ressources ne s'appliquent pas à votre plan.
Pour plus d'informations sur watsonx.ai, voir:
- Présentation d' IBM watsonx.ai
- Comparaison de IBM watsonx et Cloud Pak for Data as a Service
- Inscription à IBM watsonx.ai
Si vous êtes activé pour watsonx et Cloud Pak for Data as a Service, vous pouvez basculer entre les deux plateformes.
Choix d'un plan Watson Machine Learning
Affichez une comparaison des plans et examinez les détails pour choisir un plan qui répond à vos besoins.
- les plans Watson Machine Learning ;
- Heures d'unité de capacité (CUH), jetons et unités de ressource (RU)
- Détails du planWatson Machine Learning
- Décompte des heures d'unité de capacité
- Surveillance de l'utilisation des CUH et des unités de réponse
Plans Watson Machine Learning
Les plans Watson Machine Learning régissent la façon dont vous êtes facturé pour les modèles que vous entraînez et déployez avec Watson Machine Learning et pour les invites que vous utilisez avec les modèles de base. Choisissez un plan en fonction de vos besoins :
- Lite est un forfait gratuit avec une capacité limitée. Choisissez ce plan si vous évaluez Watson Machine Learning et souhaitez tester ses fonctions. Le plan Lite ne prend pas en charge l'exécution d'une expérimentation d'optimisation de modèle de base sur watsonx.
- Essentials est un plan de paiement à l'utilisation qui vous offre la flexibilité nécessaire pour créer, déployer et gérer des modèles adaptés à vos besoins.
- Standard est un plan d'entreprise à haute capacité conçu pour prendre en charge tous les besoins d'apprentissage automatique d'une organisation. Les heures d'unité de capacité sont fournies à un taux fixe, tandis que la consommation d'unité de ressource est payée au fur et à mesure.
Pour plus d'informations sur la planification et la tarification, voir la machine d'apprentissage IBM Cloud.
Heures d'unité de capacité (CUH), jetons et unités de ressource (RU)
A des fins de décompte et de facturation, les modèles d'apprentissage automatique et les déploiements ou les modèles de base sont mesurés à l'aide des unités suivantes:
Les heures d'unité de capacité (CUH) mesurent la consommation de ressources de calcul par heure d'unité à des fins d'utilisation et de facturation. CUH mesure toutes les activités de Watson Machine Learning à l'exception de l'inférence de modèle de base.
Unités de ressource (RU): mesure de la consommation d'inférence du modèle de base. L'inférence est le processus d'appel du modèle de base pour générer une sortie en réponse à une invite. Chaque unité de requête est égale à 1000 jetons. Un jeton est une unité de texte de base (généralement 4 caractères ou 0.75 mots) utilisée dans l'entrée ou la sortie d'une invite de modèle de base. Choisissez un plan qui correspond à vos exigences d'utilisation. Pour plus de détails sur les jetons, voir Tokens and tokenization.
Une limite de débit surveille et limite le nombre de demandes d'inférence par seconde traitées pour les modèles de base pour une instance de plan Watson Machine Learning donnée. La limite de débit est plus élevée pour les plans payants que pour le plan Lite gratuit.
Qu'est-ce qui est mesuré pour la consommation de CUH ou d'RU?
Les ressources, qu'elles soient mesurées avec des heures d'unité de capacité (CUH) ou des unités de ressources (RU), sont consommées pour les actifs en cours d'exécution, et non pour les outils. Autrement dit, il n'y a pas de frais de consommation pour définir une expérience dansAutoAI, mais il y a des frais pour exécuter l'expérience afin de former les pipelines d'expérience. De même, il n'y a pas de frais pour la création d'un espace de déploiement ou la définition d'un travail de déploiement, mais il y a des frais pour l'exécution d'un travail de déploiement ou l'inférence sur un actif déployé. Les actifs qui s'exécutent en continu, tels que les blocs-notes Jupyter, les actifs RStudio et les scripts Bash, consomment des ressources aussi longtemps qu'ils sont actifs.
Détails du plan Watson Machine Learning
Le plan Lite fournit suffisamment de ressources gratuites pour vous permettre d'évaluer les fonctionnalités de watsonx.ai. Vous pouvez ensuite choisir un plan payant qui correspond aux besoins de votre organisation, en fonction des fonctions et de la capacité du plan.
Fonctions du plan | Allégée | manager | Norme |
---|---|---|---|
Utilisation de Machine Learning dans CUH | 20 CUH par mois | Facturation CUH basée sur le taux CUH multiplié par le nombre d'heures de consommation | 2500 CUH par mois |
Inférence de modèle de base dans les jetons ou les unités de ressource (RU) | 50 000 jetons par mois | Facturé pour l'utilisation (1000 jetons = 1 unité de requête) | Facturé pour l'utilisation (1000 jetons = 1 unité de requête) |
Nombre maximal de travaux par lots Decision Optimization parallèles par déploiement | 2 | 5 | 100 |
Travaux de déploiement conservés par espace | 100 | 1 000 | 3000 |
Délai de déploiement jusqu'à l'inactivité | 1 journée | 3 jours | 3 jours |
Prise en charge de la loi HIPAA (Health Insurance Portability and Accountability Act) | ND | ND | Région de Dallas uniquement Doit être activé dans votre compte IBM Cloud |
Limite de débit par ID de plan | 2 demandes d'inférence par seconde | 8 demandes d'inférence par seconde | 8 demandes d'inférence par seconde |
Prise en charge des modèles de fondation personnalisés | Non disponible | Non disponible | Facturé par configuration |
Pour tous les plans:
- Les unités de ressource d'inférence de modèle de base (RU) peuvent être utilisées pour l'inférence de laboratoire d'invite, y compris les entrées et les sorties. En d'autres termes, l'invite que vous entrez pour l'entrée est comptabilisée en plus de la sortie générée. (watsonx uniquement)
- L'inférence de modèle de base est disponible dans les centres de données de Dallas, Francfort, Londres et Tokyo. (watsonx uniquement)
- L'optimisation du modèle Foundation dans Tuning Studio est disponible dans les centres de données de Dallas, Francfort, Londres et Tokyo. (watsonx uniquement)
- Les classes de modèle déterminent le taux d'unités de réponse. Le prix par unité de requête varie en fonction de la classe de modèle. (watsonx uniquement)
- La consommation de taux de l'unité de capacité (CUH) pour la formation est basée sur l'outil de formation, la spécification matérielle et l'environnement d'exécution.
- La consommation de taux CUH (capacity-unit-hour) pour le déploiement est basée sur le type de déploiement, la spécification matérielle et la spécification logicielle.
- Watson Machine Learning place les limites sur le nombre de travaux de déploiement conservés pour chaque espace de déploiement. Si vous dépassez votre limite, vous ne pouvez pas créer de nouveaux travaux de déploiement tant que vous n'avez pas supprimé des travaux existants ou mis à niveau votre plan. Par défaut, les métadonnées de travaux seront automatiquement supprimées au bout de 30 jours. Vous pouvez remplacer cette valeur lors de la création d'un travail. Voir Gestion des travaux.
- Le délai d'inactivité correspond à la durée pendant laquelle un déploiement est considéré comme actif entre les demandes d'évaluation. Si un déploiement ne reçoit pas de demandes d'évaluation pendant une certaine durée, il est traité comme inactif, ou en veille, et la faccturation cesse pour toutes les infrastructures autres que SPSS.
- Un plan prévoit au moins la limite de débit indiquée, et la limite de débit réelle peut être supérieure à la limite indiquée. Par exemple, le plan Lite peut traiter plus de 2 demandes par seconde sans générer d'erreur. Si vous disposez d'un plan payant et que vous pensez atteindre la limite de débit par erreur, contactez le support IBM pour obtenir de l'aide.
Pour plus d'informations sur la planification et la tarification, voir la machine d'apprentissage IBM Cloud.
Mesure de l'unité de ressource (watsonx)
La facturation des unités de ressource est basée sur le taux de la classe de facturation pour le modèle de base multiplié par le nombre d'unités de ressource (RU). Une unité de ressources est égale à 1000 jetons provenant de l'entrée et de la sortie de l'inférence du modèle de base. Les trois classes de facturation du modèle de base ont des taux d'unités de réponse différents. Les modèles d'imbrication qui vectorisent les chaînes de texte sont facturés à un taux différent.
Taux de facturation des unités de ressources par classe de modèle
Classe de facturation du modèle | Prix de l'UR en USD |
---|---|
Classe 1 | $0.0006 |
Classe 2 | $0.0018 |
Classe 3 | $0.0050 |
Classe C1 | $0.0001 |
Classe 5 | $0.00025 |
Classe 7 | $0.016 |
Mistral Grand | $0.01 |
Taux de facturation des unités de ressources pour les modèles de base
Pour les modèles suivants, le taux de facturation est le même pour les jetons d'entrée et de sortie.
Modèle | Origine | Classe de facturation | Prix de l'UR en USD |
---|---|---|---|
granite-13b-instruct-v2 | IBM | Classe 1 | 0.0006 $ par unité de requête |
granite-13b-chat-v2 | IBM | Classe 1 | 0.0006 $ par unité de requête |
granite-7b-lab | IBM | Classe 1 | 0.0006 $ par unité de requête |
granite-8b-japanese | IBM | Classe 1 | 0.0006 $ par unité de requête |
granite-20b-multilingual | IBM | Classe 1 | 0.0006 $ par unité de requête |
granite-3b-code-instruct | IBM | Classe 1 | 0.0006 $ par unité de requête |
granite-8b-code-instruct | IBM | Classe 1 | 0.0006 $ par unité de requête |
granite-20b-code-instruct | IBM | Classe 1 | 0.0006 $ par unité de requête |
granite-34b-code-instruct | IBM | Classe 1 | 0.0006 $ par unité de requête |
allam-1-13b-instruct | Tiers | Classe 2 | 0.0018 $ par unité de requête |
codellama-34b-instruct-hf | Tiers | Classe 2 | 0.0018 $ par unité de requête |
elyza-japanese-llama-2-7b-instruct | Tiers | Classe 2 | 0.0018 $ par unité de requête |
flan-t5-xl-3b | Logiciel disponible en code source | Classe 1 | 0.0006 $ par unité de requête |
flan-t5-xxl-11b | Logiciel disponible en code source | Classe 2 | 0.0018 $ par unité de requête |
flan-ul2-20b | Logiciel disponible en code source | Classe 3 | 0.0050 $ par unité de requête |
jais-13b-chat | Logiciel disponible en code source | Classe 2 | 0.0018 $ par unité de requête |
llama-3-1-8b-instruct | Tiers | Classe 1 | 0.0006 $ par unité de requête |
llama-3-1-70b-instruct | Tiers | Classe 2 | 0.0018 $ par unité de requête |
llama-3-8b-instruct | Tiers | Classe 1 | 0.0006 $ par unité de requête |
llama-3-70b-instruct | Tiers | Classe 2 | 0.0018 $ par unité de requête |
llama-2-13b-chat | Tiers | Classe 1 | 0.0006 $ par unité de requête |
llama-2-70b-chat | Tiers | Classe 2 | 0.0018 $ par unité de requête |
llama2-13b-dpo-v7 | Tiers | Classe 2 | 0.0018 $ par unité de requête |
mistral-grand | Tiers | Mistral Grand | $0.01 par EF |
mixtral-8x7b-instruct-v01 | Logiciel disponible en code source | Classe 1 | 0.0006 $ par unité de requête |
mt0-xxl-13b | Logiciel disponible en code source | Classe 2 | 0.0018 $ par unité de requête |
Pour les modèles suivants, le taux de facturation est différent pour les jetons d'entrée et de sortie. Les prix sont indiqués en USD.
Modèle | Origine | Jetons d'entrée | Jetons de sortie |
---|---|---|---|
llama-3-405b-instruct | Meta | Classe 3 : $0.0050 par EF | Classe 7 : $0.016 par UR |
Taux de facturation des unités de ressources pour l'intégration de modèles
L'intégration de modèles transforme des phrases en vecteurs pour comparer et extraire du texte similaire avec plus de précision.
Modèle | Origine | Classe de facturation | Prix de l'UR en USD |
---|---|---|---|
slate.125m.english.rtrvr-v2 | IBM | Classe C1 | 0.0001 $ par unité de requête |
slate.125m.english.rtrvr | IBM | Classe C1 | 0.0001 $ par unité de requête |
slate.30m.english.rtrvr-v2 | IBM | Classe C1 | 0.0001 $ par unité de requête |
slate.30m.english.rtrvr | IBM | Classe C1 | 0.0001 $ par unité de requête |
all-MiniLM-L12-v2 | Logiciel disponible en code source | Classe C1 | 0.0001 $ par unité de requête |
multilingual-e5-large | Logiciel disponible en code source | Classe C1 | 0.0001 $ par unité de requête |
Taux de facturation horaire pour les modèles de fondation personnalisés
Le déploiement de modèles de fondation personnalisés nécessite le plan Standard. Les taux de facturation sont fonction de la configuration matérielle du modèle et s'appliquent à l'hébergement et à l'inférence du modèle. Les frais commencent lorsque le modèle est déployé avec succès et se poursuivent jusqu'à ce que le modèle soit supprimé.
Taille de la configuration | Taux de facturation par heure en USD |
---|---|
Petit | $5.22 |
Moyen | $10.40 |
Grand | $20.85 |
Pour plus d'informations sur le choix d'une configuration pour un modèle de base personnalisé, voir Planification du déploiement d'un modèle de base personnalisé.
Taux de facturation pour l'extraction de textes de documents
Utilisez la méthode d'extraction de texte du document de l'API REST watsonx.ai pour convertir les fichiers PDF qui sont très structurés et utilisent des diagrammes et des tableaux pour transmettre des informations, en un format de fichier JSON adapté aux modèles d'IA. Pour plus d'informations, voir Extraire du texte de documents.
La facturation est basée sur le nombre de pages traitées ainsi que sur le type de plan.
Type de plan | Prix par page en USD |
---|---|
Main-d'œuvre | $0.038 |
Norme | $0.030 |
Remarques sur les modèles d'IA générative
- Un modèle de base ajusté à l'invite est affecté à la même classe de facturation que le modèle de base sous-jacent. Par exemple, si vous demandez l'optimisation d'un modèle de base de classe 1, le coût d'inférence du modèle ajusté est mesuré au taux de facturation de classe 1. Pour plus d'informations sur les modèles de base optimisés, voir Tuning Studio.
- Pour plus d'informations sur chaque modèle, voir Modèles de base pris en charge.
- Pour plus d'informations sur la prise en charge régionale de chaque modèle, voir Disponibilité régionale pour les modèles de base.
Décompte des heures d'unité de capacité (watsonx et Watson Machine Learning)
La consommation de CUH est affectée par les ressources matérielles de calcul que vous appliquez pour une tâche, ainsi que par d'autres facteurs tels que la spécification logicielle et le type de modèle.
Taux de consommation des CUH par type d'actif
Type d'actif | Type de capacité | Unités de capacité par heure |
---|---|---|
expérimentation AutoAI | 8 vCPU et 32 Go de mémoire RAM | 20 |
Formation Decision Optimization | 2 vCPU et 8 Go de RAM 4 vCPU et 16 Go de RAM 8 vCPU et 32 Go de RAM 16 vCPU et 64 Go de RAM |
6 7 9 13 |
Déploiements de Decision Optimization | 2 vCPU et 8 Go de RAM 4 vCPU et 16 Go de RAM 8 vCPU et 32 Go de RAM 16 vCPU et 64 Go de RAM |
30 40 50 60 |
Machine Learning d'apprentissage automatique (apprentissage, évaluation ou évaluation) |
1 vCPU et 4 Go de RAM 2 vCPU et 8 Go de RAM 4 vCPU et 16 Go de RAM 8 vCPU et 32 Go de RAM 16 vCPU et 64 Go de RAM |
0.5 1 2 4 8 |
Expérimentation d'optimisation de modèle de base (watsonx uniquement) |
NVIDIA A100 80GB GPU | 43 |
Consommation de CUH par type de déploiement et d'infrastructure
La consommation de CUH est calculée avec les formules suivantes :
Type de déploiement | Infrastructure | Calcul des CUH |
---|---|---|
En ligne | AutoAI, fonction IA, SPSS, bibliothèques personnalisées Scikit-Learn, Tensorflow, RShiny | deployment_active_duration_in_hours * no_of_nodes * CUH_rate_for_capacity_type_framework |
En ligne | Spark, PMML, Scikit-Learn, Pytorch, XGBoost | score_duration_in_hours * no_of_nodes * CUH_rate_for_capacity_type_framework |
Lot | toutes les infrastructures | job_duration_in_hours * no_of_nodes * CUH_rate_for_capacity_type_framework |
Par exemple, imaginez un travail de déploiement par lots Decision Optimization qui s'exécute pendant 15 minutes. La consommation des ressources est calculée comme suit: 15 minutes = 0.25 heures, sur 2 noeuds, avec 2 vCPU et 8 Go de mémoire RAM. Cette combinaison génère un taux de CUH de 30, de sorte que chaque fois que le travail s'exécute, il consomme 0.25 * 2 * 30, ce qui équivaut à 15 CUH.
Surveillance de l'utilisation des ressources
Vous pouvez suivre l'utilisation des ressources pour les actifs que vous possédez ou sur lesquels vous collaborez dans un projet ou un espace. Si vous êtes propriétaire ou administrateur d'un compte, vous pouvez suivre l'utilisation des CUH, des RU ou les frais de facturation horaires pour l'ensemble d'un compte.
Suivi de l'utilisation des ressources dans un projet
Pour surveiller la consommation CUH ou RU ou l'utilisation horaire dans un projet :
Accédez à l'onglet Gérer d'un projet.
Cliquez sur Ressources pour consulter un récapitulatif de la consommation des ressources pour les actifs du projet ou de l'espace, ou pour consulter les détails de la consommation des ressources pour des actifs particuliers.
Suivi de l'utilisation des ressources pour un compte
Vous pouvez suivre l'utilisation de l'environnement d'exécution pour un compte sur la page Environnements d'exécution si vous êtes le propriétaire ou l'administrateur du compte IBM Cloud ou le propriétaire du service Watson Machine Learning. Pour plus de détails, voir Ressources de surveillance.
Suivi de la consommation CUH pour l'apprentissage automatique dans un bloc-notes
Pour calculer les heures d'unité de capacité dans un bloc-notes, utilisez:
CP = client.service_instance.get_details()
CUH = CUH["entity"]["usage"]["capacity_units"]["current"]/(3600*1000)
print(CUH)
Par exemple :
'capacity_units': {'current': 19773430}
19773430/(3600*1000)
renvoie 5,49 CUH
Pour plus d'informations, voir la section Instances de service de la documentation API IBM Watson Machine Learning.
En savoir plus
- Options de calcul pour les expérimentations AutoAI
- Options de calcul pour l'entraînement et l'évaluation de modèle
Rubrique parent : Watson Machine Learning