0 / 0
Retourner à la version anglaise de la documentation
plans de services d'exécution de watsonx.ai
Dernière mise à jour : 04 déc. 2024
plans de services d'exécution de watsonx.ai

Vous utilisez les ressources d'exécution watsonx.ai, qui sont mesurées en unités d'heures de capacité (CUH), lorsque vous entraînez des modèles AutoAI, exécutez des modèles d'apprentissage automatique ou évaluez des modèles déployés. Vous utilisez les ressources d'exécution de watsonx.ai, mesurées par les jetons consommés ou à un taux horaire, lorsque vous exécutez des services d'inférence avec des modèles de fondation. Cette rubrique décrit les différents plans que vous pouvez choisir, les services inclus et la façon dont les ressources de calcul sont calculées.

Note : Le service watsonx.ai Runtime était auparavant connu sous le nom de service Watson Machine Learning

watsonx.ai Runtime in Cloud Pak for Data as a Service et watsonx

Important :

Le plan d'exécution de watsonx.ai comprend les détails de watsonx.ai Watsonx.ai est un studio d'outils intégrés pour travailler avec l'IA générative, basée sur des modèles de base et des modèles d'apprentissage automatique. Si vous utilisez Cloud Pak for Data as a Service, les détails relatifs à l'utilisation des modèles de base et à l'inférence des invites de décompte à l'aide des unités de ressources ne s'appliquent pas à votre plan.

Pour plus d'informations sur watsonx.ai, voir:

Si vous êtes activé pour watsonx et Cloud Pak for Data as a Service, vous pouvez basculer entre les deux plateformes.

Choisir un plan d'exécution watsonx.ai

les plans de watsonx.ai Runtime régissent la façon dont vous êtes facturé pour les modèles que vous formez et déployez avec watsonx.ai Runtime et pour les invites que vous utilisez avec les modèles de base. Choisissez un plan en fonction de vos besoins :

  • Lite est un forfait gratuit avec une capacité limitée. Choisissez ce plan si vous évaluez watsonx.ai Runtime et souhaitez tester ses capacités. Le plan Lite ne permet pas d'exécuter une expérience de réglage du foundation model sur watsonx.
  • Essentials est un plan de paiement à l'utilisation qui vous offre la flexibilité nécessaire pour créer, déployer et gérer des modèles adaptés à vos besoins.
  • Standard est un plan d'entreprise à haute capacité conçu pour prendre en charge tous les besoins d'apprentissage automatique d'une organisation. Les heures d'unité de capacité sont fournies à un taux fixe, tandis que la consommation d'unité de ressource est payée au fur et à mesure.

Pour les détails du plan et la tarification, voir '.

Comment la consommation de ressources est-elle suivie ?

À des fins de comptage et de facturation, les modèles d'apprentissage automatique et les déploiements ou les modèles de base sont mesurés à l'aide de ces paramètres de tarification :

  • Les mesures de capacité par unité d'heure (CUH) permettent de calculer la consommation de ressources par unité d'heure à des fins d'utilisation et de facturation. CUH mesure toutes les activités d'exécution de watsonx.ai à l'exception de l'inférence du modèle de fondation.

  • L'unité de ressource (UR) mesure la consommation d'inférence du foundation model. L'inférence est le processus qui consiste à appeler le foundation model pour générer des résultats en réponse à une demande. Chaque unité de requête est égale à 1000 jetons. Un jeton est une unité de texte de base (généralement 4 caractères ou 0.75 mot) utilisée dans l'entrée ou la sortie d'une invite de foundation model. Pour plus de détails sur les jetons, voir Tokens and tokenization.

  • Le taux horaire est utilisé pour calculer les frais pour les modèles de fondation personnalisés que vous importez dans watsonx.ai et déployez. Le tarif est basé sur la taille de la configuration et est facturé pour la durée du déploiement du modèle.

  • Le taux de page est utilisé pour calculer les frais d'extraction du texte du document. Le taux de pages est fixé par le plan.

Qu'est-ce qui est mesuré pour la consommation des ressources ?

Les ressources, qu'elles soient mesurées avec des heures d'unité de capacité (CUH) ou des unités de ressources (RU), sont consommées pour les actifs en cours d'exécution, et non pour les outils. Autrement dit, il n'y a pas de frais de consommation pour définir une expérience dansAutoAI, mais il y a des frais pour exécuter l'expérience afin de former les pipelines d'expérience. De même, il n'y a pas de frais pour la création d'un espace de déploiement ou la définition d'un travail de déploiement, mais il y a des frais pour l'exécution d'un travail de déploiement ou l'inférence sur un actif déployé. Les ressources qui s'exécutent en continu, telles que les carnets Jupyter, les ressources RStudio, les scripts Bash et les déploiements de modèles personnalisés, consomment des ressources tant qu'elles sont actives.

Remarque: Vous ne consommez pas de jetons lorsque vous utilisez l'application de recherche et de réponse d'IA générative pour ce site de documentation.

watsonx.ai Détails du plan d'exécution

Le plan Lite fournit suffisamment de ressources gratuites pour vous permettre d'évaluer les fonctionnalités de watsonx.ai. Vous pouvez ensuite choisir un plan payant qui correspond aux besoins de votre organisation, en fonction des fonctions et de la capacité du plan.

Tableau 1. Détails du plan
Fonctions du plan Allégée manager Norme
watsonx.ai Utilisation du temps d'exécution dans CUH 20 CUH par mois Facturation CUH basée sur le taux CUH multiplié par le nombre d'heures de consommation 2500 CUH par mois
Inférence de modèle de base dans les jetons ou les unités de ressource (RU) 50 000 jetons par mois Facturé pour l'utilisation (1000 jetons = 1 unité de requête) Facturé pour l'utilisation (1000 jetons = 1 unité de requête)
Nombre maximal de travaux par lots Decision Optimization parallèles par déploiement 2 5 100
Travaux de déploiement conservés par espace 100 1 000 3000
Délai de déploiement jusqu'à l'inactivité 1 journée 3 jours 3 jours
Prise en charge de la loi HIPAA (Health Insurance Portability and Accountability Act) ND ND Région de Dallas uniquement
Doit être activé dans votre compte IBM Cloud
Limite de débit par ID de plan 2 demandes d'inférence par seconde 8 demandes d'inférence par seconde 8 demandes d'inférence par seconde
Prise en charge des modèles de fondation personnalisés Non disponible Non disponible Facturation horaire par configuration
Extraction de textes de documents Non disponible Facturation à la page Facturation à la page

Remarque: Si vous effectuez une mise à niveau d'Essentials vers Standard, vous ne pouvez pas revenir à un plan Essentials. Vous devez créer un nouveau plan.

détails de la tarification de watsonx.ai Runtime

Pour plus d'informations sur les taux de facturation et le calcul de la consommation de ressources, voir :

En savoir plus

Sujet parent : watsonx.ai Runtime

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus