0 / 0
Retourner à la version anglaise de la documentation
Planifier le déploiement d'un foundation model personnalisé
Dernière mise à jour : 21 nov. 2024
Planifier le déploiement d'un foundation model personnalisé

Examiner les considérations et les exigences relatives au déploiement d'un foundation model personnalisé pour l'inférence avec watsonx.ai

Alors que vous vous préparez à déployer un foundation model personnalisé, passez en revue les éléments de planification suivants :

Exigences et notes d'utilisation pour les modèles de fondation personnalisés

Les modèles personnalisés déployables doivent répondre à ces exigences :

  • Le téléchargement et l'utilisation de votre propre modèle personnalisé ne sont disponibles que dans le plan Standard pour watsonx.ai.

  • Le modèle doit être compatible avec la norme TGI (Text Generation Inference) et être construit avec un type d'architecture de modèle pris en charge.

  • La liste des fichiers du modèle doit contenir un fichier config.json.

  • Le modèle doit être au format safetensors avec la bibliothèque de transformateurs prise en charge et doit inclure un fichier tokenizer.json.

    Important :
    • Vous devez vous assurer que votre foundation model personnalisé est enregistré avec la bibliothèque " transformers prise en charge. Si le fichier model.safetensors de votre foundation model personnalisé utilise un format de données non pris en charge dans l'en-tête des métadonnées, votre déploiement risque d'échouer. Pour plus d'informations, voir Dépannage du moteur d'exécution watsonx.ai
    • Assurez-vous que le projet ou l'espace dans lequel vous souhaitez déployer votre foundation model personnalisé dispose d'une instance de Runtime watsonx.ai associée. Ouvrez l'onglet Gérer dans votre projet ou espace pour le vérifier.

Architectures de modèles prises en charge

Le tableau suivant répertorie les architectures de modèles que vous pouvez déployer en tant que modèles personnalisés pour l'inférence avec watsonx.ai Les architectures de modèles sont répertoriées avec des informations sur les méthodes de quantification prises en charge, les tenseurs parallèles, la taille des configurations de déploiement et les spécifications logicielles.

Remarque :

Two software specifications are available for your deployments: watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1. The watsonx-cfm-caikit-1.1 specification is better in terms of performance, but it's not available with every model architecture.

Architectures de modèles, méthodes de quantification, tenseurs parallèles, tailles de configuration de déploiement et spécifications logicielles prises en charge
Type d'architecture du modèle Méthode de quantification Tenseurs parallèlesmultiGpu Configurations de déploiement Spécifications logicielles
bloom Non disponible Oui Petit, moyen, grand watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
codegen Non disponible Non Petit watsonx-cfm-caikit-1.0
falcon Non disponible Oui Petit, moyen, grand watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
gpt_bigcode gptq Oui Petit, moyen, grand watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
gpt-neox Non disponible Oui Petit, moyen, grand watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
gptj Non disponible Non Petit watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
llama gptq Oui Petit, moyen, grand watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
mixtral gptq Non Petit watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
mistral Non disponible Non Petit watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
mt5 Non disponible Non Petit watsonx-cfm-caikit-1.0
mpt Non disponible Non Petit watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
t5 Non disponible Oui Petit, moyen, grand watsonx-cfm-caikit-1.0
Important :
  • IBM ne prend pas en charge les échecs de déploiement résultant du déploiement de modèles de fondation avec des architectures non prises en charge.
  • Les déploiements de modèles llama 3.1 peuvent échouer. Pour résoudre ce problème, consultez les étapes énumérées dans Dépannage.
  • Il n'est pas possible de déployer des modèles de type codegen, mt5 et t5 avec la spécification logicielle watsonx-cfm-caikit-1.1
  • Si votre modèle ne prend pas en charge les tenseurs parallèles, la seule configuration que vous pouvez utiliser est Small. Si votre modèle a été formé avec plus de paramètres que la configuration Small ne le permet, il échouera. Cela signifie que vous ne pourrez pas déployer certains de vos modèles personnalisés. Pour plus d'informations sur les limitations, voir Les lignes directrices sur l'utilisation des ressources.

Collecte des détails des conditions préalables pour un foundation model personnalisé

  1. Vérifier l'existence du fichier " config.json dans le dossier du contenu du foundation model. Le service de déploiement vérifiera l'existence du fichier " config.json dans le dossier de contenu du foundation model après son téléchargement sur le stockage en nuage.

  2. Ouvrez le fichier " config.json pour confirmer que le foundation model utilise une architecture prise en charge.

  3. Affichez la liste des fichiers du foundation model pour vérifier la présence du fichier " tokenizer.json et que le contenu du modèle est au format " .safetensors.

    Important :

    Vous devez vous assurer que votre foundation model personnalisé est enregistré avec la bibliothèque " transformers prise en charge. Si le fichier model.safetensors de votre foundation model personnalisé utilise un format de données non pris en charge dans l'en-tête des métadonnées, votre déploiement risque d'échouer. Pour plus d'informations, voir Dépannage du moteur d'exécution watsonx.ai

Voir un exemple :

Pour le modèle falcon-40b stocké sur Hugging Face, cliquez sur Files and versions pour afficher la structure du fichier et vérifiez la présence du " config.json:

Vérification du fichier config.json à l'intérieur d'un foundation model hébergé sur Hugging Face

Le modèle d'exemple utilise une version de l'architecture prise en charge falcon.

Vérification de l'existence d'une architecture supportée pour un foundation model

Cet exemple de modèle contient le fichier tokenizer.json et est au format .safetensors :

Liste des fichiers d'un foundation model

Si le modèle ne répond pas à ces exigences, vous ne pouvez pas créer une ressource de modèle et déployer votre modèle.

Lignes directrices sur l'utilisation des ressources

Trois configurations sont disponibles pour soutenir votre foundation model personnalisé : Small, 'Medium et 'Large. Pour déterminer la configuration la plus adaptée à votre foundation model personnalisé, consultez les lignes directrices suivantes :

  • Attribuer la configuration Small à tout modèle de précision à deux octets sous 26B, sous réserve d'essais et de validation.
  • Attribuer la configuration Medium à tout modèle de précision à deux octets entre les paramètres 27B et 53B, sous réserve d'essais et de validation.
  • Attribuer la configuration Large à tout modèle de précision à double octet entre les paramètres 54B et 106B, sous réserve d'essais et de validation.
Astuce :

Si la configuration choisie échoue au cours de la phase de test et de validation, envisagez d'explorer la configuration supérieure disponible. Par exemple, essayez la configuration Medium si la configuration Small échoue. Actuellement, la configuration Large est la configuration la plus élevée disponible.

Configurations matérielles et exemples de modèles
Configuration Exemples de modèles appropriés
Petit llama-3-8b
llama-2-13b
starcoder-15.5b
mt0-xxl-13b
jais-13b
gpt-neox-20b
flan-t5-xxl-11b
flan-ul2-20b
allam-1-13b
Moyen codellama-34b
Grand llama-3-70b
llama-2-70b

Limitations et restrictions pour les modèles de fondation personnalisés

Notez ces limites sur la façon dont vous pouvez déployer et utiliser les modèles de fondation personnalisés avec watsonx.ai.

Limites du déploiement de modèles de fondation personnalisés

En raison de la forte demande de déploiements de foundation model personnalisés et des ressources limitées pour l'accueillir, watsonx.ai a une limite de déploiement de quatre petits modèles, deux modèles moyens ou un grand modèle par compte IBM Cloud Si vous tentez d'importer un foundation model personnalisé au-delà de ces limites, vous en serez informé et il vous sera demandé de faire part de vos commentaires dans le cadre d'une enquête. Cela nous aidera à comprendre vos besoins et à planifier les futures mises à niveau de la capacité.

Important: Les augmentations de limites demandées ne sont pas garanties et dépendent de la capacité disponible.

Restrictions relatives à l'utilisation des déploiements de foundation model personnalisés

Notez les restrictions suivantes concernant l'utilisation des modèles de fondation personnalisés après leur déploiement avec watsonx.ai:

  • Il n'est pas possible de régler un foundation model personnalisé.
  • Vous ne pouvez pas utiliser watsonx.governance pour évaluer ou suivre un modèle d'invite pour un foundation model personnalisé.
  • Vous pouvez inviter un modèle de foundation model personnalisé, mais vous ne pouvez pas enregistrer un modèle d'invite pour un modèle personnalisé.

Aidez-nous à améliorer cette expérience

Si vous souhaitez faire part de votre avis maintenant, cliquez sur ce lien. Vos commentaires sont essentiels pour nous aider à planifier les futures mises à niveau de la capacité et à améliorer l'expérience globale de déploiement du foundation model personnalisé. Merci de votre collaboration !

Etapes suivantes

Téléchargement d'un foundation model personnalisé et configuration du stockage

Sujet parent : Déployer un foundation model personnalisé

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus