Examiner les considérations et les exigences relatives au déploiement d'un foundation model personnalisé pour l'inférence avec watsonx.ai
Alors que vous vous préparez à déployer un foundation model personnalisé, passez en revue les éléments de planification suivants :
- Examinez les Exigences et notes d'utilisation pour les modèles de fondation personnalisés
- Consultez les Architectures prises en charge pour les modèles de fondations personnalisées pour vous assurer que votre modèle est compatible.
- Recueillir les informations requises comme conditions préalables au déploiement d'un foundation model personnalisé.
- Sélectionnez une spécification matérielle pour votre foundation model personnalisé.
- Revoir le limites du déploiement
- Activer les identifiants de tâches pour pouvoir déployer des modèles de fondation personnalisés.
Exigences et notes d'utilisation pour les modèles de fondation personnalisés
Les modèles personnalisés déployables doivent répondre à ces exigences :
Le téléchargement et l'utilisation de votre propre modèle personnalisé ne sont disponibles que dans le plan Standard pour watsonx.ai.
Le modèle doit être compatible avec la norme TGI (Text Generation Inference) et être construit avec un type d'architecture de modèle pris en charge.
La liste des fichiers du modèle doit contenir un fichier
config.json
.Le modèle doit être au format
safetensors
avec la bibliothèque de transformateurs prise en charge et doit inclure un fichiertokenizer.json
.Important :- Vous devez vous assurer que votre foundation model personnalisé est enregistré avec la bibliothèque "
transformers
prise en charge. Si le fichier model.safetensors de votre foundation model personnalisé utilise un format de données non pris en charge dans l'en-tête des métadonnées, votre déploiement risque d'échouer. Pour plus d'informations, voir Dépannage du moteur d'exécution watsonx.ai - Assurez-vous que le projet ou l'espace dans lequel vous souhaitez déployer votre foundation model personnalisé dispose d'une instance de Runtime watsonx.ai associée. Ouvrez l'onglet Gérer dans votre projet ou espace pour le vérifier.
- Vous devez vous assurer que votre foundation model personnalisé est enregistré avec la bibliothèque "
Architectures de modèles prises en charge
Le tableau suivant répertorie les architectures de modèles que vous pouvez déployer en tant que modèles personnalisés pour l'inférence avec watsonx.ai Les architectures de modèles sont répertoriées avec des informations sur les méthodes de quantification prises en charge, les tenseurs parallèles, la taille des configurations de déploiement et les spécifications logicielles.
Two software specifications are available for your deployments: watsonx-cfm-caikit-1.0
, watsonx-cfm-caikit-1.1
. The watsonx-cfm-caikit-1.1
specification is better in terms of performance, but it's not available with every model architecture.
Type d'architecture du modèle | Méthode de quantification | Tenseurs parallèlesmultiGpu | Configurations de déploiement | Spécifications logicielles |
---|---|---|---|---|
bloom |
Non disponible | Oui | Petit, moyen, grand | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
codegen |
Non disponible | Non | Petit | watsonx-cfm-caikit-1.0 |
falcon |
Non disponible | Oui | Petit, moyen, grand | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
gpt_bigcode |
gptq |
Oui | Petit, moyen, grand | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
gpt-neox |
Non disponible | Oui | Petit, moyen, grand | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
gptj |
Non disponible | Non | Petit | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
llama |
gptq |
Oui | Petit, moyen, grand | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
mixtral |
gptq |
Non | Petit | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
mistral |
Non disponible | Non | Petit | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
mt5 |
Non disponible | Non | Petit | watsonx-cfm-caikit-1.0 |
mpt |
Non disponible | Non | Petit | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
t5 |
Non disponible | Oui | Petit, moyen, grand | watsonx-cfm-caikit-1.0 |
- IBM ne prend pas en charge les échecs de déploiement résultant du déploiement de modèles de fondation avec des architectures non prises en charge.
- Les déploiements de modèles
llama 3.1
peuvent échouer. Pour résoudre ce problème, consultez les étapes énumérées dans Dépannage. - Il n'est pas possible de déployer des modèles de type
codegen
,mt5
ett5
avec la spécification logiciellewatsonx-cfm-caikit-1.1
- Si votre modèle ne prend pas en charge les tenseurs parallèles, la seule configuration que vous pouvez utiliser est
Small
. Si votre modèle a été formé avec plus de paramètres que la configurationSmall
ne le permet, il échouera. Cela signifie que vous ne pourrez pas déployer certains de vos modèles personnalisés. Pour plus d'informations sur les limitations, voir Les lignes directrices sur l'utilisation des ressources.
Collecte des détails des conditions préalables pour un foundation model personnalisé
Vérifier l'existence du fichier "
config.json
dans le dossier du contenu du foundation model. Le service de déploiement vérifiera l'existence du fichier "config.json
dans le dossier de contenu du foundation model après son téléchargement sur le stockage en nuage.Ouvrez le fichier "
config.json
pour confirmer que le foundation model utilise une architecture prise en charge.Affichez la liste des fichiers du foundation model pour vérifier la présence du fichier "
tokenizer.json
et que le contenu du modèle est au format ".safetensors
.Important :Vous devez vous assurer que votre foundation model personnalisé est enregistré avec la bibliothèque "
transformers
prise en charge. Si le fichier model.safetensors de votre foundation model personnalisé utilise un format de données non pris en charge dans l'en-tête des métadonnées, votre déploiement risque d'échouer. Pour plus d'informations, voir Dépannage du moteur d'exécution watsonx.ai
Voir un exemple :
Pour le modèle falcon-40b stocké sur Hugging Face, cliquez sur Files and versions pour afficher la structure du fichier et vérifiez la présence du " config.json
:
Le modèle d'exemple utilise une version de l'architecture prise en charge falcon
.
Cet exemple de modèle contient le fichier tokenizer.json
et est au format .safetensors
:
Si le modèle ne répond pas à ces exigences, vous ne pouvez pas créer une ressource de modèle et déployer votre modèle.
Lignes directrices sur l'utilisation des ressources
Trois configurations sont disponibles pour soutenir votre foundation model personnalisé : Small
, 'Medium
et 'Large
. Pour déterminer la configuration la plus adaptée à votre foundation model personnalisé, consultez les lignes directrices suivantes :
- Attribuer la configuration
Small
à tout modèle de précision à deux octets sous 26B, sous réserve d'essais et de validation. - Attribuer la configuration
Medium
à tout modèle de précision à deux octets entre les paramètres 27B et 53B, sous réserve d'essais et de validation. - Attribuer la configuration
Large
à tout modèle de précision à double octet entre les paramètres 54B et 106B, sous réserve d'essais et de validation.
Si la configuration choisie échoue au cours de la phase de test et de validation, envisagez d'explorer la configuration supérieure disponible. Par exemple, essayez la configuration Medium
si la configuration Small
échoue. Actuellement, la configuration Large
est la configuration la plus élevée disponible.
Configuration | Exemples de modèles appropriés |
---|---|
Petit | llama-3-8b llama-2-13b starcoder-15.5b mt0-xxl-13b jais-13b gpt-neox-20b flan-t5-xxl-11b flan-ul2-20b allam-1-13b |
Moyen | codellama-34b |
Grand | llama-3-70b llama-2-70b |
Limitations et restrictions pour les modèles de fondation personnalisés
Notez ces limites sur la façon dont vous pouvez déployer et utiliser les modèles de fondation personnalisés avec watsonx.ai.
Limites du déploiement de modèles de fondation personnalisés
En raison de la forte demande de déploiements de foundation model personnalisés et des ressources limitées pour l'accueillir, watsonx.ai a une limite de déploiement de quatre petits modèles, deux modèles moyens ou un grand modèle par compte IBM Cloud Si vous tentez d'importer un foundation model personnalisé au-delà de ces limites, vous en serez informé et il vous sera demandé de faire part de vos commentaires dans le cadre d'une enquête. Cela nous aidera à comprendre vos besoins et à planifier les futures mises à niveau de la capacité.
Restrictions relatives à l'utilisation des déploiements de foundation model personnalisés
Notez les restrictions suivantes concernant l'utilisation des modèles de fondation personnalisés après leur déploiement avec watsonx.ai:
- Il n'est pas possible de régler un foundation model personnalisé.
- Vous ne pouvez pas utiliser watsonx.governance pour évaluer ou suivre un modèle d'invite pour un foundation model personnalisé.
- Vous pouvez inviter un modèle de foundation model personnalisé, mais vous ne pouvez pas enregistrer un modèle d'invite pour un modèle personnalisé.
Aidez-nous à améliorer cette expérience
Si vous souhaitez faire part de votre avis maintenant, cliquez sur ce lien. Vos commentaires sont essentiels pour nous aider à planifier les futures mises à niveau de la capacité et à améliorer l'expérience globale de déploiement du foundation model personnalisé. Merci de votre collaboration !
Etapes suivantes
Téléchargement d'un foundation model personnalisé et configuration du stockage
Sujet parent : Déployer un foundation model personnalisé