Planifier le déploiement d'un modèle de fondation personnalisé

Dernière mise à jour : 02 avr. 2025

Examinez les considérations et les exigences relatives au déploiement d'un modèle de base personnalisé pour l'inférence avec watsonx.ai.

Alors que vous vous préparez à déployer un modèle de fondation personnalisé, passez en revue les éléments de planification suivants :

Examinez les Exigences et notes d'utilisation pour les modèles de fondation personnalisés
Consultez les Architectures prises en charge pour les modèles de fondations personnalisées pour vous assurer que votre modèle est compatible.
Recueillir les informations requises comme conditions préalables au déploiement d'un modèle de fondation personnalisé.
Sélectionnez une spécification matérielle pour votre modèle de fondation personnalisé.
Revoir le limites du déploiement
Activer les identifiants de tâches pour pouvoir déployer des modèles de fondation personnalisés.

Exigences et notes d'utilisation pour les modèles de fondation personnalisés

Les modèles personnalisés déployables doivent répondre à ces exigences :

Le téléchargement et l'utilisation de votre propre modèle personnalisé ne sont disponibles que dans le plan Standard pour watsonx.ai.
Le modèle doit être compatible avec la norme TGI (Text Generation Inference) et être construit avec un type d'architecture de modèle pris en charge.
La liste des fichiers du modèle doit contenir un fichier config.json.
Le modèle doit être au format safetensors avec la bibliothèque de transformateurs prise en charge et doit inclure un fichier tokenizer.json.
Important :
- Vous devez vous assurer que votre modèle de fondation personnalisé est enregistré avec la bibliothèque transformers prise en charge. Si le fichier model.safetensors de votre modèle de fondation personnalisé utilise un format de données non pris en charge dans l'en-tête des métadonnées, votre déploiement risque d'échouer. Pour plus d'informations, voir Dépannage de watsonx.ai Runtime.
- Assurez-vous que le projet ou l'espace dans lequel vous souhaitez déployer votre modèle de fondation personnalisé dispose d'une instance watsonx.ai Runtime associée. Ouvrez l'onglet Gérer dans votre projet ou espace pour le vérifier.

Architectures de modèles prises en charge

Le tableau suivant répertorie les architectures de modèles que vous pouvez déployer en tant que modèles personnalisés pour l'inférence avec watsonx.ai Les architectures de modèles sont répertoriées avec des informations sur les méthodes de quantification prises en charge, les tenseurs parallèles, la taille des configurations de déploiement et les spécifications logicielles.

Remarque :

Two software specifications are available for your deployments: watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1. The watsonx-cfm-caikit-1.1 specification is better in terms of performance, but it's not available with every model architecture.

Tableau 1. Architectures de modèles, méthodes de quantification, tenseurs parallèles, tailles de configuration de déploiement et spécifications logicielles prises en charge
Type d'architecture du modèle	Exemples de modèles de fondation	Méthode de quantification	Tenseurs parallèlesmultiGpu	Configurations de déploiement	Spécifications logicielles
`bloom`	`bigscience/bloom-3b`, `bigscience/bloom-560m`	Non disponible	Oui	Petit, moyen, grand	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`codegen`	`Salesforce/codegen-350M-mono`, `Salesforce/codegen-16B-mono`	Non disponible	Non	Petit	`watsonx-cfm-caikit-1.0`
`exaone`	`lgai-exaone/exaone-3.0-7.8B-Instruct`	Non disponible	Non	Petit	`watsonx-cfm-caikit-1.1`
`falcon`		Non disponible	Oui	Petit, moyen, grand	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`gemma`	`google/gemma-2b`	Non disponible	Oui	Petit, moyen et grand	`watsonx-cfm-caikit-1.1`
`gemma2`	`google/gemma-2-9b`	Non disponible	Oui	Petit, moyen et grand	`watsonx-cfm-caikit-1.1`
`gpt_bigcode`	`bigcode/starcoder`, `bigcode/gpt_bigcode-santacoder`	`gptq`	Oui	Petit, moyen, grand	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`gpt-neox`	`rinna/japanese-gpt-neox-small`, `EleutherAI/pythia-12b`, `databricks/dolly-v2-12b`	Non disponible	Oui	Petit, moyen, grand	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`gptj`	`EleutherAI/gpt-j-6b`	Non disponible	Non	Petit	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`granite`	`ibm-granite/granite-3.0-8b-instruct`, `ibm-granite/granite-3b-code-instruct-2k`, `granite-8b-code-instruct`, `granite-7b-lab`	Non disponible	Non	Petit	`watsonx-cfm-caikit-1.1`
`llama`	`DeepSeek-R1 (distilled variant)`, `meta-llama/Meta-Llama-3-8B`, `meta-llama/Meta-Llama-3.1-8B-Instruct`, `llama-2-13b-chat-hf`, `TheBloke/Llama-2-7B-Chat-AWQ`, `ISTA-DASLab/Llama-2-7b-AQLM-2Bit-1x16-hf`	`gptq`	Oui	Petit, moyen, grand	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`mistral`	`mistralai/Mistral-7B-v0.3`, `neuralmagic/OpenHermes-2.5-Mistral-7B-marlin`	Non disponible	Non	Petit	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`mixtral`	`TheBloke/Mixtral-8x7B-v0.1-GPTQ`, `mistralai/Mixtral-8x7B-Instruct-v0.1`	`gptq`	Non	Petit	`watsonx-cfm-caikit-1.1`
`mpt`	`mosaicml/mpt-7b`, `mosaicml/mpt-7b-storywriter`, `mosaicml/mpt-30b`	Non disponible	Non	Petit	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`mt5`	`google/mt5-small`, `google/mt5-xl`	Non disponible	Non	Petit	`watsonx-cfm-caikit-1.0`
`nemotron`	`nvidia/Minitron-8B-Base`	Non disponible	Oui	Petit, moyen et grand	`watsonx-cfm-caikit-1.1`
`olmo`	`allenai/OLMo-1B-hf`, `allenai/OLMo-7B-hf`	Non disponible	Oui	Petit, moyen et grand	`watsonx-cfm-caikit-1.1`
`persimmon`	`adept/persimmon-8b-base`, `adept/persimmon-8b-chat`	Non disponible	Oui	Petit, moyen et grand	`watsonx-cfm-caikit-1.1`
`phi`	`microsoft/phi-2`, `microsoft/phi-1_5`	Non disponible	Oui	Petit, moyen et grand	`watsonx-cfm-caikit-1.1`
`phi3`	`microsoft/Phi-3-mini-4k-instruct`	Non disponible	Oui	Petit, moyen et grand	`watsonx-cfm-caikit-1.1`
`qwen`	`DeepSeek-R1 (distilled variant)`	Non disponible	Oui	Petit, moyen et grand	`watsonx-cfm-caikit-1.1`
`qwen2`	`Qwen/Qwen2-7B-Instruct-AWQ`	`AWQ`	Oui	Petit, moyen et grand	`watsonx-cfm-caikit-1.1`
`t5`	`google/flan-t5-large`, `google/flan-t5-small`	Non disponible	Oui	Petit, moyen, grand	`watsonx-cfm-caikit-1.0`

Important :

IBM ne certifie que les architectures de modèles énumérées dans le tableau 1. Vous pouvez utiliser des modèles avec d'autres architectures prises en charge par vLLM,. Cependant, IBM ne prend pas en charge les échecs de déploiement résultant du déploiement de modèles de fondation avec des architectures non prises en charge ou des fonctionnalités incompatibles.
Les déploiements de modèles llama 3.1 peuvent échouer. Pour résoudre ce problème, consultez les étapes énumérées dans Dépannage.
Il n'est pas possible de déployer des modèles de type codegen, mt5 et t5 avec la spécification logicielle watsonx-cfm-caikit-1.1
Si votre modèle ne prend pas en charge les tenseurs parallèles, la seule configuration que vous pouvez utiliser est Small. Si votre modèle a été formé avec plus de paramètres que la configuration Small ne le permet, il échouera. Cela signifie que vous ne pourrez pas déployer certains de vos modèles personnalisés. Pour plus d'informations sur les limitations, voir Les lignes directrices sur l'utilisation des ressources.

Collecte des détails des conditions préalables pour un modèle de fondation personnalisé

Vérifier l'existence du fichier config.json dans le dossier de contenu du modèle de fondation. Le service de déploiement vérifiera l'existence du fichier config.json dans le dossier de contenu du modèle de base après qu'il ait été téléchargé sur le stockage en nuage.
Ouvrez le fichier config.json pour confirmer que le modèle de fondation utilise une architecture prise en charge.
Affichez la liste des fichiers du modèle de fondation pour vérifier la présence du fichier tokenizer.json et que le contenu du modèle est au format .safetensors .

Important :
Vous devez vous assurer que votre modèle de fondation personnalisé est enregistré avec la bibliothèque transformers prise en charge. Si le fichier model.safetensors de votre modèle de fondation personnalisé utilise un format de données non pris en charge dans l'en-tête des métadonnées, votre déploiement risque d'échouer. Pour plus d'informations, voir Dépannage de watsonx.ai Runtime.

Voir un exemple :

Pour le falcon-40b modèle stocké sur Hugging Face, cliquez sur Fichiers et versions pour afficher la structure des fichiers et vérifier l' config.json:

Recherche du fichier config.json à l'intérieur d'un modèle de fondation hébergé sur Hugging Face

Le modèle d'exemple utilise une version de l'architecture prise en charge falcon.

Vérification de l'existence d'une architecture supportée pour un modèle de fondation

Cet exemple de modèle contient le fichier tokenizer.json et est au format .safetensors :

Liste des fichiers d'un modèle de fondation

Si le modèle ne répond pas à ces exigences, vous ne pouvez pas créer une ressource de modèle et déployer votre modèle.

Lignes directrices sur l'utilisation des ressources

Trois configurations sont disponibles pour soutenir votre modèle de fondation personnalisé : Small, Medium, et Large. Pour déterminer la configuration la plus adaptée à votre modèle de fondation personnalisé, consultez les lignes directrices suivantes :

Attribuer la configuration Small à tout modèle de précision à deux octets sous 26B, sous réserve d'essais et de validation.
Attribuer la configuration Medium à tout modèle de précision à deux octets entre les paramètres 27B et 53B, sous réserve d'essais et de validation.
Attribuer la configuration Large à tout modèle de précision à double octet entre les paramètres 54B et 106B, sous réserve d'essais et de validation.

Astuce :

Si la configuration choisie échoue au cours de la phase de test et de validation, envisagez d'explorer la configuration supérieure disponible. Par exemple, essayez la configuration Medium si la configuration Small échoue. Actuellement, la configuration Large est la configuration la plus élevée disponible.

Tableau 2. Configurations matérielles et exemples de modèles
Configuration	Exemples de modèles appropriés
Petit	`llama-3-8b` `llama-2-13b` `starcoder-15.5b` `mt0-xxl-13b` `jais-13b` `gpt-neox-20b` `flan-t5-xxl-11b` `flan-ul2-20b` `allam-1-13b`
Moyen	`codellama-34b`
Grand	`llama-3-70b` `llama-2-70b`

Limitations et restrictions pour les modèles de fondation personnalisés

Notez ces limites sur la façon dont vous pouvez déployer et utiliser les modèles de fondation personnalisés avec watsonx.ai.

Limites du déploiement de modèles de fondation personnalisés

En raison de la forte demande de déploiements de modèles de fondation personnalisés et des ressources limitées pour y répondre, watsonx.ai a une limite de déploiement de quatre petits modèles, deux modèles moyens ou un grand modèle par compte IBM Cloud. Si vous tentez d'importer un modèle de fondation personnalisé au-delà de ces limites, vous en serez informé et il vous sera demandé de faire part de vos commentaires dans le cadre d'une enquête. Cela nous aidera à comprendre vos besoins et à planifier les futures mises à niveau de la capacité.

Important: Les augmentations de limites demandées ne sont pas garanties et dépendent de la capacité disponible.

Restrictions relatives à l'utilisation des déploiements de modèles de fondation personnalisés

Notez les restrictions suivantes concernant l'utilisation des modèles de fondation personnalisés après leur déploiement avec watsonx.ai:

Il n'est pas possible de régler un modèle de fondation personnalisé.
Vous ne pouvez pas utiliser watsonx.governance pour évaluer ou suivre un modèle d'invite pour un modèle de fondation personnalisé.
Vous pouvez inviter un modèle de fondation personnalisé, mais vous ne pouvez pas enregistrer un modèle d'invite pour un modèle personnalisé.

Aidez-nous à améliorer cette expérience

Si vous souhaitez faire part de votre avis maintenant, cliquez sur ce lien. Vos commentaires sont essentiels pour nous aider à planifier les futures mises à niveau de la capacité et à améliorer l'expérience globale de déploiement du modèle de fondation personnalisé. Merci de votre collaboration !

Etapes suivantes

Téléchargement d'un modèle de fondation personnalisé et configuration du stockage

Sujet parent : Déployer un modèle de fondation personnalisé

La rubrique a-t-elle été utile ?

0/1000

Exigences et notes d'utilisation pour les modèles de fondation personnalisésCopy link to section

Architectures de modèles prises en chargeCopy link to section

Collecte des détails des conditions préalables pour un modèle de fondation personnaliséCopy link to section

Lignes directrices sur l'utilisation des ressourcesCopy link to section

Limitations et restrictions pour les modèles de fondation personnalisésCopy link to section

Limites du déploiement de modèles de fondation personnalisésCopy link to section

Restrictions relatives à l'utilisation des déploiements de modèles de fondation personnalisésCopy link to section

Aidez-nous à améliorer cette expérienceCopy link to section

Etapes suivantesCopy link to section