Planifier le déploiement d'un modèle de fondation personnalisé

Dernière mise à jour : 02 avr. 2025
Planifier le déploiement d'un modèle de fondation personnalisé

Examinez les considérations et les exigences relatives au déploiement d'un modèle de base personnalisé pour l'inférence avec watsonx.ai.

Alors que vous vous préparez à déployer un modèle de fondation personnalisé, passez en revue les éléments de planification suivants :

Exigences et notes d'utilisation pour les modèles de fondation personnalisés

Les modèles personnalisés déployables doivent répondre à ces exigences :

  • Le téléchargement et l'utilisation de votre propre modèle personnalisé ne sont disponibles que dans le plan Standard pour watsonx.ai.

  • Le modèle doit être compatible avec la norme TGI (Text Generation Inference) et être construit avec un type d'architecture de modèle pris en charge.

  • La liste des fichiers du modèle doit contenir un fichier config.json.

  • Le modèle doit être au format safetensors avec la bibliothèque de transformateurs prise en charge et doit inclure un fichier tokenizer.json.

    Important :
    • Vous devez vous assurer que votre modèle de fondation personnalisé est enregistré avec la bibliothèque transformers prise en charge. Si le fichier model.safetensors de votre modèle de fondation personnalisé utilise un format de données non pris en charge dans l'en-tête des métadonnées, votre déploiement risque d'échouer. Pour plus d'informations, voir Dépannage de watsonx.ai Runtime.
    • Assurez-vous que le projet ou l'espace dans lequel vous souhaitez déployer votre modèle de fondation personnalisé dispose d'une instance watsonx.ai Runtime associée. Ouvrez l'onglet Gérer dans votre projet ou espace pour le vérifier.

Architectures de modèles prises en charge

Le tableau suivant répertorie les architectures de modèles que vous pouvez déployer en tant que modèles personnalisés pour l'inférence avec watsonx.ai Les architectures de modèles sont répertoriées avec des informations sur les méthodes de quantification prises en charge, les tenseurs parallèles, la taille des configurations de déploiement et les spécifications logicielles.

Remarque :

Two software specifications are available for your deployments: watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1. The watsonx-cfm-caikit-1.1 specification is better in terms of performance, but it's not available with every model architecture.

Tableau 1. Architectures de modèles, méthodes de quantification, tenseurs parallèles, tailles de configuration de déploiement et spécifications logicielles prises en charge
Type d'architecture du modèle Exemples de modèles de fondation Méthode de quantification Tenseurs parallèlesmultiGpu Configurations de déploiement Spécifications logicielles
bloom bigscience/bloom-3b, bigscience/bloom-560m Non disponible Oui Petit, moyen, grand watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
codegen Salesforce/codegen-350M-mono, Salesforce/codegen-16B-mono Non disponible Non Petit watsonx-cfm-caikit-1.0
exaone lgai-exaone/exaone-3.0-7.8B-Instruct Non disponible Non Petit watsonx-cfm-caikit-1.1
falcon Non disponible Oui Petit, moyen, grand watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
gemma google/gemma-2b Non disponible Oui Petit, moyen et grand watsonx-cfm-caikit-1.1
gemma2 google/gemma-2-9b Non disponible Oui Petit, moyen et grand watsonx-cfm-caikit-1.1
gpt_bigcode bigcode/starcoder, bigcode/gpt_bigcode-santacoder gptq Oui Petit, moyen, grand watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
gpt-neox rinna/japanese-gpt-neox-small, EleutherAI/pythia-12b, databricks/dolly-v2-12b Non disponible Oui Petit, moyen, grand watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
gptj EleutherAI/gpt-j-6b Non disponible Non Petit watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
granite ibm-granite/granite-3.0-8b-instruct, ibm-granite/granite-3b-code-instruct-2k, granite-8b-code-instruct, granite-7b-lab Non disponible Non Petit watsonx-cfm-caikit-1.1
llama DeepSeek-R1 (distilled variant), meta-llama/Meta-Llama-3-8B, meta-llama/Meta-Llama-3.1-8B-Instruct, llama-2-13b-chat-hf, TheBloke/Llama-2-7B-Chat-AWQ, ISTA-DASLab/Llama-2-7b-AQLM-2Bit-1x16-hf gptq Oui Petit, moyen, grand watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
mistral mistralai/Mistral-7B-v0.3, neuralmagic/OpenHermes-2.5-Mistral-7B-marlin Non disponible Non Petit watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
mixtral TheBloke/Mixtral-8x7B-v0.1-GPTQ, mistralai/Mixtral-8x7B-Instruct-v0.1 gptq Non Petit watsonx-cfm-caikit-1.1
mpt mosaicml/mpt-7b, mosaicml/mpt-7b-storywriter, mosaicml/mpt-30b Non disponible Non Petit watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
mt5 google/mt5-small, google/mt5-xl Non disponible Non Petit watsonx-cfm-caikit-1.0
nemotron nvidia/Minitron-8B-Base Non disponible Oui Petit, moyen et grand watsonx-cfm-caikit-1.1
olmo allenai/OLMo-1B-hf, allenai/OLMo-7B-hf Non disponible Oui Petit, moyen et grand watsonx-cfm-caikit-1.1
persimmon adept/persimmon-8b-base, adept/persimmon-8b-chat Non disponible Oui Petit, moyen et grand watsonx-cfm-caikit-1.1
phi microsoft/phi-2, microsoft/phi-1_5 Non disponible Oui Petit, moyen et grand watsonx-cfm-caikit-1.1
phi3 microsoft/Phi-3-mini-4k-instruct Non disponible Oui Petit, moyen et grand watsonx-cfm-caikit-1.1
qwen DeepSeek-R1 (distilled variant) Non disponible Oui Petit, moyen et grand watsonx-cfm-caikit-1.1
qwen2 Qwen/Qwen2-7B-Instruct-AWQ AWQ Oui Petit, moyen et grand watsonx-cfm-caikit-1.1
t5 google/flan-t5-large, google/flan-t5-small Non disponible Oui Petit, moyen, grand watsonx-cfm-caikit-1.0
Important :
  • IBM ne certifie que les architectures de modèles énumérées dans le tableau 1. Vous pouvez utiliser des modèles avec d'autres architectures prises en charge par vLLM,. Cependant, IBM ne prend pas en charge les échecs de déploiement résultant du déploiement de modèles de fondation avec des architectures non prises en charge ou des fonctionnalités incompatibles.
  • Les déploiements de modèles llama 3.1 peuvent échouer. Pour résoudre ce problème, consultez les étapes énumérées dans Dépannage.
  • Il n'est pas possible de déployer des modèles de type codegen, mt5 et t5 avec la spécification logicielle watsonx-cfm-caikit-1.1
  • Si votre modèle ne prend pas en charge les tenseurs parallèles, la seule configuration que vous pouvez utiliser est Small. Si votre modèle a été formé avec plus de paramètres que la configuration Small ne le permet, il échouera. Cela signifie que vous ne pourrez pas déployer certains de vos modèles personnalisés. Pour plus d'informations sur les limitations, voir Les lignes directrices sur l'utilisation des ressources.

Collecte des détails des conditions préalables pour un modèle de fondation personnalisé

  1. Vérifier l'existence du fichier config.json dans le dossier de contenu du modèle de fondation. Le service de déploiement vérifiera l'existence du fichier config.json dans le dossier de contenu du modèle de base après qu'il ait été téléchargé sur le stockage en nuage.

  2. Ouvrez le fichier config.json pour confirmer que le modèle de fondation utilise une architecture prise en charge.

  3. Affichez la liste des fichiers du modèle de fondation pour vérifier la présence du fichier tokenizer.json et que le contenu du modèle est au format .safetensors .

    Important :

    Vous devez vous assurer que votre modèle de fondation personnalisé est enregistré avec la bibliothèque transformers prise en charge. Si le fichier model.safetensors de votre modèle de fondation personnalisé utilise un format de données non pris en charge dans l'en-tête des métadonnées, votre déploiement risque d'échouer. Pour plus d'informations, voir Dépannage de watsonx.ai Runtime.

Voir un exemple :

Pour le falcon-40b modèle stocké sur Hugging Face, cliquez sur Fichiers et versions pour afficher la structure des fichiers et vérifier l' config.json:

Recherche du fichier config.json à l'intérieur d'un modèle de fondation hébergé sur Hugging Face

Le modèle d'exemple utilise une version de l'architecture prise en charge falcon.

Vérification de l'existence d'une architecture supportée pour un modèle de fondation

Cet exemple de modèle contient le fichier tokenizer.json et est au format .safetensors :

Liste des fichiers d'un modèle de fondation

Si le modèle ne répond pas à ces exigences, vous ne pouvez pas créer une ressource de modèle et déployer votre modèle.

Lignes directrices sur l'utilisation des ressources

Trois configurations sont disponibles pour soutenir votre modèle de fondation personnalisé : Small, Medium, et Large. Pour déterminer la configuration la plus adaptée à votre modèle de fondation personnalisé, consultez les lignes directrices suivantes :

  • Attribuer la configuration Small à tout modèle de précision à deux octets sous 26B, sous réserve d'essais et de validation.
  • Attribuer la configuration Medium à tout modèle de précision à deux octets entre les paramètres 27B et 53B, sous réserve d'essais et de validation.
  • Attribuer la configuration Large à tout modèle de précision à double octet entre les paramètres 54B et 106B, sous réserve d'essais et de validation.
Astuce :

Si la configuration choisie échoue au cours de la phase de test et de validation, envisagez d'explorer la configuration supérieure disponible. Par exemple, essayez la configuration Medium si la configuration Small échoue. Actuellement, la configuration Large est la configuration la plus élevée disponible.

Tableau 2. Configurations matérielles et exemples de modèles
Configuration Exemples de modèles appropriés
Petit llama-3-8b
llama-2-13b
starcoder-15.5b
mt0-xxl-13b
jais-13b
gpt-neox-20b
flan-t5-xxl-11b
flan-ul2-20b
allam-1-13b
Moyen codellama-34b
Grand llama-3-70b
llama-2-70b

Limitations et restrictions pour les modèles de fondation personnalisés

Notez ces limites sur la façon dont vous pouvez déployer et utiliser les modèles de fondation personnalisés avec watsonx.ai.

Limites du déploiement de modèles de fondation personnalisés

En raison de la forte demande de déploiements de modèles de fondation personnalisés et des ressources limitées pour y répondre, watsonx.ai a une limite de déploiement de quatre petits modèles, deux modèles moyens ou un grand modèle par compte IBM Cloud. Si vous tentez d'importer un modèle de fondation personnalisé au-delà de ces limites, vous en serez informé et il vous sera demandé de faire part de vos commentaires dans le cadre d'une enquête. Cela nous aidera à comprendre vos besoins et à planifier les futures mises à niveau de la capacité.

Important: Les augmentations de limites demandées ne sont pas garanties et dépendent de la capacité disponible.

Restrictions relatives à l'utilisation des déploiements de modèles de fondation personnalisés

Notez les restrictions suivantes concernant l'utilisation des modèles de fondation personnalisés après leur déploiement avec watsonx.ai:

  • Il n'est pas possible de régler un modèle de fondation personnalisé.
  • Vous ne pouvez pas utiliser watsonx.governance pour évaluer ou suivre un modèle d'invite pour un modèle de fondation personnalisé.
  • Vous pouvez inviter un modèle de fondation personnalisé, mais vous ne pouvez pas enregistrer un modèle d'invite pour un modèle personnalisé.

Aidez-nous à améliorer cette expérience

Si vous souhaitez faire part de votre avis maintenant, cliquez sur ce lien. Vos commentaires sont essentiels pour nous aider à planifier les futures mises à niveau de la capacité et à améliorer l'expérience globale de déploiement du modèle de fondation personnalisé. Merci de votre collaboration !

Etapes suivantes

Téléchargement d'un modèle de fondation personnalisé et configuration du stockage

Sujet parent : Déployer un modèle de fondation personnalisé