0 / 0
Retourner à la version anglaise de la documentation
Création d'un déploiement pour un foundation model personnalisé
Dernière mise à jour : 11 nov. 2024
Création d'un déploiement pour un foundation model personnalisé

Après la création d'une ressource de foundation model personnalisé, vous pouvez créer un déploiement pour le modèle afin de le rendre disponible pour l'inférence.

Prérequis

  1. Vous devez définir les informations d'identification de votre tâche en générant une clé API. Pour plus d'informations, voir Gestion des informations d'identification des tâches.

  2. Avant de déployer votre modèle, consultez les Spécifications matérielles disponibles et choisissez une spécification matérielle prédéfinie qui correspond à votre modèle.

  3. En outre, vérifiez si les spécifications des logiciels disponibles correspondent à l'architecture de votre modèle. Pour plus de détails, voir Architectures de modèles prises en charge.

Créer un déploiement à partir de l'interface utilisateur watsonx.ai

Suivez ces étapes pour créer un déploiement pour un foundation model personnalisé :

  1. Dans votre espace de déploiement ou votre projet, allez dans l'onglet Assets.

  2. Recherchez votre modèle dans la liste des ressources, cliquez sur l'icône de menu " Icône de menu et sélectionnez Déployer.

  3. Saisissez un nom pour votre déploiement et, éventuellement, un nom de service, une description et des balises.

    Remarque :
    • Utilisez le champ Serving name pour spécifier un nom pour votre déploiement au lieu de l'ID de déploiement.
    • Le nom de service doit être unique dans l'espace de noms.
    • Le nom de service ne doit contenir que les caractères suivants :a-z,0-9,_] et doit comporter au maximum 36 caractères.
    • Dans les flux de travail où votre foundation model personnalisé est utilisé périodiquement, envisagez d'attribuer à votre modèle le même nom de service à chaque fois que vous le déployez. Ainsi, après avoir supprimé puis redéployé le modèle, vous pouvez continuer à utiliser le même point de terminaison dans votre code.

  4. Sélectionnez une configuration et une spécification logicielle pour votre modèle.

  5. Optionnel: Si vous souhaitez remplacer certains des paramètres du modèle de base, cliquez sur Paramètres de déploiement du modèle puis saisissez de nouvelles valeurs de paramètres :

    • Type de données: Choisissez le float16 ou bfloat16 pour spécifier le type de données pour votre modèle.
    • Taille maximale du lot: Entrez la taille maximale du lot pour votre modèle.
    • Max demandes simultanées: Entrez le nombre maximum de demandes simultanées qui peuvent être faites à votre modèle.
    • Max new tokens: Entrez le nombre maximum de tokens qui peuvent être créés pour votre modèle pour une requête d'inférence.
    • Longueur maximale de la séquence: Entrez la longueur maximale de la séquence pour votre modèle.
  6. Cliquez sur Créer.

Remarque :

Si vous utilisez la spécification logicielle " watsonx-cfm-caikit-1.1 pour déployer votre modèle, la valeur du paramètre " max_concurrent_requests n'est pas utilisée.

Test du déploiement

Suivez ces étapes pour tester le déploiement de votre foundation model personnalisé :

  1. Dans votre espace de déploiement ou votre projet, ouvrez l'onglet Déploiements et cliquez sur le nom du déploiement.

  2. Cliquez sur l'onglet Test pour saisir un texte d'invite et obtenir une réponse du poste déployé.

  3. Saisissez les données de test dans l'un des formats suivants, en fonction du type de bien que vous avez déployé :

    • Text : saisissez les données d'entrée du texte pour générer un bloc de texte en sortie.
    • Stream : entrez les données d'entrée du texte pour générer un flux de texte en sortie.
    • JSON : Saisissez des données d'entrée JSON pour générer un résultat au format JSON.

    Saisir les données de test pour le foundation model personnalisé

  4. Cliquez sur Générer pour obtenir des résultats basés sur votre demande.

Récupération du point de terminaison pour les déploiements de foundation model personnalisés

Suivez ces étapes pour récupérer l'URL du point de terminaison pour le déploiement de votre foundation model personnalisé. Vous avez besoin de cette URL pour accéder au déploiement à partir de vos applications :

  1. Dans votre espace de déploiement ou votre projet, ouvrez l'onglet Déploiements et cliquez sur le nom du déploiement.
  2. Dans l'onglet Référence API, vous trouverez les liens vers les points de terminaison privés et publics ainsi que des extraits de code que vous pouvez utiliser pour inclure les détails des points de terminaison dans une application.
Remarque :

Si vous avez ajouté Nom du service lors de la création de votre déploiement en ligne, vous voyez deux URL d'extrémité. La première URL contient l'ID de déploiement, et la deuxième URL contient votre nom de service. Vous pouvez utiliser l'une ou l'autre de ces URL avec votre déploiement.

Créer un déploiement par programme

Pour utiliser l'API watsonx.ai, vous avez besoin d'un jeton de porteur. Pour plus d'informations, voir Accréditations pour l'accès aux programmes.

Remarque :
  • Vous pouvez remplacer les valeurs par défaut des paramètres de votre foundation model personnalisé dans le champ " online.parameters.foundation_model.
  • Si vous utilisez la spécification logicielle " watsonx-cfm-caikit-1.1 pour déployer votre modèle, le paramètre " max_concurrent_requests n'est pas utilisé.
  • Utilisez le champ Serving name pour spécifier un nom pour votre déploiement au lieu de l'ID de déploiement.
  • Le nom de service doit être unique dans l'espace de noms.
  • Le nom de service ne doit contenir que les caractères suivants :a-z,0-9,_] et doit comporter au maximum 36 caractères.
  • Dans les flux de travail où votre foundation model personnalisé est utilisé périodiquement, envisagez d'attribuer à votre modèle le même nom de service à chaque fois que vous le déployez. Ainsi, après avoir supprimé puis redéployé le modèle, vous pouvez continuer à utiliser le même point de terminaison dans votre code.

Pour déployer un foundation model personnalisé par programme :

  1. Lancer le déploiement du modèle. Voir ce code pour un exemple de déploiement dans l'espace :

    curl -X POST "https://<your cloud hostname>/ml/v4/deployments?version=2024-01-29" \
    -H "Authorization: Bearer $TOKEN" \
    -H "content-type: application/json" \
    --data '{
      "asset":{
        "id":<your custom foundation model asset id>
      },
      "online":{
        "parameters":{
          "serving_name":"test_custom_fm",
          "foundation_model": {
              "max_sequence_length": 4096
          }
        }
      },
      "hardware_request": {
        "size": "<configuration size>",
        "num_nodes": 1
      },
      "description": "Testing deployment using custom foundation model",
      "name":"custom_fm_deployment",
      "space_id":<your space id>
    }'
    

    Le paramètre size peut être gpu_s, gpu_m ou gpu_l.
    Pour les déploiements de projets, utilisez space_id au lieu de project_id.

    L'identifiant de déploiement est renvoyé dans la réponse de l'API, dans le champ metadata.id.

  2. Utilisez l'ID de déploiement pour demander l'état du déploiement. Ce code montre comment demander l'état d'un modèle déployé dans un projet.

    curl -X GET "https://<your cloud hostname>/ml/v4/deployments/<your deployment ID>?version=2024-01-29&project_id=<your project ID>" \
    -H "Authorization: Bearer $TOKEN"
    

    Le deployed_asset_type est renvoyé sous la forme custom_foundation_model. Attendez que le statut passe de initializing à ready.

Etapes suivantes

Demander un foundation model personnalisé

Sujet parent: Déploiement de modèles de fondation personnalisés