Lorsque vous utilisez Prompt Lab pour créer une application d'IA générative qui utilise Retrieval Augmented Generation (RAG), vous pouvez déployer votre application en tant que service d'IA à l'aide d'un chemin rapide ou d'un carnet de déploiement.
Présentation du processus
Le graphique suivant illustre deux méthodes de déploiement d'un service d'IA à l'aide du Prompt Lab :
- En utilisant une voie rapide pour promouvoir et déployer directement.
- En utilisant un cahier de déploiement.
Vous pouvez créer une application RAG dans le Prompt Lab en ajoutant une connexion à un index vectoriel. Pour déployer le service AI, vous pouvez utiliser la voie rapide pour promouvoir directement le service AI vers un espace de déploiement et créer un déploiement en ligne.
Vous pouvez également enregistrer votre travail dans un carnet de déploiement, que vous pouvez utiliser pour personnaliser le code en fonction de votre cas d'utilisation. Le carnet de déploiement contient du code généré automatiquement pour créer et déployer un service d'IA. Le service d'IA capture la logique d'exécution d'une recherche de similarité pour calculer les documents qui correspondent à la requête et déduire le modèle en utilisant le résultat de la requête. Le service AI contient également la fonction de génération, qui est une unité de code déployable. La fonction de génération est promue dans l'espace de déploiement, ce qui crée un déploiement.
Le déploiement est exposé en tant que point de terminaison de l'API REST auquel d'autres applications peuvent accéder. Vous pouvez envoyer une demande au point de terminaison de l'API REST afin d'utiliser le service d'IA déployé pour l'inférence. Le service d'IA déployé traite la demande et renvoie une réponse.
Tâches de déploiement des services d'IA à partir de Prompt Lab
Voici les étapes à suivre pour créer, déployer et gérer les services d'IA :
- Choisissez une méthode de déploiement : Vous pouvez créer et déployer des services AI à partir du Prompt Lab en utilisant un chemin rapide ou un carnet de déploiement. Choisissez la méthode la mieux adaptée à votre cas d'utilisation.
- Tester le déploiement d'un service d'IA: Testez votre service d'IA déployé pour l'inférence en ligne ou la notation par lots.
- Gérer les services d'IA: Accéder aux détails du déploiement et les mettre à jour. Mettre à l'échelle ou supprimer le déploiement à partir de l'interface utilisateur ou par programme.
Déployer un service d'IA avec un chemin rapide
Vous pouvez utiliser le Prompt Lab pour créer une application RAG en dialoguant avec des documents et en fournissant un index vectoriel. Lorsque vous utilisez la voie rapide pour déployer votre travail en tant que service d'IA, la logique de votre application RAG est automatiquement capturée dans un actif de service d'IA et un déploiement en ligne est créé automatiquement pour l'actif.
Pour plus d'informations, voir Déploiement d'un service d'IA avec un chemin d'accès rapide.
Déployer un service d'IA avec un carnet de déploiement
Pour personnaliser la logique de programmation de votre application RAG, vous pouvez utiliser l'invite Lab et enregistrer votre travail dans un carnet de déploiement. Lorsque vous enregistrez votre travail dans un carnet de déploiement, watsonx.ai génère automatiquement un carnet de déploiement qui capture la logique de votre application RAG dans un service d'IA.
Le carnet de déploiement contient un code généré automatiquement pour promouvoir votre ressource de service d'IA vers un espace de déploiement et créer un déploiement pour la ressource. Vous pouvez modifier le carnet de déploiement pour le personnaliser, par exemple en créant un déploiement par lots pour déployer un service d'IA au lieu d'un déploiement en ligne pour votre cas d'utilisation.
Pour plus d'informations, voir Déploiement d'un service d'IA avec notebook.
En savoir plus
Sujet parent : Déployer des services d'IA