Déployer des services d'IA
Un service d'IA est une unité de code déployable que vous pouvez utiliser pour capturer la logique de vos cas d'utilisation d'IA générative. Lorsque vos services d'IA sont déployés avec succès, vous pouvez utiliser le point de terminaison pour l'inférence à partir de votre application.
Déployer des applications d'IA générative avec des services d'IA
Alors que les fonctions Python constituent le moyen traditionnel de déployer des ressources d'apprentissage automatique, les services d'IA offrent une option plus souple pour déployer du code pour des applications d'IA générative telles que le streaming.
Contrairement à la fonction Python standard pour le déploiement d'un modèle d'apprentissage automatique prédictif, qui nécessite une entrée dans un schéma fixe, un service d'IA offre une flexibilité pour des entrées multiples et permet la personnalisation.
Les services d'IA offrent une solution sécurisée pour déployer vos fonctions de code. Par exemple, les informations d'identification, telles que les jetons de porteur nécessaires à l'authentification, sont générées par le service à partir des informations d'identification de la tâche et le jeton est mis à la disposition du service d'intelligence artificielle. Vous pouvez utiliser ce jeton pour obtenir des ressources de connexion, télécharger des ressources de données, etc.
Déployer visuellement les services d'IA
Vous pouvez déployer votre service d'IA directement dans un espace de déploiement en suivant une approche sans code depuis l'interface utilisateur. Utilisez cette approche pour créer un déploiement en ligne ou par lots pour votre cas d'utilisation.
Pour plus d'informations, voir Déployer visuellement les services d'IA.
Déployer des services d'IA avec des outils
Vous pouvez utiliser les outils visuels suivants pour créer une solution d'IA générative en watsonx.ai:
- Prompt Lab
- AutoAI
- Agent Lab
Lorsque vous utilisez des outils visuels pour créer une solution d'IA générative pour un cas d'utilisation complexe, tel que RAG, votre solution est déployée en tant que service d'IA. Vous pouvez choisir de déployer votre solution directement à partir de l'interface utilisateur ou d'exporter votre solution dans un carnet de notes modifiable à l'adresse Python qui déploie le service d'IA. Le bloc-notes génère automatiquement le code nécessaire à la création d'un service d'IA dans un format standard, et vous permet d'ajouter des fonctionnalités supplémentaires ou d'effectuer des mises à jour après avoir effectué des tests. Alors que les outils fournissent une interface conviviale pour créer et déployer des services d'IA, le codage offre plus de flexibilité et d'options de personnalisation.
Pour plus d'informations, voir Déployer des services d'IA avec des outils.
Déploiement de services d'IA avec code
Lorsque vous créez vos applications d'IA générative à partir de la base, vous pouvez utiliser un service d'IA pour capturer la logique de programmation de votre application, qui peut être déployée avec un point de terminaison pour l'inférence. Par exemple, si vous créez une application RAG avec des frameworks tels que LangChain, LlamaIndex, ou autres, vous pouvez utiliser un service d'IA pour capturer la logique de récupération des réponses de l'index vectoriel dans le service d'IA et déployer le service d'IA.
Pour plus d'informations, voir Déploiement de services d'IA avec du code.
En savoir plus
Sujet parent : Déployer les actifs du foundation model