Un service d'IA est une unité de code déployable que vous pouvez utiliser pour capturer la logique de vos cas d'utilisation d'IA générative. Lorsque vos services d'IA sont déployés avec succès, vous pouvez utiliser le point de terminaison pour l'inférence à partir de votre application.
Déployer des applications d'IA générative avec des services d'IA
Alors que les fonctions Python constituent le moyen traditionnel de déployer des ressources d'apprentissage automatique, les services d'IA offrent une option plus souple pour déployer du code pour des applications d'IA générative telles que le streaming.
Contrairement à la fonction Python standard pour le déploiement d'un modèle d'apprentissage automatique prédictif, qui nécessite une entrée dans un schéma fixe, un service d'IA offre une flexibilité pour des entrées multiples et permet la personnalisation.
Les services d'IA offrent une solution sécurisée pour déployer vos fonctions de code. Par exemple, les informations d'identification, telles que les jetons de porteur nécessaires à l'authentification, sont générées par le service à partir des informations d'identification de la tâche et le jeton est mis à la disposition du service d'intelligence artificielle. Vous pouvez utiliser ce jeton pour obtenir des ressources de connexion, télécharger des ressources de données, etc.
Déployer des services d'IA avec Prompt Lab
Vous pouvez utiliser des outils visuels tels que Prompt Lab pour générer automatiquement des services d'IA dans un format standard. Vous pouvez ensuite modifier le service d'IA en fonction de votre cas d'utilisation. Par exemple, si vous déployez un actif qui utilise la génération augmentée par récupération (RAG), vous pouvez utiliser le laboratoire d'invites pour capturer la logique de récupération des réponses de l'index vectoriel dans le service d'IA et déployer le service d'IA.
Pour plus d'informations, voir Déployer des services d'IA avec Prompt Lab.
Déployer des services d'IA par codage direct
Lorsque vous créez vos applications d'IA générative à partir de la base, vous pouvez utiliser un service d'IA pour capturer la logique de programmation de votre application, qui peut être déployée avec un point de terminaison pour l'inférence. Par exemple, si vous créez une application RAG avec des frameworks tels que LangChain, LlamaIndex, ou autres, vous pouvez utiliser un service d'IA pour capturer la logique de récupération des réponses de l'index vectoriel dans le service d'IA et déployer le service d'IA.
Pour plus d'informations, voir Déployer des services d'IA avec le codage direct.
En savoir plus
Sujet parent : Déployer les actifs du foundation model