Déployer des ressources d'IA générative pour les utiliser en production et surveiller ces ressources déployées.
Types d'actifs déployables pour les applications d'IA générative
Vous pouvez utiliser watsonx.ai pour déployer les ressources suivantes pour vos applications d'IA générative :
Déploiement des modèles d'invite
Après avoir sauvegardé un modèle d'invite en tant qu'actif de projet, vous pouvez le promouvoir dans un espace de déploiement. À partir de l'espace de déploiement, vous pouvez déployer votre modèle d'invite dans la production et obtenir le point d'extrémité pour l'inférence.
Si vous disposez du service watsonx.governance , vous pouvez également capturer et suivre les détails de déploiement d'un modèle d'invite pour répondre aux exigences de gouvernance.
Pour plus d'informations, voir Déploiement d'un modèle d'invite.
Déployer des services d'IA
Un service d'IA est une unité de code déployable que vous pouvez utiliser pour capturer la logique de vos cas d'utilisation d'IA générative, tels que la génération augmentée par récupération (RAG). Lorsque vos services d'IA sont déployés avec succès, vous pouvez utiliser le point de terminaison pour l'inférence à partir de votre application.
Bien que vous puissiez utiliser les modèles d'invite pour créer et déployer des invites enregistrées dans le laboratoire des invites, vous ne pouvez pas les utiliser pour déployer des applications d'IA générative qui utilisent la génération augmentée par récupération (RAG). Pour déployer des applications RAG, vous devez déployer un service AI. Les services AI vous offrent la possibilité de déployer vos applications RAG et d'utiliser le point d'extrémité pour l'inférence.
Pour plus d'informations, voir Déploiement des services d'IA.
Déployer des modèles adaptés
Après avoir ajusté un modèle foundation model et enregistré le modèle ajusté en tant que ressource de projet, vous pouvez le promouvoir dans un espace de déploiement. Dans l'espace de déploiement, vous pouvez tester le modèle mis au point et obtenir le point final pour l'inférence.
Pour plus d'informations, voir Déploiement d'un foundation model adapté.
Déployer des modèles de fondation personnalisés
En plus de travailler avec des modèles de base créés par IBM, vous pouvez télécharger et déployer vos propres modèles de base. Une fois les modèles déployés et enregistrés dans watsonx.ai, créez des invites qui infèrent les modèles personnalisés à partir du Prompt Lab.
Le déploiement d'un foundation model personnalisé vous offre la flexibilité nécessaire pour mettre en œuvre les solutions d'IA qui conviennent à votre cas d'utilisation.
Pour plus d'informations, voir Déploiement d'un foundation model personnalisé.
Déployer des modèles de fondation à la demande
Déployer un foundation model à la demande sur du matériel dédié afin de rendre le foundation model disponible pour une utilisation dans diverses applications et services selon les besoins. En utilisant cette approche, vous pouvez accéder aux capacités de ces puissants modèles de fondations sans avoir besoin de ressources informatiques importantes. Les modèles de fondation que vous déployez à la demande sont hébergés dans un espace de déploiement dédié où vous pouvez utiliser ces modèles pour l'inférence.
Pour plus d'informations, voir Déploiement de modèles de fondation à la demande.
En savoir plus
Sujet parent : Déployer des actifs avec watsonx.ai Runtime