0 / 0
Retourner à la version anglaise de la documentation
Déployer des actifs d'IA générative
Dernière mise à jour : 30 janv. 2025
Déployer des actifs d'IA générative

Déployer des ressources d'IA générative pour les utiliser en production et surveiller ces ressources déployées.

Types d'actifs déployables pour les applications d'IA générative

Vous pouvez utiliser watsonx.ai pour déployer les ressources suivantes pour vos applications d'IA générative :

Déploiement des modèles d'invite

Après avoir sauvegardé un modèle d'invite en tant qu'actif de projet, vous pouvez le promouvoir dans un espace de déploiement. À partir de l'espace de déploiement, vous pouvez déployer votre modèle d'invite dans la production et obtenir le point d'extrémité pour l'inférence.

Si vous disposez du service watsonx.governance , vous pouvez également capturer et suivre les détails de déploiement d'un modèle d'invite pour répondre aux exigences de gouvernance.

Pour plus d'informations, voir Déploiement d'un modèle d'invite.

Déployer des services d'IA

Un service d'IA est une unité de code déployable qui capture la logique de vos cas d'utilisation d'IA générative, tels que la génération augmentée par récupération (RAG). Lorsque vos services d'IA sont déployés avec succès, vous pouvez utiliser le point de terminaison pour l'inférence à partir de votre application.

Les services d'IA sont créés automatiquement lorsque vous déployez une solution d'IA générative complexe à l'aide d'outils visuels tels que Agent Lab, Prompt Lab ou AutoAI. Par exemple, si vous utilisez l'Agent Lab ou Prompt Lab pour construire et déployer votre solution d'IA agentique ou générative, l'outil détecte automatiquement la complexité de la solution et présente le type d'actif de déploiement approprié.

Bien que vous puissiez utiliser les modèles d'invites pour créer et déployer des invites sauvegardées sur le site Prompt Lab, vous ne pouvez pas les utiliser pour déployer des applications d'IA générative pour des cas d'utilisation complexes tels que RAG.

Si vous choisissez de coder votre application d'IA générative basée sur ces cas d'utilisation complexes, vous devez créer un service d'IA et vous assurer qu'il respecte certaines exigences. Vous pouvez déployer un service d'IA de manière programmatique à l'aide de l'API REST watsonx.ai ou de la bibliothèque client Python. Après avoir déployé le service d'intelligence artificielle, vous pouvez utiliser le point d'extrémité pour l'inférence.

Pour plus d'informations, voir Déploiement des services d'IA.

Déployer des modèles adaptés

Après avoir ajusté un modèle foundation model et enregistré le modèle ajusté en tant que ressource de projet, vous pouvez le promouvoir dans un espace de déploiement. Dans l'espace de déploiement, vous pouvez tester le modèle mis au point et obtenir le point final pour l'inférence.

Pour plus d'informations, voir Déploiement d'un foundation model adapté.

Déployer des modèles de fondation personnalisés

En plus de travailler avec des modèles de base créés par IBM, vous pouvez télécharger et déployer vos propres modèles de base. Une fois les modèles déployés et enregistrés sur watsonx.ai, créez des invites qui infèrent les modèles personnalisés à partir de Prompt Lab.

Le déploiement d'un foundation model personnalisé vous offre la flexibilité nécessaire pour mettre en œuvre les solutions d'IA qui conviennent à votre cas d'utilisation.

Pour plus d'informations, voir Déploiement d'un foundation model personnalisé.

Déployer des modèles de fondation à la demande

Déployer un foundation model à la demande sur du matériel dédié afin de rendre le foundation model disponible pour une utilisation dans diverses applications et services selon les besoins. En utilisant cette approche, vous pouvez accéder aux capacités de ces puissants modèles de fondations sans avoir besoin de ressources informatiques importantes. Les modèles de fondation que vous déployez à la demande sont hébergés dans un espace de déploiement dédié où vous pouvez utiliser ces modèles pour l'inférence.

Pour plus d'informations, voir Déploiement de modèles de fondation à la demande.

En savoir plus

Sujet parent : Déployer des actifs avec watsonx.ai Runtime