Rubrique traduite automatiquement Vous pouvez passer à la version anglaiseVoir la clause de protection
Pour obtenir la version la plus précise et la plus à jour de cette documentation, voir la version anglaise (originale). IBM n'est pas responsable des dommages ou pertes résultant de l'utilisation du contenu traduit automatiquement (machine).
Dialoguer avec des documents et des images
Dernière mise à jour : 15 avr. 2025
Dialoguer avec des documents et des images
Ajoutez rapidement des documents et des images aux messages de discussion sur les modèles de fondation que vous créez dans l' Prompt Lab.
Vous pouvez associer les types de fichiers suivants à votre invite :
Documents de mise à la terre
Si vous souhaitez qu'un modèle de base intègre des informations factuelles et à jour dans les résultats qu'il génère, fondez l'entrée du modèle de base sur des faits pertinents en associant des documents à l'invite.
Ce modèle, connu sous le nom de génération augmentée par récupération (RAG ), est particulièrement utile dans les scénarios de questions-réponses où l'on souhaite que le modèle de base génère des réponses précises.
Vous pouvez ajouter une image et convertir les informations visuelles en texte pour faciliter les différentes tâches, notamment :
Automatiser la génération de textes alternatifs pour les images afin d'aider les utilisateurs aveugles à percevoir des visuels significatifs sur une page web et répondre aux exigences d'accessibilité
Résumé des photos des dommages matériels accompagnant les déclarations de sinistre
Convertir les images d'un document en texte avant que le document ne soit utilisé comme base d'informations pour un cas d'utilisation RAG.
Pour tester rapidement la qualité d'un document et les capacités d'un modèle de base avant d'utiliser le modèle ou le document dans une solution de génération augmentée par recherche (RAG), discutez avec le document dans Prompt Lab.
Le texte du document que vous téléchargez est converti en éléments de texte et stocké dans un index vectoriel où les informations peuvent être rapidement recherchées. Lorsqu'une question est soumise à l'aide de l'invite, une recherche de similarité s'exécute sur l'index vectoriel pour trouver le contenu pertinent. Les premiers résultats de la recherche sont ajoutés à l'invite en tant que contexte et soumis avec la question originale au modèle de fondation en tant qu'entrée.
À des fins de test, vous pouvez accepter les paramètres par défaut du magasin de vecteurs en mémoire qui est créé automatiquement pour vous.
Pour discuter avec un document, procédez comme suit:
Dans l' Prompt Lab, en mode conversation, sélectionnez un modèle de base, puis spécifiez les paramètres du modèle que vous souhaitez utiliser pour l'invite.
Cliquez sur l'icône Télécharger des documents " , puis sélectionnez Ajouter des documents.
Naviguez pour télécharger un fichier ou choisissez un actif de données dans votre projet avec le fichier que vous souhaitez ajouter. Pour plus d'informations sur les types de fichiers pris en charge, voir Documents de base.
Si vous souhaitez utiliser un index vectoriel plus robuste que l'index en mémoire par défaut pour stocker vos documents, consultez la section Création d'un index vectoriel.
Cliquez sur Créer.
Un message peut s'afficher indiquant que la construction de l'index vectoriel est en cours. Pour savoir quand l'index est prêt, fermez le message, puis cliquez sur le document téléchargé pour ouvrir la page de détails de l'index vectoriel.
Posez des questions sur les informations contenues dans le document pour voir dans quelle mesure le modèle peut utiliser les informations contextuelles pour répondre à vos questions.
Par exemple, vous pouvez demander au modèle de fondation de résumer le document ou de poser des questions sur les concepts qui y sont expliqués.
Si les réponses attendues ne sont pas trouvées, vous pouvez revoir la configuration de l'index vectoriel et procéder à des ajustements. Voir Gestion d'un index vectoriel.
Mise à la terre de documents
Copy link to section
Les informations contextuelles que vous ajoutez peuvent inclure de la documentation produit, des détails sur la politique de l'entreprise, des données sur les performances du secteur, des faits et des chiffres liés à un sujet particulier, ou tout autre contenu important pour votre cas d'utilisation. Les documents de mise à la terre peuvent également inclure des documents commerciaux propriétaires que vous ne souhaitez pas mettre à disposition ailleurs.
Remarque : si vous prévoyez d'enregistrer l'invite en tant que modèle d'invite, vous ne pouvez ajouter que des fichiers d'une taille totale maximale de 5 Mo.
Le tableau suivant présente les types de fichier qui peuvent être ajoutés en tant que documents de mise à la terre.
Tableau 1. Types de fichier pris en charge pour les documents de mise à la terre
Type de fichier pris en charge
Taille totale maximale du fichier
docx
10 Mo
format PDF
50 Mo
pptx
300 Mo
TXT
5 Mo
Vous pouvez ajouter un ou plusieurs fichiers à votre invite. La taille totale des fichiers autorisée pour l'ensemble des documents de base varie en fonction des types de fichiers de l'ensemble. Le type de fichier avec la taille totale de fichier la plus faible autorisée détermine la limite de taille pour tous les documents de mise à la terre. Par exemple, si le jeu comprend trois fichiers PPTX, la taille limite du fichier est de 300 Mo, ce qui correspond à la taille maximale autorisée pour les fichiers PPTX. Si l'ensemble de fichiers comprend deux fichiers PPTX et un fichier TXT, la limite de taille du fichier est de 5 Mo car la limite pour les fichiers TXT est appliquée à l'ensemble.
Chatter avec des images téléchargées
Copy link to section
Télécharger une image à ajouter à l'entrée que vous soumettez à un modèle de fondation multimodal. Après avoir ajouté l'image, vous pouvez poser des questions sur son contenu.
Note: Le téléchargement d'images dans un chat n'est possible que dans les régions où des modèles de fondation multimodaux sont disponibles. Pour plus de détails, voir Disponibilité régionale.
Veillez à examiner et à mettre en œuvre toutes les suggestions du fournisseur de modèle de fondation qui contribuent à maintenir le modèle sur la bonne voie et à bloquer les contenus inappropriés, par exemple en ajoutant les invites système recommandées. Pour plus d'informations sur la modification d'une invite système, voir Modèles de conversation.
Les exigences en matière d'images sont les suivantes :
Ajouter une image par chat
Les types de fichiers pris en charge sont PNG ou JPEG
La taille peut aller jusqu'à 4 Mo
Une image compte pour environ 1 200 à 3 000 jetons, selon la taille de l'image
Pour chatter avec une image, suivez les étapes suivantes :
Dans l' Prompt Lab, en mode chat, sélectionnez un modèle de base capable de convertir des images en texte, puis spécifiez les paramètres du modèle que vous souhaitez utiliser pour l'invite.
Cliquez sur l'icône Télécharger des documents, puis sélectionnez Ajouter une image.
Parcourez pour télécharger un fichier image ou choisissez une ressource de données dans votre projet avec le fichier image que vous voulez ajouter.
Cliquez sur Ajouter.
Saisissez une question sur l'image, puis soumettez l'invite.
Précisez ce que vous voulez savoir sur l'image.
Facultatif : enregistrer l'invite en tant que modèle d'invite ou session d'invite.
Note: Vous ne pouvez pas enregistrer un chat avec une image ajoutée en tant que bloc-notes d'invite.
Dans l'exemple suivant, l'image d'un graphique à barres est soumise au modèle de fondation llama-4-scout-17b-16e-instruct avec l'instruction Provide a short summary of the data shown in the bar graph.
Le modèle de fondation llama-4-scout-17b-16e-instruct répond par l'explication détaillée suivante :
Description de l'histogramme :L'histogramme illustre la répartition des lecteurs en fonction de leur formation académique.
Points de données :
Sécurité et cyberinformation : environ 30
Ingénierie : environ 40
Physique quantique : environ 50
Mathématiques Mathématiques appliquées : moins de 25
Informatique : plus de 120
Informations sur les technologies de l'entreprise : environ 85
Cybersécurité (SRA) : 5
L'informatique quantique : 5
Analyse :
Le domaine qui compte le plus grand nombre de lecteurs est l'informatique, avec plus de 120 lecteurs.
Business IT Information compte environ 85 lecteurs.
La physique quantique, les mathématiques appliquées, la cybersécurité (SRA) et l'informatique quantique ont un nombre relativement faible de lecteurs.
Conclusion :Le graphique montre que l'informatique et l'informatique de gestion ont le plus grand nombre de lecteurs, tandis que la cybersécurité (SRA) et l'informatique quantique ont le plus petit nombre de lecteurs.
Llama-4-maverick-17b-128e-instruct-fp8
Copy link to section
Dans l'exemple suivant, un document sur InfoSphere MDM en français est soumis au modèle de fondation llama-4-maverick-17b-128e-instruct-fp8 avec l'instruction Briefly summarize the attached document in English.
Le modèle répond par le résumé suivant :
Le modèle de fondation llama-4-maverick-17b-128e-instruct-fp8 traduit le document du français vers l'anglais et génère un résumé, y compris les numéros de page source.
Promouvoir le Llama 3.2 11B modèle de vision
Copy link to section
Dans l'exemple suivant, un diagramme du modèle de génération augmentée par récupération (RAG) est soumis au modèle de fondation de l' llama-3-2-11b-vision-instruct, accompagné de l'instruction « Explain the process that is shown in the image ».
Le modèle de la fondation « llama-3-2-11b-vision-instruct » répond par l'explication complète suivante :
L'image illustre le processus d'interaction d'un utilisateur avec un chatbot ou un système d'intelligence artificielle conversationnelle. Voici une analyse étape par étape:
Contribution de l'utilisateur : L'utilisateur entame la conversation en posant une question ou en fournissant des informations.
Question : La requête de l'utilisateur est reçue par le système, qui la traite ensuite.
Recherche : Le système effectue une recherche dans sa base de connaissances ou sa base de données pour trouver des informations pertinentes en rapport avec la question de l'utilisateur.
Résultats de la recherche : Le système récupère les meilleurs résultats du processus de recherche.
Entrée = Instruction + Résultats de la recherche + Question : Le système combine l'entrée de l'utilisateur (question), les résultats de la recherche et tout contexte ou instruction supplémentaire pour comprendre l'intention de l'utilisateur.
Modèle de base : Le système utilise un modèle de base, qui est un grand modèle de langage qui a été pré-entraîné sur une grande quantité de données textuelles. Ce modèle est utilisé pour générer des réponses qui sont contextuellement pertinentes et précises.
Réponse factuelle : Le modèle de base traite les données combinées et génère une réponse factuelle basée sur les résultats de la recherche et les données saisies par l'utilisateur.
En résumé, l'image représente un utilisateur interagissant avec un chatbot ou un système d'IA conversationnel, qui utilise une combinaison de traitement du langage naturel (NLP), d'apprentissage automatique et de recherche de connaissances pour fournir une réponse factuelle à la question de l'utilisateur.
Promouvoir le Llama 3.2 90B modèle de vision
Copy link to section
Cet exemple illustre comment l'instruction que vous donnez dans le texte affecte la qualité du modèle de base produit.
L'invite qui est soumise au modèle de la fondation llama-3-2-90b-vision-instruct comprend une image qui illustre un texte alternatif efficace à utiliser pour une image d'un tableau des recettes.
Lorsque l'instruction est spécifique, le modèle de fondation génère une réponse utile.
Une instruction
Qu'est-ce que l'image transmet à propos du texte de l'image alternative ?
Réponse
L'image montre comment un texte alternatif peut être utilisé pour fournir une description concise et informative d'une image pour les personnes malvoyantes. L'exemple de texte alt pour un diagramme à barres est le suivant : "diagramme à barres montrant les ventes quotidiennes du mois par rapport à la moyenne historique", ce qui transmet efficacement l'information essentielle contenue dans l'image. Cette approche garantit que tous les utilisateurs, quelles que soient leurs capacités visuelles, peuvent accéder aux données présentées dans le graphique et les comprendre.
Lorsque vous donnez au modèle une instruction générique, le modèle de base décrit en détail les éléments visuels de l'image, mais n'interprète pas toujours les informations véhiculées par l'image.
Une instruction
Expliquez l'image.
Réponse
Détaille les éléments visuels et tente d'expliquer les informations transmises par l'image factice, sans saisir l'idée générale exprimée, comme le montre cet extrait de la réponse :
Dans l'ensemble, l'image suggère que l'entreprise a connu une croissance significative de ses revenus au cours de l'année écoulée, avec une augmentation notable en février. La ligne rose mettant en évidence les ventes mensuelles moyennes fournit un contexte pour la tendance des revenus, permettant aux spectateurs de comprendre rapidement la performance de l'entreprise.
Utilisation du modèle de vision Llama Guard pour vérifier la sécurité des images
Copy link to section
Cet exemple montre le llama-guard-3-11b-vision classant la sécurité d'une image et du texte qui l'accompagne, soumis en tant qu'entrée. Pour plus d'informations sur les types de contenus classés comme dangereux, voir la fiche modèle.
Remarques sur l'utilisation du modèle de fondation de l' llama-guard-3-11b-vision :
Pour trouver le modèle, dans le menu déroulant du champ Modèle, choisissez Afficher tous les modèles de fondation. Modifiez les filtres de recherche en supprimant l'option Tâche>Chat et en sélectionnant l'option Modalités>Image.
Ne modifiez pas l'invite système pour le modèle de base.
La capture d'écran montre que l'image d'un chiot est correctement classée comme safe.
Le modèle prend en compte à la fois l'image et le texte de l'invite lorsqu'il évalue la sécurité du contenu. Par exemple, la capture d'écran suivante montre une image inoffensive d'un bâtiment, mais avec un texte correspondant qui demande des conseils sur la manière d'entrer illégalement dans le bâtiment.
La catégorie S2 identifie les références aux crimes non violents. Pour plus d'informations sur les catégories que le modèle de la fondation « llama-guard-3-11b-vision » est capable de reconnaître, consultez la documentation de Llama Guard 3.
Dans l'exemple suivant, un diagramme expliquant les différences entre les modèles d'IA traditionnels et les modèles de base est soumis au modèle de base d' pixtral-12b, accompagné de l'instruction « What information does this image convey? ».
Le modèle de la fondation « pixtral-12b » répond par l'explication complète suivante :
L'image met en contraste les modèles d'IA traditionnels et les modèles de fondation, en soulignant leurs mécanismes et capacités respectifs.
Modèles d'IA traditionnelsSur la gauche de l'image, les modèles d'IA traditionnels sont représentés. Ces modèles fonctionnent comme suit :
Entraînement : Chaque modèle est entraîné sur un type de données spécifique (représenté par différentes icônes telles qu'un document, une base de données, une feuille de calcul, etc.)
Les modèles : Chaque type de données donne lieu à la création d'un modèle distinct (model_1, model_2, model_3, etc.).
Tâches : Chaque modèle est spécialisé dans des tâches particulières, indiquées par des coches vertes.
Modèles de fondationSur la droite de l'image, les modèles de fondation sont illustrés :
Données externes massives : Les modèles de fondation sont formés sur une grande quantité de données externes diverses, représentées par différentes icônes, notamment une base de données, un document, un code, etc. Modèle à base unique : Ce modèle est formé sur les données externes massives, ce qui lui permet de traiter un large éventail de tâches.
Messages-guides : Les tâches sont effectuées à l'aide d'invites qui guident les réponses du modèle.
Tâches : Le modèle de base peut gérer plusieurs tâches, notamment :
Traduction
Génération de texte
Génération de code
Questions-réponses factuelles
Récapitulatif
Modèles d'IA traditionnels : Spécialisés pour des tâches spécifiques après avoir été formés sur des ensembles de données particuliers.
Modèles de base : Formés sur des ensembles de données vastes et variés, ils permettent de traiter plusieurs tâches avec un seul modèle à l'aide de messages-guides.