Dialoguer avec des documents et des fichiers multimédias
Ajoutez rapidement des documents et des fichiers multimédias à discuter aux invites du modèle de fondation que vous créez sur le site Prompt Lab.
Capacités
Vous pouvez associer les types de fichiers suivants à votre invite :
Chatter avec des documents
Si vous souhaitez qu'un modèle de base intègre des informations factuelles et à jour dans les résultats qu'il génère, fondez l'entrée du modèle de base sur des faits pertinents en associant des documents à l'invite.
Ce modèle, connu sous le nom de génération augmentée par récupération (RAG ), est particulièrement utile dans les scénarios de questions-réponses où l'on souhaite que le modèle de base génère des réponses précises.
Pour tester rapidement la qualité d'un document et les capacités d'un modèle de base avant d'utiliser le modèle ou le document dans une solution de génération augmentée par recherche (RAG), discutez avec le document dans Prompt Lab.
Le texte du document que vous téléchargez est converti en éléments de texte et stocké dans un index vectoriel où les informations peuvent être rapidement recherchées. Lorsqu'une question est soumise à l'aide de l'invite, une recherche de similarité s'exécute sur l'index vectoriel pour trouver le contenu pertinent. Les premiers résultats de la recherche sont ajoutés à l'invite en tant que contexte et soumis avec la question originale au modèle de fondation en tant qu'entrée.
À des fins de test, vous pouvez accepter les paramètres par défaut du magasin de vecteurs en mémoire qui est créé automatiquement pour vous.
Si vous décidez de mettre en œuvre une solution plus robuste qui utilise des documents vectorisés, consultez Ajout de documents vectorisés pour les invites du modèle de fondation de mise à la terre pour en savoir plus sur d'autres options de configuration.
Documents de mise à la terre
Les informations contextuelles que vous ajoutez peuvent inclure de la documentation produit, des détails sur la politique de l'entreprise, des données sur les performances du secteur, des faits et des chiffres liés à un sujet particulier, ou tout autre contenu important pour votre cas d'utilisation. Les documents de mise à la terre peuvent également inclure des documents commerciaux propriétaires que vous ne souhaitez pas mettre à disposition ailleurs.
Le tableau suivant présente les types de fichier qui peuvent être ajoutés en tant que documents de mise à la terre.
Type de fichier pris en charge | Taille totale maximale du fichier |
---|---|
DOCX | 10 Mo |
format PDF | 50 Mo |
pptx | 300 Mo |
TXT | 5 Mo |
Vous pouvez ajouter un ou plusieurs fichiers à votre invite. La taille totale des fichiers autorisée pour l'ensemble des documents de base varie en fonction des types de fichiers de l'ensemble. Le type de fichier avec la taille totale de fichier la plus faible autorisée détermine la limite de taille pour tous les documents de mise à la terre. Par exemple, si le jeu comprend trois fichiers PPTX, la taille limite du fichier est de 300 Mo, ce qui correspond à la taille maximale autorisée pour les fichiers PPTX. Si l'ensemble de fichiers comprend deux fichiers PPTX et un fichier TXT, la limite de taille du fichier est de 5 Mo car la limite pour les fichiers TXT est appliquée à l'ensemble.
Chatter avec des images
Télécharger une image à ajouter à l'entrée que vous soumettez à un modèle de fondation multimodal. Après avoir ajouté l'image, vous pouvez poser des questions sur son contenu.
Vous pouvez ajouter une image et convertir les informations visuelles en texte pour faciliter les différentes tâches, notamment :
- Automatiser la génération de textes alternatifs pour les images afin d'aider les utilisateurs aveugles à percevoir des visuels significatifs sur une page web et répondre aux exigences d'accessibilité
- Résumé des photos des dommages matériels accompagnant les déclarations de sinistre
- Convertir les images d'un document en texte avant que le document ne soit utilisé comme base d'informations pour un cas d'utilisation RAG.
Veillez à examiner et à mettre en œuvre toutes les suggestions du fournisseur de modèle de fondation qui contribuent à maintenir le modèle sur la bonne voie et à bloquer les contenus inappropriés, par exemple en ajoutant les invites système recommandées. Pour plus d'informations sur la modification d'une invite système, voir Modèles de conversation.
Les exigences en matière d'images sont les suivantes :
- Ajouter une image par chat
- Une image compte pour environ 1 200 à 3 000 jetons, selon la taille de l'image
Le tableau suivant présente les types de fichiers qui peuvent être ajoutés en tant qu'images.
Type de fichier pris en charge | Taille totale maximale du fichier |
---|---|
Portable Network Graphics | 4 Mo |
Joint Photographic Experts Group | 4 Mo |
L'image que vous ajoutez est enregistrée dans le IBM Cloud Object Storage associé à votre projet en tant que ressource de données.
Procédure
Pour dialoguer avec un document ou un fichier multimédia, procédez comme suit :
Dans l' Prompt Lab, en mode conversation, sélectionnez un modèle de base, puis spécifiez les paramètres du modèle que vous souhaitez utiliser pour l'invite.
Cliquez sur l'icône Télécharger des fichiers
, puis choisissez le type de fichier parmi les suivants :
Documents : Parcourez pour télécharger un fichier ou choisissez une ressource de données dans votre projet avec le fichier que vous voulez ajouter. Pour plus d'informations sur les types de fichiers pris en charge, voir Mise à la terre des documents.
Si vous souhaitez utiliser un index vectoriel plus robuste que l'index en mémoire par défaut pour stocker vos documents, consultez la section Création d'un index vectoriel.
Images : Parcourez pour télécharger un fichier image ou choisissez une ressource de données dans votre projet avec le fichier image que vous souhaitez ajouter.
Audio : Parcourez pour télécharger un fichier audio ou choisissez une ressource de données dans votre projet avec le fichier que vous voulez ajouter.
Cliquez sur Ajouter.
Pour les documents, cliquez sur Créer. Un message peut s'afficher indiquant que la construction de l'index vectoriel est en cours. Pour savoir quand l'index est prêt, fermez le message, puis cliquez sur le document téléchargé pour ouvrir la page de détails de l'index vectoriel.
Posez des questions sur les informations contenues dans le document ou le fichier multimédia pour voir dans quelle mesure le modèle peut utiliser les informations contextuelles pour répondre à vos questions.
Par exemple, vous pouvez demander au modèle de base de résumer ou de poser des questions sur des concepts qui sont expliqués dans le fichier.
Pour les documents, si les réponses attendues ne sont pas trouvées, vous pouvez revoir la configuration de l'index vectoriel et procéder à des ajustements. Voir Gestion d'un index vectoriel.
Facultatif : enregistrer l'invite en tant que modèle d'invite ou session d'invite.
Note: Vous ne pouvez pas enregistrer un chat avec une image ajoutée en tant que bloc-notes d'invite.Pour plus d'informations, voir Sauvegarde de votre travail.
Exemples
Voir des exemples de messages-guides utilisés pour discuter de documents et de fichiers multimédias avec les modèles de base suivants :
- llama-4-scout-17b-16e-instruct
- llama-4-maverick-17b-128e-instruct-fp8
- llama-3-2-11b-vision-instruct
- llama-3-2-90b-vision-instruct
- llama-guard-3-11b-vision
- pixtral-12b
Promouvoir le lama 4 Modèles d'instruction
Llama-4-scout-17b-16e-instruct
Dans l'exemple suivant, l'image d'un graphique à barres est soumise au modèle de fondation llama-4-scout-17b-16e-instruct avec l'instruction Provide a short summary of the data shown in the bar graph
.
Le modèle de fondation llama-4-scout-17b-16e-instruct répond par l'explication détaillée suivante :
Description de l'histogramme : L'histogramme illustre la répartition des lecteurs en fonction de leur formation académique.
Points de données :
- Sécurité et cyberinformation : environ 30
- Ingénierie : environ 40
- Physique quantique : environ 50
- Mathématiques Mathématiques appliquées : moins de 25
- Informatique : plus de 120
- Informations sur les technologies de l'entreprise : environ 85
- Cybersécurité (SRA) : 5
- L'informatique quantique : 5
Analyse :
- Le domaine qui compte le plus grand nombre de lecteurs est l'informatique, avec plus de 120 lecteurs.
- Business IT Information compte environ 85 lecteurs.
- La physique quantique, les mathématiques appliquées, la cybersécurité (SRA) et l'informatique quantique ont un nombre relativement faible de lecteurs.
Conclusion : Le graphique montre que l'informatique et l'informatique de gestion ont le plus grand nombre de lecteurs, tandis que la cybersécurité (SRA) et l'informatique quantique ont le plus petit nombre de lecteurs.
Llama-4-maverick-17b-128e-instruct-fp8
Dans l'exemple suivant, un document sur InfoSphere MDM en français est soumis au modèle de fondation llama-4-maverick-17b-128e-instruct-fp8 avec l'instruction Briefly summarize the attached document in English
.
Le modèle répond par le résumé suivant :
Le modèle de fondation llama-4-maverick-17b-128e-instruct-fp8 traduit le document du français vers l'anglais et génère un résumé, y compris les numéros de page source.
Invitation à consulter le site Llama 3.2 modèles de vision
llama-3-2-11b-vision-instruct
Dans l'exemple suivant, un diagramme du modèle de génération augmentée par récupération (RAG) est soumis au modèle de fondation de l' llama-3-2-11b-vision-instruct, accompagné de l'instruction « Explain the process that is shown in the image
».
Le modèle de la fondation « llama-3-2-11b-vision-instruct » répond par l'explication complète suivante :
L'image illustre le processus d'interaction d'un utilisateur avec un chatbot ou un système d'intelligence artificielle conversationnelle. Voici une analyse étape par étape:
Contribution de l'utilisateur : L'utilisateur entame la conversation en posant une question ou en fournissant des informations.
Question : La requête de l'utilisateur est reçue par le système, qui la traite ensuite.
Recherche : Le système effectue une recherche dans sa base de connaissances ou sa base de données pour trouver des informations pertinentes en rapport avec la question de l'utilisateur.
Résultats de la recherche : Le système récupère les meilleurs résultats du processus de recherche.
Entrée = Instruction + Résultats de la recherche + Question : Le système combine l'entrée de l'utilisateur (question), les résultats de la recherche et tout contexte ou instruction supplémentaire pour comprendre l'intention de l'utilisateur.
Modèle de base : Le système utilise un modèle de base, qui est un grand modèle de langage qui a été pré-entraîné sur une grande quantité de données textuelles. Ce modèle est utilisé pour générer des réponses qui sont contextuellement pertinentes et précises.
Réponse factuelle : Le modèle de base traite les données combinées et génère une réponse factuelle basée sur les résultats de la recherche et les données saisies par l'utilisateur.
En résumé, l'image représente un utilisateur interagissant avec un chatbot ou un système d'IA conversationnel, qui utilise une combinaison de traitement du langage naturel (NLP), d'apprentissage automatique et de recherche de connaissances pour fournir une réponse factuelle à la question de l'utilisateur.
llama-3-2-90b-vision-instruct
Cet exemple illustre comment l'instruction que vous donnez dans le texte affecte la qualité du modèle de base produit.
L'invite qui est soumise au modèle de la fondation llama-3-2-90b-vision-instruct comprend une image qui illustre un texte alternatif efficace à utiliser pour une image d'un tableau des recettes.
Lorsque l'instruction est spécifique, le modèle de fondation génère une réponse utile.
- Une instruction
- Qu'est-ce que l'image transmet à propos du texte de l'image alternative ?
- Réponse
- L'image montre comment un texte alternatif peut être utilisé pour fournir une description concise et informative d'une image pour les personnes malvoyantes. L'exemple de texte alt pour un diagramme à barres est le suivant : "diagramme à barres montrant les ventes quotidiennes du mois par rapport à la moyenne historique", ce qui transmet efficacement l'information essentielle contenue dans l'image. Cette approche garantit que tous les utilisateurs, quelles que soient leurs capacités visuelles, peuvent accéder aux données présentées dans le graphique et les comprendre.
Lorsque vous donnez au modèle une instruction générique, le modèle de base décrit en détail les éléments visuels de l'image, mais n'interprète pas toujours les informations véhiculées par l'image.
- Une instruction
Expliquez l'image.
- Réponse
Détaille les éléments visuels et tente d'expliquer les informations transmises par l'image factice, sans saisir l'idée générale exprimée, comme le montre cet extrait de la réponse :
Dans l'ensemble, l'image suggère que l'entreprise a connu une croissance significative de ses revenus au cours de l'année écoulée, avec une augmentation notable en février. La ligne rose mettant en évidence les ventes mensuelles moyennes fournit un contexte pour la tendance des revenus, permettant aux spectateurs de comprendre rapidement la performance de l'entreprise.
Utilisation du modèle de vision Llama Guard pour vérifier la sécurité des images
Cet exemple montre le llama-guard-3-11b-vision classant la sécurité d'une image et du texte qui l'accompagne, soumis en tant qu'entrée. Pour plus d'informations sur les types de contenus classés comme dangereux, voir la fiche modèle.
Remarques sur l'utilisation du modèle de fondation de l' llama-guard-3-11b-vision :
Pour trouver le modèle, dans le menu déroulant du champ Modèle, choisissez Afficher tous les modèles de fondation. Modifiez les filtres de recherche en supprimant l'option Tâche>Chat et en sélectionnant l'option Modalités>Image.
Ne modifiez pas l'invite système pour le modèle de base.
La capture d'écran montre que l'image d'un chiot est correctement classée comme safe
.
Le modèle prend en compte à la fois l'image et le texte de l'invite lorsqu'il évalue la sécurité du contenu. Par exemple, la capture d'écran suivante montre une image inoffensive d'un bâtiment, mais avec un texte correspondant qui demande des conseils sur la manière d'entrer illégalement dans le bâtiment.
La catégorie S2
identifie les références aux crimes non violents. Pour plus d'informations sur les catégories que le modèle de la fondation « llama-guard-3-11b-vision » est capable de reconnaître, consultez la documentation de Llama Guard 3.
Pour un exemple d'invite qui vous montre comment soumettre une invite textuelle, voir Exemple d'invite : Classer les invites pour plus de sécurité.
Promouvoir le modèle Pixtral-12b
Dans l'exemple suivant, un diagramme expliquant les différences entre les modèles d'IA traditionnels et les modèles de base est soumis au modèle de base d' pixtral-12b, accompagné de l'instruction « What information does this image convey?
».
Le modèle de la fondation « pixtral-12b » répond par l'explication complète suivante :
L'image met en contraste les modèles d'IA traditionnels et les modèles de fondation, en soulignant leurs mécanismes et capacités respectifs.
Modèles d'IA traditionnels Sur la gauche de l'image, les modèles d'IA traditionnels sont représentés. Ces modèles fonctionnent comme suit :
- Entraînement : Chaque modèle est entraîné sur un type de données spécifique (représenté par différentes icônes telles qu'un document, une base de données, une feuille de calcul, etc.)
- Les modèles : Chaque type de données donne lieu à la création d'un modèle distinct (model_1, model_2, model_3, etc.).
- Tâches : Chaque modèle est spécialisé dans des tâches particulières, indiquées par des coches vertes.
Modèles de fondation Sur la droite de l'image, les modèles de fondation sont illustrés :
- Données externes massives : Les modèles de fondation sont formés sur une grande quantité de données externes diverses, représentées par différentes icônes, notamment une base de données, un document, un code, etc. Modèle à base unique : Ce modèle est formé sur les données externes massives, ce qui lui permet de traiter un large éventail de tâches.
- Messages-guides : Les tâches sont effectuées à l'aide d'invites qui guident les réponses du modèle.
- Tâches : Le modèle de base peut gérer plusieurs tâches, notamment :
- Traduction
- Génération de texte
- Génération de code
- Questions-réponses factuelles
Récapitulatif
- Modèles d'IA traditionnels : Spécialisés pour des tâches spécifiques après avoir été formés sur des ensembles de données particuliers.
- Modèles de base : Formés sur des ensembles de données vastes et variés, ils permettent de traiter plusieurs tâches avec un seul modèle à l'aide de messages-guides.
En savoir plus
- Ajout de documents vectorisés pour les invites de modèle de fondation de mise à la terre
- Génération augmentée par la recherche (RAG)
- Vous pouvez également utiliser l'API de chat watsonx.ai pour demander à un modèle de fondation des informations sur différents types de fichiers. Pour plus d'informations, voir Ajouter une fonction de chat génératif à vos applications avec l'API de chat.
Sujet parent : Prompt Lab