0 / 0
Retourner à la version anglaise de la documentation
Dialoguer avec des documents et des images
Dernière mise à jour : 14 nov. 2024
Dialoguer avec des documents et des images

Ajoutez rapidement des documents et des images à discuter aux invites du foundation model que vous créez dans le laboratoire d'invites.

Vous pouvez associer les types de fichiers suivants à votre invite :

Documents de mise à la terre

Si vous souhaitez qu'un foundation model intègre des informations factuelles et actuelles dans les résultats qu'il génère, fondez l'entrée du foundation model sur des faits pertinents en associant des documents à l'invite.

Ce modèle, connu sous le nom de " retrieval-augmented generation" (RAG), est particulièrement utile dans les scénarios de questions-réponses où l'on souhaite que le foundation model génère des réponses exactes.

Voir Chatter avec des documents téléchargés.

Images

Vous pouvez ajouter une image et convertir les informations visuelles en texte pour faciliter les tâches suivantes :

  • Automatiser la génération de textes alternatifs pour les images afin d'aider les utilisateurs aveugles à percevoir les éléments visuels significatifs d'une page web et à satisfaire aux exigences d'accessibilité
  • Résumer les photos des dommages matériels qui accompagnent les demandes d'indemnisation
  • Convertir les images d'un document en texte avant que le document ne soit utilisé comme information de base pour un cas d'utilisation RAG.

Voir Chatting avec des images téléchargées.

Discuter avec des documents téléchargés

Pour tester rapidement la qualité d'un document et les capacités d'un foundation model avant d'utiliser le modèle ou le document dans une solution de génération augmentée par récupération (RAG), dialoguez avec le document dans Prompt Lab.

Le texte du document que vous téléchargez est converti en éléments de texte et stocké dans un index vectoriel où les informations peuvent être rapidement recherchées. Lorsqu'une question est soumise à l'aide de l'invite, une recherche de similarité s'exécute sur l'index vectoriel pour trouver le contenu pertinent. Les premiers résultats de la recherche sont ajoutés à l'invite en tant que contexte et soumis avec la question originale au foundation model en tant qu'entrée.

À des fins de test, vous pouvez accepter les paramètres par défaut du magasin de vecteurs en mémoire qui est créé automatiquement pour vous.

Si vous décidez de mettre en œuvre une solution plus robuste qui utilise des documents vectorisés, consultez la section Ajout de documents vectorisés pour les invites du foundation model mise à la terre pour en savoir plus sur les autres options de configuration.

Pour discuter avec un document, procédez comme suit:

  1. Dans le laboratoire d'invite en mode chat, sélectionnez un foundation model, puis spécifiez les paramètres du modèle que vous souhaitez utiliser pour l'invite.

  2. Cliquez sur l'icône Télécharger des documents " Icône de téléchargement de documents, puis sélectionnez Ajouter des documents.

    Naviguez pour télécharger un fichier ou choisissez un actif de données dans votre projet avec le fichier que vous souhaitez ajouter. Pour plus d'informations sur les types de fichiers pris en charge, voir Documents de base.

    Si vous souhaitez utiliser un index vectoriel plus robuste que l'index en mémoire par défaut pour stocker vos documents, consultez la section Création d'un index vectoriel.

  3. Cliquez sur Créer.

    Un message peut s'afficher indiquant que la construction de l'index vectoriel est en cours. Pour savoir quand l'index est prêt, fermez le message, puis cliquez sur le document téléchargé pour ouvrir la page de détails de l'index vectoriel.

  4. Posez des questions sur les informations contenues dans le document pour voir dans quelle mesure le modèle peut utiliser les informations contextuelles pour répondre à vos questions.

    Par exemple, vous pouvez demander au foundation model résumer le document ou de poser des questions sur les concepts expliqués dans le document.

Si les réponses attendues ne sont pas trouvées, vous pouvez revoir la configuration de l'index vectoriel et procéder à des ajustements. Voir Gestion d'un index vectoriel.

Mise à la terre de documents

Les informations contextuelles que vous ajoutez peuvent inclure de la documentation produit, des détails sur la politique de l'entreprise, des données sur les performances du secteur, des faits et des chiffres liés à un sujet particulier, ou tout autre contenu important pour votre cas d'utilisation. Les documents de mise à la terre peuvent également inclure des documents commerciaux propriétaires que vous ne souhaitez pas mettre à disposition ailleurs.

Le tableau suivant présente les types de fichier qui peuvent être ajoutés en tant que documents de mise à la terre.

Tableau 1. Types de fichier pris en charge pour les documents de mise à la terre
Type de fichier pris en charge Taille totale maximale du fichier
docx 10 Mo
format PDF 50 Mo
pptx 300 Mo
TXT 5 Mo

 

Vous pouvez ajouter un ou plusieurs fichiers à votre invite. La taille totale des fichiers autorisée pour l'ensemble des documents de base varie en fonction des types de fichiers de l'ensemble. Le type de fichier avec la taille totale de fichier la plus faible autorisée détermine la limite de taille pour tous les documents de mise à la terre. Par exemple, si le jeu comprend trois fichiers PPTX, la taille limite du fichier est de 300 Mo, ce qui correspond à la taille maximale autorisée pour les fichiers PPTX. Si l'ensemble de fichiers comprend deux fichiers PPTX et un fichier TXT, la limite de taille du fichier est de 5 Mo car la limite pour les fichiers TXT est appliquée à l'ensemble.

Chatter avec des images téléchargées

Téléchargez une image à ajouter aux données que vous soumettez à un foundation model multimodale. Après avoir ajouté l'image, vous pouvez poser des questions sur son contenu.

Note: Le téléchargement d'images dans un chat n'est possible que dans les régions où des modèles de fondation multimodaux sont disponibles. Pour plus de détails, voir Disponibilité régionale.

Veillez à examiner et à mettre en œuvre toutes les suggestions du fournisseur du foundation model qui contribuent à maintenir le modèle sur la bonne voie et à bloquer les contenus inappropriés, par exemple en ajoutant les messages-guides recommandés par le système. Pour plus d'informations sur la modification d'une invite système, voir Modèles de conversation.

Les exigences en matière d'images sont les suivantes :

  • Ajouter une image par chat
  • Les types de fichiers pris en charge sont PNG ou JPEG
  • La taille peut aller jusqu'à 4 Mo
  • Une image compte pour environ 1 200 à 3 000 jetons, selon la taille de l'image

Pour chatter avec une image, suivez les étapes suivantes :

  1. Dans le laboratoire d'invite en mode conversation, sélectionnez un foundation model capable de convertir des images en texte, puis spécifiez les paramètres du modèle que vous souhaitez utiliser pour l'invite.

  2. Cliquez sur l'icône Télécharger des documents " Icône de téléchargement de documents, puis sélectionnez Ajouter une image.

    Parcourez pour télécharger un fichier image ou choisissez une ressource de données dans votre projet avec le fichier image que vous voulez ajouter.

  3. Cliquez sur Ajouter.

  4. Saisissez une question sur l'image, puis soumettez l'invite.

    Précisez ce que vous voulez savoir sur l'image.

  5. Facultatif : enregistrer l'invite en tant que modèle d'invite ou session d'invite.

    Note: Vous ne pouvez pas enregistrer un chat avec une image ajoutée en tant que bloc-notes d'invite.

    Pour plus d'informations, voir Sauvegarde de votre travail.

L'image que vous ajoutez est enregistrée dans le IBM Cloud Object Storage associé à votre projet en tant que ressource de données.

Voir des exemples de messages-guides utilisés pour discuter des images avec les modèles de base suivants :

Alternative programmatique

Vous pouvez également utiliser l'API de chat watsonx.ai pour demander à un foundation model vous parler d'images. Pour plus d'informations, voir Ajouter une fonction de chat génératif à vos applications avec l'API de chat.

Promouvoir le Llama 3.2 11B modèle de vision

Dans l'exemple suivant, un diagramme du modèle de génération augmentée par récupération (RAG) est soumis au foundation model llama-3-2-11b-vision-instruct avec l'instruction " Explain the process that is shown in the image".

Un foundation model la génération d'images en texte explique un diagramme du modèle RAG.

Le foundation model llama-3-2-11b-vision-instruct répond par l'explication complète suivante :

L'image illustre le processus d'interaction d'un utilisateur avec un chatbot ou un système d'intelligence artificielle conversationnelle. Voici une analyse étape par étape:

  1. Contribution de l'utilisateur : L'utilisateur entame la conversation en posant une question ou en fournissant des informations.

  2. Question : La requête de l'utilisateur est reçue par le système, qui la traite ensuite.

  3. Recherche : Le système effectue une recherche dans sa base de connaissances ou sa base de données pour trouver des informations pertinentes en rapport avec la question de l'utilisateur.

  4. Résultats de la recherche : Le système récupère les meilleurs résultats du processus de recherche.

  5. Entrée = Instruction + Résultats de la recherche + Question : Le système combine l'entrée de l'utilisateur (question), les résultats de la recherche et tout contexte ou instruction supplémentaire pour comprendre l'intention de l'utilisateur.

  6. modèle de base : Le système utilise un foundation model, qui est un grand modèle de langage qui a été pré-entraîné sur une grande quantité de données textuelles. Ce modèle est utilisé pour générer des réponses qui sont contextuellement pertinentes et précises.

  7. Réponse factuelle : Le foundation model traite les données combinées et génère une réponse factuelle sur la base des résultats de la recherche et des données de l'utilisateur.

En résumé, l'image représente un utilisateur interagissant avec un chatbot ou un système d'IA conversationnel, qui utilise une combinaison de traitement du langage naturel (NLP), d'apprentissage automatique et de recherche de connaissances pour fournir une réponse factuelle à la question de l'utilisateur.

Promouvoir le Llama 3.2 90B modèle de vision

Cet exemple illustre la manière dont les instructions données dans le texte affectent la qualité des résultats du foundation model.

L'invite soumise au foundation model llama-3-2-90b-vision-instruct comprend une image qui illustre un texte alternatif efficace à utiliser pour une image d'un tableau des recettes.

Un diagramme qui montre un exemple de texte alternatif efficace pour une image.

Lorsque l'instruction est spécifique, le foundation model génère une réponse utile.

Une instruction
Qu'est-ce que l'image transmet à propos du texte de l'image alternative ?
Réponse
L'image montre comment un texte alternatif peut être utilisé pour fournir une description concise et informative d'une image pour les personnes malvoyantes. L'exemple de texte alt pour un diagramme à barres est le suivant : "diagramme à barres montrant les ventes quotidiennes du mois par rapport à la moyenne historique", ce qui transmet efficacement l'information essentielle contenue dans l'image. Cette approche garantit que tous les utilisateurs, quelles que soient leurs capacités visuelles, peuvent accéder aux données présentées dans le graphique et les comprendre.

Lorsque vous donnez au modèle une instruction générique, le foundation model décrit en détail les éléments visuels de l'image, mais n'interprète pas toujours l'information véhiculée par l'image.

Une instruction

Expliquez l'image.

Réponse

Détaille les éléments visuels et tente d'expliquer les informations transmises par l'image factice, sans saisir l'idée générale exprimée, comme le montre cet extrait de la réponse :

Dans l'ensemble, l'image suggère que l'entreprise a connu une croissance significative de ses revenus au cours de l'année écoulée, avec une augmentation notable en février. La ligne rose mettant en évidence les ventes mensuelles moyennes fournit un contexte pour la tendance des revenus, permettant aux spectateurs de comprendre rapidement la performance de l'entreprise.

Utilisation du modèle de vision Llama Guard pour vérifier la sécurité des images

Cet exemple montre le llama-guard-3-11b-vision classant la sécurité d'une image et du texte qui l'accompagne, soumis en tant qu'entrée. Pour plus d'informations sur les types de contenus classés comme dangereux, voir la fiche modèle.

Notes sur l'utilisation du foundation model llama-guard-3-11b-vision:

  • Pour trouver le modèle, dans le menu déroulant du champ Modèle, choisissez Afficher tous les modèles de fondation. Modifiez les filtres de recherche en supprimant l'option Tâche>Chat et en sélectionnant l'option Modalités>Image.

  • Ne modifiez pas l'invite du système pour le foundation model.

Un foundation model génération d'images vers du texte classe une photo d'un chiot pelucheux comme sûre.

La capture d'écran montre que l'image d'un chiot est correctement classée comme safe.

Le modèle prend en compte à la fois l'image et le texte de l'invite lorsqu'il évalue la sécurité du contenu. Par exemple, la capture d'écran suivante montre une image inoffensive d'un bâtiment, mais avec un texte correspondant qui demande des conseils sur la manière d'entrer illégalement dans le bâtiment.

Un foundation model génération d'images à partir de textes classe comme dangereuse l'image d'un bâtiment accompagnée d'un texte demandant comment entrer par effraction.

La catégorie S2 identifie les références aux crimes non violents. Pour plus d'informations sur les catégories que le foundation model llama-guard-3-11b-vision est formé à reconnaître, voir la documentation du Llama Guard 3.

Pour un exemple d'invite qui vous montre comment soumettre une invite textuelle, voir Exemple d'invite : Classer les invites pour plus de sécurité.

Promouvoir le modèle Pixtral-12b

Dans l'exemple suivant, un diagramme expliquant les différences entre les modèles d'IA traditionnels et les modèles de fondation est soumis au foundation model pixtral-12b avec l'instruction " What information does this image convey?".

Un foundation model génération d'images en texte explique un diagramme des différents types de modèles d'IA.

Le foundation model pixtral-12b répond par l'explication détaillée suivante :

L'image met en contraste les modèles d'IA traditionnels et les modèles de fondation, en soulignant leurs mécanismes et capacités respectifs.

Modèles d'IA traditionnels Sur la gauche de l'image, les modèles d'IA traditionnels sont représentés. Ces modèles fonctionnent comme suit :

  1. Entraînement : Chaque modèle est entraîné sur un type de données spécifique (représenté par différentes icônes telles qu'un document, une base de données, une feuille de calcul, etc.)
  2. Les modèles : Chaque type de données donne lieu à la création d'un modèle distinct (model_1, model_2, model_3, etc.).
  3. Tâches : Chaque modèle est spécialisé dans des tâches particulières, indiquées par des coches vertes.

Modèles de fondation Sur la droite de l'image, les modèles de fondation sont illustrés :

  1. Données externes massives : Les modèles de fondation sont formés sur une grande quantité de données externes diverses, représentées par différentes icônes, notamment une base de données, un document, un code, etc. Modèle à base unique : Ce modèle est formé sur les données externes massives, ce qui lui permet de traiter un large éventail de tâches.
  2. Messages-guides : Les tâches sont effectuées à l'aide d'invites qui guident les réponses du modèle.
  3. Tâches : Le foundation model peut prendre en charge de multiples tâches, notamment :
    • Traduction
    • Génération de texte
    • Génération de code
    • Questions-réponses factuelles

Récapitulatif

  • Modèles d'IA traditionnels : Spécialisés pour des tâches spécifiques après avoir été formés sur des ensembles de données particuliers.
  • Modèles de base : Formés sur des ensembles de données vastes et variés, ils permettent de traiter plusieurs tâches avec un seul modèle à l'aide de messages-guides.

En savoir plus

Rubrique parent: Prompt Lab

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus