Chatten mit Dokumenten und Bildern

Letzte Aktualisierung: 15. Apr. 2025
Chatten mit Dokumenten und Bildern

Fügen Sie schnell Dokumente und Bilder hinzu, über die Sie mit den von Ihnen erstellten Eingabeaufforderungen für das Stiftungsmodell in der Prompt Lab chatten können.

Sie können die folgenden Dateitypen mit Ihrer Eingabeaufforderung verknüpfen:

Grundlagendokumente

Wenn Sie möchten, dass ein Fundamentmodell aktuelle, sachliche Informationen in die von ihm generierten Ergebnisse einfließen lässt, sollten Sie die Eingaben des Fundamentmodells auf relevanten Fakten basieren lassen, indem Sie der Eingabe Dokumente zuordnen.

Dieses Muster, das als "Retrieval-Augmented Generation" (RAG ) bekannt ist, ist besonders hilfreich bei Frage-Antwort-Szenarien, bei denen das Grundmodell genaue Antworten generieren soll.

Siehe Chatten mit hochgeladenen Dokumenten.

Images

Sie können ein Bild hinzufügen und die visuellen Informationen in Text umwandeln, um bei den verschiedenen Aufgaben zu helfen, darunter:

  • Automatisierung der Erstellung alternativer Texte für Bilder, um blinden Benutzern zu helfen, aussagekräftige visuelle Inhalte auf einer Webseite wahrzunehmen und die Anforderungen an die Barrierefreiheit zu erfüllen
  • Zusammenfassende Fotos von Sachschäden, die Versicherungsansprüchen beiliegen
  • Bilder aus einem Dokument werden in Text umgewandelt, bevor das Dokument als grundlegende Information für einen RAG-Anwendungsfall verwendet wird.

Siehe Chatten mit hochgeladenen Bildern.

Chatten mit hochgeladenen Dokumenten

Um sowohl die Qualität eines Dokuments als auch die Fähigkeiten eines Foundation-Modells schnell zu testen, bevor Sie das Modell oder Dokument in einer RAG-Lösung (Retrieval-Augmented Generation) verwenden, chatten Sie mit dem Dokument in Prompt Lab.

Der Text aus dem von Ihnen hochgeladenen Dokument wird in Texteinbettungen umgewandelt und in einem Vektorindex gespeichert, in dem die Informationen schnell durchsucht werden können. Wenn eine Frage mithilfe der Eingabeaufforderung übermittelt wird, wird eine Ähnlichkeitssuche im Vektorindex ausgeführt, um relevante Inhalte zu finden. Die Top-Suchergebnisse werden als Kontext zur Eingabe hinzugefügt und zusammen mit der ursprünglichen Frage als Eingabe an das Stiftungsmodell übermittelt.

Zu Testzwecken können Sie die Standardeinstellungen für den speicherinternen Vektorspeicher übernehmen, der automatisch für Sie erstellt wird.

Wenn Sie sich für die Implementierung einer robusteren Lösung mit vektorisierten Dokumenten entscheiden, finden Sie weitere Informationen zu den Konfigurationsoptionen unter „Hinzufügen vektorisierter Dokumente für Eingabeaufforderungen des Fundamentmodells“.

Gehen Sie wie folgt vor, um mit einem Dokument zu chatten:

  1. Wählen Sie im Chat-Modus von Prompt Lab ein Fundamentmodell aus und geben Sie dann alle Modellparameter an, die Sie für die Eingabeaufforderung verwenden möchten.

  2. Klicken Sie auf das Symbol für das Hochladen von Dokumenten " Symbol für das Hochladen von Dokumenten, und wählen Sie dann Dokumente hinzufügen.

    Suchen Sie nach einer Datei oder wählen Sie ein Datenasset in Ihrem Projekt mit der Datei aus, die Sie hinzufügen möchten. Weitere Informationen über unterstützte Dateitypen finden Sie unter Grundlagendokumente.

    Wenn Sie einen robusteren Vektorindex als den standardmäßigen In-Memory-Index zum Speichern Ihrer Dokumente verwenden möchten, lesen Sie bitte den Abschnitt Erstellen eines Vektorindexes.

  3. Klicken Sie auf Erstellen.

    Möglicherweise wird eine Meldung angezeigt, die besagt, dass die Erstellung des Vektorindexes im Gange ist. Um herauszufinden, wann der Index fertig ist, schließen Sie die Nachricht und klicken Sie dann auf das hochgeladene Dokument, um die Detailseite des Vektorindex-Assets zu öffnen.

  4. Stellen Sie Fragen zu Informationen aus dem Dokument, um zu sehen, wie gut das Modell die Kontextinformationen nutzen kann, um Ihre Fragen zu beantworten.

    Sie können beispielsweise das Modell der Stiftung bitten, das Dokument zusammenzufassen, oder nach Konzepten fragen, die im Dokument erläutert werden.

Wenn die erwarteten Antworten nicht gefunden werden, können Sie die Konfiguration des Vektorindex-Assets überprüfen und Anpassungen vornehmen. Siehe Verwaltung eines Vektorindex.

Erdungsdokumente

Die Kontextinformationen, die Sie hinzufügen, können Produktdokumentation, Einzelheiten zu den Unternehmensrichtlinien, Leistungsdaten der Branche, Fakten und Zahlen zu einem bestimmten Thema oder andere Inhalte umfassen, die für Ihren Anwendungsfall von Bedeutung sind. Erdungsdokumente können auch proprietäre Geschäftsmaterialien enthalten, die Sie anderswo nicht verfügbar machen möchten.

Hinweis: Wenn Sie den Prompt als Prompt-Vorlage speichern möchten, können Sie nur Dateien mit einer maximalen Gesamtgröße von 5 MB hinzufügen.

Die folgende Tabelle zeigt die Dateitypen, die als Erdungsdokumente hinzugefügt werden können.

Tabelle 1. Unterstützte Dateitypen für Erdungsdokumente
Unterstützter Dateityp Maximale Gesamtdateigröße
docx 10 MB
PDF-Datei 50 MB
PPTX 300 MB
TXT 5 MB

 

Sie können eine oder mehrere Dateien zu Ihrer Eingabeaufforderung hinzufügen. Die zulässige Gesamtdateigröße für den Satz von Grundlagendokumenten hängt von den Dateitypen des Satzes ab. Der Dateityp mit der niedrigsten zulässigen Gesamtdateigröße bestimmt die Größenbegrenzung für alle Erdungsdokumente. Wenn das Set beispielsweise drei PPTX-Dateien enthält, beträgt die maximale Dateigröße 300 MB, die für PPTX-Dateien zulässig ist. Wenn der Dateisatz zwei PPTX-Dateien und eine TXT-Datei enthält, beträgt die Dateigrößenbegrenzung 5 MB, da die Begrenzung für TXT-Dateien auf den Satz angewendet wird.

Chatten mit hochgeladenen Bildern

Laden Sie ein Bild hoch, um es zu den Eingaben hinzuzufügen, die Sie an ein multimodales Grundlagenmodell senden. Nachdem Sie das Bild hinzugefügt haben, können Sie Fragen zum Bildinhalt stellen.

Hinweis: Das Hochladen von Bildern in einen Chat wird nur in Regionen unterstützt, in denen multimodale Stiftungsmodelle verfügbar sind. Einzelheiten finden Sie unter Regionale Verfügbarkeit.

Achten Sie darauf, alle Vorschläge des Anbieters des Stiftungsmodells zu prüfen und umzusetzen, die dazu beitragen, das Modell auf Kurs zu halten und unangemessene Inhalte zu blockieren, wie z. B. das Hinzufügen empfohlener Systemansagen. Weitere Informationen zum Bearbeiten einer Systemansage finden Sie unter Chat-Vorlagen.

Die Bildanforderungen sind wie folgt:

  • Ein Bild pro Chat hinzufügen
  • Unterstützte Dateitypen sind PNG oder JPEG
  • Die Größe kann bis zu 4 MB betragen
  • Ein Bild wird je nach Bildgröße mit etwa 1.200 bis 3.000 Token bewertet

Um mit einem Bild zu chatten, führen Sie die folgenden Schritte aus:

  1. Wählen Sie im Chat-Modus von Prompt Lab ein Basismodell aus, das Bilder in Text umwandeln kann, und geben Sie dann alle Modellparameter an, die Sie für die Eingabeaufforderung verwenden möchten.

  2. Klicken Sie auf das Symbol Dokumente hochladen Symbol für das Hochladen von Dokumenten, und wählen Sie dann Bild hinzufügen.

    Durchsuchen, um eine Bilddatei hochzuladen, oder wählen Sie ein Datenelement in Ihrem Projekt mit der Bilddatei, die Sie hinzufügen möchten.

  3. Klicken Sie auf Hinzufügen.

  4. Geben Sie eine Frage zum Bild ein und senden Sie die Eingabeaufforderung ab.

    Geben Sie genau an, was Sie über das Bild wissen möchten.

  5. Optional: Speichern Sie den Prompt als Prompt-Vorlage oder Prompt-Sitzung.

    Hinweis: Sie können einen Chat mit einem hinzugefügten Bild nicht als Prompt-Notizbuch speichern.

    Weitere Informationen finden Sie unter Speichern Ihrer Arbeit.

Das von Ihnen hinzugefügte Bild wird in dem IBM Cloud Object Storage Bucket gespeichert, das Ihrem Projekt als Daten-Asset zugeordnet ist.

Sehen Sie sich die Beispielaufforderungen an, die für Gespräche über Bilder mit den folgenden Stiftungsmodellen verwendet werden:

Programmatische Alternative

Sie können auch die Chat-API watsonx.ai verwenden, um ein Modell der Stiftung zu Bildern zu befragen. Weitere Informationen finden Sie unter Hinzufügen einer generativen Chatfunktion zu Ihren Anwendungen mit der Chat-API.

Prompting the Llama 4 Unterrichtsmodelle

Llama-4-scout-17b-16e-instruct

Im folgenden Beispiel wird ein Bild eines Balkendiagramms zusammen mit der Anweisung Provide a short summary of the data shown in the bar graph an das Gründungsmodell llama-4-scout-17b-16e-instruct übermittelt.

Ein Balkendiagramm, das ein Beispiel für eine effektive Datenextraktion aus einem Bild zeigt.

Das Stiftungsmodell llama-4-scout-17b-16e-instruct antwortet mit der folgenden umfassenden Erklärung:

Beschreibung des Balkendiagramms: Das Balkendiagramm veranschaulicht die Verteilung der Leser auf verschiedene akademische Hintergründe.

Datenpunkte:

  • Cyber-Sicherheitsinformationen: ca. 30
  • Technik: etwa 40
  • Quantenphysik: rund 50
  • Mathematik Angewandte Mathematik: unter 25
  • Informatik: über 120
  • Business IT Information: rund 85
  • Cybersicherheit (SRA): 5
  • Quantencomputing: 5

Analyse:

  • Das Fachgebiet mit den meisten Lesern ist die Informatik mit über 120.
  • Business IT Information hat rund 85 Leser.
  • Die Quantenphysik, die angewandte Mathematik, die Cybersicherheit (SRA) und die Quanteninformatik haben relativ geringe Leserzahlen.

Schlussfolgerung: Die Grafik zeigt, dass Informatik und Wirtschaftsinformatik die meisten Leser haben, während Cybersicherheit (SRA) und Quanteninformatik die wenigsten Leser haben.

Llama-4-maverick-17b-128e-instruct-fp8

Im folgenden Beispiel wird ein Dokument über InfoSphere MDM in französischer Sprache zusammen mit der Anweisung Briefly summarize the attached document in English an das Stiftungsmodell llama-4-maverick-17b-128e-instruct-fp8 übermittelt.

Das Modell antwortet mit der folgenden Zusammenfassung:

Ein Diagramm, das ein Beispiel für eine effektive Übersetzung eines Dokuments zeigt.

Das Modell llama-4-maverick-17b-128e-instruct-fp8 übersetzt das Dokument aus dem Französischen ins Englische und erstellt eine Zusammenfassung, einschließlich der Seitenzahlen der Quelle.

Aufrufen des Llama 3.2 11B Sichtmodells

Im folgenden Beispiel wird ein Diagramm des RAG-Musters (Retrieval-Augmented Generation) zusammen mit der Anweisung Explain the process that is shown in the image an das llama-3-2-11b-vision-instruct -Stiftungsmodell übermittelt.

Ein Modell zur Bild-zu-Text-Generierung erklärt ein Diagramm des RAG-Musters.

Das Stiftungsmodell von llama-3-2-11b-vision-instruct antwortet mit der folgenden umfassenden Erklärung:

Das Bild veranschaulicht den Prozess der Interaktion eines Benutzers mit einem Chatbot oder einem KI-System für Unterhaltungen. Hier ist eine schrittweise Aufschlüsselung:

  1. Benutzereingabe: Der Benutzer initiiert das Gespräch, indem er eine Frage stellt oder eine Eingabe macht.

  2. Frage: Die Anfrage des Benutzers wird vom System entgegengenommen und bearbeitet.

  3. Suche: Das System durchsucht seine Wissensbasis oder Datenbank, um relevante Informationen zur Frage des Benutzers zu finden.

  4. Top-Suchergebnisse: Das System ruft die wichtigsten Suchergebnisse aus dem Suchprozess ab.

  5. Eingabe = Anweisung + Suchergebnisse + Frage: Das System kombiniert die Eingabe des Benutzers (Frage), die Suchergebnisse und jeden zusätzlichen Kontext oder Anweisungen, um ein umfassendes Verständnis der Absicht des Benutzers zu erhalten.

  6. Grundmodell: Das System verwendet ein Grundmodell, ein großes Sprachmodell, das mit einer großen Menge an Textdaten vorab trainiert wurde. Dieses Modell wird verwendet, um Antworten zu generieren, die kontextuell relevant und genau sind.

  7. Faktenbasierte Antwort: Das Modell der Stiftung verarbeitet die kombinierten Eingaben und generiert eine faktenbasierte Antwort auf der Grundlage der Suchergebnisse und der Benutzereingaben.

Zusammengefasst zeigt das Bild einen Nutzer, der mit einem Chatbot oder einem KI-System interagiert, das eine Kombination aus natürlicher Sprachverarbeitung (NLP), maschinellem Lernen und Wissensabfrage verwendet, um eine sachliche Antwort auf die Frage des Nutzers zu geben.

Aufrufen des Llama 3.2 90B Sichtmodells

Dieses Beispiel zeigt, wie sich die Anweisungen, die Sie im Text eingeben, auf die Qualität der Ausgabe des Fundamentmodells auswirken.

Die an das llama-3-2-90b-vision-instruct -Stiftungsmodell gesendete Eingabe enthält ein Bild, das einen effektiven alternativen Text für ein Bild eines Umsatzdiagramms veranschaulicht.

Ein Diagramm, das ein Beispiel für einen effektiven Alternativtext für ein Bild zeigt.

Wenn die Anweisung spezifisch ist, generiert das Fundamentmodell eine nützliche Antwort.

Anweisung
Was sagt das Bild über den alternativen Bildtext aus?
Antwort
Das Bild zeigt, wie alternativer Text verwendet werden kann, um eine prägnante und informative Beschreibung eines Bildes für sehbehinderte Personen zu liefern. Der Beispiel-Alt-Text für ein Balkendiagramm lautet: "Balkendiagramm, das die täglichen Umsätze des Monats im Vergleich zum historischen Durchschnitt zeigt", was die wesentlichen Informationen des Bildes gut wiedergibt. Dieser Ansatz stellt sicher, dass alle Benutzer, unabhängig von ihren visuellen Fähigkeiten, auf die im Diagramm dargestellten Daten zugreifen und sie verstehen können.

Wenn Sie dem Modell eine allgemeine Anweisung geben, beschreibt das Grundmodell die visuellen Elemente des Bildes im Detail, interpretiert aber nicht immer die im Bild übermittelten Informationen.

Anweisung

Erklären Sie das Bild.

Antwort

Er geht auf die visuellen Elemente ein und versucht, die Informationen zu erklären, die in dem Dummy-Bild vermittelt werden, ohne den größeren Gedanken zu erfassen, der ausgedrückt wird, wie dieser Auszug aus der Antwort zeigt:

Insgesamt deutet das Bild darauf hin, dass das Unternehmen im vergangenen Jahr ein deutliches Umsatzwachstum verzeichnen konnte, mit einem bemerkenswerten Anstieg im Februar. Die rosafarbene Linie, die den durchschnittlichen monatlichen Umsatz hervorhebt, bietet einen Kontext für den Umsatztrend, der es dem Betrachter ermöglicht, die Leistung des Unternehmens schnell zu verstehen.

Verwendung des Llama Guard-Vision-Modells zur Überprüfung der Bildsicherheit

Dieses Beispiel zeigt, wie llama-guard-3-11b-vision die Sicherheit eines Bildes und des dazugehörigen Textes einstuft, die als Eingabe übermittelt werden. Weitere Informationen über die Arten von Inhalten, die als unsicher eingestuft werden, finden Sie auf der Musterkarte.

Hinweise zur Verwendung des llama-guard-3-11b-vision -Stiftungsmodells:

  • Um das Modell zu finden, wählen Sie im Dropdown-Menü des Feldes Modell die Option Alle Gründungsmodelle anzeigen. Ändern Sie die Suchfilter, indem Sie die Option Aufgabe>Chat deaktivieren und die Option Modalitäten>Bild auswählen.

  • Bearbeiten Sie nicht die Systemaufforderung für das Fundamentmodell.

Ein Modell zur Bild-zu-Text-Generierung klassifiziert ein Foto eines flauschigen Welpen als sicher.

Der Screenshot zeigt, dass das Bild eines Welpen genau als safe klassifiziert wird.

Das Modell berücksichtigt sowohl das Bild als auch den Text in der Eingabeaufforderung, wenn es den Inhalt auf Sicherheit prüft. Der folgende Screenshot zeigt zum Beispiel ein harmloses Bild eines Gebäudes, aber mit einem entsprechenden Text, der um Ratschläge bittet, wie man das Gebäude unrechtmäßig betreten kann.

Ein Modell zur Bild-zu-Text-Generierung klassifiziert ein Bild eines Gebäudes mit Text, der fragt, wie man als unsicher einbricht.

Die Kategorie S2 kennzeichnet Hinweise auf nicht gewalttätige Straftaten. Weitere Informationen zu den Kategorien, auf deren Erkennung das llama-guard-3-11b-vision -Stiftungsmodell trainiert ist, finden Sie in der Llama Guard 3-Dokumentation.

Ein Beispiel für einen Prompt, der Ihnen zeigt, wie Sie einen Nur-Text-Prompt übermitteln können, finden Sie unter Beispiel-Prompt: Klassifizierung von Prompts für die Sicherheit.

Aufrufen des Modells Pixtral-12b

Im folgenden Beispiel wird ein Diagramm, das die Unterschiede zwischen traditionellen KI-Modellen und Fundamentmodellen erklärt, zusammen mit der Anweisung What information does this image convey? an das Fundamentmodell pixtral-12b gesendet.

Ein Modell zur Bild-zu-Text-Generierung erklärt ein Diagramm der verschiedenen Arten von KI-Modellen.

Das Stiftungsmodell von pixtral-12b antwortet mit der folgenden umfassenden Erklärung:

Das Bild stellt die traditionellen KI-Modelle den Stiftungsmodellen gegenüber und hebt ihre jeweiligen Mechanismen und Fähigkeiten hervor.

Traditionelle AI-Modelle Auf der linken Seite des Bildes sind traditionelle KI-Modelle abgebildet. Diese Modelle funktionieren wie folgt:

  1. Training: Jedes Modell wird anhand eines bestimmten Datentyps trainiert (dargestellt durch verschiedene Symbole, wie z. B. ein Dokument, eine Datenbank, eine Kalkulationstabelle usw.).
  2. Modelle: Für jede Art von Daten wird ein eigenes Modell erstellt (model_1, model_2, model_3 usw.).
  3. Aufgaben: Jedes Modell ist auf bestimmte Aufgaben spezialisiert, die durch grüne Häkchen gekennzeichnet sind.

Fundamentmodelle Auf der rechten Seite des Bildes sind Fundamentmodelle abgebildet:

  1. Massive externe Daten: Foundation-Modelle werden auf einer riesigen Menge unterschiedlicher externer Daten trainiert, die durch verschiedene Symbole dargestellt werden, darunter eine Datenbank, ein Dokument, ein Code und vieles mehr. Ein Grundmodell: Dieses Modell wird anhand der umfangreichen externen Daten trainiert, so dass es eine Vielzahl von Aufgaben bewältigen kann.
  2. Aufforderungen: Die Aufgaben werden mit Hilfe von Aufforderungen ausgeführt, die die Antworten des Modells anleiten.
  3. Aufgaben: Das Stiftungsmodell kann mehrere Aufgaben übernehmen, darunter:
    • Übersetzung
    • Textgenerierung
    • Codegenerierung
    • Beantwortung von Sachfragen

Zusammenfassung

  • Traditionelle KI-Modelle: Spezialisiert auf bestimmte Aufgaben, nachdem sie auf bestimmten Datensätzen trainiert wurden.
  • Grundlegende Modelle: An umfangreichen, vielfältigen Datensätzen trainiert, so dass sie mehrere Aufgaben mit einem einzigen Modell unter Verwendung von Eingabeaufforderungen bearbeiten können.

Weitere Informationen

Übergeordnetes Thema: Prompt Lab