Maschinell übersetztes Thema Sie können zur englischen Version wechseln.Siehe Haftungsausschluss
Die genaueste und aktuellste Version dieser Dokumentation finden Sie in der englischen (ursprünglichen) Version. IBM haftet nicht für Schäden oder Verluste, die durch die Verwendung automatisch (maschinell) übersetzter Inhalte entstehen.
Chatten mit Dokumenten und Bildern
Letzte Aktualisierung: 15. Apr. 2025
Chatten mit Dokumenten und Bildern
Fügen Sie schnell Dokumente und Bilder hinzu, über die Sie mit den von Ihnen erstellten Eingabeaufforderungen für das Stiftungsmodell in der Prompt Lab chatten können.
Sie können die folgenden Dateitypen mit Ihrer Eingabeaufforderung verknüpfen:
Grundlagendokumente
Wenn Sie möchten, dass ein Fundamentmodell aktuelle, sachliche Informationen in die von ihm generierten Ergebnisse einfließen lässt, sollten Sie die Eingaben des Fundamentmodells auf relevanten Fakten basieren lassen, indem Sie der Eingabe Dokumente zuordnen.
Dieses Muster, das als "Retrieval-Augmented Generation" (RAG ) bekannt ist, ist besonders hilfreich bei Frage-Antwort-Szenarien, bei denen das Grundmodell genaue Antworten generieren soll.
Sie können ein Bild hinzufügen und die visuellen Informationen in Text umwandeln, um bei den verschiedenen Aufgaben zu helfen, darunter:
Automatisierung der Erstellung alternativer Texte für Bilder, um blinden Benutzern zu helfen, aussagekräftige visuelle Inhalte auf einer Webseite wahrzunehmen und die Anforderungen an die Barrierefreiheit zu erfüllen
Zusammenfassende Fotos von Sachschäden, die Versicherungsansprüchen beiliegen
Bilder aus einem Dokument werden in Text umgewandelt, bevor das Dokument als grundlegende Information für einen RAG-Anwendungsfall verwendet wird.
Um sowohl die Qualität eines Dokuments als auch die Fähigkeiten eines Foundation-Modells schnell zu testen, bevor Sie das Modell oder Dokument in einer RAG-Lösung (Retrieval-Augmented Generation) verwenden, chatten Sie mit dem Dokument in Prompt Lab.
Der Text aus dem von Ihnen hochgeladenen Dokument wird in Texteinbettungen umgewandelt und in einem Vektorindex gespeichert, in dem die Informationen schnell durchsucht werden können. Wenn eine Frage mithilfe der Eingabeaufforderung übermittelt wird, wird eine Ähnlichkeitssuche im Vektorindex ausgeführt, um relevante Inhalte zu finden. Die Top-Suchergebnisse werden als Kontext zur Eingabe hinzugefügt und zusammen mit der ursprünglichen Frage als Eingabe an das Stiftungsmodell übermittelt.
Zu Testzwecken können Sie die Standardeinstellungen für den speicherinternen Vektorspeicher übernehmen, der automatisch für Sie erstellt wird.
Gehen Sie wie folgt vor, um mit einem Dokument zu chatten:
Wählen Sie im Chat-Modus von Prompt Lab ein Fundamentmodell aus und geben Sie dann alle Modellparameter an, die Sie für die Eingabeaufforderung verwenden möchten.
Klicken Sie auf das Symbol für das Hochladen von Dokumenten " , und wählen Sie dann Dokumente hinzufügen.
Suchen Sie nach einer Datei oder wählen Sie ein Datenasset in Ihrem Projekt mit der Datei aus, die Sie hinzufügen möchten. Weitere Informationen über unterstützte Dateitypen finden Sie unter Grundlagendokumente.
Wenn Sie einen robusteren Vektorindex als den standardmäßigen In-Memory-Index zum Speichern Ihrer Dokumente verwenden möchten, lesen Sie bitte den Abschnitt Erstellen eines Vektorindexes.
Klicken Sie auf Erstellen.
Möglicherweise wird eine Meldung angezeigt, die besagt, dass die Erstellung des Vektorindexes im Gange ist. Um herauszufinden, wann der Index fertig ist, schließen Sie die Nachricht und klicken Sie dann auf das hochgeladene Dokument, um die Detailseite des Vektorindex-Assets zu öffnen.
Stellen Sie Fragen zu Informationen aus dem Dokument, um zu sehen, wie gut das Modell die Kontextinformationen nutzen kann, um Ihre Fragen zu beantworten.
Sie können beispielsweise das Modell der Stiftung bitten, das Dokument zusammenzufassen, oder nach Konzepten fragen, die im Dokument erläutert werden.
Wenn die erwarteten Antworten nicht gefunden werden, können Sie die Konfiguration des Vektorindex-Assets überprüfen und Anpassungen vornehmen. Siehe Verwaltung eines Vektorindex.
Erdungsdokumente
Copy link to section
Die Kontextinformationen, die Sie hinzufügen, können Produktdokumentation, Einzelheiten zu den Unternehmensrichtlinien, Leistungsdaten der Branche, Fakten und Zahlen zu einem bestimmten Thema oder andere Inhalte umfassen, die für Ihren Anwendungsfall von Bedeutung sind. Erdungsdokumente können auch proprietäre Geschäftsmaterialien enthalten, die Sie anderswo nicht verfügbar machen möchten.
Hinweis: Wenn Sie den Prompt als Prompt-Vorlage speichern möchten, können Sie nur Dateien mit einer maximalen Gesamtgröße von 5 MB hinzufügen.
Die folgende Tabelle zeigt die Dateitypen, die als Erdungsdokumente hinzugefügt werden können.
Tabelle 1. Unterstützte Dateitypen für Erdungsdokumente
Unterstützter Dateityp
Maximale Gesamtdateigröße
docx
10 MB
PDF-Datei
50 MB
PPTX
300 MB
TXT
5 MB
Sie können eine oder mehrere Dateien zu Ihrer Eingabeaufforderung hinzufügen. Die zulässige Gesamtdateigröße für den Satz von Grundlagendokumenten hängt von den Dateitypen des Satzes ab. Der Dateityp mit der niedrigsten zulässigen Gesamtdateigröße bestimmt die Größenbegrenzung für alle Erdungsdokumente. Wenn das Set beispielsweise drei PPTX-Dateien enthält, beträgt die maximale Dateigröße 300 MB, die für PPTX-Dateien zulässig ist. Wenn der Dateisatz zwei PPTX-Dateien und eine TXT-Datei enthält, beträgt die Dateigrößenbegrenzung 5 MB, da die Begrenzung für TXT-Dateien auf den Satz angewendet wird.
Chatten mit hochgeladenen Bildern
Copy link to section
Laden Sie ein Bild hoch, um es zu den Eingaben hinzuzufügen, die Sie an ein multimodales Grundlagenmodell senden. Nachdem Sie das Bild hinzugefügt haben, können Sie Fragen zum Bildinhalt stellen.
Hinweis: Das Hochladen von Bildern in einen Chat wird nur in Regionen unterstützt, in denen multimodale Stiftungsmodelle verfügbar sind. Einzelheiten finden Sie unter Regionale Verfügbarkeit.
Achten Sie darauf, alle Vorschläge des Anbieters des Stiftungsmodells zu prüfen und umzusetzen, die dazu beitragen, das Modell auf Kurs zu halten und unangemessene Inhalte zu blockieren, wie z. B. das Hinzufügen empfohlener Systemansagen. Weitere Informationen zum Bearbeiten einer Systemansage finden Sie unter Chat-Vorlagen.
Die Bildanforderungen sind wie folgt:
Ein Bild pro Chat hinzufügen
Unterstützte Dateitypen sind PNG oder JPEG
Die Größe kann bis zu 4 MB betragen
Ein Bild wird je nach Bildgröße mit etwa 1.200 bis 3.000 Token bewertet
Um mit einem Bild zu chatten, führen Sie die folgenden Schritte aus:
Wählen Sie im Chat-Modus von Prompt Lab ein Basismodell aus, das Bilder in Text umwandeln kann, und geben Sie dann alle Modellparameter an, die Sie für die Eingabeaufforderung verwenden möchten.
Klicken Sie auf das Symbol Dokumente hochladen, und wählen Sie dann Bild hinzufügen.
Durchsuchen, um eine Bilddatei hochzuladen, oder wählen Sie ein Datenelement in Ihrem Projekt mit der Bilddatei, die Sie hinzufügen möchten.
Klicken Sie auf Hinzufügen.
Geben Sie eine Frage zum Bild ein und senden Sie die Eingabeaufforderung ab.
Geben Sie genau an, was Sie über das Bild wissen möchten.
Optional: Speichern Sie den Prompt als Prompt-Vorlage oder Prompt-Sitzung.
Hinweis: Sie können einen Chat mit einem hinzugefügten Bild nicht als Prompt-Notizbuch speichern.
Im folgenden Beispiel wird ein Bild eines Balkendiagramms zusammen mit der Anweisung Provide a short summary of the data shown in the bar graph an das Gründungsmodell llama-4-scout-17b-16e-instruct übermittelt.
Das Stiftungsmodell llama-4-scout-17b-16e-instruct antwortet mit der folgenden umfassenden Erklärung:
Beschreibung des Balkendiagramms:Das Balkendiagramm veranschaulicht die Verteilung der Leser auf verschiedene akademische Hintergründe.
Datenpunkte:
Cyber-Sicherheitsinformationen: ca. 30
Technik: etwa 40
Quantenphysik: rund 50
Mathematik Angewandte Mathematik: unter 25
Informatik: über 120
Business IT Information: rund 85
Cybersicherheit (SRA): 5
Quantencomputing: 5
Analyse:
Das Fachgebiet mit den meisten Lesern ist die Informatik mit über 120.
Business IT Information hat rund 85 Leser.
Die Quantenphysik, die angewandte Mathematik, die Cybersicherheit (SRA) und die Quanteninformatik haben relativ geringe Leserzahlen.
Schlussfolgerung:Die Grafik zeigt, dass Informatik und Wirtschaftsinformatik die meisten Leser haben, während Cybersicherheit (SRA) und Quanteninformatik die wenigsten Leser haben.
Llama-4-maverick-17b-128e-instruct-fp8
Copy link to section
Im folgenden Beispiel wird ein Dokument über InfoSphere MDM in französischer Sprache zusammen mit der Anweisung Briefly summarize the attached document in English an das Stiftungsmodell llama-4-maverick-17b-128e-instruct-fp8 übermittelt.
Das Modell antwortet mit der folgenden Zusammenfassung:
Das Modell llama-4-maverick-17b-128e-instruct-fp8 übersetzt das Dokument aus dem Französischen ins Englische und erstellt eine Zusammenfassung, einschließlich der Seitenzahlen der Quelle.
Aufrufen des Llama 3.2 11B Sichtmodells
Copy link to section
Im folgenden Beispiel wird ein Diagramm des RAG-Musters (Retrieval-Augmented Generation) zusammen mit der Anweisung Explain the process that is shown in the image an das llama-3-2-11b-vision-instruct -Stiftungsmodell übermittelt.
Das Stiftungsmodell von llama-3-2-11b-vision-instruct antwortet mit der folgenden umfassenden Erklärung:
Das Bild veranschaulicht den Prozess der Interaktion eines Benutzers mit einem Chatbot oder einem KI-System für Unterhaltungen. Hier ist eine schrittweise Aufschlüsselung:
Benutzereingabe: Der Benutzer initiiert das Gespräch, indem er eine Frage stellt oder eine Eingabe macht.
Frage: Die Anfrage des Benutzers wird vom System entgegengenommen und bearbeitet.
Suche: Das System durchsucht seine Wissensbasis oder Datenbank, um relevante Informationen zur Frage des Benutzers zu finden.
Top-Suchergebnisse: Das System ruft die wichtigsten Suchergebnisse aus dem Suchprozess ab.
Eingabe = Anweisung + Suchergebnisse + Frage: Das System kombiniert die Eingabe des Benutzers (Frage), die Suchergebnisse und jeden zusätzlichen Kontext oder Anweisungen, um ein umfassendes Verständnis der Absicht des Benutzers zu erhalten.
Grundmodell: Das System verwendet ein Grundmodell, ein großes Sprachmodell, das mit einer großen Menge an Textdaten vorab trainiert wurde. Dieses Modell wird verwendet, um Antworten zu generieren, die kontextuell relevant und genau sind.
Faktenbasierte Antwort: Das Modell der Stiftung verarbeitet die kombinierten Eingaben und generiert eine faktenbasierte Antwort auf der Grundlage der Suchergebnisse und der Benutzereingaben.
Zusammengefasst zeigt das Bild einen Nutzer, der mit einem Chatbot oder einem KI-System interagiert, das eine Kombination aus natürlicher Sprachverarbeitung (NLP), maschinellem Lernen und Wissensabfrage verwendet, um eine sachliche Antwort auf die Frage des Nutzers zu geben.
Aufrufen des Llama 3.2 90B Sichtmodells
Copy link to section
Dieses Beispiel zeigt, wie sich die Anweisungen, die Sie im Text eingeben, auf die Qualität der Ausgabe des Fundamentmodells auswirken.
Die an das llama-3-2-90b-vision-instruct -Stiftungsmodell gesendete Eingabe enthält ein Bild, das einen effektiven alternativen Text für ein Bild eines Umsatzdiagramms veranschaulicht.
Wenn die Anweisung spezifisch ist, generiert das Fundamentmodell eine nützliche Antwort.
Anweisung
Was sagt das Bild über den alternativen Bildtext aus?
Antwort
Das Bild zeigt, wie alternativer Text verwendet werden kann, um eine prägnante und informative Beschreibung eines Bildes für sehbehinderte Personen zu liefern. Der Beispiel-Alt-Text für ein Balkendiagramm lautet: "Balkendiagramm, das die täglichen Umsätze des Monats im Vergleich zum historischen Durchschnitt zeigt", was die wesentlichen Informationen des Bildes gut wiedergibt. Dieser Ansatz stellt sicher, dass alle Benutzer, unabhängig von ihren visuellen Fähigkeiten, auf die im Diagramm dargestellten Daten zugreifen und sie verstehen können.
Wenn Sie dem Modell eine allgemeine Anweisung geben, beschreibt das Grundmodell die visuellen Elemente des Bildes im Detail, interpretiert aber nicht immer die im Bild übermittelten Informationen.
Anweisung
Erklären Sie das Bild.
Antwort
Er geht auf die visuellen Elemente ein und versucht, die Informationen zu erklären, die in dem Dummy-Bild vermittelt werden, ohne den größeren Gedanken zu erfassen, der ausgedrückt wird, wie dieser Auszug aus der Antwort zeigt:
Insgesamt deutet das Bild darauf hin, dass das Unternehmen im vergangenen Jahr ein deutliches Umsatzwachstum verzeichnen konnte, mit einem bemerkenswerten Anstieg im Februar. Die rosafarbene Linie, die den durchschnittlichen monatlichen Umsatz hervorhebt, bietet einen Kontext für den Umsatztrend, der es dem Betrachter ermöglicht, die Leistung des Unternehmens schnell zu verstehen.
Verwendung des Llama Guard-Vision-Modells zur Überprüfung der Bildsicherheit
Copy link to section
Dieses Beispiel zeigt, wie llama-guard-3-11b-vision die Sicherheit eines Bildes und des dazugehörigen Textes einstuft, die als Eingabe übermittelt werden. Weitere Informationen über die Arten von Inhalten, die als unsicher eingestuft werden, finden Sie auf der Musterkarte.
Hinweise zur Verwendung des llama-guard-3-11b-vision -Stiftungsmodells:
Um das Modell zu finden, wählen Sie im Dropdown-Menü des Feldes Modell die Option Alle Gründungsmodelle anzeigen. Ändern Sie die Suchfilter, indem Sie die Option Aufgabe>Chat deaktivieren und die Option Modalitäten>Bild auswählen.
Bearbeiten Sie nicht die Systemaufforderung für das Fundamentmodell.
Der Screenshot zeigt, dass das Bild eines Welpen genau als safe klassifiziert wird.
Das Modell berücksichtigt sowohl das Bild als auch den Text in der Eingabeaufforderung, wenn es den Inhalt auf Sicherheit prüft. Der folgende Screenshot zeigt zum Beispiel ein harmloses Bild eines Gebäudes, aber mit einem entsprechenden Text, der um Ratschläge bittet, wie man das Gebäude unrechtmäßig betreten kann.
Die Kategorie S2 kennzeichnet Hinweise auf nicht gewalttätige Straftaten. Weitere Informationen zu den Kategorien, auf deren Erkennung das llama-guard-3-11b-vision -Stiftungsmodell trainiert ist, finden Sie in der Llama Guard 3-Dokumentation.
Im folgenden Beispiel wird ein Diagramm, das die Unterschiede zwischen traditionellen KI-Modellen und Fundamentmodellen erklärt, zusammen mit der Anweisung What information does this image convey? an das Fundamentmodell pixtral-12b gesendet.
Das Stiftungsmodell von pixtral-12b antwortet mit der folgenden umfassenden Erklärung:
Das Bild stellt die traditionellen KI-Modelle den Stiftungsmodellen gegenüber und hebt ihre jeweiligen Mechanismen und Fähigkeiten hervor.
Traditionelle AI-ModelleAuf der linken Seite des Bildes sind traditionelle KI-Modelle abgebildet. Diese Modelle funktionieren wie folgt:
Training: Jedes Modell wird anhand eines bestimmten Datentyps trainiert (dargestellt durch verschiedene Symbole, wie z. B. ein Dokument, eine Datenbank, eine Kalkulationstabelle usw.).
Modelle: Für jede Art von Daten wird ein eigenes Modell erstellt (model_1, model_2, model_3 usw.).
Aufgaben: Jedes Modell ist auf bestimmte Aufgaben spezialisiert, die durch grüne Häkchen gekennzeichnet sind.
FundamentmodelleAuf der rechten Seite des Bildes sind Fundamentmodelle abgebildet:
Massive externe Daten: Foundation-Modelle werden auf einer riesigen Menge unterschiedlicher externer Daten trainiert, die durch verschiedene Symbole dargestellt werden, darunter eine Datenbank, ein Dokument, ein Code und vieles mehr. Ein Grundmodell: Dieses Modell wird anhand der umfangreichen externen Daten trainiert, so dass es eine Vielzahl von Aufgaben bewältigen kann.
Aufforderungen: Die Aufgaben werden mit Hilfe von Aufforderungen ausgeführt, die die Antworten des Modells anleiten.
Aufgaben: Das Stiftungsmodell kann mehrere Aufgaben übernehmen, darunter:
Übersetzung
Textgenerierung
Codegenerierung
Beantwortung von Sachfragen
Zusammenfassung
Traditionelle KI-Modelle: Spezialisiert auf bestimmte Aufgaben, nachdem sie auf bestimmten Datensätzen trainiert wurden.
Grundlegende Modelle: An umfangreichen, vielfältigen Datensätzen trainiert, so dass sie mehrere Aufgaben mit einem einzigen Modell unter Verwendung von Eingabeaufforderungen bearbeiten können.