0 / 0
Zurück zur englischen Version der Dokumentation
Chatten mit Dokumenten und Bildern
Letzte Aktualisierung: 14. Nov. 2024
Chatten mit Dokumenten und Bildern

Fügen Sie Dokumente und Bilder, über die Sie chatten möchten, schnell zu den im Prompt Lab erstellten foundation model hinzu.

Sie können die folgenden Dateitypen mit Ihrer Eingabeaufforderung verknüpfen:

Grundlagendokumente

Wenn Sie möchten, dass ein foundation model aktuelle, faktische Informationen in die von ihm erzeugte Ausgabe einbezieht, sollten Sie die Eingaben des foundation model auf relevante Fakten stützen, indem Sie Dokumente mit der Eingabeaufforderung verknüpfen.

Dieses Muster, das als " retrieval-augmented generation" (RAG) bezeichnet wird, ist besonders hilfreich bei der Beantwortung von Fragen, bei denen das foundation model genaue Antworten generieren soll.

Siehe Chatten mit hochgeladenen Dokumenten.

Images

Sie können ein Bild hinzufügen und die visuellen Informationen in Text umwandeln, um bei den folgenden Aufgaben zu helfen:

  • Automatisieren Sie die Generierung von Alternativtext für Bilder, damit blinde Benutzer aussagekräftige Bilder auf einer Webseite wahrnehmen und die Anforderungen an die Barrierefreiheit erfüllen können
  • Zusammenfassen von Fotos von Sachschäden, die Versicherungsansprüchen beigefügt sind
  • Konvertieren Sie Bilder aus einem Dokument in Text, bevor das Dokument als Basisinformation für einen RAG-Anwendungsfall verwendet wird.

Siehe Chatten mit hochgeladenen Bildern.

Chatten mit hochgeladenen Dokumenten

Um die Qualität eines Dokuments und die Fähigkeiten eines foundation model schnell zu testen, bevor Sie das Modell oder Dokument in einer RAG-Lösung (Retrieval-Augmented Generation) verwenden, chatten Sie mit dem Dokument in Prompt Lab.

Der Text aus dem von Ihnen hochgeladenen Dokument wird in Texteinbettungen umgewandelt und in einem Vektorindex gespeichert, in dem die Informationen schnell durchsucht werden können. Wenn eine Frage mithilfe der Eingabeaufforderung übermittelt wird, wird eine Ähnlichkeitssuche im Vektorindex ausgeführt, um relevante Inhalte zu finden. Die wichtigsten Suchergebnisse werden der Eingabeaufforderung als Kontext hinzugefügt und zusammen mit der ursprünglichen Frage als Input an das foundation model übermittelt.

Zu Testzwecken können Sie die Standardeinstellungen für den speicherinternen Vektorspeicher übernehmen, der automatisch für Sie erstellt wird.

Wenn Sie sich entscheiden, eine robustere Lösung mit vektorisierten Dokumenten zu implementieren, finden Sie unter Hinzufügen von vektorisierten Dokumenten für foundation model weitere Konfigurationsoptionen.

Gehen Sie wie folgt vor, um mit einem Dokument zu chatten:

  1. Wählen Sie im Eingabeaufforderungs-Labor im Chat-Modus ein foundation model aus und geben Sie dann alle Modellparameter an, die Sie für die Eingabeaufforderung verwenden möchten.

  2. Klicken Sie auf das Symbol für das Hochladen von Dokumenten " Symbol für das Hochladen von Dokumenten, und wählen Sie dann Dokumente hinzufügen.

    Suchen Sie nach einer Datei oder wählen Sie ein Datenasset in Ihrem Projekt mit der Datei aus, die Sie hinzufügen möchten. Weitere Informationen über unterstützte Dateitypen finden Sie unter Grundlagendokumente.

    Wenn Sie einen robusteren Vektorindex als den standardmäßigen In-Memory-Index zum Speichern Ihrer Dokumente verwenden möchten, lesen Sie bitte den Abschnitt Erstellen eines Vektorindexes.

  3. Klicken Sie auf Erstellen.

    Möglicherweise wird eine Meldung angezeigt, die besagt, dass die Erstellung des Vektorindexes im Gange ist. Um herauszufinden, wann der Index fertig ist, schließen Sie die Nachricht und klicken Sie dann auf das hochgeladene Dokument, um die Detailseite des Vektorindex-Assets zu öffnen.

  4. Stellen Sie Fragen zu Informationen aus dem Dokument, um zu sehen, wie gut das Modell die Kontextinformationen nutzen kann, um Ihre Fragen zu beantworten.

    Sie können das foundation model zum Beispiel bitten, das Dokument zusammenzufassen oder nach Konzepten zu fragen, die in dem Dokument erklärt werden.

Wenn die erwarteten Antworten nicht gefunden werden, können Sie die Konfiguration des Vektorindex-Assets überprüfen und Anpassungen vornehmen. Siehe Verwaltung eines Vektorindex.

Erdungsdokumente

Die Kontextinformationen, die Sie hinzufügen, können Produktdokumentation, Einzelheiten zu den Unternehmensrichtlinien, Leistungsdaten der Branche, Fakten und Zahlen zu einem bestimmten Thema oder andere Inhalte umfassen, die für Ihren Anwendungsfall von Bedeutung sind. Erdungsdokumente können auch proprietäre Geschäftsmaterialien enthalten, die Sie anderswo nicht verfügbar machen möchten.

Die folgende Tabelle zeigt die Dateitypen, die als Erdungsdokumente hinzugefügt werden können.

Tabelle 1. Unterstützte Dateitypen für Erdungsdokumente
Unterstützter Dateityp Maximale Gesamtdateigröße
docx 10 MB
PDF-Datei 50 MB
pptx 300 MB
TXT 5 MB

 

Sie können eine oder mehrere Dateien zu Ihrer Eingabeaufforderung hinzufügen. Die zulässige Gesamtdateigröße für den Satz von Grundlagendokumenten hängt von den Dateitypen des Satzes ab. Der Dateityp mit der niedrigsten zulässigen Gesamtdateigröße bestimmt die Größenbegrenzung für alle Erdungsdokumente. Wenn das Set beispielsweise drei PPTX-Dateien enthält, beträgt die maximale Dateigröße 300 MB, die für PPTX-Dateien zulässig ist. Wenn der Dateisatz zwei PPTX-Dateien und eine TXT-Datei enthält, beträgt die Dateigrößenbegrenzung 5 MB, da die Begrenzung für TXT-Dateien auf den Satz angewendet wird.

Chatten mit hochgeladenen Bildern

Laden Sie ein Bild hoch, um es der Eingabe hinzuzufügen, die Sie an ein multimodales foundation model senden. Nachdem Sie das Bild hinzugefügt haben, können Sie Fragen zum Bildinhalt stellen.

Hinweis: Das Hochladen von Bildern in einen Chat wird nur in Regionen unterstützt, in denen multimodale Stiftungsmodelle verfügbar sind. Einzelheiten finden Sie unter Regionale Verfügbarkeit.

Achten Sie darauf, alle Vorschläge des Anbieters foundation model zu prüfen und umzusetzen, die dazu beitragen, das Modell auf Kurs zu halten und unangemessene Inhalte zu blockieren, wie z. B. das Hinzufügen empfohlener Systemaufforderungen. Weitere Informationen zum Bearbeiten einer Systemansage finden Sie unter Chat-Vorlagen.

Die Bildanforderungen sind wie folgt:

  • Ein Bild pro Chat hinzufügen
  • Unterstützte Dateitypen sind PNG oder JPEG
  • Die Größe kann bis zu 4 MB betragen
  • Ein Bild wird je nach Bildgröße mit etwa 1.200 bis 3.000 Token bewertet

Um mit einem Bild zu chatten, führen Sie die folgenden Schritte aus:

  1. Wählen Sie im Eingabeaufforderungs-Labor im Chat-Modus ein foundation model aus, das Bilder in Text umwandeln kann, und geben Sie dann alle Modellparameter an, die Sie für die Eingabeaufforderung verwenden möchten.

  2. Klicken Sie auf das Symbol Dokumente hochladen ' Symbol für das Hochladen von Dokumenten und wählen Sie dann Bild hinzufügen.

    Durchsuchen, um eine Bilddatei hochzuladen, oder wählen Sie ein Datenelement in Ihrem Projekt mit der Bilddatei, die Sie hinzufügen möchten.

  3. Klicken Sie auf Hinzufügen.

  4. Geben Sie eine Frage zum Bild ein und senden Sie die Eingabeaufforderung ab.

    Geben Sie genau an, was Sie über das Bild wissen möchten.

  5. Optional: Speichern Sie den Prompt als Prompt-Vorlage oder Prompt-Sitzung.

    Hinweis: Sie können einen Chat mit einem hinzugefügten Bild nicht als Prompt-Notizbuch speichern.

    Weitere Informationen finden Sie unter Speichern Ihrer Arbeit.

Das von Ihnen hinzugefügte Bild wird in dem IBM Cloud Object Storage Bucket gespeichert, das Ihrem Projekt als Daten-Asset zugeordnet ist.

Sehen Sie sich die Beispielaufforderungen an, die für Gespräche über Bilder mit den folgenden Stiftungsmodellen verwendet werden:

Programmatische Alternative

Sie können auch die watsonx.ai Chat-API verwenden, um ein foundation model zu Bildern zu befragen. Weitere Informationen finden Sie unter Hinzufügen einer generativen Chatfunktion zu Ihren Anwendungen mit der Chat-API.

Aufrufen des Llama 3.2 11B Sichtmodells

Im folgenden Beispiel wird ein Diagramm des RAG-Musters (retrieval-augmented generation) zusammen mit der Anweisung " Explain the process that is shown in the image" an das foundation model übermittelt.

Ein foundation model erklärt ein Diagramm des RAG-Musters.

Das foundation model llama-3-2-11b-vision-instruct antwortet mit der folgenden umfassenden Erklärung:

Das Bild veranschaulicht den Prozess der Interaktion eines Benutzers mit einem Chatbot oder einem KI-System für Unterhaltungen. Hier ist eine schrittweise Aufschlüsselung:

  1. Benutzereingabe: Der Benutzer initiiert das Gespräch, indem er eine Frage stellt oder eine Eingabe macht.

  2. Frage: Die Anfrage des Benutzers wird vom System entgegengenommen und bearbeitet.

  3. Suche: Das System durchsucht seine Wissensbasis oder Datenbank, um relevante Informationen zur Frage des Benutzers zu finden.

  4. Top-Suchergebnisse: Das System ruft die wichtigsten Suchergebnisse aus dem Suchprozess ab.

  5. Eingabe = Anweisung + Suchergebnisse + Frage: Das System kombiniert die Eingabe des Benutzers (Frage), die Suchergebnisse und jeden zusätzlichen Kontext oder Anweisungen, um ein umfassendes Verständnis der Absicht des Benutzers zu erhalten.

  6. -Basis-Modell: Das System verwendet ein foundation model, ein umfangreiches Sprachmodell, das mit einer großen Menge von Textdaten trainiert wurde. Dieses Modell wird verwendet, um Antworten zu generieren, die kontextuell relevant und genau sind.

  7. Tatsächliche Antwort: Das foundation model verarbeitet die kombinierte Eingabe und generiert eine sachliche Antwort auf der Grundlage der Suchergebnisse und der Benutzereingaben.

Zusammengefasst zeigt das Bild einen Nutzer, der mit einem Chatbot oder einem KI-System interagiert, das eine Kombination aus natürlicher Sprachverarbeitung (NLP), maschinellem Lernen und Wissensabfrage verwendet, um eine sachliche Antwort auf die Frage des Nutzers zu geben.

Aufrufen des Llama 3.2 90B Sichtmodells

Dieses Beispiel veranschaulicht, wie sich die Anweisungen, die Sie im Text geben, auf die Qualität der Ausgabe des foundation model auswirken.

Die Eingabeaufforderung, die an das foundation model übermittelt wird, enthält ein Bild, das einen effektiven Alternativtext für ein Bild einer Umsatztabelle illustriert.

Ein Diagramm, das ein Beispiel für einen effektiven Alternativtext für ein Bild zeigt.

Wenn die Anweisung spezifisch ist, erzeugt das foundation model eine nützliche Antwort.

Anweisung
Was sagt das Bild über den alternativen Bildtext aus?
Antwort
Das Bild zeigt, wie alternativer Text verwendet werden kann, um eine prägnante und informative Beschreibung eines Bildes für sehbehinderte Personen zu liefern. Der Beispiel-Alt-Text für ein Balkendiagramm lautet: "Balkendiagramm, das die täglichen Umsätze des Monats im Vergleich zum historischen Durchschnitt zeigt", was die wesentlichen Informationen des Bildes gut wiedergibt. Dieser Ansatz stellt sicher, dass alle Benutzer, unabhängig von ihren visuellen Fähigkeiten, auf die im Diagramm dargestellten Daten zugreifen und sie verstehen können.

Wenn Sie dem Modell eine allgemeine Anweisung geben, beschreibt das foundation model die visuellen Elemente des Bildes im Detail, interpretiert aber nicht immer die Informationen, die im Bild vermittelt werden.

Anweisung

Erklären Sie das Bild.

Antwort

Er geht auf die visuellen Elemente ein und versucht, die Informationen zu erklären, die in dem Dummy-Bild vermittelt werden, ohne den größeren Gedanken zu erfassen, der ausgedrückt wird, wie dieser Auszug aus der Antwort zeigt:

Insgesamt deutet das Bild darauf hin, dass das Unternehmen im vergangenen Jahr ein deutliches Umsatzwachstum verzeichnen konnte, mit einem bemerkenswerten Anstieg im Februar. Die rosafarbene Linie, die den durchschnittlichen monatlichen Umsatz hervorhebt, bietet einen Kontext für den Umsatztrend, der es dem Betrachter ermöglicht, die Leistung des Unternehmens schnell zu verstehen.

Verwendung des Llama Guard-Vision-Modells zur Überprüfung der Bildsicherheit

Dieses Beispiel zeigt, wie llama-guard-3-11b-vision die Sicherheit eines Bildes und des dazugehörigen Textes einstuft, die als Eingabe übermittelt werden. Weitere Informationen über die Arten von Inhalten, die als unsicher eingestuft werden, finden Sie auf der Musterkarte.

Hinweise zur Verwendung des foundation model:

  • Um das Modell zu finden, wählen Sie im Dropdown-Menü des Feldes Modell die Option Alle Gründungsmodelle anzeigen. Ändern Sie die Suchfilter, indem Sie die Option Aufgabe>Chat deaktivieren und die Option Modalitäten>Bild auswählen.

  • Bearbeiten Sie die Eingabeaufforderung für das foundation model nicht.

Ein foundation model der Bild-zu-Text-Generierung stuft ein Foto eines flauschigen Welpen als sicher ein.

Der Screenshot zeigt, dass das Bild eines Welpen genau als safe klassifiziert wird.

Das Modell berücksichtigt sowohl das Bild als auch den Text in der Eingabeaufforderung, wenn es den Inhalt auf Sicherheit prüft. Der folgende Screenshot zeigt zum Beispiel ein harmloses Bild eines Gebäudes, aber mit einem entsprechenden Text, der um Ratschläge bittet, wie man das Gebäude unrechtmäßig betreten kann.

Ein foundation model stuft ein Bild eines Gebäudes mit einem Text, der nach einer Einbruchsmethode fragt, als unsicher ein.

Die Kategorie S2 kennzeichnet Hinweise auf nicht gewalttätige Straftaten. Weitere Informationen zu den Kategorien, auf die das foundation model trainiert ist, finden Sie in der Dokumentation zu Llama Guard 3.

Ein Beispiel für einen Prompt, der Ihnen zeigt, wie Sie einen Nur-Text-Prompt übermitteln können, finden Sie unter Beispiel-Prompt: Klassifizierung von Prompts für die Sicherheit.

Aufrufen des Modells Pixtral-12b

Im folgenden Beispiel wird ein Diagramm, das die Unterschiede zwischen traditionellen KI-Modellen und Grundlagenmodellen erklärt, zusammen mit der Anweisung " What information does this image convey? an das pixtral-12b foundation model übermittelt.

Ein foundation model der Bild-zu-Text-Generierung erklärt ein Diagramm der verschiedenen Arten von KI-Modellen.

Das foundation model pixtral-12b antwortet mit der folgenden umfassenden Erklärung:

Das Bild stellt die traditionellen KI-Modelle den Stiftungsmodellen gegenüber und hebt ihre jeweiligen Mechanismen und Fähigkeiten hervor.

Traditionelle AI-Modelle Auf der linken Seite des Bildes sind traditionelle KI-Modelle abgebildet. Diese Modelle funktionieren wie folgt:

  1. Training: Jedes Modell wird anhand eines bestimmten Datentyps trainiert (dargestellt durch verschiedene Symbole, wie z. B. ein Dokument, eine Datenbank, eine Kalkulationstabelle usw.).
  2. Modelle: Für jede Art von Daten wird ein eigenes Modell erstellt (model_1, model_2, model_3 usw.).
  3. Aufgaben: Jedes Modell ist auf bestimmte Aufgaben spezialisiert, die durch grüne Häkchen gekennzeichnet sind.

Fundamentmodelle Auf der rechten Seite des Bildes sind Fundamentmodelle abgebildet:

  1. Massive externe Daten: Foundation-Modelle werden auf einer riesigen Menge unterschiedlicher externer Daten trainiert, die durch verschiedene Symbole dargestellt werden, darunter eine Datenbank, ein Dokument, ein Code und vieles mehr. Ein Grundmodell: Dieses Modell wird anhand der umfangreichen externen Daten trainiert, so dass es eine Vielzahl von Aufgaben bewältigen kann.
  2. Aufforderungen: Die Aufgaben werden mit Hilfe von Aufforderungen ausgeführt, die die Antworten des Modells anleiten.
  3. Aufgaben: Das foundation model kann mehrere Aufgaben bewältigen, darunter:
    • Übersetzung
    • Textgenerierung
    • Codegenerierung
    • Beantwortung von Sachfragen

Zusammenfassung

  • Traditionelle KI-Modelle: Spezialisiert auf bestimmte Aufgaben, nachdem sie auf bestimmten Datensätzen trainiert wurden.
  • Grundlegende Modelle: An umfangreichen, vielfältigen Datensätzen trainiert, so dass sie mehrere Aufgaben mit einem einzigen Modell unter Verwendung von Eingabeaufforderungen bearbeiten können.

Weitere Informationen

Übergeordnetes Thema: Labor für Eingabeaufforderung

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen