0 / 0
Torna alla versione inglese della documentazione
Conversazione con documenti e immagini
Ultimo aggiornamento: 14 nov 2024
Conversazione con documenti e immagini

Aggiungete rapidamente documenti e immagini di cui parlare ai prompt foundation model creati nel Prompt Lab.

È possibile associare i seguenti tipi di file al prompt:

Documenti di base

Se volete che un foundation model incorpori informazioni attuali e fattuali nell'output che genera, basate l'input del foundation model su fatti rilevanti associando documenti al prompt.

Questo modello, noto come retrieval-augmented generation (RAG), è particolarmente utile negli scenari di risposta alle domande in cui si desidera che il foundation model generi risposte accurate.

Vedere Chattare con i documenti caricati.

Immagini

È possibile aggiungere un'immagine e convertire le informazioni visive in testo per aiutare a svolgere i seguenti tipi di compiti:

  • Automatizzare la generazione di testo alternativo per le immagini per aiutare gli utenti non vedenti a percepire le immagini significative di una pagina web e soddisfare i requisiti di accessibilità
  • Riassumere le foto dei danni alla proprietà che accompagnano le richieste di risarcimento assicurativo
  • Convertire le immagini di un documento in testo prima che il documento venga utilizzato come informazione di base per un caso d'uso RAG.

Vedere Chattare con le immagini caricate.

Chattare con i documenti caricati

Per testare rapidamente la qualità di un documento e le capacità di un foundation model prima di utilizzare il modello o il documento in una soluzione di retrieval-augmented generation (RAG), è possibile chattare con il documento in Prompt Lab.

Il testo del documento caricato viene convertito in incorporazioni di testo e memorizzato in un indice vettoriale in cui le informazioni possono essere ricercate rapidamente. Quando viene inviata una domanda utilizzando il prompt, viene eseguita una ricerca di somiglianza sull'indice del vettore per trovare contenuto pertinente. I risultati di ricerca più importanti vengono aggiunti al prompt come contesto e inviati insieme alla domanda originale al foundation model come input.

A scopo di test, è possibile accettare le impostazioni predefinite per l'archivio vettoriale in memoria che viene creato automaticamente.

Se si decide di implementare una soluzione più robusta che utilizzi documenti vettoriali, vedere Aggiunta di documenti vettoriali per i prompt foundation model per conoscere altre opzioni di configurazione.

Per conversare con un documento, completare la seguente procedura:

  1. Dal Laboratorio prompt in modalità chat, selezionare un foundation model e specificare i parametri del modello che si desidera utilizzare per il prompt.

  2. Fare clic sull'icona Carica documenti 'Icona di caricamento dei documenti, quindi scegliere Aggiungi documenti.

    Sfoglia per caricare un file o scegliere un asset di dati nel progetto con il file che si desidera aggiungere. Per ulteriori informazioni sui tipi di file supportati, vedere Documenti di base.

    Se si desidera utilizzare un indice vettoriale più robusto dell'indice in-memory predefinito per archiviare i documenti, vedere Creazione di un indice vettoriale.

  3. Fare clic su Crea.

    Potrebbe essere visualizzato un messaggio che indica che la creazione dell'indice vettoriale è in corso. Per sapere quando l'indice è pronto, chiudere il messaggio, quindi fare clic sul documento caricato per aprire la pagina dei dettagli dell'asset dell'indice vettoriale.

  4. Presentate domande sulle informazioni contenute nel documento per verificare quanto il modello sia in grado di utilizzare le informazioni contestuali per rispondere alle vostre domande.

    Ad esempio, si può chiedere al foundation model di riassumere il documento o di chiedere i concetti spiegati nel documento.

Se le risposte che ci si aspettava non vengono trovate, è possibile rivedere la configurazione dell'asset dell'indice vettoriale e apportare le dovute modifiche. Vedere Gestione di un indice vettoriale.

Messa a terra dei documenti

Le informazioni contestuali che aggiungi possono includere documentazione del prodotto, dettagli della politica aziendale, dati sulle prestazioni del settore, fatti e cifre relativi a un particolare argomento o qualsiasi contenuto importante per il tuo caso d'uso. I documenti di messa a terra possono anche includere materiali aziendali proprietari che non vuoi rendere disponibili altrove.

La seguente tabella mostra i tipi di file che è possibile aggiungere come documenti di messa a terra.

Tabella 1. Tipi di file supportati per i documenti di messa a terra
Tipo di file supportato Dimensione massima file totale
docx 10 MB
PDF 50 MB
PPTX 300 MB
TXT 5 MB

 

È possibile aggiungere uno o più file al prompt. La dimensione totale dei file consentita per il set di documenti di messa a terra varia in base ai tipi di file del set. Il tipo di file con la dimensione file totale più bassa consentita determina il limite di dimensione per tutti i documenti di messa a terra. Ad esempio, se il set comprende tre file PPTX, il limite di dimensione del file è di 300 MB, ovvero la dimensione massima consentita per i file PPTX. Se il set di file include due file PPTX e un file TXT, il limite di dimensione del file è di 5 MB perché il limite per i file TXT viene applicato al set.

Chattare con le immagini caricate

Caricare un'immagine da aggiungere all'input inviato a un foundation model multimodale. Dopo aver aggiunto l'immagine, è possibile porre domande sul contenuto dell'immagine.

Nota: Il caricamento di immagini in una chat è supportato solo nelle regioni in cui sono disponibili modelli di fondazione multimodali. Per maggiori dettagli, vedere Disponibilità regionale.

Assicuratevi di rivedere e implementare qualsiasi suggerimento del fornitore foundation model che aiuti a mantenere il modello in carreggiata e a bloccare i contenuti inappropriati, come ad esempio l'aggiunta di qualsiasi prompt di sistema raccomandato. Per ulteriori informazioni su come modificare un prompt di sistema, vedere Modelli di chat.

I requisiti dell'immagine sono i seguenti:

  • Aggiungere un'immagine per ogni chat
  • I tipi di file supportati sono PNG o JPEG
  • Le dimensioni possono essere fino a 4 MB
  • Un'immagine viene conteggiata come circa 1.200-3.000 gettoni, a seconda delle dimensioni dell'immagine

Per chattare con un'immagine, completare i seguenti passaggi:

  1. Dal Laboratorio prompt in modalità chat, selezionare un foundation model in grado di convertire le immagini in testo, quindi specificare i parametri del modello che si desidera utilizzare per il prompt.

  2. Fare clic sull'icona Carica documenti 'Icona di caricamento dei documenti, quindi scegliere Aggiungi immagine.

    Sfogliare per caricare un file immagine o scegliere una risorsa di dati nel progetto con il file immagine che si desidera aggiungere.

  3. Fare clic su Aggiungi.

  4. Immettere una domanda sull'immagine e inviare la richiesta.

    Siate specifici su ciò che volete sapere sull'immagine.

  5. Opzionale: Salva il prompt come modello di prompt o sessione di prompt.

    Nota: Non è possibile salvare una chat con un'immagine aggiunta come blocco note.

    Per ulteriori informazioni, vedere Salvataggio del lavoro.

L'immagine aggiunta viene salvata nel bucket IBM Cloud Object Storage associato al progetto come risorsa dati.

Vedere esempi di suggerimenti utilizzati per parlare di immagini con i seguenti modelli di fondazione:

Alternativa programmatica

È inoltre possibile utilizzare l'API di chat watsonx.ai per richiedere a un foundation model informazioni sulle immagini. Per ulteriori informazioni, vedere Aggiunta di una funzione di chat generativa alle applicazioni con l'API di chat.

Promuovere il modello di visione Llama 3.2 11B

Nell'esempio seguente, un diagramma del modello RAG (retrieval-augmented generation) viene sottoposto al foundation model llama-3-2-11b-vision-instruct insieme all'istruzione " Explain the process that is shown in the image.

Un foundation model per la generazione di immagini e testi spiega un diagramma del modello RAG.

Il foundation model llama-3-2-11b-vision-instruct risponde con la seguente spiegazione completa:

L'immagine illustra il processo di interazione di un utente con un chatbot o un sistema di intelligenza artificiale conversazionale. Ecco una spiegazione passo per passo:

  1. Ingresso dell'utente: L'utente inizia la conversazione ponendo una domanda o fornendo un input.

  2. Domanda: La domanda dell'utente viene ricevuta dal sistema, che la elabora.

  3. Ricerca: Il sistema cerca nella sua base di conoscenza o nel database per trovare informazioni rilevanti relative alla domanda dell'utente.

  4. Risultati principali della ricerca: Il sistema recupera i risultati di ricerca più importanti dal processo di ricerca.

  5. Input = Istruzione + Risultati della ricerca + Domanda: Il sistema combina l'input dell'utente (domanda), i risultati della ricerca e qualsiasi contesto o istruzione aggiuntiva per formare una comprensione completa dell'intento dell'utente.

  6. modello di base : Il sistema utilizza un foundation model, che è un modello linguistico di grandi dimensioni che è stato pre-addestrato su una vasta quantità di dati testuali. Questo modello viene utilizzato per generare risposte contestualmente rilevanti e accurate.

  7. Risposta fattuale: Il foundation model elabora gli input combinati e genera una risposta fattuale basata sui risultati della ricerca e sugli input dell'utente.

In sintesi, l'immagine raffigura un utente che interagisce con un chatbot o un sistema di IA conversazionale, che utilizza una combinazione di elaborazione del linguaggio naturale (NLP), apprendimento automatico e recupero della conoscenza per fornire una risposta concreta alla domanda dell'utente.

Promuovere il modello di visione Llama 3.2 90B

Questo esempio illustra come le istruzioni fornite nel testo influenzino la qualità dell'output del foundation model.

Il prompt inviato al foundation model llama-3-2-90b-vision-instruct include un'immagine che illustra un testo alternativo efficace da utilizzare per un'immagine di un grafico delle entrate.

Un diagramma che mostra un esempio di testo alternativo efficace per un'immagine.

Quando l'istruzione è specifica, il foundation model genera una risposta utile.

Istruzione
Che cosa trasmette l'immagine rispetto al testo alternativo dell'immagine?
Risposta
L'immagine mostra come il testo alternativo possa essere utilizzato per fornire una descrizione concisa e informativa di un'immagine per le persone ipovedenti. Il testo alt di esempio per un grafico a barre recita: "grafico a barre che mostra le vendite giornaliere del mese rispetto alla media storica", che trasmette efficacemente le informazioni essenziali contenute nell'immagine. Questo approccio garantisce che tutti gli utenti, indipendentemente dalle loro capacità visive, possano accedere e comprendere i dati presentati nel grafico.

Quando si dà al modello un'istruzione generica, il foundation model descrive gli elementi visivi dell'immagine in modo dettagliato, ma non sempre interpreta le informazioni trasmesse dall'immagine.

Istruzione

Spiegare l'immagine.

Risposta

Descrive dettagliatamente gli elementi visivi e tenta di spiegare le informazioni veicolate dall'immagine fittizia, senza cogliere l'idea più grande che viene espressa, come dimostra questo estratto della risposta:

In generale, l'immagine suggerisce che l'azienda ha registrato una crescita significativa delle entrate nell'ultimo anno, con un aumento notevole a febbraio. La linea rosa che evidenzia le vendite medie mensili fornisce un contesto per l'andamento dei ricavi, consentendo agli spettatori di comprendere rapidamente le prestazioni dell'azienda.

Utilizzo del modello di visione Llama Guard per verificare la sicurezza delle immagini

Questo esempio mostra l'llama-guard-3-11b-vision che classifica la sicurezza di un'immagine e del testo che la accompagna, inviati come input. Per ulteriori informazioni sui tipi di contenuti classificati come non sicuri, consultare la scheda modello.

Note sull'uso del foundation model llama-guard-3-11b-vision:

  • Per trovare il modello, dal menu a discesa del campo Modello, scegliere Visualizza tutti i modelli di fondazione. Modificare i filtri di ricerca deselezionando l'opzione Task>Chat e selezionando l'opzione Modalities>Image.

  • Non modificare il prompt di sistema per il foundation model.

Un foundation model per la generazione di immagini-testo classifica come sicura la foto di un soffice cucciolo.

La schermata mostra che l'immagine di un cucciolo viene classificata con precisione come safe.

Il modello considera sia l'immagine che il testo del messaggio quando valuta il contenuto per la sicurezza. Ad esempio, la seguente schermata mostra un'immagine innocua di un edificio, ma con un testo corrispondente che chiede consigli su come entrare illegalmente nell'edificio.

Un foundation model per la generazione di immagini-testo classifica come non sicura un'immagine di un edificio con un testo che chiede come entrare.

La categoria S2 identifica i riferimenti ai reati non violenti. Per ulteriori informazioni sulle categorie che il 'llama-guard-3-11b-vision 'foundation model è addestrato a riconoscere, vedere il 'Documentazione su Llama Guard 3.

Per un esempio di prompt che mostra come inviare un prompt di solo testo, vedere Esempio di prompt: Classificare i prompt per la sicurezza.

Il modello Pixtral-12b è stato sollecitato

Nell'esempio seguente, un diagramma che spiega le differenze tra i modelli AI tradizionali e i modelli di fondazione viene sottoposto al modello foundation model pixtral-12b insieme all'istruzione " What information does this image convey?.

Un foundation model per la generazione di immagini e testi spiega un diagramma dei diversi tipi di modelli di IA.

Il foundation model pixtral-12b risponde con la seguente spiegazione esaustiva:

L'immagine contrappone i modelli di IA tradizionali a quelli di fondazione, evidenziandone i rispettivi meccanismi e capacità.

Modelli tradizionali di intelligenza artificiale Sul lato sinistro dell'immagine sono rappresentati i modelli tradizionali di IA. Questi modelli funzionano come segue:

  1. Addestramento: Ogni modello viene addestrato su un tipo specifico di dati (rappresentati da diverse icone come documenti, database, fogli di calcolo e così via).
  2. Modelli: Ogni tipo di dati dà luogo alla creazione di un modello distinto (model_1, model_2, model_3 e così via).
  3. Compiti: Ogni modello è specializzato per compiti particolari, indicati dai segni di spunta verdi.

Modelli di fondazione Sul lato destro dell'immagine sono illustrati i modelli di fondazione:

  1. Dati esterni di grandi dimensioni: I modelli della Foundation vengono addestrati su una vasta quantità di dati esterni diversi, rappresentati da varie icone, tra cui un database, un documento, un codice e altro ancora. Modello One Foundation: Questo modello viene addestrato su un'enorme quantità di dati esterni, consentendogli di gestire un'ampia gamma di compiti.
  2. Prompt: I compiti vengono eseguiti utilizzando dei suggerimenti, che guidano le risposte del modello.
  3. Compiti: Il foundation model può gestire diversi compiti, tra cui:
    • Traduzione
    • Generazione di testo
    • Generazione del codice
    • Risposte a domande concrete

Riepilogo

  • Modelli di intelligenza artificiale tradizionali: Specializzati per compiti specifici dopo essere stati addestrati su particolari set di dati.
  • Modelli di base: Addestrati su insiemi di dati vasti e diversificati, che consentono di gestire più attività con un unico modello utilizzando i prompt.

Ulteriori informazioni

Argomento principale: Lab prompt

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni