Argomento tradotto automaticamente È possibile passare alla versione ingleseConsultare la dichiarazione di non responsabilità
Fare riferimento alla versione inglese (originale) per visualizzare una versione più accurata e aggiornata di questa documentazione. IBM non è responsabile di eventuali danni o perdite derivanti dall'uso di contenuti tradotti automaticamente (machine translation).
Conversazione con documenti e immagini
Ultimo aggiornamento: 15 apr 2025
Conversazione con documenti e immagini
Aggiungi rapidamente documenti e immagini per chattare sui modelli di fondazione che crei nell' Prompt Lab.
È possibile associare i seguenti tipi di file al prompt:
Documenti di base
Se si desidera che un modello di base incorpori informazioni attuali e concrete nell'output che genera, è necessario basare l'input del modello di base su fatti rilevanti associando i documenti al prompt.
Questo modello, noto come generazione potenziata dal recupero (RAG ), è particolarmente utile negli scenari di domanda-risposta in cui si desidera che il modello di base generi risposte accurate.
Potresti voler aggiungere un'immagine e convertire le informazioni visive in testo per aiutarti nei vari compiti, tra cui:
Automatizzare la generazione di testo alternativo per le immagini per aiutare gli utenti non vedenti a percepire immagini significative su una pagina web e soddisfare i requisiti di accessibilità
Riassumere le foto dei danni alla proprietà che accompagnano le richieste di risarcimento
Conversione delle immagini di un documento in testo prima che il documento venga utilizzato come base per un caso d'uso RAG.
Per testare rapidamente sia la qualità di un documento che le capacità di un modello di base prima di utilizzare il modello o il documento in una soluzione di generazione aumentata dal recupero (RAG), chatta con il documento in Prompt Lab.
Il testo del documento caricato viene convertito in incorporazioni di testo e memorizzato in un indice vettoriale in cui le informazioni possono essere ricercate rapidamente. Quando viene inviata una domanda utilizzando il prompt, viene eseguita una ricerca di somiglianza sull'indice del vettore per trovare contenuto pertinente. I risultati di ricerca migliori vengono aggiunti al prompt come contesto e inviati insieme alla domanda originale al modello di base come input.
A scopo di test, è possibile accettare le impostazioni predefinite per l'archivio vettoriale in memoria che viene creato automaticamente.
Per conversare con un documento, completare la seguente procedura:
Dall' Prompt Lab, in modalità chat, selezionare un modello di fondazione e quindi specificare i parametri del modello che si desidera utilizzare per la richiesta.
Fare clic sull'icona Carica documenti ', quindi scegliere Aggiungi documenti.
Sfoglia per caricare un file o scegliere un asset di dati nel progetto con il file che si desidera aggiungere. Per ulteriori informazioni sui tipi di file supportati, vedere Documenti di base.
Se si desidera utilizzare un indice vettoriale più robusto dell'indice in-memory predefinito per archiviare i documenti, vedere Creazione di un indice vettoriale.
Fare clic su Crea.
Potrebbe essere visualizzato un messaggio che indica che la creazione dell'indice vettoriale è in corso. Per sapere quando l'indice è pronto, chiudere il messaggio, quindi fare clic sul documento caricato per aprire la pagina dei dettagli dell'asset dell'indice vettoriale.
Presentate domande sulle informazioni contenute nel documento per verificare quanto il modello sia in grado di utilizzare le informazioni contestuali per rispondere alle vostre domande.
Ad esempio, è possibile chiedere al modello di base di riassumere il documento o chiedere informazioni sui concetti spiegati nel documento.
Se le risposte che ci si aspettava non vengono trovate, è possibile rivedere la configurazione dell'asset dell'indice vettoriale e apportare le dovute modifiche. Vedere Gestione di un indice vettoriale.
Messa a terra dei documenti
Copy link to section
Le informazioni contestuali che aggiungi possono includere documentazione del prodotto, dettagli della politica aziendale, dati sulle prestazioni del settore, fatti e cifre relativi a un particolare argomento o qualsiasi contenuto importante per il tuo caso d'uso. I documenti di messa a terra possono anche includere materiali aziendali proprietari che non vuoi rendere disponibili altrove.
Nota: se si intende salvare il prompt come modello di prompt, è possibile aggiungere file con una dimensione totale massima di 5 MB.
La seguente tabella mostra i tipi di file che è possibile aggiungere come documenti di messa a terra.
Tabella 1. Tipi di file supportati per i documenti di messa a terra
Tipo di file supportato
Dimensione massima file totale
docx
10 MB
PDF
50 MB
PPTX
300 MB
TXT
5 MB
È possibile aggiungere uno o più file al prompt. La dimensione totale dei file consentita per il set di documenti di messa a terra varia in base ai tipi di file del set. Il tipo di file con la dimensione file totale più bassa consentita determina il limite di dimensione per tutti i documenti di messa a terra. Ad esempio, se il set comprende tre file PPTX, il limite di dimensione del file è di 300 MB, ovvero la dimensione massima consentita per i file PPTX. Se il set di file include due file PPTX e un file TXT, il limite di dimensione del file è di 5 MB perché il limite per i file TXT viene applicato al set.
Chattare con le immagini caricate
Copy link to section
Carica un'immagine da aggiungere all'input che invii a un modello di fondazione multimodale. Dopo aver aggiunto l'immagine, è possibile porre domande sul contenuto dell'immagine.
Nota: Il caricamento di immagini in una chat è supportato solo nelle regioni in cui sono disponibili modelli di fondazione multimodali. Per maggiori dettagli, vedere Disponibilità regionale.
Assicurati di rivedere e implementare tutti i suggerimenti del fornitore del modello di base che aiutano a mantenere il modello in pista e bloccare contenuti inappropriati, come l'aggiunta di eventuali prompt di sistema consigliati. Per ulteriori informazioni su come modificare un prompt di sistema, vedere Modelli di chat.
I requisiti dell'immagine sono i seguenti:
Aggiungere un'immagine per ogni chat
I tipi di file supportati sono PNG o JPEG
Le dimensioni possono essere fino a 4 MB
Un'immagine viene conteggiata come circa 1.200-3.000 gettoni, a seconda delle dimensioni dell'immagine
Per chattare con un'immagine, completare i seguenti passaggi:
Dall' Prompt Lab, in modalità chat, selezionare un modello di base in grado di convertire le immagini in testo, quindi specificare i parametri del modello che si desidera utilizzare per la richiesta.
Fare clic sull'icona Carica documenti, quindi scegliere Aggiungi immagine.
Sfogliare per caricare un file immagine o scegliere una risorsa di dati nel progetto con il file immagine che si desidera aggiungere.
Fare clic su Aggiungi.
Immettere una domanda sull'immagine e inviare la richiesta.
Siate specifici su ciò che volete sapere sull'immagine.
Opzionale: Salva il prompt come modello di prompt o sessione di prompt.
Nota: Non è possibile salvare una chat con un'immagine aggiunta come blocco note.
Nell'esempio seguente, l'immagine di un grafico a barre viene inviata al modello di fondazione llama-4-scout-17b-16e-instruct insieme all'istruzione Provide a short summary of the data shown in the bar graph.
Il modello di fondazione llama-4-scout-17b-16e-instruct risponde con la seguente spiegazione esaustiva:
Descrizione del grafico a barre:Il grafico a barre illustra la distribuzione dei lettori tra i vari background accademici.
Punti di dati:
Informazioni sulla sicurezza informatica: circa 30
Ingegneria: circa 40
Fisica quantistica: circa 50
Matematica Matematica applicata: inferiore a 25
Informatica: oltre 120
Informazioni informatiche aziendali: circa 85
Cybersecurity (SRA): 5
Informatica quantistica: 5
Analisi:
Il settore con il maggior numero di lettori è quello dell'Informatica, con oltre 120 lettori.
Business IT Information conta circa 85 lettori.
Fisica quantistica, Matematica applicata, Cybersecurity (SRA) e Informatica quantistica hanno un numero di lettori relativamente basso.
Conclusioni:Il grafico mostra che Computer Science e Business IT Information hanno il maggior numero di lettori, mentre Cybersecurity (SRA) e Quantum Computing hanno il minor numero di lettori.
Llama-4-maverick-17b-128e-instruct-fp8
Copy link to section
Nell'esempio seguente, un documento su InfoSphere MDM in francese viene inviato al modello di fondazione llama-4-maverick-17b-128e-instruct-fp8 insieme all'istruzione Briefly summarize the attached document in English.
Il modello risponde con la seguente sintesi:
Il modello di fondazione llama-4-maverick-17b-128e-instruct-fp8 traduce il documento dal francese all'inglese e genera un sommario, compresi i numeri di pagina della fonte.
Promuovere il modello di visione Llama 3.2 11B
Copy link to section
Nell'esempio seguente, un diagramma del modello di generazione aumentata di recupero (RAG) viene inviato al modello di base dell' llama-3-2-11b-vision-instruct, insieme all'istruzione " Explain the process that is shown in the image".
Il modello della fondazione " llama-3-2-11b-vision-instruct " risponde con la seguente spiegazione esauriente:
L'immagine illustra il processo di interazione di un utente con un chatbot o un sistema di intelligenza artificiale conversazionale. Ecco una spiegazione passo per passo:
Ingresso dell'utente: L'utente inizia la conversazione ponendo una domanda o fornendo un input.
Domanda: La domanda dell'utente viene ricevuta dal sistema, che la elabora.
Ricerca: Il sistema cerca nella sua base di conoscenza o nel database per trovare informazioni rilevanti relative alla domanda dell'utente.
Risultati principali della ricerca: Il sistema recupera i risultati di ricerca più importanti dal processo di ricerca.
Input = Istruzione + Risultati della ricerca + Domanda: Il sistema combina l'input dell'utente (domanda), i risultati della ricerca e qualsiasi contesto o istruzione aggiuntiva per formare una comprensione completa dell'intento dell'utente.
Modello di base: il sistema utilizza un modello di base, ovvero un modello linguistico di grandi dimensioni che è stato pre-addestrato su una grande quantità di dati testuali. Questo modello viene utilizzato per generare risposte contestualmente rilevanti e accurate.
Risposta fattuale: Il modello di base elabora l'input combinato e genera una risposta fattuale basata sui risultati della ricerca e sull'input dell'utente.
In sintesi, l'immagine raffigura un utente che interagisce con un chatbot o un sistema di IA conversazionale, che utilizza una combinazione di elaborazione del linguaggio naturale (NLP), apprendimento automatico e recupero della conoscenza per fornire una risposta concreta alla domanda dell'utente.
Promuovere il modello di visione Llama 3.2 90B
Copy link to section
Questo esempio illustra come le istruzioni fornite nel testo influiscano sulla qualità del modello di fondazione.
Il prompt inviato al modello della fondazione " llama-3-2-90b-vision-instruct " include un'immagine che illustra un testo alternativo efficace da utilizzare per un'immagine di un grafico delle entrate.
Quando l'istruzione è specifica, il modello di fondazione genera una risposta utile.
Istruzione
Che cosa trasmette l'immagine rispetto al testo alternativo dell'immagine?
Risposta
L'immagine mostra come il testo alternativo possa essere utilizzato per fornire una descrizione concisa e informativa di un'immagine per le persone ipovedenti. Il testo alt di esempio per un grafico a barre recita: "grafico a barre che mostra le vendite giornaliere del mese rispetto alla media storica", che trasmette efficacemente le informazioni essenziali contenute nell'immagine. Questo approccio garantisce che tutti gli utenti, indipendentemente dalle loro capacità visive, possano accedere e comprendere i dati presentati nel grafico.
Quando si impartisce un'istruzione generica al modello, il modello di base descrive in dettaglio gli elementi visivi dell'immagine, ma non sempre interpreta le informazioni trasmesse dall'immagine.
Istruzione
Spiegare l'immagine.
Risposta
Descrive dettagliatamente gli elementi visivi e tenta di spiegare le informazioni veicolate dall'immagine fittizia, senza cogliere l'idea più grande che viene espressa, come dimostra questo estratto della risposta:
In generale, l'immagine suggerisce che l'azienda ha registrato una crescita significativa delle entrate nell'ultimo anno, con un aumento notevole a febbraio. La linea rosa che evidenzia le vendite medie mensili fornisce un contesto per l'andamento dei ricavi, consentendo agli spettatori di comprendere rapidamente le prestazioni dell'azienda.
Utilizzo del modello di visione Llama Guard per verificare la sicurezza delle immagini
Copy link to section
Questo esempio mostra l'llama-guard-3-11b-vision che classifica la sicurezza di un'immagine e del testo che la accompagna, inviati come input. Per ulteriori informazioni sui tipi di contenuti classificati come non sicuri, consultare la scheda modello.
Note sull'uso del modello di fondazione dell' llama-guard-3-11b-vision :
Per trovare il modello, dal menu a discesa del campo Modello, scegliere Visualizza tutti i modelli di fondazione. Modificare i filtri di ricerca deselezionando l'opzione Task>Chat e selezionando l'opzione Modalities>Image.
Non modificare il prompt di sistema per il modello di base.
La schermata mostra che l'immagine di un cucciolo viene classificata con precisione come safe.
Il modello considera sia l'immagine che il testo del messaggio quando valuta il contenuto per la sicurezza. Ad esempio, la seguente schermata mostra un'immagine innocua di un edificio, ma con un testo corrispondente che chiede consigli su come entrare illegalmente nell'edificio.
La categoria S2 identifica i riferimenti ai reati non violenti. Per ulteriori informazioni sulle categorie che il modello della fondazione " llama-guard-3-11b-vision " è addestrato a riconoscere, consultare la documentazione di Llama Guard 3.
Nell'esempio seguente, un diagramma che spiega le differenze tra i modelli di intelligenza artificiale tradizionali e i modelli di intelligenza artificiale di base viene presentato al modello di intelligenza artificiale di base dell' pixtral-12b, insieme alle istruzioni, What information does this image convey?.
Il modello della fondazione " pixtral-12b " risponde con la seguente spiegazione esauriente:
L'immagine contrappone i modelli di IA tradizionali a quelli di fondazione, evidenziandone i rispettivi meccanismi e capacità.
Modelli tradizionali di intelligenza artificialeSul lato sinistro dell'immagine sono rappresentati i modelli tradizionali di IA. Questi modelli funzionano come segue:
Addestramento: Ogni modello viene addestrato su un tipo specifico di dati (rappresentati da diverse icone come documenti, database, fogli di calcolo e così via).
Modelli: Ogni tipo di dati dà luogo alla creazione di un modello distinto (model_1, model_2, model_3 e così via).
Compiti: Ogni modello è specializzato per compiti particolari, indicati dai segni di spunta verdi.
Modelli di fondazioneSul lato destro dell'immagine sono illustrati i modelli di fondazione:
Dati esterni di grandi dimensioni: I modelli della Foundation vengono addestrati su una vasta quantità di dati esterni diversi, rappresentati da varie icone, tra cui un database, un documento, un codice e altro ancora. Modello One Foundation: Questo modello viene addestrato su un'enorme quantità di dati esterni, consentendogli di gestire un'ampia gamma di compiti.
Prompt: I compiti vengono eseguiti utilizzando dei suggerimenti, che guidano le risposte del modello.
Compiti: Il modello base può gestire molteplici compiti, tra cui:
Traduzione
Generazione di testo
Generazione del codice
Risposte a domande concrete
Riepilogo
Modelli di intelligenza artificiale tradizionali: Specializzati per compiti specifici dopo essere stati addestrati su particolari set di dati.
Modelli di base: Addestrati su insiemi di dati vasti e diversificati, che consentono di gestire più attività con un unico modello utilizzando i prompt.