Dopo aver stilato un breve elenco dei modelli più adatti alle vostre esigenze, potete testare i modelli per vedere quali restituiscono costantemente i risultati desiderati.
Modelli di base che supportano il tuo caso d'uso
Copy link to section
Per iniziare, trova i modelli di base che possono eseguire il tipo di attività che vuoi completare.
La tabella seguente mostra i tipi di attività supportate dai modelli di fondazione in IBM watsonx.ai. Un segno di spunta (✓) indica che l'attività indicata nell'intestazione della colonna è supportata dal modello di base. Per alcuni compiti, è possibile fare clic su un link per accedere a un esempio di richiesta per il compito.
I modelli di fondazione multimodali sono in grado di elaborare e integrare le informazioni provenienti da molte modalità o tipi di dati. Queste modalità possono includere testo, immagini, audio, video e altre forme di input sensoriali.
I modelli di fondazione multimodali disponibili presso watsonx.ai possono svolgere i seguenti tipi di compiti:
Generazione da immagine a testo
Utile per rispondere a domande visive, interpretare grafici e tabelle, inserire didascalie nelle immagini e altro ancora.
La tabella seguente elenca i modelli di fondazione disponibili che supportano modalità diverse dal testo in entrata e dal testo in uscita.
Tabella 1b. Modelli di fondazione multimodali supportati
Modello
Modalità di ingresso
Modalità di uscita
granite-vision-3-2-2b
immagine, testo
Testo
llama-3-2-11b-vision-instruct
immagine, testo
Testo
llama-3-2-90b-vision-instruct
immagine, testo
Testo
llama-guard-3-11b-vision
immagine, testo
Testo
pixtral-12b
immagine, testo
Testo
Modelli di base che supportano la tua lingua
Copy link to section
Molti modelli di fondazione funzionano bene solo in inglese. Ma alcuni creatori di modelli includono più lingue negli insiemi di dati di pre - addestramento per ottimizzare il loro modello sulle attività in lingue differenti e per testare le prestazioni del loro modello in più lingue. Se si pianifica di creare una soluzione per un pubblico globale o una soluzione che esegue attività di traduzione, cercare i modelli che sono stati creati con un supporto multilingue in mente.
La seguente tabella elenca le lingue naturali supportate oltre all'inglese dai modelli di base in watsonx.ai. Per ulteriori informazioni sulle lingue supportate per i modelli base multilingue, consultare la scheda del modello base.
Tabella 2. Modelli di fondazione che supportano lingue naturali diverse dall'inglese
Inglese, tedesco, francese, italiano, portoghese, hindi, spagnolo e tailandese
Llama 3.2 (llama-3-2-1b-instruct, llama-3-2-3b-instruct. Anche llama-3-2-11b-vision-instruct, llama-3-2-90b-vision-instruct e llama-guard-3-11b-vision con input di solo testo)
Inglese, tedesco, francese, italiano, portoghese, hindi, spagnolo e tailandese
Alcuni dei modelli di base disponibili in watsonx.ai possono essere ottimizzati per soddisfare al meglio le tue necessità.
È supportato il seguente metodo di ottimizzazione:
Sintonia rapida: esegue esperimenti di sintonia che regolano il vettore di prompt incluso con l'input del modello di base. Dopo diverse esecuzioni, trova il vettore di prompt che può guidare al meglio il modello di fondazione per restituire un output adatto al tuo compito.
La seguente tabella mostra i metodi per l'ottimizzazione dei modelli di base disponibili in IBM watsonx.ai. Un segno di spunta (✓) indica che il metodo di messa a punto indicato nell'intestazione della colonna è supportato dal modello di base.
Tipi di modelli e indennizzo della proprietà intellettuale
Copy link to section
Esamina la politica di indennizzo della proprietà intellettuale per il modello di fondazione che desideri utilizzare. Alcuni fornitori di modelli di fondazioni di terze parti richiedono di essere esentati da qualsiasi responsabilità per eventuali violazioni della proprietà intellettuale che potrebbero derivare dall'uso dei loro modelli di IA.
I modelli di fondazione sviluppati da IBM e disponibili su watsonx.ai godono di una protezione standard della proprietà intellettuale, simile a quella che IBM fornisce per i prodotti hardware e software.
IBM estende la sua indennità standard per la proprietà intellettuale all'output generato dai modelli coperti. I modelli coperti comprendono modelli sviluppati da IBM e alcuni modelli di fondazione di terze parti disponibili su watsonx.ai. I modelli coperti di terze parti sono identificati nella tabella 4.
La tabella seguente descrive i diversi tipi di modelli di fondazioni e le relative politiche di indennizzo. Per tutti i dettagli, consultare i materiali di riferimento.
Tabella 4. Dettagli della polizza di indennizzo
Tipo di modello di fondazione
Politica di indennizzo
Modelli Foundation
Dettagli
Materiali di riferimento
Modello coperto IBM
Indennizzo non limitato IBM
- IBM Granite - IBM Ardesia
IBM -ha sviluppato modelli di fondazioni che sono disponibili su watsonx.ai.
Modelli di terze parti disponibili su watsonx.ai e soggetti ai rispettivi termini di licenza, compresi gli obblighi e le restrizioni associati.
Vedere le informazioni sul modello.
Modello personalizzato
Nessun IBM indennizzo
Varie
I modelli Foundation importati per essere utilizzati in watsonx.ai sono contenuti del cliente.
Il cliente è l'unico responsabile della scelta e dell'uso del modello e dell'output e della conformità ai termini, agli obblighi e alle restrizioni della licenza di terzi.
Ulteriori considerazioni per la scelta di un modello
Copy link to section
Tabella 5. Considerazioni per la scelta di un modello di fondazione in IBM watsonx.ai
Attributo Modello
Considerazioni
Lunghezza contesto
A volte denominata lunghezza della finestra di contesto, finestra di contestoo lunghezza massima della sequenza, la lunghezza del contesto è il valore massimo consentito per il numero di token nella richiesta di input più il numero di token nell'output generato. Quando si genera l'output con i modelli in watsonx.ai, il numero di token nell'output generato è limitato dal parametro Numero massimo di token.
Costo
Il costo dell'utilizzo dei modelli di base viene misurato in unità di risorse. Il prezzo di un'unità di risorsa si basa sul tasso del livello di prezzo per il modello base.
Ottimizzato
Dopo che un modello di base è stato pre-addestrato, molti modelli di base vengono messi a punto per compiti specifici, come la classificazione, l'estrazione di informazioni, la sintesi, la risposta a istruzioni, la risposta a domande o la partecipazione a una chat dialogica. Un modello che subisce un'ottimizzazione delle attività simili all'utilizzo pianificato in genere funziona meglio con i prompt zero - shot rispetto ai modelli che non sono ottimizzati in un modo che si adatta al tuo caso d'uso. Un modo per migliorare i risultati di un modello ottimizzato consiste nel strutturare il prompt nello stesso formato dei prompt nei dataset utilizzati per ottimizzare il modello.
Istruzioni ottimizzate
Istruzioni ottimizzate significa che il modello è stato ottimizzato con istruzioni che includono un'istruzione. Quando un modello è ottimizzato per le istruzioni, in genere risponde bene ai prompt che hanno un'istruzione anche se tali prompt non hanno esempi.
Indennità IP
Oltre ai termini della licenza, esaminare la politica di indennizzo della proprietà intellettuale per il modello. Per ulteriori informazioni, vedere Tipi di modello e indennizzo IP.
Licenza
In generale, ogni modello di fondazione è dotato di una licenza diversa che ne limita l'utilizzo. Esaminare le licenze del modello per assicurarsi di poter utilizzare un modello per la propria soluzione pianificata.
Architettura del modello
L'architettura del modello influenza il comportamento del modello. Un modello basato sul trasformatore generalmente ha una delle seguenti architetture: Solo codificatore: comprende il testo di input a livello di frase trasformando le sequenze di input in vettori di rappresentazione denominati embeddings. Le attività comuni per i modelli solo codificatore includono la classificazione e l'estrazione di entità. Solo decodificatore: genera il testo di output parola per parola in base all'inferenza dalla sequenza di input. Le attività comuni per i modelli di solo decodificatore includono la creazione di testo e la risposta alle domande. codificatore - decodificatore: entrambi comprendono il testo di input e generano il testo di output in base al testo di input. Le attività comuni per i modelli encoder - decoder includono la conversione e il riepilogo.
Disponibilità regionale
Puoi lavorare con i modelli disponibili nello stesso data center regionale IBM Cloud dei servizi watsonx .
Linguaggi di programmazione supportati
Non tutti i modelli di base funzionano bene per la programmazione dei casi di utilizzo. Se si prevede di creare una soluzione che riepiloghi, converta, generi o altrimenti elabori il codice, esaminare quali linguaggi di programmazione sono stati inclusi nei dataset di preaddestramento di un modello e le attività di ottimizzazione per determinare se tale modello è adatto al proprio caso d'uso.