Utilizzate i modelli di fondazione di solo encoder distribuiti in IBM watsonx.ai per aiutare la ricerca semantica, il confronto dei documenti e le attività di reranking.
Sono disponibili i seguenti modelli di fondazione con solo encoder. È possibile scegliere il tipo di foundation model solo codificatore più adatto alle proprie esigenze o utilizzare entrambi i tipi come parte di un flusso di lavoro di ricerca e recupero in due fasi.
- Incorporare i modelli di fondazione
Utilizzate i modelli di incorporazione quando volete generare rappresentazioni vettoriali del testo che potete poi confrontare matematicamente. I modelli di embedding sono più veloci ed efficienti dei modelli di reranker, ma meno accurati.
Per ulteriori informazioni, vedere Incorporamento di modelli.
- Modelli di fondazione del reranker
Utilizzate i modelli di reranker quando volete generare punteggi per ogni passaggio in un piccolo insieme di passaggi per trovare quello o quelli che sono più correlati a una query. I modelli di reranker sono più precisi, ma meno efficienti dei modelli di embedding. Più input vengono inviati, più tempo impiegano i modelli di reranker per elaborare il testo.
Per ulteriori informazioni, vedere Modelli di reranker.
È possibile utilizzare i due tipi di modelli di fondazione di solo codificatore insieme per attività di ricerca e recupero:
- Utilizzare un modello di incorporazione per effettuare una ricerca semantica ampia che restituisca molti risultati.
- Utilizzate un modello di reranker per restringere i risultati principali della fase 1 a una singola risposta o a un breve elenco delle risposte migliori.
Per ulteriori informazioni sui modelli di fondazione generativi, vedi Supported foundation models.
Attività supportate dai modelli di fondazione con solo codificatore
È possibile utilizzare i modelli di solo codificatore in watsonx.ai per i seguenti compiti:
- Vettorializzazione del testo
- Specificare un modello di incorporamento da utilizzare per convertire il testo in incorporazioni di testo utilizzando l'API REST di watsonx.ai Vedere Modelli di incorporazione.
- Passaggi di reranking
- Specificare un modello di reranker da utilizzare per confrontare i passaggi con una query e classificare i passaggi dal più al meno correlati utilizzando l'API REST di watsonx.ai Vedere Modelli di reranker.
- Chattare con i documenti in Prompt Lab
- Utilizzate i modelli di incorporamento per vettorializzare i documenti da utilizzare come informazioni di base da inviare al foundation model dai prompt nel Prompt Lab. Vedere Aggiunta di documenti vettoriali per le richieste di foundation model.
- AutoAI per RAG
- Utilizzate i modelli di embedding con AutoAI per creare flussi di lavoro di generazione ottimizzati per il reperimento in modo programmatico. Vedere Automazione di un modello RAG con l' AutoAI SDK.
La tabella seguente mostra i tipi di compiti supportati dai modelli di fondazione solo encoder di IBM watsonx.ai Un segno di spunta (✓) indica che l'attività denominata nell'intestazione della colonna è supportata dal foundation model.
Modello | Vettorializzare il testo | Passaggi di rerank | AutoAI per RAG | Chattare con i documenti in Prompt Lab |
---|---|---|---|---|
all-minilm-l6-v2 | ✓ | ✓ | ||
all-minilm-l12-v2 | ✓ | |||
ELSER (Elastic Learned Sparse EncodeR) | ✓ | |||
ms-marco-minilm-l-12-v2 | ✓ | |||
multilingual-e5-large | ✓ | ✓ | ||
slate-30m-english-rtrvr-v2 | ✓ | |||
slate-30m-english-rtrvr | ✓ | ✓ | ||
slate-125m-english-rtrvr-v2 | ✓ | |||
slate-125m-english-rtrvr | ✓ | ✓ | ✓ |
Modelli di integrazione
I modelli di incorporamento sono modelli che si usano per vettorializzare i documenti e generare incorporazioni di testo per aiutare le attività di ricerca e confronto. Un'incorporazione di testo codifica il significato di una frase o di un brano in una serie di numeri, noti come vettori. Per ulteriori informazioni sulla vettorizzazione, vedere Generazione di incorporazioni di testo.
Dopo aver convertito i passaggi in vettori, è possibile calcolare la somiglianza dei passaggi vettoriali indipendenti utilizzando funzioni matematiche, come la somiglianza del coseno. La maggior parte dei modelli di incorporazione sono modelli bi-encoder. Utilizzate un modello bi-encoder quando è essenziale un richiamo elevato, cioè quando non volete perdere nessuna possibile corrispondenza, e dovete verificare la somiglianza di molti passaggi in modo efficiente.
I seguenti modelli di incorporazione possono essere utilizzati dall'API di watsonx.ai:
- slate-30m-english-rtrvr-v2
- slate-30m-english-rtrvr
- slate-125m-english-rtrvr-v2
- slate-125m-english-rtrvr
- all-minilm-l6-v2
- all-minilm-l12-v2
- multilingual-e5-large
Per ottenere un elenco dei modelli di incorporazione disponibili, utilizzare il metodo List the available foundation models nell'API watsonx.ai as a service. Specificare il parametro 'filters=function_embedding
per restituire solo i modelli di incorporazione.
curl -X GET \
'https://{cluster_url}/ml/v1/foundation_model_specs?version=2024-07-25&filters=function_embedding'
Panoramica dei modelli di incorporazione IBM
La tabella seguente elenca i modelli di incorporamento IBM che è possibile utilizzare dall'API.
Nome modello | ID modello API | PrezzoUSD/1,000 gettoni) | Numero massimo di token di input | Numero di dimensioni | Ulteriori informazioni |
---|---|---|---|---|---|
slate-125m-english-rtrvr-v2 | ibm/slate-125m-english-rtrvr-v2 |
$0.0001 | 512 | 768 | Scheda modello |
slate-125m-english-rtrvr | ibm/slate-125m-english-rtrvr |
$0.0001 | 512 | 768 | Scheda modello |
slate-30m-english-rtrvr-v2 | ibm/slate-30m-english-rtrvr-v2 |
$0.0001 | 512 | 384 | Scheda modello |
slate-30m-english-rtrvr | ibm/slate-30m-english-rtrvr |
$0.0001 | 512 | 384 | Scheda modello |
Panoramica dei modelli di incorporazione di terze parti
La tabella seguente elenca i modelli di incorporamento di terze parti che è possibile utilizzare dall'API.
Nome modello | ID modello API | di servizi | PrezzoUSD/1,000 gettoni) | Numero massimo di token di input | Numero di dimensioni | Ulteriori informazioni |
---|---|---|---|---|---|---|
all-minilm-l6-v2 | sentence-transformers/all-minilm-l6-v2 |
Comunità open source di elaborazione del linguaggio naturale (NLP) e computer vision (CV) | $0.0001 | 256 | 384 | - Scheda modello |
all-minilm-l12-v2 | sentence-transformers/all-minilm-l12-v2 |
Comunità open source di elaborazione del linguaggio naturale (NLP) e computer vision (CV) | $0.0001 | 256 | 384 | - Scheda modello |
multilingual-e5-large | intfloat/multilingual-e5-large |
Microsoft | $0.0001 | 512 | 1,024 | - Scheda modello " - Carta di ricerca |
- Per un elenco dei modelli forniti in ogni data center regionale, vedi Disponibilità regionale dei modelli di base.
- L'uso del modello è misurato in unità di risorse (RU). Ogni unità equivale a 1.000 token dell'input inviato al foundation model. Per ulteriori informazioni, consultare la sezione Dettagli di fatturazione per gli asset di IA generativa.
Modelli di reranker
I modelli di reranker sono modelli cross-encoder che si usano per classificare i passaggi in ordine di maggiore o minore rilevanza per una query. A differenza dei modelli bi-encoder, i modelli cross-encoder elaborano un brano e una query insieme e generano un punteggio per la somiglianza dei due input. Il modello ripete questa fase di confronto delle somiglianze per ogni brano incluso. Questo metodo è la scelta migliore quando si dispone di una serie ridotta di brani da valutare e si vuole trovare la risposta migliore.
I modelli di reranker disponibili su watsonx.ai non possono essere utilizzati per generare incorporazioni di testo.
Il seguente modello di reranker può essere utilizzato dall'API di watsonx.ai:
Per ottenere un elenco dei modelli di reranker disponibili, utilizzare il metodo List the available foundation models nell'API watsonx.ai as a service. Specificare il parametro 'filters=function_rerank
per restituire solo i modelli di reranker disponibili.
curl -X GET \
'https://{region}/ml/v1/foundation_model_specs?version=2024-07-25&filters=function_rerank'
Panoramica dei modelli di reranker
La tabella seguente elenca i modelli di reranker supportati.
Nome modello | ID modello API | di servizi | PrezzoUSD/1,000 gettoni) | Numero massimo di token di input | Ulteriori informazioni |
---|---|---|---|---|---|
ms-marco-minilm-l-12-v2 | cross-encoder/ms-marco-minilm-l-12-v2 |
Microsoft | $0.000005 | 512 | - Scheda modello |
- Per un elenco dei modelli forniti in ogni data center regionale, vedi Disponibilità regionale dei modelli di base.
- L'uso del modello è misurato in unità di risorse (RU). Ogni unità equivale a 1.000 token dell'input inviato al foundation model. Per ulteriori informazioni, consultare la sezione Dettagli di fatturazione per gli asset di IA generativa.
Dettagli del modello solo encoder
È possibile utilizzare la libreria Python di watsonx.ai o l'API REST per inviare frasi o passaggi a uno dei modelli di fondazione di solo encoder supportati.
all-minilm-l6-v2
Il modello di incorporazione all-minilm-l6-v2 è costruito dalla comunità open source di elaborazione del linguaggio naturale (NLP) e di visione artificiale (CV) e fornito da Hugging Face. Utilizzare il modello come codificatore di frasi e paragrafi brevi. Dato un testo in ingresso, il modello genera un vettore che cattura le informazioni semantiche del testo.
Il modello di incorporazione all-minilm-l6-v2 è simile al modello di incorporazione all-minilm-l12-v2, con la differenza che il modello all-minilm-l6-v2 ha sei strati di incorporazione invece dei dodici strati del modello all-minilm-l12-v2.
Utilizzo: Utilizzare i vettori frase generati dal modello di incorporazione all-minilm-l6-v2 per compiti quali il recupero di informazioni, il clustering e il rilevamento della somiglianza tra le frasi.
Numero di dimensioni: 384
Limiti token di immissione: 256
Lingue naturali supportate: inglese
Informazioni sulla messa a punto: Questo modello di incorporazione è una versione del modello MiniLM-L6-H384-uncased preaddestrato di Microsoft, messo a punto su un set di dati che contiene 1 miliardo di coppie di frasi.
Architettura del modello: solo codificatore
Licenza: Apache 2.0 license
Ulteriori informazioni
all-minilm-l12-v2
Il modello di incorporazione all-minilm-l12-v2 è stato costruito dalla comunità open source dell'elaborazione del linguaggio naturale (NLP) e della visione artificiale (CV) e fornito da Hugging Face. Utilizzare il modello come codificatore di frasi e paragrafi brevi. Dato un testo in ingresso, genera un vettore che cattura le informazioni semantiche del testo.
Il modello di incorporazione all-minilm-l12-v2 è simile al modello di incorporazione all-minilm-l6-v2, con la differenza che il modello all-minilm-l12-v2 ha dodici strati di incorporazione invece dei sei strati del modello all-minilm-l6-v2.
Uso: Utilizza i vettori di frasi generati dal modello di incorporamento all-minilm-l12-v2 per compiti quali il recupero di informazioni, il raggruppamento e il rilevamento della somiglianza tra frasi.
Livello di prezzo API: Classe C1. Per i dettagli sui prezzi, consultare la tabella.
Numero di dimensioni: 384
Limiti token di immissione: 256
Lingue naturali supportate: inglese
Informazioni sull'ottimizzazione dei dati: questo modello di integrazione è una versione del modello MiniLM-L12-H384-uncased preaddestrato di Microsoft, ottimizzato con coppie di frasi da più di 1 miliardo di frasi.
Architettura del modello: solo codificatore
Licenza: Apache 2.0 license
Ulteriori informazioni
ms-marco-minilm-l-12-v2
Il modello di reranker ms-marco-minilm-l-12-v2 è costruito da Microsoft e fornito da Hugging Face. Utilizzate il modello come passepartout e ricopritore di documenti. Dato il testo della query e un insieme di passaggi del documento, classifica l'elenco dei passaggi dal più al meno correlati alla query.
Utilizzo: Utilizzare il modello di reranker ms-marco-minilm-l-12-v2 quando si dispone di un piccolo insieme di passaggi che si desidera valutare rispetto a una query e la precisione è essenziale. Ad esempio, quando si hanno meno di 100 passaggi e si vuole assegnare loro un punteggio in base alla somiglianza con il testo della query.
Livello di prezzo API: Classe 11. Per i dettagli sui prezzi, consultare la tabella.
Limiti token di immissione: 512
Lingue naturali supportate: inglese
Informazioni sulla messa a punto: Il modello ms-marco-minilm-l-12-v2 è stato addestrato sul compito MS Marco Passage Ranking. MS MARCO (Microsoft Machine Reading Comprehension) è un set di dati su larga scala utilizzato per la comprensione automatica della lettura, la risposta alle domande e la classificazione dei passaggi.
Architettura del modello: solo codificatore
Licenza: Apache 2.0 license
Ulteriori informazioni
multilingual-e5-large
Il modello di incorporazione multilingual-e5-large è costruito da Microsoft e fornito da Hugging Face.
L'architettura del modello di integrazione ha 24 livelli che vengono utilizzati in modo sequenziale per elaborare i dati.
Utilizzo: utilizzare per i casi di utilizzo in cui si desidera generare le incorporazioni di testo per il testo in una lingua diversa dall'inglese. Il modello multilingual-e5-large è utile per compiti quali il recupero di brani o informazioni, la similarità semantica, il bitext mining e il recupero di parafrasi.
Livello di prezzo API: Classe C1. Per i dettagli sui prezzi, consultare la tabella.
Numero di dimensioni: 1,024
Limiti token di immissione: 512
Lingue naturali supportate: fino a 100 lingue. Vedere la scheda del modello per i dettagli.
Informazioni sulla messa a punto: Questo modello di incorporazione è una versione del modello XLM-RoBERTa, che è una versione multilingue di RoBERTa preaddestrata su 2.5 TB di dati CommonCrawl filtrati. Questo modello di integrazione è stato continuamente addestrato su una combinazione di dataset multilingue.
Architettura del modello: solo codificatore
Licenza: Codice di condotta Microsoft Open Source
Ulteriori informazioni
slate-125m-english-rtrvr
I modelli di fondazione slate-125m-english-rtrvr-v2 e slate-125m-english-rtrvr sono forniti da IBM. I modelli di embedding IBM Slate 125m generano embedding per vari input come query, passaggi o documenti.
L'obiettivo di addestramento è massimizzare la similarità coseno tra una query e un passaggio. Questo processo produce due incorporazioni di frase, una che rappresenta la domanda e una che rappresenta il passaggio, consentendo il confronto delle due attraverso la similarità coseno.
Utilizzo: Da due a tre volte più lento ma con prestazioni leggermente migliori rispetto al modello di incorporazione IBM Slate 30m.
Livello di prezzo API: Classe C1. Per i dettagli sui prezzi, consultare la tabella.
Numero di dimensioni: 768
Limiti token di immissione: 512
Lingue naturali supportate: inglese
Informazioni sull'ottimizzazione delle frasi: questa versione del modello è stata ottimizzata per essere migliore nelle attività basate sul richiamo delle frasi.
Architettura del modello: solo codificatore
Licenza: Condizioni di utilizzo
Ulteriori informazioni
slate-30m-english-rtrvr
I modelli di fondazione slate-30m-english-rtrvr-v2 e slate-30m-english-rtrvr sono versioni distillate del modello slate-125m-english-rtrvr, tutti forniti da IBM. Il modello di incorporazione IBM Slate viene addestrato per massimizzare la somiglianza del coseno tra due input di testo, in modo che le incorporazioni possano essere valutate in seguito in base alla somiglianza.
L'architettura del modello di inclusione ha 6 livelli che vengono utilizzati in modo sequenziale per elaborare i dati.
Utilizzo: Da due a tre volte più veloce e con punteggi di prestazioni leggermente inferiori rispetto al modello di incorporazione IBM Slate 125m.
Livello di prezzo API: Classe C1. Per i dettagli sui prezzi, consultare la tabella.
Prova: Utilizzo di testo vettorizzato con attività di generazione aumentate dal richiamo
Numero di dimensioni: 384
Limiti token di immissione: 512
Lingue naturali supportate: inglese
Informazioni sull'ottimizzazione delle frasi: questa versione del modello è stata ottimizzata per essere migliore nelle attività basate sul richiamo delle frasi.
Architettura del modello: solo codificatore
Licenza: Condizioni di utilizzo
Ulteriori informazioni
- Aggiunta di documenti vettoriali
- Vettorializzare il testo utilizzando l'API
- Passaggi di reranking utilizzando l'API
- IBM Scheda modello Slate 30m
- IBM Slate 30m V2 Modello scheda
Argomento principale: Modelli di fondazione supportati