Esaminare le considerazioni e i requisiti per l'implementazione di un foundation model personalizzato per l'inferenza con watsonx.ai.
Quando vi preparate a distribuire un foundation model personalizzato, rivedete queste considerazioni di pianificazione:
- Rivedere i Requisiti e note d'uso per i modelli di fondazione personalizzati
- Rivedere la sezione Architetture supportate per i modelli di fondazione personalizzati per assicurarsi che il proprio modello sia compatibile.
- Raccogliere i dettagli necessari come prerequisiti per la distribuzione di un foundation model personalizzato.
- Selezionare una specifica hardware per il foundation model personalizzato.
- Esaminare le limitazioni di distribuzione
- Abilitare le credenziali dell'attività per poter distribuire modelli di fondazione personalizzati.
Requisiti e note d'uso per i modelli di fondazione personalizzati
I modelli personalizzati distribuibili devono soddisfare questi requisiti:
Il caricamento e l'utilizzo di un modello personalizzato è disponibile solo nel piano Standard per watsonx.ai.
Il modello deve essere compatibile con lo standard Text Generation Inference (TGI) e deve essere costruito con un tipo di architettura del modello supportato.
L'elenco dei file per il modello deve contenere un file
config.json
.Il modello deve essere in formato
safetensors
con la libreria di trasformatori supportata e deve includere un filetokenizer.json
.Importante:- È necessario assicurarsi che il foundation model personalizzato sia salvato con la libreria "
transformers
supportata. Se il file model.safetensors per il foundation model personalizzato utilizza un formato di dati non supportato nell'intestazione dei metadati, la distribuzione potrebbe fallire. Per ulteriori informazioni, vedere Risoluzione dei problemi di watsonx.ai Runtime. - Assicurarsi che il progetto o lo spazio in cui si desidera distribuire il foundation model personalizzato abbia un'istanza di watsonx.ai Runtime associata. Aprite la scheda Gestione nel vostro progetto o spazio per verificarlo.
- È necessario assicurarsi che il foundation model personalizzato sia salvato con la libreria "
Architetture di modello supportate
La tabella seguente elenca le architetture dei modelli che è possibile distribuire come modelli personalizzati per l'inferenza con watsonx.ai. Le architetture del modello sono elencate insieme a informazioni sui metodi di quantizzazione supportati, sui tensori paralleli, sulle dimensioni della configurazione di distribuzione e sulle specifiche del software.
Two software specifications are available for your deployments: watsonx-cfm-caikit-1.0
, watsonx-cfm-caikit-1.1
. The watsonx-cfm-caikit-1.1
specification is better in terms of performance, but it's not available with every model architecture.
Tipo di architettura del modello | Metodo di quantizzazione | Tensori parallelimultiGpu) | Configurazioni della distribuzione | Specifiche software |
---|---|---|---|---|
bloom |
N/D | Sì | Piccolo, medio, grande | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
codegen |
N/D | N | Piccolo | watsonx-cfm-caikit-1.0 |
falcon |
N/D | Sì | Piccolo, medio, grande | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
gpt_bigcode |
gptq |
Sì | Piccolo, medio, grande | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
gpt-neox |
N/D | Sì | Piccolo, medio, grande | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
gptj |
N/D | N | Piccolo | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
llama |
gptq |
Sì | Piccolo, medio, grande | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
mixtral |
gptq |
N | Piccolo | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
mistral |
N/D | N | Piccolo | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
mt5 |
N/D | N | Piccolo | watsonx-cfm-caikit-1.0 |
mpt |
N/D | N | Piccolo | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
t5 |
N/D | Sì | Piccolo, medio, grande | watsonx-cfm-caikit-1.0 |
- IBM non supporta gli errori di distribuzione dovuti all'implementazione di modelli di fondazione con architetture non supportate.
- Le distribuzioni dei modelli
llama 3.1
potrebbero fallire. Per risolvere questo problema, vedere i passaggi elencati in Risoluzione dei problemi. - Non è possibile distribuire modelli di tipo
codegen
,mt5
et5
con le specifiche del softwarewatsonx-cfm-caikit-1.1
- Se il modello non supporta i tensori paralleli, l'unica configurazione possibile è
Small
. Se il modello è stato addestrato con più parametri di quelli supportati dalla configurazioneSmall
, fallirà. Ciò significa che non sarà possibile distribuire alcuni dei modelli personalizzati. Per ulteriori informazioni sulle limitazioni, vedere Linee guida per l'utilizzo delle risorse.
Raccolta dei dettagli dei prerequisiti per un foundation model personalizzato
Verificare l'esistenza del file "
config.json
nella cartella dei contenuti foundation model. Il servizio di distribuzione verificherà l'esistenza del file 'config.json
nella cartella dei contenuti foundation model dopo il caricamento nel cloud storage.Aprire il file '
config.json
per verificare che il foundation model utilizzi un'architettura supportata.Visualizzare l'elenco dei file del foundation model per verificare la presenza del file '
tokenizer.json
e che il contenuto del modello sia in formato '.safetensors
.Importante:È necessario assicurarsi che il foundation model personalizzato sia salvato con la libreria "
transformers
supportata. Se il file model.safetensors per il foundation model personalizzato utilizza un formato di dati non supportato nell'intestazione dei metadati, la distribuzione potrebbe fallire. Per ulteriori informazioni, vedere Risoluzione dei problemi di watsonx.ai Runtime.
Vedere un esempio:
Per il modello falcon-40b memorizzato su Hugging Face, fare clic su File e versioni per visualizzare la struttura del file e verificare la presenza di 'config.json
:
Il modello di esempio utilizza una versione dell'architettura falcon
supportata.
Questo modello di esempio contiene il file tokenizer.json
ed è nel formato .safetensors
:
Se il modello non soddisfa questi requisiti, non è possibile creare una risorsa modello e distribuire il modello.
Linee guida per l'utilizzo delle risorse
Sono disponibili tre configurazioni per supportare il foundation model personalizzato: Small
, 'Medium
e 'Large
. Per determinare la configurazione più adatta al vostro foundation model personalizzato, consultate le seguenti linee guida:
- Assegnare la configurazione
Small
a qualsiasi modello di precisione a doppio byte secondo i parametri 26B, previa verifica e convalida. - Assegnare la configurazione
Medium
a qualsiasi modello di precisione a doppio byte tra i parametri 27B e 53B, previa verifica e convalida. - Assegnare la configurazione
Large
a qualsiasi modello di precisione a doppio byte tra i parametri 54B e 106B, previa verifica e convalida.
Se la configurazione selezionata non funziona durante la fase di test e convalida, si consiglia di esplorare la configurazione superiore disponibile. Ad esempio, provare la configurazione Medium
se la configurazione Small
fallisce. Attualmente la configurazione Large
è la più alta disponibile.
Configurazione | Esempi di modelli adatti |
---|---|
Piccolo | llama-3-8b llama-2-13b starcoder-15.5b mt0-xxl-13b jais-13b gpt-neox-20b flan-t5-xxl-11b flan-ul2-20b allam-1-13b |
Medio | codellama-34b |
Grande | llama-3-70b llama-2-70b |
Limitazioni e restrizioni per i modelli di fondazione personalizzati
Si noti che questi limiti riguardano il modo in cui è possibile distribuire e utilizzare modelli di fondazione personalizzati con watsonx.ai.
Limitazioni per la distribuzione di modelli di fondazione personalizzati
A causa dell'elevata richiesta di implementazioni foundation model personalizzati e delle risorse limitate per soddisfarla, watsonx.ai ha un limite di implementazione di quattro modelli piccoli, due modelli medi o un modello grande per account IBM Cloud. Se si tenta di importare un foundation model personalizzato oltre questi limiti, si riceverà una notifica e si chiederà di condividere il proprio feedback attraverso un sondaggio. Questo ci aiuterà a capire le vostre esigenze e a pianificare i futuri aggiornamenti della capacità.
Restrizioni per l'utilizzo di distribuzioni di foundation model personalizzati
Si notino le restrizioni per l'uso di modelli di fondazione personalizzati dopo che sono stati distribuiti con watsonx.ai:
- Non è possibile sintonizzare un foundation model personalizzato.
- Non è possibile utilizzare watsonx.governance per valutare o monitorare un modello di prompt per un foundation model personalizzato.
- È possibile richiedere un foundation model personalizzato, ma non è possibile salvare un modello di richiesta per un modello personalizzato.
Aiutateci a migliorare questa esperienza
Se volete condividere subito il vostro feedback, cliccate su questo link. Il vostro feedback è essenziale per aiutarci a pianificare i futuri aggiornamenti della capacità e a migliorare l'esperienza complessiva di distribuzione dei foundation model personalizzati. Grazie per la vostra collaborazione!
Passi successivi
Scaricare un foundation model personalizzato e impostare l'archiviazione
Argomento principale: Distribuzione di un foundation model personalizzato