Pianificazione della distribuzione di un modello di fondazione personalizzato
Esaminare le considerazioni e i requisiti per l'implementazione di un modello di fondazione personalizzato per l'inferenza con watsonx.ai.
Quando vi preparate a distribuire un modello di fondazione personalizzato, rivedete queste considerazioni di pianificazione:
- Rivedere i Requisiti e note d'uso per i modelli di fondazione personalizzati
- Rivedere la sezione Architetture supportate per i modelli di fondazione personalizzati per assicurarsi che il proprio modello sia compatibile.
- Raccogliere i dettagli necessari come prerequisiti per la distribuzione di un modello di fondazione personalizzato.
- Selezionare una specifica hardware per il modello di fondazione personalizzato.
- Esaminare le limitazioni di distribuzione
- Abilitare le credenziali dell'attività per poter distribuire modelli di fondazione personalizzati.
Requisiti e note d'uso per i modelli di fondazione personalizzati
I modelli personalizzati distribuibili devono soddisfare questi requisiti:
Il caricamento e l'utilizzo di un modello personalizzato è disponibile solo nel piano Standard per watsonx.ai.
Il modello deve essere costruito con un tipo di architettura del modello supportato.
L'elenco dei file per il modello deve contenere un file
config.json
.Modelli di uso generale: il modello deve essere in formato
safetensors
con la libreria di trasformatori supportata e deve includere un filetokenizer.json
. Se il modello non è in formatosafetensors
e non include il filetokenizer.json
ma è altrimenti compatibile, un'utilità di conversione apporterà le modifiche necessarie come parte del processo di preparazione del modello.Modelli di serie temporali: la directory del modello deve contenere il file
tsfm_config.json
. I modelli di serie temporali ospitati su Hugging Face (model_type:tinytimemixer
) non possono includere questo file. Se il file non è presente quando il modello viene scaricato e distribuito, la previsione fallirà. Per evitare problemi di previsione, è necessario eseguire un passaggio supplementare quando si scarica il modello.Importante:- Modelli generici: è necessario assicurarsi che il modello di fondazione personalizzato sia salvato con la libreria
transformers
supportata. Se il file model.safetensors per il modello di fondazione personalizzato utilizza un formato di dati non supportato nell'intestazione dei metadati, la distribuzione potrebbe fallire. Per ulteriori informazioni, vedere Risoluzione dei problemi di watsonx.ai Runtime. - Assicurarsi che il progetto o lo spazio in cui si desidera distribuire il modello di fondazione personalizzato abbia un'istanza di watsonx.ai Runtime associata. Aprite la scheda Gestione nel vostro progetto o spazio per verificarlo.
- Modelli generici: è necessario assicurarsi che il modello di fondazione personalizzato sia salvato con la libreria
Architetture di modello supportate
Le tabelle seguenti elencano le architetture dei modelli che è possibile distribuire come modelli personalizzati per l'inferenza con watsonx.ai. Le architetture del modello sono elencate insieme a informazioni sui metodi di quantizzazione supportati, sui tensori paralleli, sulle dimensioni della configurazione di distribuzione e sulle specifiche del software.
Sono disponibili diverse specifiche software per le vostre implementazioni:
- Le specifiche del software
watsonx-cfm-caikit-1.0
si basano sul motore di runtime TGI. - Le specifiche del software
watsonx-cfm-caikit-1.1
si basano sul motore di runtime vLLM. È migliore in termini di prestazioni, ma non è disponibile per tutti i modelli di architettura. - Le specifiche del software
watsonx-tsfm-runtime-1.0
sono progettate per modelli di serie temporali. È basato sul runtime di inferenzawatsonx-tsfm-runtime-1.0
.
Modelli per uso generale:
Tipo di architettura del modello | Esempi di modelli di fondazione | Metodo di quantizzazione | Tensori parallelimultiGpu) | Configurazioni della distribuzione | Specifiche software |
---|---|---|---|---|---|
bloom |
bigscience/bloom-3b , bigscience/bloom-560m |
N/D | Vero | Piccolo, medio, grande | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
codegen |
Salesforce/codegen-350M-mono , Salesforce/codegen-16B-mono |
N/D | N | Piccolo | watsonx-cfm-caikit-1.0 |
exaone |
lgai-exaone/exaone-3.0-7.8B-Instruct |
N/D | N | Piccolo | watsonx-cfm-caikit-1.1 |
falcon |
tiiuae/falcon-7b |
N/D | Vero | Piccolo, medio, grande | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
gemma |
google/gemma-2b |
N/D | Vero | Piccolo, medio, grande | watsonx-cfm-caikit-1.1 |
gemma2 |
google/gemma-2-9b |
N/D | Vero | Piccolo, medio, grande | watsonx-cfm-caikit-1.1 |
gpt_bigcode |
bigcode/starcoder , bigcode/gpt_bigcode-santacoder |
gptq |
Vero | Piccolo, medio, grande | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
gpt-neox |
rinna/japanese-gpt-neox-small , EleutherAI/pythia-12b , databricks/dolly-v2-12b |
N/D | Vero | Piccolo, medio, grande | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
gptj |
EleutherAI/gpt-j-6b |
N/D | N | Piccolo | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
gpt2 |
openai-community/gpt2-large |
N/D | N | Piccolo | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
granite |
ibm-granite/granite-3.0-8b-instruct , ibm-granite/granite-3b-code-instruct-2k , granite-8b-code-instruct , granite-7b-lab |
N/D | N | Piccolo | watsonx-cfm-caikit-1.1 |
jais |
core42/jais-13b |
N/D | Vero | Piccolo, medio, grande | watsonx-cfm-caikit-1.1 |
llama |
DeepSeek-R1 (distilled variant) , meta-llama/Meta-Llama-3-8B , meta-llama/Meta-Llama-3.1-8B-Instruct , llama-2-13b-chat-hf , TheBloke/Llama-2-7B-Chat-AWQ , ISTA-DASLab/Llama-2-7b-AQLM-2Bit-1x16-hf |
gptq |
Vero | Piccolo, medio, grande | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
mistral |
mistralai/Mistral-7B-v0.3 , neuralmagic/OpenHermes-2.5-Mistral-7B-marlin |
N/D | N | Piccolo | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
mixtral |
TheBloke/Mixtral-8x7B-v0.1-GPTQ , mistralai/Mixtral-8x7B-Instruct-v0.1 |
gptq |
N | Piccolo | watsonx-cfm-caikit-1.1 |
mpt |
mosaicml/mpt-7b , mosaicml/mpt-7b-storywriter , mosaicml/mpt-30b |
N/D | N | Piccolo | watsonx-cfm-caikit-1.0 , watsonx-cfm-caikit-1.1 |
mt5 |
google/mt5-small , google/mt5-xl |
N/D | N | Piccolo | watsonx-cfm-caikit-1.0 |
nemotron |
nvidia/Minitron-8B-Base |
N/D | Vero | Piccolo, medio, grande | watsonx-cfm-caikit-1.1 |
olmo |
allenai/OLMo-1B-hf , allenai/OLMo-7B-hf |
N/D | Vero | Piccolo, medio, grande | watsonx-cfm-caikit-1.1 |
persimmon |
adept/persimmon-8b-base , adept/persimmon-8b-chat |
N/D | Vero | Piccolo, medio, grande | watsonx-cfm-caikit-1.1 |
phi |
microsoft/phi-2 , microsoft/phi-1_5 |
N/D | Vero | Piccolo, medio, grande | watsonx-cfm-caikit-1.1 |
phi3 |
microsoft/Phi-3-mini-4k-instruct |
N/D | Vero | Piccolo, medio, grande | watsonx-cfm-caikit-1.1 |
qwen |
DeepSeek-R1 (distilled variant) |
N/D | Vero | Piccolo, medio, grande | watsonx-cfm-caikit-1.1 |
qwen2 |
Qwen/Qwen2-7B-Instruct-AWQ |
AWQ |
Vero | Piccolo, medio, grande | watsonx-cfm-caikit-1.1 |
t5 |
google/flan-t5-large , google/flan-t5-small |
N/D | Vero | Piccolo, medio, grande | watsonx-cfm-caikit-1.0 |
Modelli di serie temporali:
Tipo di architettura del modello | Esempi di modelli di fondazione | Metodo di quantizzazione | Tensori parallelimultiGpu) | Configurazioni della distribuzione | Specifiche software |
---|---|---|---|---|---|
tinytimemixer |
ibm-granite/granite-timeseries-ttm-r2 |
N/D | N/D | Piccolo, medio, grande, extra large | watsonx-tsfm-runtime-1.0 |
- IBM certifica solo le architetture del modello elencate nella Tabella 1 e nella Tabella 2. È possibile utilizzare modelli con altre architetture supportate dal framework di inferenza vLLM, ma IBM non supporta i fallimenti di distribuzione dovuti alla distribuzione di modelli di fondazione con architetture non supportate o funzionalità incompatibili.
- Le distribuzioni dei modelli
llama 3.1
potrebbero fallire. Per risolvere questo problema, vedere i passaggi elencati in Risoluzione dei problemi. - Non è possibile distribuire modelli di tipo
codegen
,mt5
et5
con le specifiche del softwarewatsonx-cfm-caikit-1.1
- Se il modello non supporta i tensori paralleli, l'unica configurazione possibile è
Small
. Se il modello è stato addestrato con più parametri di quelli supportati dalla configurazioneSmall
, fallirà. Ciò significa che non sarà possibile distribuire alcuni dei modelli personalizzati. Per ulteriori informazioni sulle limitazioni, vedere Linee guida per l'utilizzo delle risorse.
Raccolta dei dettagli dei prerequisiti per un modello di fondazione personalizzato
Verificare l'esistenza del file
config.json
nella cartella dei contenuti del modello di fondazione. Il servizio di distribuzione verificherà l'esistenza del fileconfig.json
nella cartella dei contenuti del modello di fondazione dopo il caricamento nel cloud storage.Aprire il file
config.json
per verificare che il modello di fondazione utilizzi un' architettura supportata.Visualizzare l'elenco dei file per il modello di fondazione per verificare la presenza del file
tokenizer.json
e che il contenuto del modello sia in formato.safetensors
.Importante:È necessario assicurarsi che il modello di fondazione personalizzato sia salvato con la libreria
transformers
supportata. Se il file model.safetensors per il modello di fondazione personalizzato utilizza un formato di dati non supportato nell'intestazione dei metadati, la distribuzione potrebbe fallire. Per ulteriori informazioni, vedere Risoluzione dei problemi di watsonx.ai Runtime.
Vedere un esempio:
Per il falcon-40b modello memorizzato su Hugging Face, fare clic su File e versioni per visualizzare la struttura dei file e verificare la presenza di config.json
:
Il modello di esempio utilizza una versione dell'architettura falcon
supportata.
Questo modello di esempio contiene il file tokenizer.json
ed è nel formato .safetensors
:
Se il modello non soddisfa questi requisiti, non è possibile creare una risorsa modello e distribuire il modello.
Linee guida per l'utilizzo delle risorse
Modelli di serie temporali
Il runtime di inferenza per i modelli di serie temporali supporta queste specifiche hardware: S
(Small), M
(Medium), L
(Large), XL
(Extra large).
Assegnate una specifica hardware al vostro modello di serie temporale personalizzato, in base al numero massimo di utenti contemporanei e alle caratteristiche del carico utile:
Serie temporali univariate | Serie temporali multivariate (serie x obiettivi) | Piccolo | Medio | Grande | Molto grande |
---|---|---|---|---|---|
1000 | 23x100 | 6 | 12 | 25 | 50 |
500 | 15x80 | 10 | 21 | 42 | 85 |
250 | 15x40 | 13 | 26 | 53 | 106 |
125 | 15x20 | 13 | 27 | 54 | 109 |
60 | 15x10 | 14 | 28 | 56 | 112 |
30 | 15x5 | 14 | 28 | 56 | 113 |
Modelli per uso generale
Per i modelli generici, sono disponibili tre configurazioni per supportare il modello di fondazione personalizzato: WX-S
(Small), WX-M
(Medium) e WX-L
(Large). Per determinare la configurazione più adatta al vostro modello di fondazione personalizzato, consultate le seguenti linee guida:
- Assegnare la configurazione
WX-S
a qualsiasi modello di precisione a doppio byte secondo i parametri 26B, previa verifica e convalida. - Assegnare la configurazione
WX-M
a qualsiasi modello di precisione a doppio byte tra i parametri 27B e 53B, previa verifica e convalida. - Assegnare la configurazione
WX-L
a qualsiasi modello di precisione a doppio byte tra i parametri 54B e 106B, previa verifica e convalida.
Se la configurazione selezionata non funziona durante la fase di test e convalida, si consiglia di esplorare la configurazione superiore disponibile. Ad esempio, provare la configurazione Medium se la configurazione Small fallisce. Attualmente la configurazione Large è la più alta disponibile.
Configurazione | Esempi di modelli adatti |
---|---|
Piccolo | llama-3-8b llama-2-13b starcoder-15.5b mt0-xxl-13b jais-13b gpt-neox-20b flan-t5-xxl-11b flan-ul2-20b allam-1-13b |
Medio | codellama-34b |
Grande | llama-3-70b llama-2-70b |
Limitazioni e restrizioni per i modelli di fondazione personalizzati
Si noti che questi limiti riguardano il modo in cui è possibile distribuire e utilizzare modelli di fondazione personalizzati con watsonx.ai.
Limitazioni per la distribuzione di modelli di fondazione personalizzati
- A causa dell'elevata richiesta di implementazioni di modelli di fondazione personalizzati e delle risorse limitate per soddisfarla, watsonx.ai ha un limite di implementazione di quattro modelli piccoli, due modelli medi o un modello grande per account IBM Cloud. Se si tenta di importare un modello di fondazione personalizzato oltre questi limiti, si riceverà una notifica e si chiederà di condividere il proprio feedback attraverso un sondaggio. Questo ci aiuterà a capire le vostre esigenze e a pianificare i futuri aggiornamenti della capacità.
- I modelli a serie temporali non richiedono alcun parametro. Non fornire alcun parametro quando si distribuisce un modello di serie temporali personalizzato. Se si forniscono parametri quando si distribuisce un modello di serie temporali personalizzato, questi non avranno alcun effetto.
Restrizioni per l'utilizzo di distribuzioni di modelli di fondazione personalizzati
Elenco delle restrizioni per l'utilizzo dei modelli di fondazione personalizzati dopo la loro distribuzione con watsonx.ai:
- Non è possibile sintonizzare un modello di fondazione personalizzato.
- Non è possibile utilizzare watsonx.governance per valutare o tracciare un modello di prompt per un modello di fondazione personalizzato.
Aiutateci a migliorare questa esperienza
Se volete condividere subito il vostro feedback, cliccate su questo link. Il vostro feedback è essenziale per aiutarci a pianificare i futuri aggiornamenti della capacità e a migliorare l'esperienza complessiva di distribuzione dei modelli di fondazione personalizzati. Grazie per la vostra collaborazione!
Passi successivi
Scaricare un modello di fondazione personalizzato e impostare l'archiviazione
Argomento principale: Distribuzione di un modello di fondazione personalizzato