Pianificazione della distribuzione di un modello di fondazione personalizzato

Ultimo aggiornamento: 02 apr 2025

Esaminare le considerazioni e i requisiti per l'implementazione di un modello di fondazione personalizzato per l'inferenza con watsonx.ai.

Quando vi preparate a distribuire un modello di fondazione personalizzato, rivedete queste considerazioni di pianificazione:

Rivedere i Requisiti e note d'uso per i modelli di fondazione personalizzati
Rivedere la sezione Architetture supportate per i modelli di fondazione personalizzati per assicurarsi che il proprio modello sia compatibile.
Raccogliere i dettagli necessari come prerequisiti per la distribuzione di un modello di fondazione personalizzato.
Selezionare una specifica hardware per il modello di fondazione personalizzato.
Esaminare le limitazioni di distribuzione
Abilitare le credenziali dell'attività per poter distribuire modelli di fondazione personalizzati.

Requisiti e note d'uso per i modelli di fondazione personalizzati

I modelli personalizzati distribuibili devono soddisfare questi requisiti:

Il caricamento e l'utilizzo di un modello personalizzato è disponibile solo nel piano Standard per watsonx.ai.
Il modello deve essere compatibile con lo standard Text Generation Inference (TGI) e deve essere costruito con un tipo di architettura del modello supportato.
L'elenco dei file per il modello deve contenere un file config.json.
Il modello deve essere in formato safetensors con la libreria di trasformatori supportata e deve includere un file tokenizer.json.
Importante:
- È necessario assicurarsi che il modello di fondazione personalizzato sia salvato con la libreria transformers supportata. Se il file model.safetensors per il modello di fondazione personalizzato utilizza un formato di dati non supportato nell'intestazione dei metadati, la distribuzione potrebbe fallire. Per ulteriori informazioni, vedere Risoluzione dei problemi di watsonx.ai Runtime.
- Assicurarsi che il progetto o lo spazio in cui si desidera distribuire il modello di fondazione personalizzato abbia un'istanza di watsonx.ai Runtime associata. Aprite la scheda Gestione nel vostro progetto o spazio per verificarlo.

Architetture di modello supportate

La tabella seguente elenca le architetture dei modelli che è possibile distribuire come modelli personalizzati per l'inferenza con watsonx.ai. Le architetture del modello sono elencate insieme a informazioni sui metodi di quantizzazione supportati, sui tensori paralleli, sulle dimensioni della configurazione di distribuzione e sulle specifiche del software.

Nota:

Two software specifications are available for your deployments: watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1. The watsonx-cfm-caikit-1.1 specification is better in terms of performance, but it's not available with every model architecture.

Tabella 1. Architetture di modelli supportate, metodi di quantizzazione, tensori paralleli, dimensioni della configurazione di distribuzione e specifiche software
Tipo di architettura del modello	Esempi di modelli di fondazione	Metodo di quantizzazione	Tensori parallelimultiGpu)	Configurazioni della distribuzione	Specifiche software
`bloom`	`bigscience/bloom-3b`, `bigscience/bloom-560m`	N/D	Vero	Piccolo, medio, grande	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`codegen`	`Salesforce/codegen-350M-mono`, `Salesforce/codegen-16B-mono`	N/D	N	Piccolo	`watsonx-cfm-caikit-1.0`
`exaone`	`lgai-exaone/exaone-3.0-7.8B-Instruct`	N/D	N	Piccolo	`watsonx-cfm-caikit-1.1`
`falcon`		N/D	Vero	Piccolo, medio, grande	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`gemma`	`google/gemma-2b`	N/D	Vero	Piccolo, medio e grande	`watsonx-cfm-caikit-1.1`
`gemma2`	`google/gemma-2-9b`	N/D	Vero	Piccolo, medio e grande	`watsonx-cfm-caikit-1.1`
`gpt_bigcode`	`bigcode/starcoder`, `bigcode/gpt_bigcode-santacoder`	`gptq`	Vero	Piccolo, medio, grande	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`gpt-neox`	`rinna/japanese-gpt-neox-small`, `EleutherAI/pythia-12b`, `databricks/dolly-v2-12b`	N/D	Vero	Piccolo, medio, grande	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`gptj`	`EleutherAI/gpt-j-6b`	N/D	N	Piccolo	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`granite`	`ibm-granite/granite-3.0-8b-instruct`, `ibm-granite/granite-3b-code-instruct-2k`, `granite-8b-code-instruct`, `granite-7b-lab`	N/D	N	Piccolo	`watsonx-cfm-caikit-1.1`
`llama`	`DeepSeek-R1 (distilled variant)`, `meta-llama/Meta-Llama-3-8B`, `meta-llama/Meta-Llama-3.1-8B-Instruct`, `llama-2-13b-chat-hf`, `TheBloke/Llama-2-7B-Chat-AWQ`, `ISTA-DASLab/Llama-2-7b-AQLM-2Bit-1x16-hf`	`gptq`	Vero	Piccolo, medio, grande	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`mistral`	`mistralai/Mistral-7B-v0.3`, `neuralmagic/OpenHermes-2.5-Mistral-7B-marlin`	N/D	N	Piccolo	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`mixtral`	`TheBloke/Mixtral-8x7B-v0.1-GPTQ`, `mistralai/Mixtral-8x7B-Instruct-v0.1`	`gptq`	N	Piccolo	`watsonx-cfm-caikit-1.1`
`mpt`	`mosaicml/mpt-7b`, `mosaicml/mpt-7b-storywriter`, `mosaicml/mpt-30b`	N/D	N	Piccolo	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`mt5`	`google/mt5-small`, `google/mt5-xl`	N/D	N	Piccolo	`watsonx-cfm-caikit-1.0`
`nemotron`	`nvidia/Minitron-8B-Base`	N/D	Vero	Piccolo, medio e grande	`watsonx-cfm-caikit-1.1`
`olmo`	`allenai/OLMo-1B-hf`, `allenai/OLMo-7B-hf`	N/D	Vero	Piccolo, medio e grande	`watsonx-cfm-caikit-1.1`
`persimmon`	`adept/persimmon-8b-base`, `adept/persimmon-8b-chat`	N/D	Vero	Piccolo, medio e grande	`watsonx-cfm-caikit-1.1`
`phi`	`microsoft/phi-2`, `microsoft/phi-1_5`	N/D	Vero	Piccolo, medio e grande	`watsonx-cfm-caikit-1.1`
`phi3`	`microsoft/Phi-3-mini-4k-instruct`	N/D	Vero	Piccolo, medio e grande	`watsonx-cfm-caikit-1.1`
`qwen`	`DeepSeek-R1 (distilled variant)`	N/D	Vero	Piccolo, medio e grande	`watsonx-cfm-caikit-1.1`
`qwen2`	`Qwen/Qwen2-7B-Instruct-AWQ`	`AWQ`	Vero	Piccolo, medio e grande	`watsonx-cfm-caikit-1.1`
`t5`	`google/flan-t5-large`, `google/flan-t5-small`	N/D	Vero	Piccolo, medio, grande	`watsonx-cfm-caikit-1.0`

Importante:

IBM certifica solo le architetture del modello elencate nella Tabella 1. È possibile utilizzare modelli con architetture alternative supportate da vLLM,, tuttavia IBM non supporta i fallimenti di distribuzione dovuti alla distribuzione di modelli di fondazione con architetture non supportate o funzionalità incompatibili.
Le distribuzioni dei modelli llama 3.1 potrebbero fallire. Per risolvere questo problema, vedere i passaggi elencati in Risoluzione dei problemi.
Non è possibile distribuire modelli di tipo codegen, mt5 e t5 con le specifiche del software watsonx-cfm-caikit-1.1
Se il modello non supporta i tensori paralleli, l'unica configurazione possibile è Small. Se il modello è stato addestrato con più parametri di quelli supportati dalla configurazione Small, fallirà. Ciò significa che non sarà possibile distribuire alcuni dei modelli personalizzati. Per ulteriori informazioni sulle limitazioni, vedere Linee guida per l'utilizzo delle risorse.

Raccolta dei dettagli dei prerequisiti per un modello di fondazione personalizzato

Verificare l'esistenza del file config.json nella cartella dei contenuti del modello di fondazione. Il servizio di distribuzione verificherà l'esistenza del file config.json nella cartella dei contenuti del modello di fondazione dopo il caricamento nel cloud storage.
Aprire il file config.json per verificare che il modello di fondazione utilizzi un' architettura supportata.
Visualizzare l'elenco dei file per il modello di fondazione per verificare la presenza del file tokenizer.json e che il contenuto del modello sia in formato .safetensors .

Importante:
È necessario assicurarsi che il modello di fondazione personalizzato sia salvato con la libreria transformers supportata. Se il file model.safetensors per il modello di fondazione personalizzato utilizza un formato di dati non supportato nell'intestazione dei metadati, la distribuzione potrebbe fallire. Per ulteriori informazioni, vedere Risoluzione dei problemi di watsonx.ai Runtime.

Vedere un esempio:

Per il falcon-40b modello memorizzato su Hugging Face, fare clic su File e versioni per visualizzare la struttura dei file e verificare la presenza di config.json:

Il controllo del file config.json all'interno di un modello di fondazione ospitato su Hugging Face

Il modello di esempio utilizza una versione dell'architettura falcon supportata.

Verifica di un'architettura supportata per un modello di fondazione

Questo modello di esempio contiene il file tokenizer.json ed è nel formato .safetensors:

Elenco dei file in un modello di fondazione

Se il modello non soddisfa questi requisiti, non è possibile creare una risorsa modello e distribuire il modello.

Linee guida per l'utilizzo delle risorse

Sono disponibili tre configurazioni per supportare il modello di fondazione personalizzato: Small, Medium, e Large. Per determinare la configurazione più adatta al vostro modello di fondazione personalizzato, consultate le seguenti linee guida:

Assegnare la configurazione Small a qualsiasi modello di precisione a doppio byte secondo i parametri 26B, previa verifica e convalida.
Assegnare la configurazione Medium a qualsiasi modello di precisione a doppio byte tra i parametri 27B e 53B, previa verifica e convalida.
Assegnare la configurazione Large a qualsiasi modello di precisione a doppio byte tra i parametri 54B e 106B, previa verifica e convalida.

Suggerimento:

Se la configurazione selezionata non funziona durante la fase di test e convalida, si consiglia di esplorare la configurazione superiore disponibile. Ad esempio, provare la configurazione Medium se la configurazione Small fallisce. Attualmente la configurazione Large è la più alta disponibile.

Tabella 2. Configurazioni hardware e modelli di esempio
Configurazione	Esempi di modelli adatti
Piccolo	`llama-3-8b` `llama-2-13b` `starcoder-15.5b` `mt0-xxl-13b` `jais-13b` `gpt-neox-20b` `flan-t5-xxl-11b` `flan-ul2-20b` `allam-1-13b`
Medio	`codellama-34b`
Grande	`llama-3-70b` `llama-2-70b`

Limitazioni e restrizioni per i modelli di fondazione personalizzati

Si noti che questi limiti riguardano il modo in cui è possibile distribuire e utilizzare modelli di fondazione personalizzati con watsonx.ai.

Limitazioni per la distribuzione di modelli di fondazione personalizzati

A causa dell'elevata richiesta di implementazioni di modelli di fondazione personalizzati e delle risorse limitate per soddisfarla, watsonx.ai ha un limite di implementazione di quattro modelli piccoli, due modelli medi o un modello grande per account IBM Cloud. Se si tenta di importare un modello di fondazione personalizzato oltre questi limiti, si riceverà una notifica e si chiederà di condividere il proprio feedback attraverso un sondaggio. Questo ci aiuterà a capire le vostre esigenze e a pianificare i futuri aggiornamenti della capacità.

Importante: Qualsiasi aumento dei limiti richiesto non è garantito ed è soggetto alla capacità disponibile.

Restrizioni per l'utilizzo di distribuzioni di modelli di fondazione personalizzati

Si notino le restrizioni per l'uso di modelli di fondazione personalizzati dopo che sono stati distribuiti con watsonx.ai:

Non è possibile sintonizzare un modello di fondazione personalizzato.
Non è possibile utilizzare watsonx.governance per valutare o tracciare un modello di prompt per un modello di fondazione personalizzato.
È possibile richiedere un modello di fondazione personalizzato, ma non è possibile salvare un modello di richiesta per un modello personalizzato.

Aiutateci a migliorare questa esperienza

Se volete condividere subito il vostro feedback, cliccate su questo link. Il vostro feedback è essenziale per aiutarci a pianificare i futuri aggiornamenti della capacità e a migliorare l'esperienza complessiva di distribuzione dei modelli di fondazione personalizzati. Grazie per la vostra collaborazione!

Passi successivi

Scaricare un modello di fondazione personalizzato e impostare l'archiviazione

Argomento principale: Distribuzione di un modello di fondazione personalizzato

L'argomento è stato utile?

0/1000

Requisiti e note d'uso per i modelli di fondazione personalizzatiCopy link to section

Architetture di modello supportateCopy link to section

Raccolta dei dettagli dei prerequisiti per un modello di fondazione personalizzatoCopy link to section

Linee guida per l'utilizzo delle risorseCopy link to section

Limitazioni e restrizioni per i modelli di fondazione personalizzatiCopy link to section

Limitazioni per la distribuzione di modelli di fondazione personalizzatiCopy link to section

Restrizioni per l'utilizzo di distribuzioni di modelli di fondazione personalizzatiCopy link to section

Aiutateci a migliorare questa esperienzaCopy link to section

Passi successiviCopy link to section