0 / 0

Pianificazione della distribuzione di un modello di fondazione personalizzato

Ultimo aggiornamento: 10 lug 2025
Pianificazione della distribuzione di un modello di fondazione personalizzato

Esaminare le considerazioni e i requisiti per l'implementazione di un modello di fondazione personalizzato per l'inferenza con watsonx.ai.

Quando vi preparate a distribuire un modello di fondazione personalizzato, rivedete queste considerazioni di pianificazione:

Requisiti e note d'uso per i modelli di fondazione personalizzati

I modelli personalizzati distribuibili devono soddisfare questi requisiti:

  • Il caricamento e l'utilizzo di un modello personalizzato è disponibile solo nel piano Standard per watsonx.ai.

  • Il modello deve essere costruito con un tipo di architettura del modello supportato.

  • L'elenco dei file per il modello deve contenere un file config.json.

  • Modelli di uso generale: il modello deve essere in formato safetensors con la libreria di trasformatori supportata e deve includere un file tokenizer.json . Se il modello non è in formato safetensors e non include il file tokenizer.json ma è altrimenti compatibile, un'utilità di conversione apporterà le modifiche necessarie come parte del processo di preparazione del modello.

  • Modelli di serie temporali: la directory del modello deve contenere il file tsfm_config.json . I modelli di serie temporali ospitati su Hugging Face (model_type: tinytimemixer) non possono includere questo file. Se il file non è presente quando il modello viene scaricato e distribuito, la previsione fallirà. Per evitare problemi di previsione, è necessario eseguire un passaggio supplementare quando si scarica il modello.

    Importante:
    • Modelli generici: è necessario assicurarsi che il modello di fondazione personalizzato sia salvato con la libreria transformers supportata. Se il file model.safetensors per il modello di fondazione personalizzato utilizza un formato di dati non supportato nell'intestazione dei metadati, la distribuzione potrebbe fallire. Per ulteriori informazioni, vedere Risoluzione dei problemi di watsonx.ai Runtime.
    • Assicurarsi che il progetto o lo spazio in cui si desidera distribuire il modello di fondazione personalizzato abbia un'istanza di watsonx.ai Runtime associata. Aprite la scheda Gestione nel vostro progetto o spazio per verificarlo.

Architetture di modello supportate

Le tabelle seguenti elencano le architetture dei modelli che è possibile distribuire come modelli personalizzati per l'inferenza con watsonx.ai. Le architetture del modello sono elencate insieme a informazioni sui metodi di quantizzazione supportati, sui tensori paralleli, sulle dimensioni della configurazione di distribuzione e sulle specifiche del software.

Nota:

Sono disponibili diverse specifiche software per le vostre implementazioni:

  • Le specifiche del software watsonx-cfm-caikit-1.0 si basano sul motore di runtime TGI.
  • Le specifiche del software watsonx-cfm-caikit-1.1 si basano sul motore di runtime vLLM. È migliore in termini di prestazioni, ma non è disponibile per tutti i modelli di architettura.
  • Le specifiche del software watsonx-tsfm-runtime-1.0 sono progettate per modelli di serie temporali. È basato sul runtime di inferenza watsonx-tsfm-runtime-1.0 .

Modelli per uso generale:

Tabella 1. Architetture di modelli supportate, metodi di quantizzazione, tensori paralleli, dimensioni delle configurazioni di distribuzione e specifiche software per modelli generici
Tipo di architettura del modello Esempi di modelli di fondazione Metodo di quantizzazione Tensori parallelimultiGpu) Configurazioni della distribuzione Specifiche software
bloom bigscience/bloom-3b, bigscience/bloom-560m N/D Vero Piccolo, medio, grande watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
codegen Salesforce/codegen-350M-mono, Salesforce/codegen-16B-mono N/D N Piccolo watsonx-cfm-caikit-1.0
exaone lgai-exaone/exaone-3.0-7.8B-Instruct N/D N Piccolo watsonx-cfm-caikit-1.1
falcon tiiuae/falcon-7b N/D Vero Piccolo, medio, grande watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
gemma google/gemma-2b N/D Vero Piccolo, medio, grande watsonx-cfm-caikit-1.1
gemma2 google/gemma-2-9b N/D Vero Piccolo, medio, grande watsonx-cfm-caikit-1.1
gpt_bigcode bigcode/starcoder, bigcode/gpt_bigcode-santacoder gptq Vero Piccolo, medio, grande watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
gpt-neox rinna/japanese-gpt-neox-small, EleutherAI/pythia-12b, databricks/dolly-v2-12b N/D Vero Piccolo, medio, grande watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
gptj EleutherAI/gpt-j-6b N/D N Piccolo watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
gpt2 openai-community/gpt2-large N/D N Piccolo watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
granite ibm-granite/granite-3.0-8b-instruct, ibm-granite/granite-3b-code-instruct-2k, granite-8b-code-instruct, granite-7b-lab N/D N Piccolo watsonx-cfm-caikit-1.1
jais core42/jais-13b N/D Vero Piccolo, medio, grande watsonx-cfm-caikit-1.1
llama DeepSeek-R1 (distilled variant), meta-llama/Meta-Llama-3-8B, meta-llama/Meta-Llama-3.1-8B-Instruct, llama-2-13b-chat-hf, TheBloke/Llama-2-7B-Chat-AWQ, ISTA-DASLab/Llama-2-7b-AQLM-2Bit-1x16-hf gptq Vero Piccolo, medio, grande watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
mistral mistralai/Mistral-7B-v0.3, neuralmagic/OpenHermes-2.5-Mistral-7B-marlin N/D N Piccolo watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
mixtral TheBloke/Mixtral-8x7B-v0.1-GPTQ, mistralai/Mixtral-8x7B-Instruct-v0.1 gptq N Piccolo watsonx-cfm-caikit-1.1
mpt mosaicml/mpt-7b, mosaicml/mpt-7b-storywriter, mosaicml/mpt-30b N/D N Piccolo watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
mt5 google/mt5-small, google/mt5-xl N/D N Piccolo watsonx-cfm-caikit-1.0
nemotron nvidia/Minitron-8B-Base N/D Vero Piccolo, medio, grande watsonx-cfm-caikit-1.1
olmo allenai/OLMo-1B-hf, allenai/OLMo-7B-hf N/D Vero Piccolo, medio, grande watsonx-cfm-caikit-1.1
persimmon adept/persimmon-8b-base, adept/persimmon-8b-chat N/D Vero Piccolo, medio, grande watsonx-cfm-caikit-1.1
phi microsoft/phi-2, microsoft/phi-1_5 N/D Vero Piccolo, medio, grande watsonx-cfm-caikit-1.1
phi3 microsoft/Phi-3-mini-4k-instruct N/D Vero Piccolo, medio, grande watsonx-cfm-caikit-1.1
qwen DeepSeek-R1 (distilled variant) N/D Vero Piccolo, medio, grande watsonx-cfm-caikit-1.1
qwen2 Qwen/Qwen2-7B-Instruct-AWQ AWQ Vero Piccolo, medio, grande watsonx-cfm-caikit-1.1
t5 google/flan-t5-large, google/flan-t5-small N/D Vero Piccolo, medio, grande watsonx-cfm-caikit-1.0

Modelli di serie temporali:

Tabella 2. Architetture di modelli supportate, metodi di quantizzazione, tensori paralleli, dimensioni della configurazione di distribuzione e specifiche software per i modelli di serie temporali
Tipo di architettura del modello Esempi di modelli di fondazione Metodo di quantizzazione Tensori parallelimultiGpu) Configurazioni della distribuzione Specifiche software
tinytimemixer ibm-granite/granite-timeseries-ttm-r2 N/D N/D Piccolo, medio, grande, extra large watsonx-tsfm-runtime-1.0
Importante:
  • IBM certifica solo le architetture del modello elencate nella Tabella 1 e nella Tabella 2. È possibile utilizzare modelli con altre architetture supportate dal framework di inferenza vLLM, ma IBM non supporta i fallimenti di distribuzione dovuti alla distribuzione di modelli di fondazione con architetture non supportate o funzionalità incompatibili.
  • Le distribuzioni dei modelli llama 3.1 potrebbero fallire. Per risolvere questo problema, vedere i passaggi elencati in Risoluzione dei problemi.
  • Non è possibile distribuire modelli di tipo codegen, mt5 e t5 con le specifiche del software watsonx-cfm-caikit-1.1
  • Se il modello non supporta i tensori paralleli, l'unica configurazione possibile è Small. Se il modello è stato addestrato con più parametri di quelli supportati dalla configurazione Small, fallirà. Ciò significa che non sarà possibile distribuire alcuni dei modelli personalizzati. Per ulteriori informazioni sulle limitazioni, vedere Linee guida per l'utilizzo delle risorse.

Raccolta dei dettagli dei prerequisiti per un modello di fondazione personalizzato

  1. Verificare l'esistenza del file config.json nella cartella dei contenuti del modello di fondazione. Il servizio di distribuzione verificherà l'esistenza del file config.json nella cartella dei contenuti del modello di fondazione dopo il caricamento nel cloud storage.

  2. Aprire il file config.json per verificare che il modello di fondazione utilizzi un' architettura supportata.

  3. Visualizzare l'elenco dei file per il modello di fondazione per verificare la presenza del file tokenizer.json e che il contenuto del modello sia in formato .safetensors .

    Importante:

    È necessario assicurarsi che il modello di fondazione personalizzato sia salvato con la libreria transformers supportata. Se il file model.safetensors per il modello di fondazione personalizzato utilizza un formato di dati non supportato nell'intestazione dei metadati, la distribuzione potrebbe fallire. Per ulteriori informazioni, vedere Risoluzione dei problemi di watsonx.ai Runtime.

Vedere un esempio:

Per il falcon-40b modello memorizzato su Hugging Face, fare clic su File e versioni per visualizzare la struttura dei file e verificare la presenza di config.json:

Il controllo del file config.json all'interno di un modello di fondazione ospitato su Hugging Face

Il modello di esempio utilizza una versione dell'architettura falcon supportata.

Verifica di un'architettura supportata per un modello di fondazione

Questo modello di esempio contiene il file tokenizer.json ed è nel formato .safetensors:

Elenco dei file in un modello di fondazione

Se il modello non soddisfa questi requisiti, non è possibile creare una risorsa modello e distribuire il modello.

Linee guida per l'utilizzo delle risorse

Modelli di serie temporali

Il runtime di inferenza per i modelli di serie temporali supporta queste specifiche hardware: S (Small), M (Medium), L (Large), XL (Extra large).

Assegnate una specifica hardware al vostro modello di serie temporale personalizzato, in base al numero massimo di utenti contemporanei e alle caratteristiche del carico utile:

Raccomandazioni per l'assegnazione delle specifiche hardware, in base al numero di utenti contemporanei e alle caratteristiche del carico utile
Serie temporali univariate Serie temporali multivariate (serie x obiettivi) Piccolo Medio Grande Molto grande
1000 23x100 6 12 25 50
500 15x80 10 21 42 85
250 15x40 13 26 53 106
125 15x20 13 27 54 109
60 15x10 14 28 56 112
30 15x5 14 28 56 113

Modelli per uso generale

Per i modelli generici, sono disponibili tre configurazioni per supportare il modello di fondazione personalizzato: WX-S (Small), WX-M (Medium) e WX-L (Large). Per determinare la configurazione più adatta al vostro modello di fondazione personalizzato, consultate le seguenti linee guida:

  • Assegnare la configurazione WX-S a qualsiasi modello di precisione a doppio byte secondo i parametri 26B, previa verifica e convalida.
  • Assegnare la configurazione WX-M a qualsiasi modello di precisione a doppio byte tra i parametri 27B e 53B, previa verifica e convalida.
  • Assegnare la configurazione WX-L a qualsiasi modello di precisione a doppio byte tra i parametri 54B e 106B, previa verifica e convalida.
Suggerimento:

Se la configurazione selezionata non funziona durante la fase di test e convalida, si consiglia di esplorare la configurazione superiore disponibile. Ad esempio, provare la configurazione Medium se la configurazione Small fallisce. Attualmente la configurazione Large è la più alta disponibile.

Tabella 2. Configurazioni hardware e modelli di esempio
Configurazione Esempi di modelli adatti
Piccolo llama-3-8b
llama-2-13b
starcoder-15.5b
mt0-xxl-13b
jais-13b
gpt-neox-20b
flan-t5-xxl-11b
flan-ul2-20b
allam-1-13b
Medio codellama-34b
Grande llama-3-70b
llama-2-70b

Limitazioni e restrizioni per i modelli di fondazione personalizzati

Si noti che questi limiti riguardano il modo in cui è possibile distribuire e utilizzare modelli di fondazione personalizzati con watsonx.ai.

Limitazioni per la distribuzione di modelli di fondazione personalizzati

  • A causa dell'elevata richiesta di implementazioni di modelli di fondazione personalizzati e delle risorse limitate per soddisfarla, watsonx.ai ha un limite di implementazione di quattro modelli piccoli, due modelli medi o un modello grande per account IBM Cloud. Se si tenta di importare un modello di fondazione personalizzato oltre questi limiti, si riceverà una notifica e si chiederà di condividere il proprio feedback attraverso un sondaggio. Questo ci aiuterà a capire le vostre esigenze e a pianificare i futuri aggiornamenti della capacità.
  • I modelli a serie temporali non richiedono alcun parametro. Non fornire alcun parametro quando si distribuisce un modello di serie temporali personalizzato. Se si forniscono parametri quando si distribuisce un modello di serie temporali personalizzato, questi non avranno alcun effetto.
Importante: Qualsiasi aumento dei limiti richiesto non è garantito ed è soggetto alla capacità disponibile.

Restrizioni per l'utilizzo di distribuzioni di modelli di fondazione personalizzati

Elenco delle restrizioni per l'utilizzo dei modelli di fondazione personalizzati dopo la loro distribuzione con watsonx.ai:

  • Non è possibile sintonizzare un modello di fondazione personalizzato.
  • Non è possibile utilizzare watsonx.governance per valutare o tracciare un modello di prompt per un modello di fondazione personalizzato.

Aiutateci a migliorare questa esperienza

Se volete condividere subito il vostro feedback, cliccate su questo link. Il vostro feedback è essenziale per aiutarci a pianificare i futuri aggiornamenti della capacità e a migliorare l'esperienza complessiva di distribuzione dei modelli di fondazione personalizzati. Grazie per la vostra collaborazione!

Passi successivi

Scaricare un modello di fondazione personalizzato e impostare l'archiviazione

Argomento principale: Distribuzione di un modello di fondazione personalizzato