Requisiti e note d'uso per i modelli di fondazione personalizzati
Copy link to section
I modelli personalizzati distribuibili devono soddisfare questi requisiti:
Il caricamento e l'utilizzo di un modello personalizzato è disponibile solo nel piano Standard per watsonx.ai.
Il modello deve essere compatibile con lo standard Text Generation Inference (TGI) e deve essere costruito con un tipo di architettura del modello supportato.
L'elenco dei file per il modello deve contenere un file config.json.
Il modello deve essere in formato safetensors con la libreria di trasformatori supportata e deve includere un file tokenizer.json.
Importante:
È necessario assicurarsi che il modello di fondazione personalizzato sia salvato con la libreria transformers supportata. Se il file model.safetensors per il modello di fondazione personalizzato utilizza un formato di dati non supportato nell'intestazione dei metadati, la distribuzione potrebbe fallire. Per ulteriori informazioni, vedere Risoluzione dei problemi di watsonx.ai Runtime.
Assicurarsi che il progetto o lo spazio in cui si desidera distribuire il modello di fondazione personalizzato abbia un'istanza di watsonx.ai Runtime associata. Aprite la scheda Gestione nel vostro progetto o spazio per verificarlo.
Architetture di modello supportate
Copy link to section
La tabella seguente elenca le architetture dei modelli che è possibile distribuire come modelli personalizzati per l'inferenza con watsonx.ai. Le architetture del modello sono elencate insieme a informazioni sui metodi di quantizzazione supportati, sui tensori paralleli, sulle dimensioni della configurazione di distribuzione e sulle specifiche del software.
Nota:
Two software specifications are available for your deployments: watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1. The watsonx-cfm-caikit-1.1 specification is better in terms of performance, but it's not available with every model architecture.
Tabella 1. Architetture di modelli supportate, metodi di quantizzazione, tensori paralleli, dimensioni della configurazione di distribuzione e specifiche software
IBM certifica solo le architetture del modello elencate nella Tabella 1. È possibile utilizzare modelli con architetture alternative supportate da vLLM,, tuttavia IBM non supporta i fallimenti di distribuzione dovuti alla distribuzione di modelli di fondazione con architetture non supportate o funzionalità incompatibili.
Le distribuzioni dei modelli llama 3.1 potrebbero fallire. Per risolvere questo problema, vedere i passaggi elencati in Risoluzione dei problemi.
Non è possibile distribuire modelli di tipo codegen, mt5 e t5 con le specifiche del software watsonx-cfm-caikit-1.1
Se il modello non supporta i tensori paralleli, l'unica configurazione possibile è Small. Se il modello è stato addestrato con più parametri di quelli supportati dalla configurazione Small, fallirà. Ciò significa che non sarà possibile distribuire alcuni dei modelli personalizzati. Per ulteriori informazioni sulle limitazioni, vedere Linee guida per l'utilizzo delle risorse.
Raccolta dei dettagli dei prerequisiti per un modello di fondazione personalizzato
Copy link to section
Verificare l'esistenza del file config.json nella cartella dei contenuti del modello di fondazione. Il servizio di distribuzione verificherà l'esistenza del file config.json nella cartella dei contenuti del modello di fondazione dopo il caricamento nel cloud storage.
Aprire il file config.json per verificare che il modello di fondazione utilizzi un' architettura supportata.
Visualizzare l'elenco dei file per il modello di fondazione per verificare la presenza del file tokenizer.json e che il contenuto del modello sia in formato .safetensors .
Importante:
È necessario assicurarsi che il modello di fondazione personalizzato sia salvato con la libreria transformers supportata. Se il file model.safetensors per il modello di fondazione personalizzato utilizza un formato di dati non supportato nell'intestazione dei metadati, la distribuzione potrebbe fallire. Per ulteriori informazioni, vedere Risoluzione dei problemi di watsonx.ai Runtime.
Vedere un esempio:
Per il falcon-40b modello memorizzato su Hugging Face, fare clic su File e versioni per visualizzare la struttura dei file e verificare la presenza di config.json:
Il modello di esempio utilizza una versione dell'architettura falcon supportata.
Questo modello di esempio contiene il file tokenizer.json ed è nel formato .safetensors:
Se il modello non soddisfa questi requisiti, non è possibile creare una risorsa modello e distribuire il modello.
Linee guida per l'utilizzo delle risorse
Copy link to section
Sono disponibili tre configurazioni per supportare il modello di fondazione personalizzato: Small, Medium, e Large. Per determinare la configurazione più adatta al vostro modello di fondazione personalizzato, consultate le seguenti linee guida:
Assegnare la configurazione Small a qualsiasi modello di precisione a doppio byte secondo i parametri 26B, previa verifica e convalida.
Assegnare la configurazione Medium a qualsiasi modello di precisione a doppio byte tra i parametri 27B e 53B, previa verifica e convalida.
Assegnare la configurazione Large a qualsiasi modello di precisione a doppio byte tra i parametri 54B e 106B, previa verifica e convalida.
Suggerimento:
Se la configurazione selezionata non funziona durante la fase di test e convalida, si consiglia di esplorare la configurazione superiore disponibile. Ad esempio, provare la configurazione Medium se la configurazione Small fallisce. Attualmente la configurazione Large è la più alta disponibile.
Tabella 2. Configurazioni hardware e modelli di esempio
Limitazioni e restrizioni per i modelli di fondazione personalizzati
Copy link to section
Si noti che questi limiti riguardano il modo in cui è possibile distribuire e utilizzare modelli di fondazione personalizzati con watsonx.ai.
Limitazioni per la distribuzione di modelli di fondazione personalizzati
Copy link to section
A causa dell'elevata richiesta di implementazioni di modelli di fondazione personalizzati e delle risorse limitate per soddisfarla, watsonx.ai ha un limite di implementazione di quattro modelli piccoli, due modelli medi o un modello grande per account IBM Cloud. Se si tenta di importare un modello di fondazione personalizzato oltre questi limiti, si riceverà una notifica e si chiederà di condividere il proprio feedback attraverso un sondaggio. Questo ci aiuterà a capire le vostre esigenze e a pianificare i futuri aggiornamenti della capacità.
Importante: Qualsiasi aumento dei limiti richiesto non è garantito ed è soggetto alla capacità disponibile.
Restrizioni per l'utilizzo di distribuzioni di modelli di fondazione personalizzati
Copy link to section
Si notino le restrizioni per l'uso di modelli di fondazione personalizzati dopo che sono stati distribuiti con watsonx.ai:
Non è possibile sintonizzare un modello di fondazione personalizzato.
Non è possibile utilizzare watsonx.governance per valutare o tracciare un modello di prompt per un modello di fondazione personalizzato.
È possibile richiedere un modello di fondazione personalizzato, ma non è possibile salvare un modello di richiesta per un modello personalizzato.
Aiutateci a migliorare questa esperienza
Copy link to section
Se volete condividere subito il vostro feedback, cliccate su questo link. Il vostro feedback è essenziale per aiutarci a pianificare i futuri aggiornamenti della capacità e a migliorare l'esperienza complessiva di distribuzione dei modelli di fondazione personalizzati. Grazie per la vostra collaborazione!