Dopo aver caricato il foundation model personalizzato nell'archivio oggetti del cloud, creare una connessione al modello e una risorsa del modello corrispondente. Utilizzare il collegamento per creare un modello di asset in un progetto o in uno spazio.
Per creare una risorsa modello, aggiungere una connessione al modello e quindi creare una risorsa modello. Se si vuole prima testare il foundation model personalizzato in un progetto (per esempio valutandolo in un taccuino Jupyter), aggiungere la risorsa del foundation model personalizzato a un progetto e poi promuoverlo a uno spazio.
Dopo aver aggiunto la risorsa del modello, è possibile distribuirla e utilizzare Prompt Lab per l'inferenza.
Importante:
Se si carica il modello su un cloud storage remoto, è necessario creare una connessione basata sulle proprie credenziali personali. Con il cloud storage remoto sono consentite solo le connessioni che utilizzano credenziali personali. Di conseguenza, gli altri utenti dello stesso spazio di distribuzione non hanno accesso al contenuto del modello, ma possono fare inferenze sulle distribuzioni del modello. Creare la connessione utilizzando la chiave di accesso e la chiave di accesso segreta. Per informazioni su come abilitare le credenziali personali per il proprio account, vedere Impostazioni account.
Prima di iniziare
Copy link to section
È necessario abilitare le credenziali dell'attività per poter distribuire un foundation model personalizzato. Per ulteriori informazioni, vedere Aggiungi le credenziali dell'attività.
Parametri globali per modelli di fondazione personalizzati
Copy link to section
È possibile utilizzare parametri globali per distribuire i modelli di fondazione personalizzati. Impostare il valore del parametro del modello di base entro l'intervallo specificato nella tabella seguente. Se non lo si fa, la distribuzione potrebbe fallire e l'inferenza non sarà possibile.
Parametri globali per modelli di fondazione personalizzati
Parametro
Tipo
Intervallo di valori
Valore predefinito
Descrizione
dtype
Stringa
float16, bfloat16
float16
Utilizzare questo parametro per specificare il tipo di dati per il modello.
max_batch_size
Numero
max_batch_size >= 1
256
Utilizzare questo parametro per specificare la dimensione massima del batch per il modello.
max_concurrent_requests
Numero
max_concurrent_requests >= 1 e max_concurrent_requests >= max_batch_size
1024
Usare questo parametro per specificare il numero massimo di richieste contemporanee che possono essere fatte al modello. Questo parametro non è disponibile per le distribuzioni che utilizzano le watsonx-cfm-caikit-1.1 specifiche del software.
max_new_tokens
Numero
max_new_tokens >= 20
2047
Usare questo parametro per specificare il numero massimo di token che il modello deve generare per una richiesta di inferenza.
max_sequence_length
Numero
max_sequence_length >= 20 e max_sequence_length > max_new_tokens
2048
Utilizzare questo parametro per specificare la lunghezza massima della sequenza per il modello.