0 / 0
Torna alla versione inglese della documentazione

Parametri per l'ottimizzazione dei modelli di base

Ultimo aggiornamento: 04 mar 2025
Parametri per l'ottimizzazione dei modelli di base

I parametri di ottimizzazione configurano gli esperimenti di ottimizzazione che si utilizzano per ottimizzare un modello di fondazione.

Nota : i parametri modificati durante la messa a punto di un modello di fondazione si applicano all'esperimento di messa a punto, non al modello di fondazione sottostante.

Parametri di messa a punto rapidi

La tabella seguente descrive i parametri di sintonizzazione che è possibile personalizzare.

Parametro di messa a punto Valore Descrizione Riferimenti
Nome del parametro Descrizione Opzioni di valore Ulteriori informazioni
Metodo di inizializzazione Specifica come inizializzare il vettore prompt. Casuale, Testo Inizializzazione dell'ottimizzazione delle richieste
Testo di inizializzazione Testo da utilizzare come prompt per la prima esecuzione dell'esperimento. Inizializzazione dell'ottimizzazione delle richieste
Dimensione del lotto Numero di esempi etichettati da elaborare in una sola volta. 1-16 Segmentazione dei dati di formazione
Passi di accumulo Numero di lotti da elaborare prima di effettuare le regolazioni. 1-128 Segmentazione dei dati di formazione
Tasso di apprendimento Determina l'ambito della modifica da apportare quando il modello viene regolato. 0.00001–0.5 Gestione del tasso di apprendimento
Numero di epoche (numero di cicli di addestramento) Numero di volte in cui scorrere i dati di addestramento. 1-50 Scegliere il numero di cicli di formazione da completare

Impostazione dei valori dei parametri per una messa a punto rapida

I migliori valori degli iperparametri da utilizzare per un esperimento di prompt-tuning variano in base ai dati e al caso d'uso.

La tabella seguente riporta i valori dei parametri da utilizzare come punto di partenza per la messa a punto rapida di un modello di fondazione di terze parti.

Regolazione dei valori dei parametri per modelli di fondazioni di terzi
Nome del parametro Valore predefinito per flan-t5-xl-3b
Metodo di inizializzazione Casuale
Testo di inizializzazione Nessuna
Dimensione del lotto 16
Passi di accumulo 16
Tasso di apprendimento 0.3
Numero di epoche (numero di cicli di addestramento) 20

I parametri predefiniti utilizzati per la messa a punto rapida del modello base dell' granite-13b-instruct-v2, vengono regolati in base al tipo di attività che si desidera far svolgere al modello messo a punto.

La tabella seguente riporta i valori dei parametri da utilizzare come punto di partenza per ogni tipo di attività supportata per la messa a punto rapida del modello di base dell' granite-13b-instruct-v2.

Regolazione dei valori dei parametri per il modello di fondazione dell' granite-13b-instruct-v2
Nome del parametro Valore predefinito per la classificazione Valore predefinito per la generazione Valore predefinito per il riepilogo
Dimensione del lotto 8 16 8
Passi di accumulo 32 16 1
Tasso di apprendimento 0.0006 0.0002 0.0002
Numero di epoche (numero di cicli di addestramento) 20 20 40

Descrizioni dei parametri

Segmentazione dei dati di addestramento

Quando viene eseguito un esperimento, l'esperimento prima suddivide i dati di addestramento in batch più piccoli, quindi si allena su un batch alla volta. Ogni batch deve essere contenuto nella memoria GPU per essere elaborato. Per ridurre la quantità di memoria GPU necessaria, è possibile configurare l'esperimento di ottimizzazione per posticipare le regolazioni fino a quando non viene elaborato più di un batch. Il tuning viene eseguito su un batch e le sue metriche di prestazione vengono calcolate, ma non vengono apportate immediatamente modifiche. Invece, le informazioni sulle prestazioni vengono raccolte su un certo numero di batch prima che vengano valutate le metriche delle prestazioni cumulative.

Utilizzare i seguenti parametri per controllare il modo in cui i dati di addestramento vengono segmentati:

Dimensione batch Numero di esempi etichettati (noti anche come campioni) da elaborare contemporaneamente.

Ad esempio, per un dataset con 1.000 esempi e una dimensione batch di 10, il dataset è diviso in 100 batch di 10 esempi ciascuno.

Se il dataset di addestramento è piccolo, specificare una dimensione batch più piccola per garantire che ciascun batch abbia un numero sufficiente di esempi.

Fasi di accumulo: numero di lotti da elaborare prima di effettuare le regolazioni.

Ad esempio, se il set di dati è suddiviso in 100 lotti e si imposta il valore dei passi di accumulo su 10, le regolazioni vengono eseguite 10 volte invece di 100 volte.

Scegliere il numero di cicli di formazione da completare

Il parametro Numero di epoche specifica il numero di volte in cui scorrere l'intero set di dati di addestramento.

Ad esempio, con una dimensione del batch di 10 e un set di dati con 1.000 esempi, un'epoca deve elaborare 100 batch ed effettuare le regolazioni 100 volte. Se si imposta il numero di epoche su 20, il modello viene passato attraverso il dataset 20 volte, il che significa che elabora un totale di 2.000 batch durante il processo di ottimizzazione.

Maggiore è il numero di epoche e maggiori sono i dati di addestramento, maggiore è il tempo necessario per ottimizzare un modello. Se si imposta un numero di epoche troppo basso, il modello potrebbe non apprendere adeguatamente. Se si imposta un numero di epoche troppo elevato, si può sovradimensionare il modello rispetto al set di dati. Overfitting è un termine usato per descrivere il fenomeno per cui un modello è talmente sintonizzato sui dati di addestramento che non può generalizzare e applicare ciò che apprende quando vengono introdotti nuovi dati.

Gestione del tasso di apprendimento

Il parametro velocità di apprendimento determina l'entità della modifica da apportare quando il modello viene regolato. Più alto è il numero, maggiore è il cambiamento. Impostare un tasso di apprendimento troppo basso potrebbe impedire al modello di apprendere adeguatamente dai nuovi dati presentati. Impostare un tasso di apprendimento troppo elevato potrebbe impedire al modello di apprendere in modo abbastanza graduale da poter applicare ciò che apprende a dati nuovi e non visti.

Questo parametro è uno di quelli che potresti voler impostare in modo conservativo e poi modificare gradualmente man mano che fai esperimenti per trovare i migliori iperparametri per il set di dati e il modello di base che stai personalizzando.

Impostazione dei limiti dei token

È possibile modificare il numero di token consentiti nell'input e nell'output del modello durante un esperimento di ottimizzazione impostando il parametro max_seq_length. La lunghezza massima della sequenza è il numero massimo di token di input più i token di output consentiti per ogni prompt.

Maggiore è il numero di token di input e output consentiti, più tempo ci vuole per mettere a punto il modello. Imposta questo parametro sul numero più piccolo possibile da utilizzare, ma che rappresenti comunque correttamente il tuo caso d'uso.

Creare esempi di input e output nei dati di formazione che siano conformi al limite che si intende utilizzare per la messa a punto. Gli esempi più lunghi della lunghezza massima della sequenza specificata vengono troncati durante l'esperimento. Ad esempio, se si imposta questo parametro su 200 e i dati di addestramento hanno un input di esempio con 1.000 token, vengono utilizzati solo i primi 200 token dell'input di esempio.

Ricorda che la lunghezza della sequenza include anche i token di output per ogni prompt, il che significa che l'impostazione controlla il numero di token che il modello è autorizzato a generare come output durante l'esperimento di ottimizzazione.

Inizializzazione del prompt

Quando si crea un esperimento di regolazione del prompt, si può scegliere se specificare il proprio testo come vettore del prompt iniziale o lasciare che l'esperimento lo generi per voi. Questi nuovi token avviano il processo di addestramento in posizioni casuali o in base all'inserimento di un vocabolario o di un'istruzione che specifichi nel testo. Gli studi dimostrano che, man mano che la dimensione del modello sottostante cresce oltre 10 miliardi di parametri, il metodo di inizializzazione utilizzato diventa meno importante.

La scelta effettuata quando si crea l'esperimento di ottimizzazione personalizza il modo in cui viene inizializzato il prompt.

Metodo di inizializzazione: scegliere un metodo dalle opzioni seguenti:

  • Testo: il metodo Ottimizzazione prompt viene utilizzato quando si specifica il testo di inizializzazione del prompt stesso.
  • Casuale: viene utilizzato il metodo di ottimizzazione del prompt che consente all'esperimento di aggiungere valori scelti casualmente da includere nel prompt.

Testo di inizializzazione: il testo che vuoi aggiungere. Specificare una descrizione dell'attività o istruzioni simili a quelle utilizzate per la richiesta zero - shot.

Ulteriori informazioni

Argomento principale: Ottimizzazione di un modello