Preparare una serie di esempi di prompt da utilizzare per ottimizzare il modello. Gli esempi devono contenere il tipo di input che il modello dovrà elaborare in fase di runtime e l'output appropriato per il modello da generare in risposta.
È possibile aggiungere un file come dati di formazione.
Requisiti dei dati di formazione
Seguire queste istruzioni quando si creano i dati di formazione:
Aggiungere da 100 a 1.000 esempi etichettati.
Sono consentiti da 50 a 10.000 esempi.
La lingua dei dati di formazione deve essere l'inglese.
Mantieni i tuoi esempi di input e output entro i limiti massimi di token utilizzati dall'esperimento. In caso contrario, il testo di esempio verrà troncato.
Per ulteriori informazioni, consultare Controllo del numero di token utilizzati.
Il modo in cui i token vengono contati differisce per modello, il che rende il numero di token difficile da stimare. Per i modelli di fondazione basati sulla lingua, puoi pensare a 256 token come a circa 130-170 parole e 128 token come a circa 65-85 parole. Per ulteriori informazioni, vedi Token e tokenizzazione.
Se si prevede di utilizzare il modello di base ottimizzato per classificare i dati, attenersi alle seguenti linee guida aggiuntive:
- Provare a limitare il numero di etichette di classe a 10 o meno.
- Includere un numero uguale di esempi di ogni tipo di classe.
È possibile utilizzare Prompt Lab per creare esempi per i dati di formazione. Per ulteriori informazioni, consultare Prompt Lab.
Dopo aver raccolto una serie rappresentativa di esempi, raggruppare gli esempi in una serie da utilizzare per la formazione e una serie separata, più piccola da utilizzare per scopi di verifica.
Requisiti di formato file
Il file di dati di formazione deve soddisfare questi requisiti:
- Utilizzare uno dei seguenti formati:
- JSON (JavaScript Object Notation)
- Formato JSONL (JSON Lines)
- La dimensione file massima consentita è 200 MB.
- Ogni esempio deve includere una coppia
input
eoutput
. - Se il testo di input o output include virgolette, eseguire l'escape di ogni virgoletta con una barra retroversa (
\
). Ad esempio,He said, \"Yes.\"
. - Per rappresentare un ritorno a capo o un'interruzione riga, è possibile utilizzare la sequenza di escape
\n
per rappresentare la nuova riga. Ad esempio,...end of paragraph.\nStart of new paragraph
.
Esempio JSON
Il seguente esempio mostra un estratto da un file di dati di addestramento con prompt etichettati per un'attività di classificazione in formato JSON.
{
[
{
"input":"Message: When I try to log in, I get an error.",
"output":"Class name: Problem"
}
{
"input":"Message: Where can I find the plan prices?",
"output":"Class name: Question"
}
{
"input":"Message: What is the difference between trial and paygo?",
"output":"Class name: Question"
}
{
"input":"Message: The registration page crashed, and now I can't create a new account.",
"output":"Class name: Problem"
}
{
"input":"Message: What regions are supported?",
"output":"Class name: Question"
}
{
"input":"Message: I can't remember my password.",
"output":"Class name: Problem"
}
{
"input":"Message: I'm having trouble registering for a new account.",
"output":"Classname: Problem"
}
{
"input":"Message: A teammate shared a service instance with me, but I can't access it. What's wrong?",
"output":"Class name: Problem"
}
{
"input":"Message: What extra privileges does an administrator have?",
"output":"Class name: Question"
}
{
"input":"Message: Can I create a service instance for data in a language other than English?",
"output":"Class name: Question"
}
]
}
Esempio JSONL
Il seguente esempio mostra un estratto da un file di dati di addestramento con richieste etichettate per un'attività di classificazione in formato JSONL.
{"input":"Message: When I try to log in, I get an error.","output":"Class name: Problem"}
{"input":"Message: Where can I find the plan prices?","output":"Class name: Question"}
{"input":"Message: What is the difference between trial and paygo?","output":"Class name: Question"}
{"input":"Message: The registration page crashed, and now I can't create a new account.","output":"Class name: Problem"}
{"input":"Message: What regions are supported?","output":"Class name: Question"}
{"input":"Message: I can't remember my password.","output":"Class name: Problem"}
{"input":"Message: I'm having trouble registering for a new account.","output":"Classname: Problem"}
{"input":"Message: A teammate shared a service instance with me, but I can't access it. What's wrong?","output":"Class name: Problem"}
{"input":"Message: What extra privileges does an administrator have?","output":"Class name: Question"}
{"input":"Message: Can I create a service instance for data in a language other than English?","output":"Class name: Question"}
Argomento principale: Ottimizzazione di un modello