Préparez un ensemble d'exemples d'invite à utiliser pour optimiser le modèle. Les exemples doivent contenir le type d'entrée que le modèle devra traiter lors de l'exécution et la sortie appropriée pour que le modèle puisse être généré en réponse.
Vous pouvez ajouter un fichier en tant que données d'entraînement.
Exigences relatives aux données d'entraînement
Suivez ces instructions lorsque vous créez vos données d'entraînement:
Ajoutez 100 à 1 000 exemples étiquetés.
Entre 50 et 10 000 exemples sont autorisés.
La langue des données d'apprentissage doit être l'anglais.
Conservez vos exemples d'entrée et de sortie dans les limites de jeton maximales utilisées par l'expérimentation. Sinon, votre exemple de texte sera tronqué.
Pour plus d'informations, voir Contrôle du nombre de jetons utilisés.
La façon dont les jetons sont comptés varie en fonction du modèle, ce qui rend le nombre de jetons difficile à estimer. Pour les modèles de base basés sur la langue, vous pouvez considérer 256 jetons comme environ 130-170 mots et 128 jetons comme environ 65-85 mots. Pour plus d'informations, voir Tokens and tokenization.
Si vous prévoyez d'utiliser le modèle de base optimisé pour classer les données, suivez les instructions supplémentaires suivantes:
- Essayez de limiter le nombre de libellés de classe à 10 ou moins.
- Incluez un nombre égal d'exemples de chaque type de classe.
Vous pouvez utiliser le laboratoire d'invite pour créer des exemples pour les données d'entraînement. Pour plus d'informations, voir Prompt Lab.
Une fois que vous avez collecté un ensemble représentatif d'exemples, regroupez les exemples dans un ensemble à utiliser pour l'entraînement et un ensemble distinct, plus petit, à utiliser à des fins de test.
Exigences de format de fichier
Le fichier de données d'entraînement doit répondre aux exigences suivantes:
- Servez-vous de l'un des formats suivants :
- JavaScript Object Notation (JSON)
- Format des lignes JSON (JSONL)
- La taille de fichier maximale autorisée est de 200 Mo.
- Chaque exemple doit inclure une paire
input
etoutput
. - Si le texte d'entrée ou de sortie inclut des guillemets, mettez chaque guillemet en échappement avec une barre oblique inversée (
\
). Par exemple,He said, \"Yes.\"
. - Pour représenter un retour chariot ou un retour à la ligne, vous pouvez utiliser la séquence d'échappement
\n
pour représenter la nouvelle ligne. Par exemple,...end of paragraph.\nStart of new paragraph
.
Exemple JSON
L'exemple suivant montre un extrait d'un fichier de données de formation avec des invites libellées pour une tâche de classification au format JSON.
{
[
{
"input":"Message: When I try to log in, I get an error.",
"output":"Class name: Problem"
}
{
"input":"Message: Where can I find the plan prices?",
"output":"Class name: Question"
}
{
"input":"Message: What is the difference between trial and paygo?",
"output":"Class name: Question"
}
{
"input":"Message: The registration page crashed, and now I can't create a new account.",
"output":"Class name: Problem"
}
{
"input":"Message: What regions are supported?",
"output":"Class name: Question"
}
{
"input":"Message: I can't remember my password.",
"output":"Class name: Problem"
}
{
"input":"Message: I'm having trouble registering for a new account.",
"output":"Classname: Problem"
}
{
"input":"Message: A teammate shared a service instance with me, but I can't access it. What's wrong?",
"output":"Class name: Problem"
}
{
"input":"Message: What extra privileges does an administrator have?",
"output":"Class name: Question"
}
{
"input":"Message: Can I create a service instance for data in a language other than English?",
"output":"Class name: Question"
}
]
}
Exemple JSONL
L'exemple suivant illustre un extrait d'un fichier de données de formation avec des invites libellées pour une tâche de classification au format JSONL.
{"input":"Message: When I try to log in, I get an error.","output":"Class name: Problem"}
{"input":"Message: Where can I find the plan prices?","output":"Class name: Question"}
{"input":"Message: What is the difference between trial and paygo?","output":"Class name: Question"}
{"input":"Message: The registration page crashed, and now I can't create a new account.","output":"Class name: Problem"}
{"input":"Message: What regions are supported?","output":"Class name: Question"}
{"input":"Message: I can't remember my password.","output":"Class name: Problem"}
{"input":"Message: I'm having trouble registering for a new account.","output":"Classname: Problem"}
{"input":"Message: A teammate shared a service instance with me, but I can't access it. What's wrong?","output":"Class name: Problem"}
{"input":"Message: What extra privileges does an administrator have?","output":"Class name: Question"}
{"input":"Message: Can I create a service instance for data in a language other than English?","output":"Class name: Question"}
Rubrique parent: Optimisation d'un modèle