0 / 0
Torna alla versione inglese della documentazione
Formati di dati per l'ottimizzazione dei modelli di base
Ultimo aggiornamento: 11 ott 2024
Formati di dati per l'ottimizzazione dei modelli di base

Preparare una serie di esempi di prompt da utilizzare per ottimizzare il modello. Gli esempi devono contenere il tipo di input che il modello dovrà elaborare in fase di runtime e l'output appropriato per il modello da generare in risposta.

È possibile aggiungere un file come dati di formazione.

Requisiti dei dati di formazione

Seguire queste istruzioni quando si creano i dati di formazione:

  • Aggiungere da 100 a 1.000 esempi etichettati.

    Sono consentiti da 50 a 10.000 esempi.

  • La lingua dei dati di formazione deve essere l'inglese.

  • Mantieni i tuoi esempi di input e output entro i limiti massimi di token utilizzati dall'esperimento. In caso contrario, il testo di esempio verrà troncato.

    Per ulteriori informazioni, consultare Controllo del numero di token utilizzati.

    Il modo in cui i token vengono contati differisce per modello, il che rende il numero di token difficile da stimare. Per i modelli di fondazione basati sulla lingua, puoi pensare a 256 token come a circa 130-170 parole e 128 token come a circa 65-85 parole. Per ulteriori informazioni, vedi Token e tokenizzazione.

Se si prevede di utilizzare il modello di base ottimizzato per classificare i dati, attenersi alle seguenti linee guida aggiuntive:

  • Provare a limitare il numero di etichette di classe a 10 o meno.
  • Includere un numero uguale di esempi di ogni tipo di classe.

È possibile utilizzare Prompt Lab per creare esempi per i dati di formazione. Per ulteriori informazioni, consultare Prompt Lab.

Dopo aver raccolto una serie rappresentativa di esempi, raggruppare gli esempi in una serie da utilizzare per la formazione e una serie separata, più piccola da utilizzare per scopi di verifica.

Requisiti di formato file

Il file di dati di formazione deve soddisfare questi requisiti:

  • Utilizzare uno dei seguenti formati:
    • JSON (JavaScript Object Notation)
    • Formato JSONL (JSON Lines)
  • La dimensione file massima consentita è 200 MB.
  • Ogni esempio deve includere una coppia input e output .
  • Se il testo di input o output include virgolette, eseguire l'escape di ogni virgoletta con una barra retroversa (\). Ad esempio, He said, \"Yes.\".
  • Per rappresentare un ritorno a capo o un'interruzione riga, è possibile utilizzare la sequenza di escape \n per rappresentare la nuova riga. Ad esempio, ...end of paragraph.\nStart of new paragraph.

Esempio JSON

Il seguente esempio mostra un estratto da un file di dati di addestramento con prompt etichettati per un'attività di classificazione in formato JSON.

{
  [
    {
      "input":"Message: When I try to log in, I get an error.",
      "output":"Class name: Problem"
    }
    {
      "input":"Message: Where can I find the plan prices?",
      "output":"Class name: Question"
    }
    {
      "input":"Message: What is the difference between trial and paygo?",
      "output":"Class name: Question"
    }
    {
      "input":"Message: The registration page crashed, and now I can't create a new account.",
      "output":"Class name: Problem"
    }
    {
      "input":"Message: What regions are supported?",
      "output":"Class name: Question"
    }
    {
      "input":"Message: I can't remember my password.",
      "output":"Class name: Problem"
    }
    {
      "input":"Message: I'm having trouble registering for a new account.",
      "output":"Classname: Problem"
    }
    {
      "input":"Message: A teammate shared a service instance with me, but I can't access it. What's wrong?",
      "output":"Class name: Problem"
    }
    {
      "input":"Message: What extra privileges does an administrator have?",
      "output":"Class name: Question"
    }
    {
      "input":"Message: Can I create a service instance for data in a language other than English?",
      "output":"Class name: Question"
    }
  ]
}

Esempio JSONL

Il seguente esempio mostra un estratto da un file di dati di addestramento con richieste etichettate per un'attività di classificazione in formato JSONL.

{"input":"Message: When I try to log in, I get an error.","output":"Class name: Problem"}
{"input":"Message: Where can I find the plan prices?","output":"Class name: Question"}
{"input":"Message: What is the difference between trial and paygo?","output":"Class name: Question"}
{"input":"Message: The registration page crashed, and now I can't create a new account.","output":"Class name: Problem"}
{"input":"Message: What regions are supported?","output":"Class name: Question"}
{"input":"Message: I can't remember my password.","output":"Class name: Problem"}
{"input":"Message: I'm having trouble registering for a new account.","output":"Classname: Problem"}
{"input":"Message: A teammate shared a service instance with me, but I can't access it. What's wrong?","output":"Class name: Problem"}
{"input":"Message: What extra privileges does an administrator have?","output":"Class name: Question"}
{"input":"Message: Can I create a service instance for data in a language other than English?","output":"Class name: Question"}

Argomento principale: Ottimizzazione di un modello

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni