0 / 0
Volver a la versión inglesa de la documentación
Formatos de datos para ajustar modelos base
Última actualización: 11 oct 2024
Formatos de datos para ajustar modelos base

Prepare un conjunto de ejemplos de solicitud para utilizar para ajustar el modelo. Los ejemplos deben contener el tipo de entrada que el modelo tendrá que procesar en tiempo de ejecución y la salida adecuada para que el modelo genere en respuesta.

Puede añadir un archivo como datos de entrenamiento.

Requisitos de datos de entrenamiento

Siga estas directrices al crear los datos de entrenamiento:

  • Añade de 100 a 1.000 ejemplos etiquetados.

    Se permiten entre 50 y 10.000 ejemplos.

  • El idioma de los datos de entrenamiento debe ser el inglés.

  • Mantenga los ejemplos de entrada y salida dentro de los límites máximos de señales que utiliza el experimento. De lo contrario, el texto de ejemplo se truncará.

    Para obtener más información, consulte Control del número de señales utilizadas.

    La forma en que se cuentan las señales difiere según el modelo, lo que hace que el número de señales sea difícil de estimar. Para los modelos de base basados en lenguaje, puede pensar en 256 tokens como unas 130-170 palabras y 128 tokens como unas 65-85 palabras. Para obtener más información, consulte Señales y señalización.

Si tiene previsto utilizar el modelo de base ajustado para clasificar los datos, siga estas directrices adicionales:

  • Intente limitar el número de etiquetas de clase a 10 o menos.
  • Incluya un número igual de ejemplos de cada tipo de clase.

Puede utilizar Prompt Lab para crear ejemplos para los datos de entrenamiento. Para obtener más información, consulte Prompt Lab.

Después de recopilar un conjunto representativo de ejemplos, agrupe los ejemplos en un conjunto que se utilizará para el entrenamiento y un conjunto separado y más pequeño que se utilizará para las pruebas.

Requisitos de formato de archivo

El archivo de datos de entrenamiento debe cumplir estos requisitos:

  • Utilice uno de los siguientes formatos:
    • JSON (JavaScript Object Notation)
    • Formato JSON Lines (JSONL)
  • El tamaño máximo de archivo permitido es de 200 MB.
  • Cada ejemplo debe incluir un par input y output .
  • Si el texto de entrada o salida incluye comillas, escape cada comilla con una barra inclinada invertida (\). Por ejemplo, He said, \"Yes.\".
  • Para representar un retorno de carro o un salto de línea, puede utilizar la secuencia de escape \n para representar la nueva línea. Por ejemplo, ...end of paragraph.\nStart of new paragraph.

Ejemplo de JSON

El ejemplo siguiente muestra un extracto de un archivo de datos de entrenamiento con solicitudes etiquetadas para una tarea de clasificación en formato JSON.

{
  [
    {
      "input":"Message: When I try to log in, I get an error.",
      "output":"Class name: Problem"
    }
    {
      "input":"Message: Where can I find the plan prices?",
      "output":"Class name: Question"
    }
    {
      "input":"Message: What is the difference between trial and paygo?",
      "output":"Class name: Question"
    }
    {
      "input":"Message: The registration page crashed, and now I can't create a new account.",
      "output":"Class name: Problem"
    }
    {
      "input":"Message: What regions are supported?",
      "output":"Class name: Question"
    }
    {
      "input":"Message: I can't remember my password.",
      "output":"Class name: Problem"
    }
    {
      "input":"Message: I'm having trouble registering for a new account.",
      "output":"Classname: Problem"
    }
    {
      "input":"Message: A teammate shared a service instance with me, but I can't access it. What's wrong?",
      "output":"Class name: Problem"
    }
    {
      "input":"Message: What extra privileges does an administrator have?",
      "output":"Class name: Question"
    }
    {
      "input":"Message: Can I create a service instance for data in a language other than English?",
      "output":"Class name: Question"
    }
  ]
}

Ejemplo de JSONL

El ejemplo siguiente muestra un extracto de un archivo de datos de entrenamiento con solicitudes etiquetadas para una tarea de clasificación en formato JSONL.

{"input":"Message: When I try to log in, I get an error.","output":"Class name: Problem"}
{"input":"Message: Where can I find the plan prices?","output":"Class name: Question"}
{"input":"Message: What is the difference between trial and paygo?","output":"Class name: Question"}
{"input":"Message: The registration page crashed, and now I can't create a new account.","output":"Class name: Problem"}
{"input":"Message: What regions are supported?","output":"Class name: Question"}
{"input":"Message: I can't remember my password.","output":"Class name: Problem"}
{"input":"Message: I'm having trouble registering for a new account.","output":"Classname: Problem"}
{"input":"Message: A teammate shared a service instance with me, but I can't access it. What's wrong?","output":"Class name: Problem"}
{"input":"Message: What extra privileges does an administrator have?","output":"Class name: Question"}
{"input":"Message: Can I create a service instance for data in a language other than English?","output":"Class name: Question"}

Tema padre: Ajuste de un modelo

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información