0 / 0
Volver a la versión inglesa de la documentación
Parámetros para ajustar modelos de base
Última actualización: 27 sept 2024
Parámetros para ajustar modelos de base

Los parámetros de ajuste configuran los experimentos de ajuste que se utilizan para ajustar el modelo de base.

Nota: Los parámetros que se cambian al sintonizar un modelo de cimentación se aplican al experimento de sintonización, no al modelo de cimentación subyacente.

Obtenga más información sobre los pasos que se producen durante un experimento de ajuste y cómo afectan al proceso los parámetros que puede configurar.

Flujo de trabajo de ajuste de avisos

Durante el experimento, el modelo de ajuste ajusta repetidamente la estructura de la solicitud para que sus predicciones puedan mejorar con el tiempo.

El siguiente diagrama ilustra los pasos que tienen lugar durante la ejecución de un experimento de ajuste rápido. Las partes del flujo del experimento que puede configurar se resaltan con un icono de usuario usuario. Estos puntos de decisión se corresponden con los parámetros de ajuste de experimento que controla.

Detalles del proceso de ejecución del experimento Prompt-tuning

El diagrama muestra los pasos siguientes del experimento:

  1. Se inicia desde el método de inicialización que elija utilizar para inicializar la solicitud.

    Si el parámetro método de inicialización se establece en text, debe añadir el texto de inicialización.

  2. Si se especifica, señaliza el texto de inicialización y lo convierte en un vector de solicitud.

  3. Lee los datos de entrenamiento, los señaliza y los convierte en lotes.

    El tamaño de los lotes viene determinado por el parámetro tamaño de lote .

  4. Envía la entrada de los ejemplos del lote al modelo de base para que el modelo procese y genere la salida.

  5. Compara la salida del modelo con la salida de los datos de entrenamiento que corresponden a la entrada de datos de entrenamiento que se ha enviado. A continuación, calcula el gradiente de pérdida, que es la diferencia entre la salida pronosticada y la salida real de los datos de entrenamiento.

    En algún momento, el experimento ajusta el vector de solicitud que se añade a la entrada basándose en el rendimiento del modelo. Cuando se produce este ajuste depende de cómo se haya configurado el parámetro Pasos de acumulación .

  6. Los ajustes se aplican al vector de solicitud que se ha inicializado en el paso 2. El grado en que se cambia el vector se controla mediante el parámetro Tasa de aprendizaje . El vector de solicitud editado se añade como prefijo a la entrada del siguiente ejemplo en los datos de entrenamiento y se envía al modelo como entrada.

  7. El proceso se repite hasta que se procesan todos los ejemplos de todos los lotes.

  8. Todo el conjunto de lotes se vuelve a procesar tantas veces como se especifique en el parámetro Número de épocas .

Nota: No se cambia ninguna capa del modelo de base base durante este proceso.

Parámetros por defecto para el ajuste rápido

Los mejores valores de hiperparámetros para un experimento de ajuste de pronósticos varían en función de los datos y del caso de uso.

La siguiente tabla muestra los valores de los parámetros que deben utilizarse como punto de partida para el ajuste rápido de un modelo de base de terceros.

Cuadro 1: Valores de los parámetros de ajuste de los modelos de cimentación de terceros
Nombre de parámetro Valor por defecto para flan-t5-xl-3b Más información
Método de inicialización Aleatorio Inicialización del ajuste de solicitud
Texto de inicialización Ninguna Inicialización del ajuste de solicitud
Tamaño de lote 16 Segmentación de los datos de entrenamiento
Acumular pasos 16 Segmentación de los datos de entrenamiento
Tasa de aprendizaje 0.3 Gestión de la tasa de aprendizaje
Número de épocas (número de ciclos de entrenamiento) 20 Elección del número de ejecuciones de entrenamiento a completar

Los parámetros predeterminados que se utilizan para el ajuste rápido del modelo de cimentación granite-13b-instruct-v2 se ajustan en función del tipo de tarea que desee que realice el modelo ajustado.

La siguiente tabla captura los valores de los parámetros a utilizar como punto de partida por tipo de tarea soportada para el ajuste rápido del modelo de cimentación granite-13b-instruct-v2.

Tabla 2: Valores de los parámetros de ajuste para el modelo de cimentación granite-13b-instruct-v2
Nombre de parámetro Valor predeterminado para la clasificación Valor predeterminado para generación Valor predeterminado para resumen Más información
Tamaño de lote 8 16 8 Segmentación de los datos de entrenamiento
Acumular pasos 32 16 1 Segmentación de los datos de entrenamiento
Tasa de aprendizaje 0.0006 0.0002 0.0002 Gestión de la tasa de aprendizaje
Número de épocas (número de ciclos de entrenamiento) 20 20 40 Elección del número de ejecuciones de entrenamiento a completar

Descripciones de los parámetros

La siguiente tabla describe los parámetros de ajuste que puede personalizar.

Tabla 3: Referencias de la descripción de los valores de los parámetros de ajuste
Nombre de parámetro Descripción Opciones de valor Más información
Método de inicialización (ajuste rápido) Especifica cómo inicializar el vector de avisos. Aleatorio, Texto Inicialización del ajuste de solicitud
Texto de inicialización (prompt tuning) Texto que se utilizará como guía para la primera ejecución del experimento. Inicialización del ajuste de solicitud
Tamaño de lote Número de ejemplos etiquetados a procesar a la vez. 1-16 Segmentación de los datos de entrenamiento
Acumular pasos Número de lotes a procesar antes de realizar ajustes. 1-128 Segmentación de los datos de entrenamiento
Tasa de aprendizaje Determina el alcance del cambio a realizar cuando se ajusta el modelo. 0.00001–0.5 Gestión de la tasa de aprendizaje
Número de épocas (número de ciclos de entrenamiento) Número de veces que se recorren los datos de entrenamiento. 1-50 Elección del número de ejecuciones de entrenamiento a completar

Segmentación de los datos de entrenamiento

Cuando se ejecuta un experimento, el experimento primero divide los datos de entrenamiento en lotes más pequeños y, a continuación, entrena en un lote a la vez. Cada lote debe caber en la memoria de GPU que se va a procesar. Para reducir la cantidad de memoria de GPU necesaria, puede configurar el experimento de ajuste para posponer la realización de ajustes hasta que se procese más de un lote. El ajuste se ejecuta en un lote y se calculan sus métricas de rendimiento, pero no se realizan ajustes inmediatamente. En su lugar, la información de rendimiento se recopila en algunos lotes antes de que se evalúen las medidas de rendimiento acumulativas.

Utilice los parámetros siguientes para controlar cómo se segmentan los datos de entrenamiento:

Tamaño de lote Número de ejemplos etiquetados (también conocidos como muestras) para procesar a la vez.

Por ejemplo, para un conjunto de datos con 1.000 ejemplos y un tamaño de lote de 10, el conjunto de datos se divide en 100 lotes de 10 ejemplos cada uno.

Si el conjunto de datos de entrenamiento es pequeño, especifique un tamaño de lote más pequeño para asegurarse de que cada lote tiene suficientes ejemplos en él.

Pasos de acumulación: Número de lotes a procesar antes de realizar ajustes.

Por ejemplo, si el conjunto de datos se divide en 100 lotes y establece el valor de los pasos de acumulación en 10, los ajustes se realizarán 10 veces en lugar de 100.

Elección del número de ejecuciones de entrenamiento a completar

El parámetro Número de épocas especifica el número de veces que se debe realizar el ciclo a través de los datos de entrenamiento.

Por ejemplo, con un tamaño de lote de 10 y un conjunto de datos con 1.000 ejemplos, una época debe procesar 100 lotes y realizar ajustes 100 veces. Si establece el número de épocas en 20, el modelo se pasa a través del conjunto de datos 20 veces, lo que significa que procesa un total de 2.000 lotes durante el proceso de ajuste.

Cuanto mayor sea el número de épocas y mayores sean los datos de entrenamiento, más tiempo tardará en ajustar un modelo.

Gestión de la tasa de aprendizaje

El parámetro tasa de aprendizaje determina el alcance del cambio a realizar cuando se ajusta el modelo. Cuanto mayor sea el número, mayor será el cambio.

Inicialización del indicador

Al crear un experimento de ajuste de instrucciones, puede elegir entre especificar su propio texto como vector de instrucciones inicial o dejar que el experimento lo genere por usted. Estas nuevas señales inician el proceso de entrenamiento en posiciones aleatorias o basándose en la inclusión de un vocabulario o instrucción que especifique en el texto. Los estudios muestran que a medida que el tamaño del modelo subyacente crece más allá de los 10.000 millones de parámetros, el método de inicialización que se utiliza se vuelve menos importante.

La elección que realice al crear el experimento de ajuste personaliza cómo se inicializa la solicitud.

Método de inicialización: elija un método entre las opciones siguientes:

  • Texto: Se utiliza el método de ajuste de solicitud donde se especifica el texto de inicialización de la solicitud usted mismo.
  • Aleatorio: se utiliza el método de ajuste de solicitud que permite al experimento añadir valores que se eligen al azar para incluirlos con la solicitud.

Texto de inicialización: el texto que desea añadir. Especifique una descripción de tarea o instrucciones similares a las que utiliza para la solicitud de disparo cero.

Más información

Tema padre: Ajuste de un modelo

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información