Parámetros para ajustar modelos de base

Última actualización: 04 mar 2025
Parámetros para ajustar modelos de base

Los parámetros de ajuste configuran los experimentos de ajuste que se utilizan para ajustar un modelo de base.

Nota : Los parámetros que cambie al ajustar un modelo de base se aplican al experimento de ajuste, no al modelo de base subyacente.

Parámetros de ajuste inmediatos

La siguiente tabla describe los parámetros de ajuste que puede personalizar.

Referencias de descripción de valores de parámetros de sintonización
Nombre de parámetro Descripción Opciones de valor Más información
Método de inicialización Especifica cómo inicializar el vector de avisos. Aleatorio, Texto Inicialización del ajuste de solicitud
Texto de inicialización Texto que se utilizará como guía para la primera ejecución del experimento. Inicialización del ajuste de solicitud
Tamaño de lote Número de ejemplos etiquetados a procesar a la vez. 1-16 Segmentación de los datos de entrenamiento
Acumular pasos Número de lotes a procesar antes de realizar ajustes. 1-128 Segmentación de los datos de entrenamiento
Tasa de aprendizaje Determina el alcance del cambio a realizar cuando se ajusta el modelo. 0.00001–0.5 Gestión de la tasa de aprendizaje
Número de épocas (número de ciclos de entrenamiento) Número de veces que se recorren los datos de entrenamiento. 1-50 Elegir el número de ciclos de formación que se completarán

Configuración de los valores de los parámetros para un ajuste rápido

Los mejores valores de hiperparámetros para un experimento de ajuste de pronósticos varían en función de los datos y del caso de uso.

La siguiente tabla recoge los valores de los parámetros que se utilizarán como punto de partida para el ajuste rápido de un modelo de base de terceros.

Valores de los parámetros de ajuste para modelos de bases de terceros
Nombre de parámetro Valor por defecto para flan-t5-xl-3b
Método de inicialización Aleatorio
Texto de inicialización Ninguna
Tamaño de lote 16
Acumular pasos 16
Tasa de aprendizaje 0.3
Número de épocas (número de ciclos de entrenamiento) 20

Los parámetros predeterminados que se utilizan para el ajuste rápido del modelo de base de la plataforma de desarrollo de software ( granite-13b-instruct-v2 ) se ajustan en función del tipo de tarea que se desea que realice el modelo ajustado.

La siguiente tabla recoge los valores de los parámetros que se deben utilizar como punto de partida para cada tipo de tarea admitida para el ajuste rápido del modelo de base de la Fundación de la Ciencia ( granite-13b-instruct-v2 ).

Valores de los parámetros de ajuste para el modelo de cimentación e granite-13b-instruct-v2
Nombre de parámetro Valor predeterminado para la clasificación Valor predeterminado para generación Valor predeterminado para resumen
Tamaño de lote 8 16 8
Acumular pasos 32 16 1
Tasa de aprendizaje 0.0006 0.0002 0.0002
Número de épocas (número de ciclos de entrenamiento) 20 20 40

Descripciones de los parámetros

Segmentación de los datos de entrenamiento

Cuando se ejecuta un experimento, el experimento primero divide los datos de entrenamiento en lotes más pequeños y, a continuación, entrena en un lote a la vez. Cada lote debe caber en la memoria de GPU que se va a procesar. Para reducir la cantidad de memoria de GPU necesaria, puede configurar el experimento de ajuste para posponer la realización de ajustes hasta que se procese más de un lote. El ajuste se ejecuta en un lote y se calculan sus métricas de rendimiento, pero no se realizan ajustes inmediatamente. En su lugar, la información de rendimiento se recopila en algunos lotes antes de que se evalúen las medidas de rendimiento acumulativas.

Utilice los parámetros siguientes para controlar cómo se segmentan los datos de entrenamiento:

Tamaño de lote Número de ejemplos etiquetados (también conocidos como muestras) para procesar a la vez.

Por ejemplo, para un conjunto de datos con 1.000 ejemplos y un tamaño de lote de 10, el conjunto de datos se divide en 100 lotes de 10 ejemplos cada uno.

Si el conjunto de datos de entrenamiento es pequeño, especifique un tamaño de lote más pequeño para asegurarse de que cada lote tiene suficientes ejemplos en él.

Pasos de acumulación: Número de lotes a procesar antes de realizar ajustes.

Por ejemplo, si el conjunto de datos se divide en 100 lotes y establece el valor de los pasos de acumulación en 10, los ajustes se realizarán 10 veces en lugar de 100.

Elegir el número de ciclos de formación que se completarán

El parámetro Número de épocas especifica el número de veces que se debe recorrer el conjunto de datos de entrenamiento completo.

Por ejemplo, con un tamaño de lote de 10 y un conjunto de datos con 1.000 ejemplos, una época debe procesar 100 lotes y realizar ajustes 100 veces. Si establece el número de épocas en 20, el modelo se pasa a través del conjunto de datos 20 veces, lo que significa que procesa un total de 2.000 lotes durante el proceso de ajuste.

Cuanto mayor sea el número de épocas y mayores sean los datos de entrenamiento, más tiempo tardará en ajustar un modelo. Si establece un número de épocas demasiado bajo, es posible que el modelo no aprenda adecuadamente. Si establece un número de épocas demasiado alto, puede sobreajustar el modelo al conjunto de datos. El sobreajuste es un término que se utiliza para describir el fenómeno por el cual un modelo está tan ajustado a sus datos de entrenamiento que no puede generalizar y aplicar lo que aprende cuando se introducen nuevos datos.

Gestión de la tasa de aprendizaje

El parámetro tasa de aprendizaje determina el alcance del cambio a realizar cuando se ajusta el modelo. Cuanto mayor sea el número, mayor será el cambio. Establecer una tasa de aprendizaje demasiado baja podría impedir que el modelo aprenda adecuadamente a partir de los nuevos datos presentados. Establecer una tasa de aprendizaje demasiado alta podría impedir que el modelo aprenda lo suficientemente gradualmente como para poder aplicar lo que aprende a datos nuevos y desconocidos.

Este parámetro es uno que tal vez desee establecer de forma conservadora y luego cambiar gradualmente a medida que experimenta para encontrar los mejores hiperparámetros para el conjunto de datos y el modelo base que está personalizando.

Establecimiento de límites de tokens

Puede cambiar el número de tokens permitidos en la entrada y salida del modelo durante un experimento de ajuste configurando el parámetro max_seq_length. La longitud máxima de la secuencia es el número máximo de tokens de entrada más los tokens de salida permitidos para cada mensaje.

Cuanto mayor sea el número de fichas de entrada y salida permitidas, más tiempo se tardará en ajustar el modelo. Establezca este parámetro en el número más pequeño que sea posible utilizar, pero que siga representando su caso de uso correctamente.

Cree ejemplos de entrada y salida en sus datos de entrenamiento que se ajusten al límite que planea utilizar para el ajuste. Los ejemplos que superen la longitud máxima de secuencia especificada se truncarán durante el experimento. Por ejemplo, si establece este parámetro en 200 y los datos de entrenamiento tienen una entrada de ejemplo con 1000 tokens, solo se utilizan los primeros 200 tokens de la entrada de ejemplo.

Recuerde que la longitud de la secuencia también incluye los tokens de salida para cada indicación, lo que significa que la configuración controla el número de tokens que el modelo puede generar como salida durante el experimento de ajuste.

Inicialización del indicador

Al crear un experimento de ajuste de instrucciones, puede elegir entre especificar su propio texto como vector de instrucciones inicial o dejar que el experimento lo genere por usted. Estas nuevas señales inician el proceso de entrenamiento en posiciones aleatorias o basándose en la inclusión de un vocabulario o instrucción que especifique en el texto. Los estudios muestran que a medida que el tamaño del modelo subyacente crece más allá de los 10.000 millones de parámetros, el método de inicialización que se utiliza se vuelve menos importante.

La elección que realice al crear el experimento de ajuste personaliza cómo se inicializa la solicitud.

Método de inicialización: elija un método entre las opciones siguientes:

  • Texto: Se utiliza el método de ajuste de solicitud donde se especifica el texto de inicialización de la solicitud usted mismo.
  • Aleatorio: se utiliza el método de ajuste de solicitud que permite al experimento añadir valores que se eligen al azar para incluirlos con la solicitud.

Texto de inicialización: el texto que desea añadir. Especifique una descripción de tarea o instrucciones similares a las que utiliza para la solicitud de disparo cero.

Más información

Tema padre: Ajuste de un modelo