Elegir un modelo de fundación para afinar
Encuentre el modelo de cimentación adecuado que pueda sintonizar para personalizar el modelo para su tarea.
Modelos de base para una rápida puesta a punto
Puede sintonizar los siguientes modelos desde Tuning Studio en watsonx.ai:
- flan-t5-xl-3b
- granite-13b-instruct-v2
La siguiente tabla muestra los modelos de cimentación con los que se puede experimentar antes de elegir un modelo de cimentación para afinar.
Modelo para ingeniería de solicitud | Modelo para el ajuste |
---|---|
flan-t5-xxl-11b flan-ul2-20b |
flan-t5-xl-3b |
granite-13b-instruct-v2 | granite-13b-instruct-v2 |
Elegir un modelo de base para la puesta a punto
Para ayudarle a elegir el mejor modelo de fundación para afinar, siga estos pasos:
Considere si se tomaron medidas para curar los datos que se utilizaron para entrenar el modelo de cimentación con el fin de mejorar la calidad del resultado del modelo de cimentación.
Revise otras consideraciones generales para elegir un modelo.
Para más información, consulte Elegir un modelo de fundación.
Consideremos los costes asociados al modelo de base, tanto en el momento de la inferencia como en el de la sintonización. Un modelo más pequeño, como un modelo de parámetro de 3.000 millones, cuesta menos afinar y es un buen lugar para empezar.
El ajuste incurre en costes de consumo de recursos de cálculo que se miden en horas de unidad de capacidad (CUH). Cuanto más grande sea el modelo, más tiempo se tardará en ajustar el modelo. Un modelo de cimentación cuatro veces más grande tarda cuatro veces más en afinarse.
Por ejemplo, en un conjunto de datos con 10.000 ejemplos y que tiene un tamaño de 1.25 MB, se tarda 3 horas y 25 minutos en ajustar puntualmente el modelo de base flan-t5-xl-3b.
Para obtener más información sobre los costes de CUH, consulte watsonx.ai Planes de tiempo de ejecución y uso de computación.
Experimenta con los modelos en el Prompt Lab.
Utilice la versión más grande (es decir, la versión con más parámetros) del modelo en la misma familia de modelos para fines de prueba. Al probar con un modelo más grande y potente, puede establecer el mejor patrón de solicitud para obtener la salida que desee. A continuación, puede ajustar una versión más pequeña del mismo tipo de modelo para ahorrar costes. Una versión ajustada con solicitud de un modelo más pequeño puede generar resultados similares, si no mejores, y cuesta menos inferir.
Elabore y pruebe indicaciones hasta que encuentre el patrón de entrada que genere los mejores resultados del modelo de cimentación grande.
Para más información, consulte Prompt Lab.
Tema principal: Tuning Studio