Tema traducido automáticamente Puede cambiar a la versión en inglés

Consulte la versión en inglés (original) para obtener la versión más precisa y actualizada de esta documentación. IBM no se responsabiliza de los daños o pérdidas resultantes del uso de contenido traducido automáticamente (máquina).

Modelos de bases de terceros

Última actualización: 10 abr 2025

Puede elegir entre una colección de modelos de bases de terceros en IBM watsonx.ai.

Los siguientes modelos están disponibles en watsonx.ai:

allam-1-13b-instruct
codellama-34b-instruct-hf
deepseek-r1-distill-llama-8b
deepseek-r1-distill-llama-70b
elyza-japanese-llama-2-7b-instruct
eurollm-1-7b-instruct
eurollm-9b-instruct
flan-t5-xl-3b
flan-t5-xxl-11b
flan-ul2-20b
jais-13b-chat
llama-4-maverick-17b-128e-instruct-fp8
llama-4-scout-17b-16e-instruct
llama-3-3-70b-instruct
llama-3-2-1b-instruct
llama-3-2-3b-instruct
llama-3-2-11b-vision-instruct
llama-3-2-90b-vision-instruct
llama-guard-3-11b-vision
llama-3-1-8b
llama-3-1-8b-instruct
llama-3-1-70b-instruct
llama-3-405b-instruct
llama-3-8b-instruct
llama-3-70b-instruct
llama-2-13b-chat
llama-2-70b-chat
mistral-large
mistral-large-instruct-2407
mistral-large-instruct-2411
mistral-nemo-instruct-2407
mistral-small-24b-instruct-2501
mixtral-8x7b-base
mixtral-8x7b-instruct-v01
mt0-xxl-13b
pixtral-12b

Para obtener más información sobre las distintas formas en que se pueden implantar estos modelos, y para ver un resumen de los precios y la información sobre la duración de la ventana contextual de los modelos, consulte Modelos de cimentación compatibles.

Para obtener más información sobre los modelos de base de maquillaje de IBM, consulte los modelos de base de maquillaje de IBM.

Cómo elegir un modelo

Para revisar los factores que pueden ayudarle a elegir un modelo, como las tareas y los idiomas admitidos, consulte Elegir un modelo y Puntos de referencia del modelo Foundation.

Para ver las actualizaciones del ciclo de vida del modelo, consulte Ciclo de vida del modelo de Foundation.

Detalles del modelo de cimentación

Los modelos de bases de datos en watsonx.ai admiten una amplia gama de casos de uso, tanto para lenguajes naturales como para lenguajes de programación. Para ver los tipos de tareas que pueden realizar estos modelos, revise y pruebe las indicaciones de ejemplo.

allam-1-13b-instruct

El modelo de la fundación allam-1-13b-instruct es un modelo bilingüe de gran tamaño para árabe e inglés proporcionado por el Centro Nacional de Inteligencia Artificial y respaldado por la Autoridad Saudí de Datos e Inteligencia Artificial que está perfeccionado para apoyar tareas conversacionales. La serie " ALLaM " es una colección de potentes modelos lingüísticos diseñados para avanzar en la tecnología de la lengua árabe. Estos modelos se inicializan con pesos e Llama-2 es y reciben formación tanto en árabe como en inglés.

Nota:

Al inferir este modelo desde el Prompt Lab, desactive los guardarraíles AI.

Uso

Admite preguntas y respuestas, resumen, clasificación, generación, extracción y traducción en árabe.

Size

13.000 millones de parámetros

Nivel de precios API

Clase 2. Para más información sobre precios, véase el cuadro 3.

Disponibilidad

Proporcionado por IBM y desplegado en hardware multiusuario en el centro de datos de Fráncfort.

Implementación bajo demanda para uso exclusivo, excepto en el centro de datos de Fráncfort.

Pruébela

Experimente con muestras:

Límites de fichas

Longitud de la ventana contextual (entrada + salida): 4,096

Lenguas naturales admitidas

Árabe (árabe moderno estándar) e inglés

Instrucciones de sintonización

allam-1-13b-instruct se basa en el modelo de aprendizaje profundo ( Allam-13b-base ), que es un modelo de base entrenado previamente en un total de 3 billones de tokens en inglés y árabe, incluidos los tokens vistos desde su inicialización. El conjunto de datos árabes contiene 500.000 millones de tokens tras la limpieza y la deduplicación. Los datos adicionales proceden de colecciones de código abierto y de rastreos web. El modelo de la base de datos de allam-1-13b-instruct se ha perfeccionado con un conjunto seleccionado de 4 millones de pares de preguntas y respuestas en árabe y 6 millones en inglés.

Arquitectura modelo

Sólo decodificador

Licencia

Licencia comunitariaLlama 2 y licenciaALLaM

Más información

Lea el siguiente recurso:

Modelo de tarjeta

codellama-34b-instruct-hf

Un modelo de generación de código programático basado en Llama 2 de Meta. Code Llama está afinado para generar y discutir código.

Uso: Utilice Code Llama para crear mensajes que generen código basado en entradas de lenguaje natural, expliquen código o completen y depuren código.

Nota:

Al inferir este modelo desde el Prompt Lab, desactive los guardarraíles AI.

Size

34.000 millones de parámetros

Nivel de precios API

Clase 2. Para más información sobre precios, véase el cuadro 3.

Disponibilidad

Despliegue bajo demanda para uso exclusivo.

Pruébela

Experimente con muestras:

Límites de fichas

Longitud de la ventana contextual (entrada + salida): 16,384

Nota: El máximo de nuevos tokens, es decir, los tokens que genera el modelo de la fundación por solicitud, está limitado a 8.192.

Lenguas naturales admitidas

Inglés

Lenguajes de programación soportados

El modelo de base codellama-34b-instruct-hf es compatible con numerosos lenguajes de programación, como Python, C++, Java, PHP, Typescript (Javascript), C#, Bash, etc.

Instrucciones de sintonización

La versión ajustada de la instrucción se alimentó con la entrada de la instrucción en lenguaje natural y la salida esperada para guiar al modelo a generar respuestas útiles y seguras en lenguaje natural.

Arquitectura modelo

decodificador

Licencia

Licencia

Más información

Lea los siguientes recursos:

DeepSeek-R1 modelos destilados

Las variantes destiladas de los modelos de la serie " DeepSeek-R1 " basadas en los modelos " Llama 3.1" son proporcionadas por " DeepSeek AI". Los modelos de aprendizaje profundo ( DeepSeek-R1 ) son modelos de código abierto con potentes capacidades de razonamiento. Las muestras de datos generadas por el modelo DeepSeek R1 se utilizan para ajustar un modelo base de Llama.

Los modelos deepseek-r1-distill-llama-8b y deepseek-r1-distill-llama-70b son versiones simplificadas del modelo DeepSeek-R1 basadas en los modelos Llama 3.1 8B y Llama 3.3 70B respectivamente.

Uso

De uso general con indicaciones de zero- o few-shot y están diseñados para sobresalir en tareas de seguimiento de instrucciones como resumen, clasificación, razonamiento, tareas de código, así como matemáticas.

Tamaños disponibles

8.000 millones de parámetros
70.000 millones de parámetros

Nivel de precios API

8b: Pequeño

70: Grande

Para más información sobre precios, véase el cuadro 5.

Disponibilidad

Despliegue bajo demanda para uso exclusivo.

Pruébela

Experimente con muestras:

Límites de fichas

8b y 70b: Longitud de la ventana de contexto (entrada + salida): 131 072

Nota: El máximo de nuevos tokens, es decir, los tokens generados por el modelo de fundación por solicitud, está limitado a 32 768.

Lenguas naturales admitidas

Inglés

Instrucciones de sintonización

Los modelos de aprendizaje por refuerzo ( DeepSeek-R1 ) se entrenan utilizando el aprendizaje por refuerzo (RL) a gran escala sin ajuste fino supervisado (SFT) como paso preliminar. Las etapas posteriores de RL y SFT tienen como objetivo mejorar los patrones de razonamiento y alinear el modelo con las preferencias humanas. DeepSeek-R1-Distill los modelos se ajustan en función de modelos de código abierto, utilizando muestras generadas por DeepSeek-R1.

Arquitectura modelo

decodificador

Licencia

8b: Licencia

70b: Licencia

Más información

Lea los siguientes recursos:

elyza-japanese-llama-2-7b-instruct

El modelo de elyza-japanese-llama-2-7b-instruct es proporcionado por ELYZA, Inc en Hugging Face. El modelo de la fundación elyza-japanese-llama-2-7b-instruct es una versión del modelo Llama 2 de Meta que está entrenado para comprender y generar texto japonés. El modelo se pone a punto para resolver diversas tareas que siguen instrucciones del usuario y para participar en un diálogo.

Uso

Uso general con indicaciones " zero- o " few-shot ". Funciona bien para la clasificación y extracción en japonés y para la traducción entre inglés y japonés. Funciona mejor cuando se le pregunta en japonés.

Size

7.000 millones de parámetros

Nivel de precios API

Clase 2. Para más información sobre precios, véase el cuadro 3.

Disponibilidad

Proporcionado por IBM y desplegado en hardware multiusuario en el centro de datos de Tokio.

Pruébela

Experimente con muestras:

Límites de fichas

Longitud de la ventana contextual (entrada + salida): 4,096

Lenguas naturales admitidas

Japonés, inglés

Instrucciones de sintonización

Para la formación en japonés se utilizaron textos en japonés procedentes de numerosas fuentes, entre ellas Wikipedia y el Open Super-large Crawled ALMAnaCH coRpus (un corpus multilingüe que se genera clasificando y filtrando el lenguaje en el corpus Common Crawl). El modelo se puso a punto con un conjunto de datos creado por ELYZA. El conjunto de datos ELYZA Tasks 100 contiene 100 tareas diversas y complejas creadas manualmente y evaluadas por humanos. El conjunto de datos ELYZA Tasks 100 está disponible públicamente en HuggingFace.

Arquitectura modelo

decodificador

Licencia

Licencia

Más información

Lea los siguientes recursos:

EuroLLM Indique

La serie de modelos EuroLLM ha sido desarrollada por el proyecto Unified Transcription and Translation for Extended Reality (UTTER) y la Unión Europea. Los modelos EuroLLM Instruct son modelos de código abierto especializados en comprender y generar texto en las 24 lenguas oficiales de la Unión Europea (UE), así como en 11 lenguas internacionales de importancia comercial y estratégica.

Uso

Adecuado para tareas lingüísticas multilingües como el seguimiento de instrucciones generales y la traducción de idiomas.

Tamaños

1.7 mil millones de parámetros
9.000 millones de parámetros

Nivel de precios API

1.7b: Pequeño

9b: Pequeño

Para más información sobre precios, véase el cuadro 5.

Disponibilidad

Despliegue bajo demanda para uso exclusivo.

Límites de fichas

1.7b y 9b: Longitud de la ventana de contexto (entrada + salida): 4,096

Lenguas naturales admitidas

Alemán, búlgaro, checo, croata, danés, eslovaco, esloveno, español, estonio, finés, francés, griego, húngaro, inglés, irlandés, italiano, letón, lituano, maltés, neerlandés, polaco, portugués, rumano, sueco, árabe, catalán, chino, gallego, hindi, japonés, coreano, noruego, ruso, turco y ucraniano.

Instrucciones de sintonización

Los modelos se han entrenado con 4 billones de tokens de los lenguajes naturales admitidos a partir de datos web, datos paralelos, Wikipedia, Arxiv, varios libros y conjuntos de datos Apollo.

Arquitectura modelo

decodificador

Licencia

licenciaApache 2.0

Más información

Lea los siguientes recursos:

flan-t5-xl-3b

El modelo de flan-t5-xl-3b es proporcionado por Google en Hugging Face. El modelo se basa en el modelo de transformador de transferencia de texto a texto preentrenado ( T5 ) y utiliza métodos de ajuste de instrucciones para lograr un mejor rendimiento de zero- y few-shot . El modelo también se afina con datos de la cadena de pensamiento para mejorar su capacidad de realizar tareas de razonamiento.

Nota:

Este modelo de base se puede ajustar utilizando el Tuning Studio.

Uso

Uso general con indicaciones " zero- o " few-shot ".

Size

3.000 millones de parámetros

Nivel de precios API

Clase 1. Para más información sobre precios, véanse los cuadros 3 y 5.

Disponibilidad

Proporcionado por IBM y desplegado en hardware multiusuario.
Despliegue bajo demanda para uso exclusivo.

Pruébela

Solicitudes de ejemplo

Límites de fichas

Longitud de la ventana contextual (entrada + salida): 4,096

Lenguas naturales admitidas

Multilingüe

Instrucciones de sintonización

El modelo se puso a punto en tareas que implican el razonamiento en varios pasos a partir de datos de cadenas de pensamiento, además de las tareas tradicionales de procesamiento del lenguaje natural. Se publican detalles sobre los conjuntos de datos de entrenamiento utilizados.

Arquitectura modelo

Codificador-decodificador

Licencia

licenciaApache 2.0

Más información

Lea los siguientes recursos:

flan-t5-xxl-11b

El modelo de flan-t5-xxl-11b es proporcionado por Google en Hugging Face. Este modelo se basa en el modelo de transformador de transferencia de texto a textoT5) preentrenado y utiliza métodos de ajuste de instrucciones para lograr un mejor rendimiento de " zero- y " few-shot ". El modelo también se afina con datos de la cadena de pensamiento para mejorar su capacidad de realizar tareas de razonamiento.

Uso

Uso general con indicaciones " zero- o " few-shot ".

Size

11.000 millones de parámetros

Nivel de precios API

Clase 2. Para más información sobre precios, véanse los cuadros 3 y 5.

Disponibilidad

Proporcionado por IBM y desplegado en hardware multiusuario.
Despliegue bajo demanda para uso exclusivo.

Pruébela

Experimente con muestras:

Límites de fichas

Longitud de la ventana contextual (entrada + salida): 4,096

Lenguas naturales admitidas

Inglés, alemán, francés

Instrucciones de sintonización

Arquitectura modelo

Codificador-decodificador

Licencia

licenciaApache 2.0

Más información

Lea los siguientes recursos:

flan-ul2-20b

El modelo de flan-ul2-20b es proporcionado por Google en Hugging Face. Este modelo se entrenó utilizando los Paradigmas Unificadores de Aprendizaje de LenguasUL2). El modelo está optimizado para la generación de lenguaje, la comprensión del lenguaje, la clasificación de textos, la respuesta a preguntas, el razonamiento de sentido común, el razonamiento de textos largos, la fundamentación de conocimientos estructurados y la recuperación de información, el aprendizaje en contexto, el estímulo " zero-shot y el estímulo único.

Uso

Uso general con indicaciones " zero- o " few-shot ".

Size

20.000 millones de parámetros

Nivel de precios API

Clase 3. Para más información sobre precios, véanse los cuadros 3 y 5.

Disponibilidad

Proporcionado por IBM y desplegado en hardware multiusuario.
Despliegue bajo demanda para uso exclusivo.

Pruébela

Experimente con muestras:

Límites de fichas

Longitud de la ventana contextual (entrada + salida): 4,096

Lenguas naturales admitidas

Inglés

Instrucciones de sintonización

El modelo flan-ul2-20b se entrena previamente en la versión colosal y depurada del corpus de rastreo web de Common Crawl. El modelo se ajusta con múltiples objetivos de preentrenamiento para optimizarlo para diversas tareas de procesamiento del lenguaje natural. Se publican detalles sobre los conjuntos de datos de entrenamiento utilizados.

Arquitectura modelo

Codificador-decodificador

Licencia

licenciaApache 2.0

Más información

Lea los siguientes recursos:

jais-13b-chat

El modelo de la fundación jais-13b-chat es un modelo bilingüe de gran tamaño para árabe e inglés que está perfeccionado para apoyar tareas conversacionales.

Uso

Admite preguntas y respuestas, resumen, clasificación, generación, extracción y traducción en árabe.

Size

13.000 millones de parámetros

Nivel de precios API

Clase 2. Para más información sobre precios, véase el cuadro 3.

Disponibilidad

Proporcionado por IBM y desplegado en hardware multiusuario en el centro de datos de Fráncfort.

Pruébela

Ejemplo de mensaje: Chat en árabe

Límites de fichas

Longitud de la ventana contextual (entrada + salida): 2,048

Lenguas naturales admitidas

Árabe (árabe moderno estándar) e inglés

Instrucciones de sintonización

Jais-13b-chat se basa en el modelo de aprendizaje profundo ( Jais-13b ), que es un modelo de base entrenado con 116 000 millones de tokens en árabe y 279 000 millones de tokens en inglés. Jais-13b-chat está perfeccionado con un conjunto seleccionado de 4 millones de pares de preguntas y respuestas en árabe y 6 millones en inglés.

Arquitectura modelo

decodificador

Licencia

licenciaApache 2.0

Más información

Lea los siguientes recursos:

Modelos Llama 4 Instruct

Los modelos de cimientos de la colección Llama 4 proceden de Meta. Los modelos llama-4-maverick-17b-128e-instruct-fp8 y llama-4-scout-17b-16e-instruct son modelos multimodales que utilizan una arquitectura de mezcla de expertos ( MoE ) para obtener un rendimiento optimizado, el mejor de su clase, en la comprensión de textos e imágenes.

El modelo Llama 4 Maverick es un modelo multimodal de 17.000 millones de parámetros activos con 128 expertos. El modelo Llama 4 Scout es un modelo multimodal de 17.000 millones de parámetros activos con 16 expertos. La Llama 4 modelos

Uso

Genera diálogos multilingües como un chatbot, utiliza un formato de consulta específico para cada modelo, optimizado para el reconocimiento visual, el razonamiento de imágenes, el subtitulado y la respuesta a preguntas generales sobre una imagen.

Size

17.000 millones de parámetros

Nivel de precios API

Estos modelos están disponibles sin coste alguno.

Para más información sobre precios, véase el cuadro 3.

Disponibilidad

Proporcionado por IBM y desplegado en hardware multiusuario.

Pruébela

Límites de fichas

Longitud de la ventana contextual (entrada + salida): 131,072

El máximo de nuevos tokens, es decir, de tokens generados por los modelos de la fundación por solicitud, está limitado a 8.192.

Lenguas naturales admitidas

Alemán, árabe, español, francés, hindi, indonesio, inglés, italiano, portugués, tagalo, tailandés y vietnamita.

Instrucciones de sintonización

Llama 4 se preentrenó en una colección más amplia de 200 idiomas. El modelo Llama 4 Scout se preentrenó con aproximadamente 40 billones de tokens y el modelo Llama 4 Maverick se preentrenó con aproximadamente 22 billones de tokens de datos multimodales procedentes de información disponible públicamente y bajo licencia de Meta.

Arquitectura modelo

Sólo decodificador

Licencia

Meta Llama 4 Licencia comunitaria

Más información

Lea los siguientes recursos:

Llama 3.3 70B Instruct

El gran modelo lingüístico multilingüe (LLM) Llama 3.3 de ' Meta ' es un modelo generativo (texto de entrada/texto de salida) preentrenado y ajustado a las instrucciones con 70.000 millones de parámetros.

El llama-3-3-70b-instruct es una revisión del popular Llama 3.1 70B Instruct foundation model. El modelo de la fundación Llama 3.3 es mejor en codificación, razonamiento paso a paso y llamada de herramientas. A pesar de su menor tamaño, el rendimiento del modelo Llama 3.3 es similar al del modelo Llama 3.1 405b, lo que lo convierte en una excelente opción para los desarrolladores.

Uso

Genera diálogos multilingües como un chatbot. Utiliza un formato de consulta específico para cada modelo.

Size

70.000 millones de parámetros

Nivel de precios API

Clase 13

Para más información sobre precios, véase el cuadro 3.

Disponibilidad

IBM proporciona una versión cuantificada del modelo desplegada en hardware multiusuario.
Hay dos versiones del modelo disponibles para desplegar bajo demanda para uso exclusivo:
- llama-3-3-70b-instruct-hf: Versión original publicada en Hugging Face por Meta.
- llama-3-3-70b-instruct: Una versión cuantizada del modelo que puede desplegarse con 2 GPUs en lugar de 4.

Pruébela

Experimente con muestras:

Límites de fichas

Longitud de la ventana contextual (entrada + salida): 131,072

Lenguas naturales admitidas

Inglés, alemán, francés, italiano, portugués, hindi, español y tailandés

Instrucciones de sintonización

Llama 3.3 se preentrenó con 15 billones de tokens de datos procedentes de fuentes públicas. Los datos de ajuste fino incluyen conjuntos de datos de instrucciones disponibles públicamente, así como más de 25 millones de ejemplos generados sintéticamente.

Arquitectura modelo

Sólo decodificador

Licencia

Meta Licencia comunitaria Llama 3.3

Más información

Lea los siguientes recursos:

Llama 3.2 Instruct

La colección de modelos de cimentación Llama 3.2 está disponible en Meta. Los modelos llama-3-2-1b-instruct y llama-3-2-3b-instruct son los más pequeños Llama 3.2 que caben en un dispositivo móvil. Se trata de modelos ligeros, sólo de texto, que pueden utilizarse para crear agentes altamente personalizados en los dispositivos.

Por ejemplo, puedes pedir a los modelos que resuman los diez últimos mensajes que has recibido, o que resuman tu agenda para el mes que viene.

Uso

Genera diálogos como un chatbot. Utilice un formato de consulta específico para cada modelo. Su reducido tamaño y sus modestos requisitos de memoria y recursos informáticos permiten ejecutar localmente los modelos Llama 3.2 Instruct en la mayoría de los equipos, incluidos los móviles y otros dispositivos de última generación.

Tamaños

1.000 millones de parámetros
3.000 millones de parámetros

Nivel de precios API

1b: Clase C1
3b: Clase 8

Para más información sobre precios, véase el cuadro 3.

Para más información sobre precios, consulte Detalles de facturación de los activos de IA generativa.

Disponibilidad

Proporcionado por IBM y desplegado en hardware multiusuario.

Pruébela

Límites de fichas

Longitud de la ventana contextual (entrada + salida)

1b: 131,072
3b: 131,072

El máximo de nuevos tokens, es decir, de tokens generados por los modelos de la fundación por solicitud, está limitado a 8.192.

Lenguas naturales admitidas

Inglés, alemán, francés, italiano, portugués, hindi, español y tailandés

Instrucciones de sintonización

Preentrenado con hasta 9 billones de tokens de datos de fuentes públicas. Los logits de los modelos Llama 3.1 8B y 70B se incorporaron a la fase de preentrenamiento del desarrollo del modelo, en la que los resultados (logits) de estos modelos más grandes se utilizaron como objetivos a nivel de token. En el postentrenamiento, se alinea el modelo preentrenado utilizando el ajuste fino supervisado (SFT), el muestreo de rechazo (RS) y la optimización de preferencia directa (DPO).

Arquitectura modelo

Sólo decodificador

Licencia

Meta Licencia comunitaria Llama 3.2

Más información

Lea los siguientes recursos:

Llama 3.2 Vision Instruct

La colección de modelos de cimientos Llama 3.2 de ' Meta ' la proporciona ' Meta. Los modelos llama-3-2-11b-vision-instruct y llama-3-2-90b-vision-instruct se han creado para casos de uso de entrada de imágenes y salida de texto, como la comprensión a nivel de documento, la interpretación de tablas y gráficos y el subtitulado de imágenes.

Uso

Genera diálogos como un chatbot y puede realizar tareas de visión por ordenador, como clasificación, detección e identificación de objetos, transcripción de imagen a texto (incluida la escritura a mano), preguntas y respuestas contextuales, extracción y procesamiento de datos, comparación de imágenes y asistencia visual personal. Utiliza un formato de consulta específico para cada modelo.

Tamaños

11.000 millones de parámetros
90.000 millones de parámetros

Nivel de precios API

11b: Clase 9
90b: Clase 10

Para más información sobre precios, véase el cuadro 3.

Disponibilidad

Proporcionado por IBM y desplegado en hardware multiusuario.

Pruébela

Límites de fichas

Longitud de la ventana contextual (entrada + salida)

11b: 131,072
90b: 131,072

El máximo de nuevos tokens, es decir, de tokens generados por los modelos de la fundación por solicitud, está limitado a 8.192. Los tokens que se cuentan para una imagen que envíe al modelo no se incluyen en la longitud de la ventana contextual.

Lenguas naturales admitidas

Inglés, alemán, francés, italiano, portugués, hindi, español y tailandés con entradas de sólo texto. Inglés sólo cuando se incluye una imagen con la entrada.

Instrucciones de sintonización

los modelos Llama 3.2 Vision " utilizan ponderaciones de adaptadores de razonamiento de imágenes que se entrenan por separado de las ponderaciones del modelo lingüístico principal. Esta separación preserva el conocimiento general del modelo y lo hace más eficiente tanto en tiempo de preentrenamiento como de ejecución. Los modelos de Llama 3.2 Vision se entrenaron previamente con 6000 millones de pares de imágenes y texto, lo que requirió muchos menos recursos informáticos que los necesarios para entrenar previamente el modelo de base de Llama 3.1 70B. Llama 3.2 Los modelos también funcionan de manera eficiente porque pueden aprovechar más recursos informáticos para el razonamiento de imágenes solo cuando la entrada lo requiere.

Arquitectura modelo

Sólo decodificador

Licencia

Meta Licencia comunitaria Llama 3.2

Más información

Lea los siguientes recursos:

llama-guard-3-11b-vision

La colección de modelos de cimientos Llama 3.2 de ' Meta ' la proporciona ' Meta. La llama-guard-3-11b-vision es una evolución multimodal del modelo Llama-Guard-3 de sólo texto. El modelo puede utilizarse para clasificar el contenido de imágenes y texto de las entradas de los usuarios (clasificación de avisos) como seguro o inseguro.

Uso

Utiliza el modelo para comprobar la seguridad de la imagen y el texto en un aviso de imagen a texto.

Size

11.000 millones de parámetros

Nivel de precios API

Clase 9. Para más información sobre precios, véase el cuadro 3.

Disponibilidad

Proporcionado por IBM y desplegado en hardware multiusuario.

Pruébela

Límites de fichas

Longitud de la ventana contextual (entrada + salida): 131,072

Lenguas naturales admitidas

Inglés, alemán, francés, italiano, portugués, hindi, español y tailandés con entradas de sólo texto. Inglés sólo cuando se incluye una imagen con la entrada.

Instrucciones de sintonización

Modelo preentrenado y ajustado para la clasificación de la seguridad de los contenidos. Para más información sobre los tipos de contenidos clasificados como no seguros, consulte la ficha modelo.

Arquitectura modelo

Sólo decodificador

Licencia

Meta Licencia comunitaria Llama 3.2

Más información

Lea los siguientes recursos:

Llama 3.1 8b

La colección de modelos de cimientos Llama 3.1 de ' Meta ' la proporciona ' Meta. El modelo de base Llama 3.1 es un modelo multilingüe que admite el uso de herramientas y tiene capacidades de razonamiento más sólidas en general.

Uso

Utilícelo para resumir textos largos y con agentes conversacionales multilingües o asistentes de codificación.

Size

8.000 millones de parámetros

Nivel de precios API

Para más información sobre precios, véase el cuadro 5.

Disponibilidad

Despliegue bajo demanda para uso exclusivo.

Límites de fichas

Longitud de la ventana contextual (entrada + salida): 131,072

Lenguas naturales admitidas

Inglés, alemán, francés, italiano, portugués, hindi, español y tailandés

Arquitectura modelo

Sólo decodificador

Licencia

Meta Licencia comunitaria Llama 3.1

Más información

Lea los siguientes recursos:

Llama 3.1 Instruct

La colección de modelos de cimientos Llama 3.1 de ' Meta ' la proporciona ' Meta. Los modelos básicos de Llama 3.1 son modelos generativos de sólo texto preentrenados y ajustados a las instrucciones, optimizados para casos de uso de diálogo multilingüe. Los modelos utilizan el ajuste fino supervisado y el aprendizaje por refuerzo con información humana para ajustarse a las preferencias humanas de utilidad y seguridad.

El modelo llama-3-405b-instruct es el modelo de base de código abierto más grande de Meta hasta la fecha. Este modelo de base también puede utilizarse como generador de datos sintéticos, juez de clasificación de datos posteriores a la formación o modelo de profesor/supervisor que puede mejorar las capacidades especializadas en modelos derivados más fáciles de inferir.

Uso

Genera diálogos como un chatbot. Utiliza un formato de consulta específico para cada modelo.

Tamaños

8.000 millones de parámetros
70.000 millones de parámetros
405.000 millones de parámetros

Nivel de precios API

8b: Clase 1
70b: Clase 2
405b: Clase 3 (entrada), Clase 7 (salida)

Para más información sobre precios, véase el cuadro 3.

Para conocer los precios de los modelos 8b y 70b bajo demanda, consulte la Tabla 5.

Disponibilidad

405b: Proporcionado por IBM desplegado en hardware multiusuario.
8b y 70b únicamente: Despliegue bajo demanda para uso dedicado.

Icono de aviso Los despliegues IBM de los modelos de cimientos 8b y 70b están obsoletos. Para más detalles, consulte el ciclo de vida del modelo Foundation.

Pruébela

Ejemplo de mensaje: Conversa con Llama 3

Ejemplo de API de chat

Límites de fichas

Longitud de la ventana contextual (entrada + salida)

8b y 70b: 131.072
405b: 16,384
- Aunque el modelo admite una longitud de ventana de contexto de 131.072, la ventana se limita a 16.384 para reducir el tiempo que tarda el modelo en generar una respuesta.
El máximo de nuevos tokens, es decir, de tokens generados por los modelos de la fundación por solicitud, está limitado a 4.096.

Lenguas naturales admitidas

Inglés, alemán, francés, italiano, portugués, hindi, español y tailandés

Instrucciones de sintonización

Llama 3.1 se preentrenó con 15 billones de tokens de datos procedentes de fuentes públicas. Los datos de ajuste fino incluyen conjuntos de datos de instrucciones disponibles públicamente, así como más de 25 millones de ejemplos generados sintéticamente.

Arquitectura modelo

Sólo decodificador

Licencia

Meta Licencia comunitaria Llama 3.1

Más información

Lea los siguientes recursos:

Llama 3 Instruct

La familia de modelos de base Meta Llama 3 son modelos de lenguaje grandes, abiertos y accesibles que se construyen con Meta Llama 3 y que proporciona Meta en Hugging Face. Los modelos básicos de Llama 3 3 son modelos lingüísticos ajustados a las instrucciones que pueden admitir diversos casos de uso.

Uso

Genera diálogos como un chatbot.

Tamaños

8.000 millones de parámetros
70.000 millones de parámetros

Nivel de precios API

8b: Clase 1
70b: Clase 2

Para más información sobre precios, véanse los cuadros 3 y 5.

Disponibilidad

Proporcionado por IBM implementado en hardware multiusuario ( 70b solo en la región de Sídney).
Despliegue bajo demanda para uso exclusivo.

Pruébela

Ejemplo de mensaje: Conversa con Llama 3

Límites de fichas

Longitud de la ventana contextual (entrada + salida)

8b: 8,192
70b: 8,192

Nota: El máximo de nuevos tokens, es decir, los tokens generados por los modelos de la fundación por solicitud, está limitado a 4.096.

Lenguas naturales admitidas

Inglés

Instrucciones de sintonización

Llama 3 incluye mejoras en los procedimientos posteriores a la formación que reducen las tasas de falsos rechazos, mejoran la alineación y aumentan la diversidad en el resultado del modelo de la fundación. El resultado es una mayor capacidad de razonamiento, generación de código y seguimiento de instrucciones. Llama 3 tiene más fichas de formación ( 15T ) que le permiten comprender mejor el idioma.

Arquitectura modelo

Sólo decodificador

Licencia

Licencia comunitaria de META LLAMA 3

Más información

Lea los siguientes recursos:

Llama 2 Chat

Los modelos de Llama 2 Chat son proporcionados por Meta en Hugging Face. Los modelos afinados son útiles para la generación de chats. Los modelos se preentrenan con datos en línea disponibles públicamente y se perfeccionan mediante aprendizaje por refuerzo a partir de comentarios humanos.

Puede elegir entre utilizar la versión del modelo con 13.000 millones de parámetros o con 70.000 millones.

Uso

Genera diálogos como un chatbot. Utiliza un formato de consulta específico para cada modelo.

Size

13.000 millones de parámetros
70.000 millones de parámetros

Nivel de precios API

Clase 1. Para más información sobre precios, véanse los cuadros 3 y 5.

Disponibilidad

13b
- Proporcionado por IBM y desplegado en hardware multiusuario
- Despliegue bajo demanda para uso exclusivo
70b
- Despliegue bajo demanda para uso exclusivo

Icono de aviso El despliegue de este modelo de base proporcionado por IBM ha quedado obsoleto. Véase Ciclo de vida del modelo Foundation.

Pruébela

Experimente con muestras:

Límites de fichas

Longitud de la ventana contextual (entrada + salida)

13b: 4,096
70b: 4,096

Lenguas naturales admitidas

Inglés

Instrucciones de sintonización

Llama 2 se preentrenó con 2 billones de tokens de datos procedentes de fuentes públicas. Los datos de ajuste incluyen conjuntos de datos de instrucciones disponibles públicamente y más de un millón de ejemplos nuevos anotados por humanos.

Arquitectura modelo

Sólo decodificador

Licencia

Licencia

Más información

Lea los siguientes recursos:

mistral-large

Mistral Large 2 es una familia de grandes modelos de lenguaje desarrollados por Mistral AI. El modelo de la fundación mistral-large habla con fluidez y comprende la gramática y el contexto cultural del inglés, francés, español, alemán e italiano. El modelo de base también puede entender docenas de otros idiomas. El modelo tiene una gran ventana de contexto, lo que significa que puede añadir documentos de gran tamaño como información contextual en las solicitudes que envíe para casos de uso de generación aumentada por recuperación (RAG). El modelo de base de datos de la Fundación de la Web ( mistral-large ) es eficaz en tareas programáticas, como generar, revisar y comentar código, invocar funciones, y puede generar resultados en formato JSON.

Para más información sobre los primeros pasos, consulta la páginawatsonx.ai en el sitio web ' Mistral AI.

Uso

Adecuado para tareas complejas de razonamiento multilingüe, incluidas la comprensión de textos, la transformación y la generación de código. Debido a la gran ventana contextual del modelo, utilice el parámetro max tokens para especificar un límite de tokens cuando pregunte al modelo.

Nivel de precios API

El precio para inferir el modelo de e Mistral Large o proporcionado no se asigna mediante un multiplicador. Se utilizan los siguientes niveles de precios especiales:

Nivel de entrada: Mistral Large Entrada
Nivel de salida: Mistral Large

Para más información sobre precios, véase el cuadro 3. Para obtener detalles sobre los precios de la implementación de este modelo bajo demanda, consulte la Tabla 5.

Atención : Este modelo de fundación tiene una tarifa de acceso adicional que se aplica por hora de uso.

Disponibilidad

Proporcionado por IBM y desplegado en hardware multiusuario
Despliegue bajo demanda para uso exclusivo

Pruébela

Límites de fichas

Longitud de la ventana contextual (entrada + salida): 131,072

Nota: El número máximo de nuevos tokens, es decir, los tokens generados por el modelo de fundación por solicitud, está limitado a 16 384.

Lenguas naturales admitidas

Inglés, francés, alemán, italiano, español, chino, japonés, coreano, portugués, neerlandés, polaco y docenas de idiomas más.

Lenguajes de programación soportados

El modelo mistral-large se ha entrenado en más de 80 lenguajes de programación, incluidos Python, Java, C, C++, JavaScript, Bash, Swift y Fortran.

Instrucciones de sintonización

El modelo de la fundación mistral-large está preentrenado en diversos conjuntos de datos como texto, bases de código y datos matemáticos de varios dominios.

Arquitectura modelo

Sólo decodificador

Licencia

Para conocer las condiciones de uso, incluida la información sobre las protecciones contractuales relacionadas con la indemnización limitada, consulte Condiciones de uso.

Más información

Lea los siguientes recursos:

mistral-large-instruct-2411

El modelo de base mistral-large-instruct-2411, de Mistral AI , pertenece a la familia de modelos Mistral Large 2. La modelo está especializada en razonamiento, conocimiento y codificación. El modelo amplía las capacidades del modelo de base de datos de la Fundación de Internet ( Mistral-Large-Instruct-2407 ) para incluir un mejor manejo de contextos de mensajes largos, instrucciones de mensajes del sistema y solicitudes de llamada de funciones.

Uso

El modelo de la fundación mistral-large-instruct-2411 es multilingüe, competente en codificación, centrado en los agentes y se adhiere a las indicaciones del sistema para ayudar en las tareas de generación aumentada de recuperación y otros casos de uso en los que es necesario manejar indicaciones con un contexto amplio.

Size

123 mil millones de parámetros

Nivel de precios API

Para más información sobre precios, véase el cuadro 5.

Atención : Este modelo de fundación tiene una tarifa de acceso adicional que se aplica por hora de uso.

Disponibilidad

Despliegue bajo demanda para uso exclusivo.

Pruébela

Solicitudes de ejemplo

Límites de fichas

Longitud de la ventana contextual (entrada + salida): 131,072

Lenguas naturales admitidas

Habla varios idiomas y es especialmente competente en inglés, francés, alemán, español, italiano, portugués, chino, japonés, coreano, árabe e hindi.

Lenguajes de programación soportados

El modelo de base de datos de la Fundación de la Ciencia de Datos ( mistral-large-instruct-2411 ) ha sido entrenado en más de 80 lenguajes de programación, incluyendo: JavaScript ( Python ), Java, C, C++, Ruby ( JavaScript, ), Bash, Swift y Python ( Fortran ).

Instrucciones de sintonización

El modelo de base mistral-large-instruct-2411 amplía el modelo de base Mistral-Large-Instruct-2407 de Mistral AI. El entrenamiento mejoró las capacidades de razonamiento del modelo. La formación también se centró en reducir las alucinaciones ajustando el modelo para que sea más prudente y perspicaz en sus respuestas y para que reconozca cuándo no puede encontrar soluciones o no tiene suficiente información para dar una respuesta fiable.

Licencia

Para conocer las condiciones de uso, incluida la información sobre las protecciones contractuales relacionadas con la indemnización limitada, consulte Condiciones de uso.

Más información

Lea los siguientes recursos:

mistral-nemo-instruct-2407

El modelo de base de la fundación mistral-nemo-instruct-2407 de Mistral AI se construyó en colaboración con NVIDIA. Mistral NeMo obtiene unos resultados excepcionales en razonamiento, conocimiento del mundo y precisión de codificación, especialmente para un modelo de su tamaño.

Uso

El modelo " Mistral NeMo " es multilingüe y se entrena en la llamada a funciones.

Size

12.000 millones de parámetros

Nivel de precios API

Para más información sobre precios, véase el cuadro 5.

Disponibilidad

Despliegue bajo demanda para uso exclusivo.

Límites de fichas

Longitud de la ventana contextual (entrada + salida): 131,072

Lenguas naturales admitidas

Habla varios idiomas y es especialmente competente en inglés, francés, alemán, español, italiano, portugués, chino, japonés, coreano, árabe e hindi.

Lenguajes de programación soportados

El modelo " Mistral NeMo " se ha entrenado en varios lenguajes de programación.

Instrucciones de sintonización

Mistral NeMo tuvo una fase avanzada de ajuste y alineación.

Licencia

licenciaApache 2.0

Más información

Lea los siguientes recursos:

mistral-small-24b-instruct-2501

Mistral Small 3 es un modelo de base rentable, rápido y fiable desarrollado por Mistral AI. El modelo de razonamiento mistral-small-24b-instruct-2501, que se ha perfeccionado mediante instrucciones, funciona bien en tareas que requieren cierta capacidad de razonamiento, como la extracción de datos, la síntesis de un documento o la redacción de descripciones. Creado para admitir aplicaciones de agente, con cumplimiento de las indicaciones del sistema y llamada de funciones con generación de salida JSON.

Para más información sobre los primeros pasos, consulta la páginawatsonx.ai en el sitio web ' Mistral AI.

Uso

Adecuado para agentes de conversación y llamadas de función.

Nivel de precios API

Clase 9

Para más información sobre precios, véase el cuadro 3.

Disponibilidad

Proporcionado por IBM implementado en hardware multiusuario solo en la región de Frankfurt.

Pruébela

Solicitudes de ejemplo

Límites de fichas

Longitud de la ventana de contexto (entrada + salida): 32,768

Nota:

El máximo de nuevos tokens, es decir, los tokens generados por el modelo de fundación por solicitud, está limitado a 16 384.

Lenguas naturales admitidas

Inglés, francés, alemán, italiano, español, chino, japonés, coreano, portugués, neerlandés, polaco y docenas de idiomas más.

Lenguajes de programación soportados

El modelo de Inteligencia Artificial ( mistral-small-24b-instruct-2501 ) ha sido entrenado en más de 80 lenguajes de programación, incluyendo: JavaScript ( Python ), Java, C, C++, Ruby ( JavaScript, ), Bash, Swift y Python ( Fortran ).

Instrucciones de sintonización

El modelo de la fundación mistral-small-24b-instruct-2501 está preentrenado en diversos conjuntos de datos como texto, bases de código y datos matemáticos de varios dominios.

Arquitectura modelo

Sólo decodificador

Licencia

licenciaApache 2.0

Más información

Lea los siguientes recursos:

mixtral-8x7b-base

Mistral AI proporciona el modelo de base mixtral-8x7b-base. El modelo de la fundación mixtral-8x7b-base es una red generativa de mezcla de expertos dispersos que agrupa los parámetros del modelo y, a continuación, para cada token elige un subconjunto de grupos (denominados expertos ) para procesar el token. Como resultado, cada ficha tiene acceso a 47.000 millones de parámetros, pero sólo utiliza 13.000 millones de parámetros activos para la inferencia, lo que reduce los costes y la latencia.

Uso

Adecuado para muchas tareas, como clasificación, resumen, generación, creación y conversión de códigos y traducción de idiomas.

Size

46.46.7.000 millones de parámetros

Nivel de precios API

Para más información sobre precios, véase el cuadro 5.

Disponibilidad

Despliegue bajo demanda para uso exclusivo.

Límites de fichas

Longitud de la ventana de contexto (entrada + salida): 32,768

Nota: El número máximo de nuevos tokens, es decir, los tokens generados por el modelo de fundación por solicitud, está limitado a 16 384.

Lenguas naturales admitidas

Inglés, francés, alemán, italiano, español

Arquitectura modelo

Sólo decodificador

Licencia

licenciaApache 2.0

Más información

Lea los siguientes recursos:

mixtral-8x7b-instruct-v01

Mistral AI proporciona el modelo de base mixtral-8x7b-instruct-v01. El modelo de la fundación mixtral-8x7b-instruct-v01 es una red generativa de mezcla de expertos dispersa preentrenada que agrupa los parámetros del modelo y, a continuación, para cada token, elige un subconjunto de grupos (denominados expertos ) para procesar el token. Como resultado, cada ficha tiene acceso a 47.000 millones de parámetros, pero sólo utiliza 13.000 millones de parámetros activos para la inferencia, lo que reduce los costes y la latencia.

Uso

Adecuado para muchas tareas, como clasificación, resumen, generación, creación y conversión de códigos y traducción de idiomas. Debido a la ventana de contexto inusualmente grande del modelo, utilice el parámetro max tokens para especificar un límite de tokens cuando pregunte al modelo.

Size

46.46.7.000 millones de parámetros

Nivel de precios API

Clase 1. Para más información sobre precios, véase el cuadro 3.

Pruébela

Solicitudes de ejemplo

Límites de fichas

Longitud de la ventana de contexto (entrada + salida): 32,768

Nota: El número máximo de nuevos tokens, es decir, los tokens generados por el modelo de fundación por solicitud, está limitado a 16 384.

Lenguas naturales admitidas

Inglés, francés, alemán, italiano, español

Instrucciones de sintonización

El modelo de base de datos Mixtral está preentrenado con datos de Internet. El modelo de base de la fundación Mixtral 8x7B Instruct está ajustado para seguir instrucciones.

Arquitectura modelo

Sólo decodificador

Licencia

licenciaApache 2.0

Más información

Lea los siguientes recursos:

mt0-xxl-13b

El modelo de mt0-xxl-13b es proporcionado por BigScience en Hugging Face. El modelo está optimizado para soportar tareas de generación y traducción de idiomas con inglés, idiomas distintos del inglés y avisos multilingües.

Utilización: Uso general con indicaciones ' zero- o ' few-shot '. En las tareas de traducción, incluya un punto para indicar el final del texto que desea traducir o el modelo podría continuar la frase en lugar de traducirla.

Size

13.000 millones de parámetros

Nivel de precios API

Para más información sobre precios, véase el cuadro 5.

Disponibilidad

Desplegado bajo demanda para uso exclusivo.

Pruébela

Experimenta con las siguientes muestras:

Lenguas naturales admitidas

Multilingüe

Límites de fichas

Longitud de la ventana contextual (entrada + salida): 4,096

Lenguas naturales admitidas

El modelo se entrena previamente con datos multilingües en 108 idiomas y se perfecciona con datos multilingües en 46 idiomas para realizar tareas multilingües.

Instrucciones de sintonización

BigScience publica detalles sobre su código y sus conjuntos de datos.

Arquitectura modelo

Codificador-decodificador

Licencia

licenciaApache 2.0

Más información

Lea los siguientes recursos:

pixtral-12b

Pixtral 12B es un modelo multimodal desarrollado por Mistral AI. El modelo de la base de datos de imágenes de la Fundación Internacional para la Conservación de los Documentos ( pixtral-12b ) está entrenado para entender tanto imágenes como documentos naturales y es capaz de capturar imágenes con su resolución y relación de aspecto naturales, lo que proporciona flexibilidad en el número de tokens utilizados para procesar una imagen. El modelo de base admite varias imágenes en su ventana de contexto larga. El modelo es eficaz en tareas multimodales de entrada de imágenes y salida de texto y destaca en el seguimiento de instrucciones.

Uso: Comprensión de gráficos y figuras, respuesta a preguntas de documentos, razonamiento multimodal y seguimiento de instrucciones.
Size: 12.000 millones de parámetros
Nivel de precios API: Clase 9. Para más información sobre precios, véase el cuadro 3.

Disponibilidad

Pruébela

Chatear con documentos e imágenes

Límites de fichas

Longitud de la ventana contextual (entrada + salida): 128,000

El máximo de nuevos tokens, es decir, de tokens generados por los modelos de la fundación por solicitud, está limitado a 8.192.

Lenguas naturales admitidas

Inglés

Instrucciones de sintonización

El modelo pixtral-12b se entrena con datos de imagen y texto intercalados y se basa en el modelo Mistral Nemo con un codificador de visión de 400 millones de parámetros entrenado desde cero.

Arquitectura modelo

Sólo decodificador

Licencia

licenciaApache 2.0

Más información

Lea los siguientes recursos:

Los modelos de cimientos obsoletos se resaltan con un icono de advertencia de obsoleto Icono de aviso . Para obtener más información sobre la retirada de productos, incluidos los detalles de la retirada de modelos de la fundación, consulte Ciclo de vida de los modelos de la fundación.

Más información

Tema principal: Modelos de bases compatibles

¿Fue útil el tema?

0/1000

Cómo elegir un modeloCopy link to section

Detalles del modelo de cimentaciónCopy link to section

allam-1-13b-instructCopy link to section

codellama-34b-instruct-hfCopy link to section

DeepSeek-R1 modelos destiladosCopy link to section

elyza-japanese-llama-2-7b-instructCopy link to section

EuroLLM IndiqueCopy link to section

flan-t5-xl-3bCopy link to section

flan-t5-xxl-11bCopy link to section

flan-ul2-20bCopy link to section

jais-13b-chatCopy link to section

Modelos Llama 4 InstructCopy link to section

Llama 3.3 70B InstructCopy link to section

Llama 3.2 InstructCopy link to section

Llama 3.2 Vision InstructCopy link to section

llama-guard-3-11b-visionCopy link to section

Llama 3.1 8bCopy link to section

Llama 3.1 InstructCopy link to section

Llama 3 InstructCopy link to section

Llama 2 ChatCopy link to section

mistral-largeCopy link to section

mistral-large-instruct-2411Copy link to section

mistral-nemo-instruct-2407Copy link to section

mistral-small-24b-instruct-2501Copy link to section

mixtral-8x7b-baseCopy link to section

mixtral-8x7b-instruct-v01Copy link to section

mt0-xxl-13bCopy link to section

pixtral-12bCopy link to section

Más informaciónCopy link to section

Cómo elegir un modelo

Detalles del modelo de cimentación

allam-1-13b-instruct

codellama-34b-instruct-hf

DeepSeek-R1 modelos destilados

elyza-japanese-llama-2-7b-instruct

EuroLLM Indique

flan-t5-xl-3b

flan-t5-xxl-11b

flan-ul2-20b

jais-13b-chat

Modelos Llama 4 Instruct

Llama 3.3 70B Instruct

Llama 3.2 Instruct

Llama 3.2 Vision Instruct

llama-guard-3-11b-vision

Llama 3.1 8b

Llama 3.1 Instruct

Llama 3 Instruct

Llama 2 Chat

mistral-large

mistral-large-instruct-2411

mistral-nemo-instruct-2407

mistral-small-24b-instruct-2501

mixtral-8x7b-base

mixtral-8x7b-instruct-v01

mt0-xxl-13b

pixtral-12b

Más información