0 / 0
Volver a la versión inglesa de la documentación

Modelos de bases de terceros

Última actualización: 25 mar 2025
Modelos de bases de terceros

Puede elegir entre una colección de modelos de bases de terceros en IBM watsonx.ai.

Los siguientes modelos están disponibles en watsonx.ai:

Para obtener más información sobre las distintas formas en que se pueden implantar estos modelos, y para ver un resumen de los precios y la información sobre la duración de la ventana contextual de los modelos, consulte Modelos de cimentación compatibles.

Para obtener más información sobre los modelos de base de maquillaje de IBM, consulte los modelos de base de maquillaje de IBM.

Cómo elegir un modelo

Para revisar los factores que pueden ayudarle a elegir un modelo, como las tareas y los idiomas admitidos, consulte Elegir un modelo y Puntos de referencia del modelo Foundation.

Detalles del modelo de cimentación

Los modelos de bases de datos en watsonx.ai admiten una amplia gama de casos de uso, tanto para lenguajes naturales como para lenguajes de programación. Para ver los tipos de tareas que pueden realizar estos modelos, revise y pruebe las indicaciones de ejemplo.

allam-1-13b-instruct

El modelo de la fundación allam-1-13b-instruct es un modelo bilingüe de gran tamaño para árabe e inglés proporcionado por el Centro Nacional de Inteligencia Artificial y respaldado por la Autoridad Saudí de Datos e Inteligencia Artificial que está perfeccionado para apoyar tareas conversacionales. La serie " ALLaM " es una colección de potentes modelos lingüísticos diseñados para avanzar en la tecnología de la lengua árabe. Estos modelos se inicializan con pesos e Llama-2 es y reciben formación tanto en árabe como en inglés.

Nota:Al inferir este modelo desde el Prompt Lab, desactive los guardarraíles AI.
Uso
Admite preguntas y respuestas, resumen, clasificación, generación, extracción y traducción en árabe.
Size
13.000 millones de parámetros
Nivel de precios API
Clase 2. Para más información sobre precios, véase el cuadro 3.
Disponibilidad
  • Proporcionado por IBM y desplegado en hardware multiusuario en el centro de datos de Fráncfort.
  • Implementación bajo demanda para uso exclusivo, excepto en el centro de datos de Fráncfort.
Pruébela
Experimente con muestras:
Límites de fichas
Longitud de la ventana contextual (entrada + salida): 4,096
Lenguas naturales admitidas
Árabe (árabe moderno estándar) e inglés
Instrucciones de sintonización
allam-1-13b-instruct se basa en el modelo de aprendizaje profundo ( Allam-13b-base ), que es un modelo de base entrenado previamente en un total de 3 billones de tokens en inglés y árabe, incluidos los tokens vistos desde su inicialización. El conjunto de datos árabes contiene 500.000 millones de tokens tras la limpieza y la deduplicación. Los datos adicionales proceden de colecciones de código abierto y de rastreos web. El modelo de la base de datos de allam-1-13b-instruct se ha perfeccionado con un conjunto seleccionado de 4 millones de pares de preguntas y respuestas en árabe y 6 millones en inglés.
Arquitectura modelo
Sólo decodificador
Licencia
Licencia comunitariaLlama 2 y licenciaALLaM
Más información
Lea el siguiente recurso:

codellama-34b-instruct-hf

Un modelo de generación de código programático que se basa en Llama 2 de ' Meta. Code Llama está pensado para generar y discutir código.

Uso
Utilice Code Llama para crear mensajes que generen código basado en entradas de lenguaje natural, expliquen código o completen y depuren código.
Nota:Al inferir este modelo desde el Prompt Lab, desactive los guardarraíles AI.
Size

34.000 millones de parámetros

Nivel de precios API

Clase 2. Para más información sobre precios, véase el cuadro 3.

Disponibilidad

Proporcionado por IBM y desplegado en hardware multiusuario.

Icono de aviso Este modelo está obsoleto. Véase Ciclo de vida del modelo Foundation.

Pruébela

Experimente con muestras:

Límites de fichas

Longitud de la ventana contextual (entrada + salida): 16,384

Nota: El número máximo de nuevos tokens, es decir, los tokens que genera el modelo de fundación por solicitud, está limitado a 8192.

Lenguas naturales admitidas

Inglés

Lenguajes de programación soportados

El modelo de base de datos de la Fundación de la Web ( codellama-34b-instruct-hf ) es compatible con muchos lenguajes de programación, incluidos Python, C++, Java, PHP, Typescript (Javascript), C#, Bash y más.

Instrucciones de sintonización

La versión ajustada de la instrucción se alimentó con la entrada de la instrucción en lenguaje natural y la salida esperada para guiar al modelo a generar respuestas útiles y seguras en lenguaje natural.

Arquitectura modelo

decodificador

Licencia

Licencia

Más información

Lea los siguientes recursos:

DeepSeek-R1 modelos destilados

Las variantes destiladas de los modelos de la serie " DeepSeek-R1 " basadas en los modelos " Llama 3.1" son proporcionadas por " DeepSeek AI". Los modelos de aprendizaje profundo ( DeepSeek-R1 ) son modelos de código abierto con potentes capacidades de razonamiento. Las muestras de datos generadas por el modelo DeepSeek R1 se utilizan para ajustar un modelo base de Llama.

Los modelos deepseek-r1-distill-llama-8b y deepseek-r1-distill-llama-70b son versiones simplificadas del modelo DeepSeek-R1 basadas en los modelos Llama 3.1 8B y Llama 3.3 70B respectivamente.

Uso

De uso general con indicaciones de zero- o few-shot y están diseñados para sobresalir en tareas de seguimiento de instrucciones como resumen, clasificación, razonamiento, tareas de código, así como matemáticas.

Tamaños disponibles
  • 8.000 millones de parámetros
  • 70.000 millones de parámetros
Nivel de precios API

8b: Pequeño

70: Grande

Para más información sobre precios, véase el cuadro 5.

Disponibilidad

Despliegue bajo demanda para uso exclusivo.

Pruébela

Experimente con muestras:

Límites de fichas

8b y 70b: Longitud de la ventana de contexto (entrada + salida): 131 072

Nota: El máximo de nuevos tokens, es decir, los tokens generados por el modelo de fundación por solicitud, está limitado a 32 768.

Lenguas naturales admitidas

Inglés

Instrucciones de sintonización

Los modelos de aprendizaje por refuerzo ( DeepSeek-R1 ) se entrenan utilizando el aprendizaje por refuerzo (RL) a gran escala sin ajuste fino supervisado (SFT) como paso preliminar. Las etapas posteriores de RL y SFT tienen como objetivo mejorar los patrones de razonamiento y alinear el modelo con las preferencias humanas. DeepSeek-R1-Distill los modelos se ajustan en función de modelos de código abierto, utilizando muestras generadas por DeepSeek-R1.

Arquitectura modelo

decodificador

Licencia

8b: Licencia

70b: Licencia

Más información

Lea los siguientes recursos:

elyza-japanese-llama-2-7b-instruct

El modelo de elyza-japanese-llama-2-7b-instruct es proporcionado por ELYZA, Inc en Hugging Face. El modelo de la fundación elyza-japanese-llama-2-7b-instruct es una versión del modelo Llama 2 de Meta que está entrenado para comprender y generar texto japonés. El modelo se pone a punto para resolver diversas tareas que siguen instrucciones del usuario y para participar en un diálogo.

Uso
Uso general con indicaciones " zero- o " few-shot ". Funciona bien para la clasificación y extracción en japonés y para la traducción entre inglés y japonés. Funciona mejor cuando se le pregunta en japonés.
Size
7.000 millones de parámetros
Nivel de precios API
Clase 2. Para más información sobre precios, véase el cuadro 3.
Disponibilidad
Proporcionado por IBM y desplegado en hardware multiusuario en el centro de datos de Tokio.
Pruébela
Experimente con muestras:
Límites de fichas
Longitud de la ventana contextual (entrada + salida): 4,096
Lenguas naturales admitidas
Japonés, inglés
Instrucciones de sintonización
Para la formación en japonés se utilizaron textos en japonés procedentes de numerosas fuentes, entre ellas Wikipedia y el Open Super-large Crawled ALMAnaCH coRpus (un corpus multilingüe que se genera clasificando y filtrando el lenguaje en el corpus Common Crawl). El modelo se puso a punto con un conjunto de datos creado por ELYZA. El conjunto de datos ELYZA Tasks 100 contiene 100 tareas diversas y complejas creadas manualmente y evaluadas por humanos. El conjunto de datos ELYZA Tasks 100 está disponible públicamente en HuggingFace.
Arquitectura modelo
decodificador
Licencia
Licencia
Más información
Lea los siguientes recursos:

EuroLLM Indique

La serie de modelos EuroLLM ha sido desarrollada por el proyecto Unified Transcription and Translation for Extended Reality (UTTER) y la Unión Europea. Los modelos EuroLLM Instruct son modelos de código abierto especializados en comprender y generar texto en las 24 lenguas oficiales de la Unión Europea (UE), así como en 11 lenguas internacionales de importancia comercial y estratégica.

Uso

Adecuado para tareas lingüísticas multilingües como el seguimiento de instrucciones generales y la traducción de idiomas.

Tamaños
  • 1.7 mil millones de parámetros
  • 9.000 millones de parámetros
Nivel de precios API

1.7b: Pequeño

9b: Pequeño

Para más información sobre precios, véase el cuadro 5.

Disponibilidad

Despliegue bajo demanda para uso exclusivo.

Límites de fichas

1.7b y 9b: Longitud de la ventana de contexto (entrada + salida): 4,096

Lenguas naturales admitidas

Alemán, búlgaro, checo, croata, danés, eslovaco, esloveno, español, estonio, finés, francés, griego, húngaro, inglés, irlandés, italiano, letón, lituano, maltés, neerlandés, polaco, portugués, rumano, sueco, árabe, catalán, chino, gallego, hindi, japonés, coreano, noruego, ruso, turco y ucraniano.

Instrucciones de sintonización

Los modelos se han entrenado con 4 billones de tokens de los lenguajes naturales admitidos a partir de datos web, datos paralelos, Wikipedia, Arxiv, varios libros y conjuntos de datos Apollo.

Arquitectura modelo

decodificador

Licencia

licenciaApache 2.0

Más información

Lea los siguientes recursos:

flan-t5-xl-3b

El modelo de flan-t5-xl-3b es proporcionado por Google en Hugging Face. El modelo se basa en el modelo de transformador de transferencia de texto a texto preentrenado ( T5 ) y utiliza métodos de ajuste de instrucciones para lograr un mejor rendimiento de zero- y few-shot . El modelo también se afina con datos de la cadena de pensamiento para mejorar su capacidad de realizar tareas de razonamiento.

Nota:Este modelo de base se puede ajustar utilizando el Tuning Studio.
Uso
Uso general con indicaciones " zero- o " few-shot ".
Size
3.000 millones de parámetros
Nivel de precios API
Clase 1. Para más información sobre precios, véanse los cuadros 3 y 5.
Disponibilidad
  • Proporcionado por IBM y desplegado en hardware multiusuario.
  • Despliegue bajo demanda para uso exclusivo.
Pruébela
Solicitudes de ejemplo
Límites de fichas
Longitud de la ventana contextual (entrada + salida): 4,096
Lenguas naturales admitidas
Multilingüe
Instrucciones de sintonización
El modelo se puso a punto en tareas que implican el razonamiento en varios pasos a partir de datos de cadenas de pensamiento, además de las tareas tradicionales de procesamiento del lenguaje natural. Se publican detalles sobre los conjuntos de datos de entrenamiento utilizados.
Arquitectura modelo
Codificador-decodificador
Licencia
licenciaApache 2.0
Más información
Lea los siguientes recursos:

flan-t5-xxl-11b

El modelo de flan-t5-xxl-11b es proporcionado por Google en Hugging Face. Este modelo se basa en el modelo de transformador de transferencia de texto a textoT5) preentrenado y utiliza métodos de ajuste de instrucciones para lograr un mejor rendimiento de " zero- y " few-shot ". El modelo también se afina con datos de la cadena de pensamiento para mejorar su capacidad de realizar tareas de razonamiento.

Uso
Uso general con indicaciones " zero- o " few-shot ".
Size
11.000 millones de parámetros
Nivel de precios API
Clase 2. Para más información sobre precios, véanse los cuadros 3 y 5.
Disponibilidad
  • Proporcionado por IBM y desplegado en hardware multiusuario.
  • Despliegue bajo demanda para uso exclusivo.
Pruébela
Experimente con muestras:
Límites de fichas
Longitud de la ventana contextual (entrada + salida): 4,096
Lenguas naturales admitidas
Inglés, alemán, francés
Instrucciones de sintonización
El modelo se puso a punto en tareas que implican el razonamiento en varios pasos a partir de datos de cadenas de pensamiento, además de las tareas tradicionales de procesamiento del lenguaje natural. Se publican detalles sobre los conjuntos de datos de entrenamiento utilizados.
Arquitectura modelo
Codificador-decodificador
Licencia
licenciaApache 2.0
Más información
Lea los siguientes recursos:

flan-ul2-20b

El modelo de flan-ul2-20b es proporcionado por Google en Hugging Face. Este modelo se entrenó utilizando los Paradigmas Unificadores de Aprendizaje de LenguasUL2). El modelo está optimizado para la generación de lenguaje, la comprensión del lenguaje, la clasificación de textos, la respuesta a preguntas, el razonamiento de sentido común, el razonamiento de textos largos, la fundamentación de conocimientos estructurados y la recuperación de información, el aprendizaje en contexto, el estímulo " zero-shot y el estímulo único.

Uso
Uso general con indicaciones " zero- o " few-shot ".
Size
20.000 millones de parámetros
Nivel de precios API
Clase 3. Para más información sobre precios, véanse los cuadros 3 y 5.
Disponibilidad
  • Proporcionado por IBM y desplegado en hardware multiusuario.
  • Despliegue bajo demanda para uso exclusivo.
Pruébela
Experimente con muestras:
Límites de fichas
Longitud de la ventana contextual (entrada + salida): 4,096
Lenguas naturales admitidas
Inglés
Instrucciones de sintonización
El modelo flan-ul2-20b se entrena previamente en la versión colosal y depurada del corpus de rastreo web de Common Crawl. El modelo se ajusta con múltiples objetivos de preentrenamiento para optimizarlo para diversas tareas de procesamiento del lenguaje natural. Se publican detalles sobre los conjuntos de datos de entrenamiento utilizados.
Arquitectura modelo
Codificador-decodificador
Licencia
licenciaApache 2.0
Más información
Lea los siguientes recursos:

jais-13b-chat

El modelo de la fundación jais-13b-chat es un modelo bilingüe de gran tamaño para árabe e inglés que está perfeccionado para apoyar tareas conversacionales.

Uso
Admite preguntas y respuestas, resumen, clasificación, generación, extracción y traducción en árabe.
Size
13.000 millones de parámetros
Nivel de precios API
Clase 2. Para más información sobre precios, véase el cuadro 3.
Disponibilidad
Proporcionado por IBM y desplegado en hardware multiusuario en el centro de datos de Fráncfort.
Pruébela
Ejemplo de mensaje: Chat en árabe
Límites de fichas
Longitud de la ventana contextual (entrada + salida): 2,048
Lenguas naturales admitidas
Árabe (árabe moderno estándar) e inglés
Instrucciones de sintonización
Jais-13b-chat se basa en el modelo de aprendizaje profundo ( Jais-13b ), que es un modelo de base entrenado con 116 000 millones de tokens en árabe y 279 000 millones de tokens en inglés. Jais-13b-chat está perfeccionado con un conjunto seleccionado de 4 millones de pares de preguntas y respuestas en árabe y 6 millones en inglés.
Arquitectura modelo
decodificador
Licencia
licenciaApache 2.0
Más información
Lea los siguientes recursos:

Llama 3.3 70B Instruct

El gran modelo lingüístico multilingüe (LLM) Llama 3.3 de ' Meta ' es un modelo generativo (texto de entrada/texto de salida) preentrenado y ajustado a las instrucciones con 70.000 millones de parámetros.

El llama-3-3-70b-instruct es una revisión del popular Llama 3.1 70B Instruct foundation model. El modelo de la fundación Llama 3.3 es mejor en codificación, razonamiento paso a paso y llamada de herramientas. A pesar de su menor tamaño, el rendimiento del modelo Llama 3.3 es similar al del modelo Llama 3.1 405b, lo que lo convierte en una excelente opción para los desarrolladores.

Uso

Genera diálogos multilingües como un chatbot. Utiliza un formato de consulta específico para cada modelo.

Size

70.000 millones de parámetros

Nivel de precios API

Clase 13

Para más información sobre precios, véase el cuadro 3.

Disponibilidad
  • IBM proporciona una versión cuantificada del modelo desplegada en hardware multiusuario.

  • Hay dos versiones del modelo disponibles para desplegar bajo demanda para uso exclusivo:

    • llama-3-3-70b-instruct-hf: Versión original publicada en Hugging Face por Meta.
    • llama-3-3-70b-instruct: Una versión cuantizada del modelo que puede desplegarse con 2 GPUs en lugar de 4.
Pruébela

Experimente con muestras:

Límites de fichas

Longitud de la ventana contextual (entrada + salida): 131,072

Lenguas naturales admitidas

Inglés, alemán, francés, italiano, portugués, hindi, español y tailandés

Instrucciones de sintonización

Llama 3.3 se preentrenó con 15 billones de tokens de datos procedentes de fuentes públicas. Los datos de ajuste fino incluyen conjuntos de datos de instrucciones disponibles públicamente, así como más de 25 millones de ejemplos generados sintéticamente.

Arquitectura modelo

Sólo decodificador

Licencia
Más información

Lea los siguientes recursos:

Llama 3.2 Instruct

La colección de modelos de cimientos Llama 3.2 de ' Meta ' la proporciona ' Meta. Los modelos llama-3-2-1b-instruct y llama-3-2-3b-instruct son los modelos Llama 3.2 más pequeños que caben en un dispositivo móvil. Se trata de modelos ligeros, sólo de texto, que pueden utilizarse para crear agentes altamente personalizados en los dispositivos.

Por ejemplo, puedes pedir a los modelos que resuman los diez últimos mensajes que has recibido, o que resuman tu agenda para el mes que viene.

Uso

Genera diálogos como un chatbot. Utilice un formato de consulta específico para cada modelo. Su reducido tamaño y sus modestos requisitos de memoria y recursos informáticos permiten ejecutar localmente los modelos Llama 3.2 Instruct en la mayoría de los equipos, incluidos los móviles y otros dispositivos de última generación.

Tamaños
  • 1.000 millones de parámetros
  • 3.000 millones de parámetros
Nivel de precios API
  • 1b: Clase C1
  • 3b: Clase 8

Para más información sobre precios, véase el cuadro 3.

Para más información sobre precios, consulte Detalles de facturación de los activos de IA generativa.

Disponibilidad
  • Proporcionado por IBM y desplegado en hardware multiusuario.
Pruébela
Límites de fichas

Longitud de la ventana contextual (entrada + salida)

  • 1b: 131,072
  • 3b: 131,072

El máximo de nuevos tokens, es decir, de tokens generados por los modelos de la fundación por solicitud, está limitado a 8.192.

Lenguas naturales admitidas

Inglés, alemán, francés, italiano, portugués, hindi, español y tailandés

Instrucciones de sintonización

Preentrenado con hasta 9 billones de tokens de datos de fuentes públicas. Los logits de los modelos Llama 3.1 8B y 70B se incorporaron a la fase de preentrenamiento del desarrollo del modelo, en la que los resultados (logits) de estos modelos más grandes se utilizaron como objetivos a nivel de token. En el postentrenamiento, se alinea el modelo preentrenado utilizando el ajuste fino supervisado (SFT), el muestreo de rechazo (RS) y la optimización de preferencia directa (DPO).

Arquitectura modelo

Sólo decodificador

Licencia
Más información

Lea los siguientes recursos:

Llama 3.2 Vision Instruct

La colección de modelos de cimientos Llama 3.2 de ' Meta ' la proporciona ' Meta. Los modelos llama-3-2-11b-vision-instruct y llama-3-2-90b-vision-instruct se han creado para casos de uso de entrada de imágenes y salida de texto, como la comprensión a nivel de documento, la interpretación de tablas y gráficos y el subtitulado de imágenes.

Uso

Genera diálogos como un chatbot y puede realizar tareas de visión por ordenador, como clasificación, detección e identificación de objetos, transcripción de imagen a texto (incluida la escritura a mano), preguntas y respuestas contextuales, extracción y procesamiento de datos, comparación de imágenes y asistencia visual personal. Utiliza un formato de consulta específico para cada modelo.

Tamaños
  • 11.000 millones de parámetros
  • 90.000 millones de parámetros
Nivel de precios API
  • 11b: Clase 9
  • 90b: Clase 10

Para más información sobre precios, véase el cuadro 3.

Disponibilidad

Proporcionado por IBM y desplegado en hardware multiusuario.

Pruébela
Límites de fichas

Longitud de la ventana contextual (entrada + salida)

  • 11b: 131,072
  • 90b: 131,072

El máximo de nuevos tokens, es decir, de tokens generados por los modelos de la fundación por solicitud, está limitado a 8.192. Los tokens que se cuentan para una imagen que envíe al modelo no se incluyen en la longitud de la ventana contextual.

Lenguas naturales admitidas

Inglés, alemán, francés, italiano, portugués, hindi, español y tailandés con entradas de sólo texto. Inglés sólo cuando se incluye una imagen con la entrada.

Instrucciones de sintonización

los modelos Llama 3.2 Vision " utilizan ponderaciones de adaptadores de razonamiento de imágenes que se entrenan por separado de las ponderaciones del modelo lingüístico principal. Esta separación preserva el conocimiento general del modelo y lo hace más eficiente tanto en tiempo de preentrenamiento como de ejecución. Los modelos de Llama 3.2 Vision se entrenaron previamente con 6000 millones de pares de imágenes y texto, lo que requirió muchos menos recursos informáticos que los necesarios para entrenar previamente el modelo de base de Llama 3.1 70B. Llama 3.2 Los modelos también funcionan de manera eficiente porque pueden aprovechar más recursos informáticos para el razonamiento de imágenes solo cuando la entrada lo requiere.

Arquitectura modelo

Sólo decodificador

Licencia
Más información

Lea los siguientes recursos:

llama-guard-3-11b-vision

La colección de modelos de cimientos Llama 3.2 de ' Meta ' la proporciona ' Meta. La llama-guard-3-11b-vision es una evolución multimodal del modelo Llama-Guard-3 de sólo texto. El modelo puede utilizarse para clasificar el contenido de imágenes y texto de las entradas de los usuarios (clasificación de avisos) como seguro o inseguro.

Uso

Utiliza el modelo para comprobar la seguridad de la imagen y el texto en un aviso de imagen a texto.

Size
  • 11.000 millones de parámetros
Nivel de precios API

Clase 9. Para más información sobre precios, véase el cuadro 3.

Disponibilidad

Proporcionado por IBM y desplegado en hardware multiusuario.

Pruébela
Límites de fichas

Longitud de la ventana contextual (entrada + salida): 131,072

El máximo de nuevos tokens, es decir, de tokens generados por los modelos de la fundación por solicitud, está limitado a 8.192. Los tokens que se cuentan para una imagen que envíe al modelo no se incluyen en la longitud de la ventana contextual.

Lenguas naturales admitidas

Inglés, alemán, francés, italiano, portugués, hindi, español y tailandés con entradas de sólo texto. Inglés sólo cuando se incluye una imagen con la entrada.

Instrucciones de sintonización

Modelo preentrenado y ajustado para la clasificación de la seguridad de los contenidos. Para más información sobre los tipos de contenidos clasificados como no seguros, consulte la ficha modelo.

Arquitectura modelo

Sólo decodificador

Licencia
Más información

Lea los siguientes recursos:

Llama 3.1 8b

La colección de modelos de cimientos Llama 3.1 de ' Meta ' la proporciona ' Meta. El modelo de base Llama 3.1 es un modelo multilingüe que admite el uso de herramientas y tiene capacidades de razonamiento más sólidas en general.

Uso
Utilícelo para resumir textos largos y con agentes conversacionales multilingües o asistentes de codificación.
Size
8.000 millones de parámetros
Nivel de precios API
Para más información sobre precios, véase el cuadro 5.
Disponibilidad
Despliegue bajo demanda para uso exclusivo.
Límites de fichas
Longitud de la ventana contextual (entrada + salida): 131,072
Lenguas naturales admitidas
Inglés, alemán, francés, italiano, portugués, hindi, español y tailandés
Arquitectura modelo
Sólo decodificador
Licencia
Más información
Lea los siguientes recursos:

Llama 3.1 Instruct

La colección de modelos de cimientos Llama 3.1 de ' Meta ' la proporciona ' Meta. Los modelos básicos de Llama 3.1 son modelos generativos de sólo texto preentrenados y ajustados a las instrucciones, optimizados para casos de uso de diálogo multilingüe. Los modelos utilizan el ajuste fino supervisado y el aprendizaje por refuerzo con información humana para ajustarse a las preferencias humanas de utilidad y seguridad.

El modelo llama-3-405b-instruct es el modelo de base de código abierto más grande de Meta hasta la fecha. Este modelo de base también puede utilizarse como generador de datos sintéticos, juez de clasificación de datos posteriores a la formación o modelo de profesor/supervisor que puede mejorar las capacidades especializadas en modelos derivados más fáciles de inferir.

Uso

Genera diálogos como un chatbot. Utiliza un formato de consulta específico para cada modelo.

Tamaños
  • 8.000 millones de parámetros
  • 70.000 millones de parámetros
  • 405.000 millones de parámetros
Nivel de precios API
  • 8b: Clase 1
  • 70b: Clase 2
  • 405b: Clase 3 (entrada), Clase 7 (salida)

Para más información sobre precios, véase el cuadro 3.

Para conocer los precios de los modelos 8b y 70b bajo demanda, consulte la Tabla 5.

Disponibilidad
  • 405b: Proporcionado por IBM desplegado en hardware multiusuario.
  • 8b y 70b únicamente: Despliegue bajo demanda para uso dedicado.

Icono de aviso Los despliegues IBM de los modelos de cimientos 8b y 70b están obsoletos. Para más detalles, consulte el ciclo de vida del modelo Foundation.

Pruébela
Límites de fichas

Longitud de la ventana contextual (entrada + salida)

  • 8b y 70b: 131.072

  • 405b: 16,384

    • Aunque el modelo admite una longitud de ventana de contexto de 131.072, la ventana se limita a 16.384 para reducir el tiempo que tarda el modelo en generar una respuesta.
  • El máximo de nuevos tokens, es decir, de tokens generados por los modelos de la fundación por solicitud, está limitado a 4.096.

Lenguas naturales admitidas

Inglés, alemán, francés, italiano, portugués, hindi, español y tailandés

Instrucciones de sintonización

Llama 3.1 se preentrenó con 15 billones de tokens de datos procedentes de fuentes públicas. Los datos de ajuste fino incluyen conjuntos de datos de instrucciones disponibles públicamente, así como más de 25 millones de ejemplos generados sintéticamente.

Arquitectura modelo

Sólo decodificador

Licencia
Más información

Lea los siguientes recursos:

Llama 3 Instruct

La familia de modelos de base Meta Llama 3 son modelos de lenguaje grandes, abiertos y accesibles que se construyen con Meta Llama 3 y que proporciona Meta en Hugging Face. Los modelos básicos de Llama 3 3 son modelos lingüísticos ajustados a las instrucciones que pueden admitir diversos casos de uso.

Uso

Genera diálogos como un chatbot.

Tamaños
  • 8.000 millones de parámetros
  • 70.000 millones de parámetros
Nivel de precios API
  • 8b: Clase 1
  • 70b: Clase 2

Para más información sobre precios, véanse los cuadros 3 y 5.

Disponibilidad
  • Proporcionado por IBM implementado en hardware multiusuario ( 70b solo en la región de Sídney).
  • Despliegue bajo demanda para uso exclusivo.
Pruébela

Ejemplo de mensaje: Conversa con Llama 3

Límites de fichas

Longitud de la ventana contextual (entrada + salida)

  • 8b: 8,192
  • 70b: 8,192

Nota: El máximo de nuevos tokens, es decir, los tokens generados por los modelos de la fundación por solicitud, está limitado a 4.096.

Lenguas naturales admitidas

Inglés

Instrucciones de sintonización

Llama 3 incluye mejoras en los procedimientos posteriores a la formación que reducen las tasas de falsos rechazos, mejoran la alineación y aumentan la diversidad en el resultado del modelo de la fundación. El resultado es una mayor capacidad de razonamiento, generación de código y seguimiento de instrucciones. Llama 3 tiene más fichas de formación ( 15T ) que le permiten comprender mejor el idioma.

Arquitectura modelo

Sólo decodificador

Licencia

Licencia comunitaria de META LLAMA 3

Más información

Lea los siguientes recursos:

Llama 2 Chat

Los modelos de Llama 2 Chat son proporcionados por Meta en Hugging Face. Los modelos afinados son útiles para la generación de chats. Los modelos se preentrenan con datos en línea disponibles públicamente y se perfeccionan mediante aprendizaje por refuerzo a partir de comentarios humanos.

Puede elegir entre utilizar la versión del modelo con 13.000 millones de parámetros o con 70.000 millones.

Uso

Genera diálogos como un chatbot. Utiliza un formato de consulta específico para cada modelo.

Size
  • 13.000 millones de parámetros
  • 70.000 millones de parámetros
Nivel de precios API

Clase 1. Para más información sobre precios, véanse los cuadros 3 y 5.

Disponibilidad
  • 13b
    • Proporcionado por IBM y desplegado en hardware multiusuario
    • Despliegue bajo demanda para uso exclusivo
  • 70b
    • Despliegue bajo demanda para uso exclusivo

Icono de aviso El despliegue de este modelo de base proporcionado por IBM ha quedado obsoleto. Véase Ciclo de vida del modelo Foundation.

Pruébela

Experimente con muestras:

Límites de fichas

Longitud de la ventana contextual (entrada + salida)

  • 13b: 4,096
  • 70b: 4,096
Lenguas naturales admitidas

Inglés

Instrucciones de sintonización

Llama 2 se preentrenó con 2 billones de tokens de datos procedentes de fuentes públicas. Los datos de ajuste incluyen conjuntos de datos de instrucciones disponibles públicamente y más de un millón de ejemplos nuevos anotados por humanos.

Arquitectura modelo

Sólo decodificador

Licencia

Licencia

Más información

Lea los siguientes recursos:

mistral-large

Mistral Large 2 es una familia de grandes modelos de lenguaje desarrollados por Mistral AI. El modelo de la fundación mistral-large habla con fluidez y comprende la gramática y el contexto cultural del inglés, francés, español, alemán e italiano. El modelo de base también puede entender docenas de otros idiomas. El modelo tiene una gran ventana de contexto, lo que significa que puede añadir documentos de gran tamaño como información contextual en las solicitudes que envíe para casos de uso de generación aumentada por recuperación (RAG). El modelo de base de datos de la Fundación de la Web ( mistral-large ) es eficaz en tareas programáticas, como generar, revisar y comentar código, invocar funciones, y puede generar resultados en formato JSON.

Para más información sobre los primeros pasos, consulta la páginawatsonx.ai en el sitio web ' Mistral AI.

Uso

Adecuado para tareas complejas de razonamiento multilingüe, incluidas la comprensión de textos, la transformación y la generación de código. Debido a la gran ventana contextual del modelo, utilice el parámetro max tokens para especificar un límite de tokens cuando pregunte al modelo.

Nivel de precios API

El precio para inferir el modelo de e Mistral Large o proporcionado no se asigna mediante un multiplicador. Se utilizan los siguientes niveles de precios especiales:

  • Nivel de entrada: Mistral Large Entrada
  • Nivel de salida: Mistral Large

Para más información sobre precios, véase el cuadro 3. Para obtener detalles sobre los precios de la implementación de este modelo bajo demanda, consulte la Tabla 5.

Atención : Este modelo de fundación tiene una tarifa de acceso adicional que se aplica por hora de uso.
Disponibilidad
  • Proporcionado por IBM y desplegado en hardware multiusuario
  • Despliegue bajo demanda para uso exclusivo
Pruébela
Límites de fichas

Longitud de la ventana contextual (entrada + salida): 131,072

Nota: El número máximo de nuevos tokens, es decir, los tokens generados por el modelo de fundación por solicitud, está limitado a 16 384.

Lenguas naturales admitidas

Inglés, francés, alemán, italiano, español, chino, japonés, coreano, portugués, neerlandés, polaco y docenas de idiomas más.

Lenguajes de programación soportados

El modelo mistral-large se ha entrenado en más de 80 lenguajes de programación, incluidos Python, Java, C, C++, JavaScript, Bash, Swift y Fortran.

Instrucciones de sintonización

El modelo de la fundación mistral-large está preentrenado en diversos conjuntos de datos como texto, bases de código y datos matemáticos de varios dominios.

Arquitectura modelo

Sólo decodificador

Licencia

Para conocer las condiciones de uso, incluida la información sobre las protecciones contractuales relacionadas con la indemnización limitada, consulte Condiciones de uso.

Más información
Lea los siguientes recursos:

mistral-large-instruct-2411

El modelo de base mistral-large-instruct-2411, de Mistral AI , pertenece a la familia de modelos Mistral Large 2. La modelo está especializada en razonamiento, conocimiento y codificación. El modelo amplía las capacidades del modelo de base de datos de la Fundación de Internet ( Mistral-Large-Instruct-2407 ) para incluir un mejor manejo de contextos de mensajes largos, instrucciones de mensajes del sistema y solicitudes de llamada de funciones.

Uso

El modelo de la fundación mistral-large-instruct-2411 es multilingüe, competente en codificación, centrado en los agentes y se adhiere a las indicaciones del sistema para ayudar en las tareas de generación aumentada de recuperación y otros casos de uso en los que es necesario manejar indicaciones con un contexto amplio.

Size

123 mil millones de parámetros

Nivel de precios API

Para más información sobre precios, véase el cuadro 5.

Atención : Este modelo de fundación tiene una tarifa de acceso adicional que se aplica por hora de uso.
Disponibilidad

Despliegue bajo demanda para uso exclusivo.

Pruébela
Límites de fichas

Longitud de la ventana contextual (entrada + salida): 131,072

Lenguas naturales admitidas

Habla varios idiomas y es especialmente competente en inglés, francés, alemán, español, italiano, portugués, chino, japonés, coreano, árabe e hindi.

Lenguajes de programación soportados

El modelo de base de datos de la Fundación de la Ciencia de Datos ( mistral-large-instruct-2411 ) ha sido entrenado en más de 80 lenguajes de programación, incluyendo: JavaScript ( Python ), Java, C, C++, Ruby ( JavaScript, ), Bash, Swift y Python ( Fortran ).

Instrucciones de sintonización

El modelo de base mistral-large-instruct-2411 amplía el modelo de base Mistral-Large-Instruct-2407 de Mistral AI. El entrenamiento mejoró las capacidades de razonamiento del modelo. La formación también se centró en reducir las alucinaciones ajustando el modelo para que sea más prudente y perspicaz en sus respuestas y para que reconozca cuándo no puede encontrar soluciones o no tiene suficiente información para dar una respuesta fiable.

Licencia

Para conocer las condiciones de uso, incluida la información sobre las protecciones contractuales relacionadas con la indemnización limitada, consulte Condiciones de uso.

Más información
Lea los siguientes recursos:

mistral-nemo-instruct-2407

El modelo de base de la fundación mistral-nemo-instruct-2407 de Mistral AI se construyó en colaboración con NVIDIA. Mistral NeMo obtiene unos resultados excepcionales en razonamiento, conocimiento del mundo y precisión de codificación, especialmente para un modelo de su tamaño.

Uso
El modelo " Mistral NeMo " es multilingüe y se entrena en la llamada a funciones.
Size
12.000 millones de parámetros
Nivel de precios API
Para más información sobre precios, véase el cuadro 5.
Disponibilidad
Despliegue bajo demanda para uso exclusivo.
Límites de fichas
Longitud de la ventana contextual (entrada + salida): 131,072
Lenguas naturales admitidas
Habla varios idiomas y es especialmente competente en inglés, francés, alemán, español, italiano, portugués, chino, japonés, coreano, árabe e hindi.
Lenguajes de programación soportados
El modelo " Mistral NeMo " se ha entrenado en varios lenguajes de programación.
Instrucciones de sintonización
Mistral NeMo tuvo una fase avanzada de ajuste y alineación.
Licencia
licenciaApache 2.0
Más información
Lea los siguientes recursos:

mistral-small-24b-instruct-2501

Mistral Small 3 es un modelo de base rentable, rápido y fiable desarrollado por Mistral AI. El modelo de razonamiento mistral-small-24b-instruct-2501, que se ha perfeccionado mediante instrucciones, funciona bien en tareas que requieren cierta capacidad de razonamiento, como la extracción de datos, la síntesis de un documento o la redacción de descripciones. Creado para admitir aplicaciones de agente, con cumplimiento de las indicaciones del sistema y llamada de funciones con generación de salida JSON.

Para más información sobre los primeros pasos, consulta la páginawatsonx.ai en el sitio web ' Mistral AI.

Uso

Adecuado para agentes de conversación y llamadas de función.

Nivel de precios API

Clase 9

Para más información sobre precios, véase el cuadro 3.

Disponibilidad

Proporcionado por IBM implementado en hardware multiusuario solo en la región de Frankfurt.

Pruébela

Solicitudes de ejemplo

Límites de fichas

Longitud de la ventana de contexto (entrada + salida): 32,768

Nota:

  • El máximo de nuevos tokens, es decir, los tokens generados por el modelo de fundación por solicitud, está limitado a 16 384.
Lenguas naturales admitidas

Inglés, francés, alemán, italiano, español, chino, japonés, coreano, portugués, neerlandés, polaco y docenas de idiomas más.

Lenguajes de programación soportados

El modelo de Inteligencia Artificial ( mistral-small-24b-instruct-2501 ) ha sido entrenado en más de 80 lenguajes de programación, incluyendo: JavaScript ( Python ), Java, C, C++, Ruby ( JavaScript, ), Bash, Swift y Python ( Fortran ).

Instrucciones de sintonización

El modelo de la fundación mistral-small-24b-instruct-2501 está preentrenado en diversos conjuntos de datos como texto, bases de código y datos matemáticos de varios dominios.

Arquitectura modelo

Sólo decodificador

Licencia

licenciaApache 2.0

Más información

Lea los siguientes recursos:

mixtral-8x7b-base

Mistral AI proporciona el modelo de base mixtral-8x7b-base. El modelo de la fundación mixtral-8x7b-base es una red generativa de mezcla de expertos dispersos que agrupa los parámetros del modelo y, a continuación, para cada token elige un subconjunto de grupos (denominados expertos ) para procesar el token. Como resultado, cada ficha tiene acceso a 47.000 millones de parámetros, pero sólo utiliza 13.000 millones de parámetros activos para la inferencia, lo que reduce los costes y la latencia.

Uso

Adecuado para muchas tareas, como clasificación, resumen, generación, creación y conversión de códigos y traducción de idiomas.

Size

46.46.7.000 millones de parámetros

Nivel de precios API

Para más información sobre precios, véase el cuadro 5.

Disponibilidad

Despliegue bajo demanda para uso exclusivo.

Límites de fichas

Longitud de la ventana de contexto (entrada + salida): 32,768

Nota: El número máximo de nuevos tokens, es decir, los tokens generados por el modelo de fundación por solicitud, está limitado a 16 384.

Lenguas naturales admitidas

Inglés, francés, alemán, italiano, español

Arquitectura modelo

Sólo decodificador

Licencia

licenciaApache 2.0

Más información

Lea los siguientes recursos:

mixtral-8x7b-instruct-v01

Mistral AI proporciona el modelo de base mixtral-8x7b-instruct-v01. El modelo de la fundación mixtral-8x7b-instruct-v01 es una red generativa de mezcla de expertos dispersa preentrenada que agrupa los parámetros del modelo y, a continuación, para cada token, elige un subconjunto de grupos (denominados expertos ) para procesar el token. Como resultado, cada ficha tiene acceso a 47.000 millones de parámetros, pero sólo utiliza 13.000 millones de parámetros activos para la inferencia, lo que reduce los costes y la latencia.

Uso

Adecuado para muchas tareas, como clasificación, resumen, generación, creación y conversión de códigos y traducción de idiomas. Debido a la ventana de contexto inusualmente grande del modelo, utilice el parámetro max tokens para especificar un límite de tokens cuando pregunte al modelo.

Size

46.46.7.000 millones de parámetros

Nivel de precios API

Clase 1. Para más información sobre precios, véase el cuadro 3.

Pruébela

Solicitudes de ejemplo

Límites de fichas

Longitud de la ventana de contexto (entrada + salida): 32,768

Nota: El número máximo de nuevos tokens, es decir, los tokens generados por el modelo de fundación por solicitud, está limitado a 16 384.

Lenguas naturales admitidas

Inglés, francés, alemán, italiano, español

Instrucciones de sintonización

El modelo de base de datos Mixtral está preentrenado con datos de Internet. El modelo de base de la fundación Mixtral 8x7B Instruct está ajustado para seguir instrucciones.

Arquitectura modelo

Sólo decodificador

Licencia

licenciaApache 2.0

Más información

Lea los siguientes recursos:

mt0-xxl-13b

El modelo de mt0-xxl-13b es proporcionado por BigScience en Hugging Face. El modelo está optimizado para soportar tareas de generación y traducción de idiomas con inglés, idiomas distintos del inglés y avisos multilingües.

Utilización: Uso general con indicaciones ' zero- o ' few-shot '. En las tareas de traducción, incluya un punto para indicar el final del texto que desea traducir o el modelo podría continuar la frase en lugar de traducirla.

Size
13.000 millones de parámetros
Nivel de precios API
Clase 2. Para más información sobre precios, véase el cuadro 5.
Disponibilidad
  • Desplegado bajo demanda para uso exclusivo.
Pruébela
Experimenta con las siguientes muestras:
Lenguas naturales admitidas
Multilingüe
Límites de fichas
Longitud de la ventana contextual (entrada + salida): 4,096
Lenguas naturales admitidas
El modelo se entrena previamente con datos multilingües en 108 idiomas y se perfecciona con datos multilingües en 46 idiomas para realizar tareas multilingües.
Instrucciones de sintonización
BigScience publica detalles sobre su código y sus conjuntos de datos.
Arquitectura modelo
Codificador-decodificador
Licencia
licenciaApache 2.0
Más información
Lea los siguientes recursos:

pixtral-12b

Pixtral 12B es un modelo multimodal desarrollado por Mistral AI. El modelo de la base de datos de imágenes de la Fundación Internacional para la Conservación de los Documentos ( pixtral-12b ) está entrenado para entender tanto imágenes como documentos naturales y es capaz de capturar imágenes con su resolución y relación de aspecto naturales, lo que proporciona flexibilidad en el número de tokens utilizados para procesar una imagen. El modelo de base admite varias imágenes en su ventana de contexto larga. El modelo es eficaz en tareas multimodales de entrada de imágenes y salida de texto y destaca en el seguimiento de instrucciones.

Uso
Comprensión de gráficos y figuras, respuesta a preguntas de documentos, razonamiento multimodal y seguimiento de instrucciones.
Size
12.000 millones de parámetros
Nivel de precios API
Clase 9. Para más información sobre precios, véase el cuadro 3.

Disponibilidad

Pruébela

Chatear con documentos e imágenes

Límites de fichas

Longitud de la ventana contextual (entrada + salida): 128,000

El máximo de nuevos tokens, es decir, de tokens generados por los modelos de la fundación por solicitud, está limitado a 8.192.

Lenguas naturales admitidas

Inglés

Instrucciones de sintonización

El modelo pixtral-12b se entrena con datos de imagen y texto intercalados y se basa en el modelo Mistral Nemo con un codificador de visión de 400 millones de parámetros entrenado desde cero.

Arquitectura modelo

Sólo decodificador

Licencia

licenciaApache 2.0

Más información

Lea los siguientes recursos:

Los modelos de cimientos obsoletos se resaltan con un icono de advertencia de obsoleto Icono de aviso. Para obtener más información sobre la retirada de productos, incluidos los detalles de la retirada de modelos de la fundación, consulte Ciclo de vida de los modelos de la fundación.

Más información

Tema principal: Modelos de bases compatibles