Tema traducido automáticamente Puede cambiar a la versión en inglésConsulte la declaración de limitación de responsabilidad
Consulte la versión en inglés (original) para obtener la versión más precisa y actualizada de esta documentación. IBM no se responsabiliza de los daños o pérdidas resultantes del uso de contenido traducido automáticamente (máquina).
Modelos de bases de terceros
Última actualización: 10 abr 2025
Modelos de bases de terceros
Puede elegir entre una colección de modelos de bases de terceros en IBM watsonx.ai.
Los siguientes modelos están disponibles en watsonx.ai:
Para obtener más información sobre las distintas formas en que se pueden implantar estos modelos, y para ver un resumen de los precios y la información sobre la duración de la ventana contextual de los modelos, consulte Modelos de cimentación compatibles.
Los modelos de bases de datos en watsonx.ai admiten una amplia gama de casos de uso, tanto para lenguajes naturales como para lenguajes de programación. Para ver los tipos de tareas que pueden realizar estos modelos, revise y pruebe las indicaciones de ejemplo.
allam-1-13b-instruct
Copy link to section
El modelo de la fundación allam-1-13b-instruct es un modelo bilingüe de gran tamaño para árabe e inglés proporcionado por el Centro Nacional de Inteligencia Artificial y respaldado por la Autoridad Saudí de Datos e Inteligencia Artificial que está perfeccionado para apoyar tareas conversacionales. La serie " ALLaM " es una colección de potentes modelos lingüísticos diseñados para avanzar en la tecnología de la lengua árabe. Estos modelos se inicializan con pesos e Llama-2 es y reciben formación tanto en árabe como en inglés.
Nota:Al inferir este modelo desde el Prompt Lab, desactive los guardarraíles AI.
Uso
Admite preguntas y respuestas, resumen, clasificación, generación, extracción y traducción en árabe.
Size
13.000 millones de parámetros
Nivel de precios API
Clase 2. Para más información sobre precios, véase el cuadro 3.
Disponibilidad
Proporcionado por IBM y desplegado en hardware multiusuario en el centro de datos de Fráncfort.
Implementación bajo demanda para uso exclusivo, excepto en el centro de datos de Fráncfort.
Longitud de la ventana contextual (entrada + salida): 4,096
Lenguas naturales admitidas
Árabe (árabe moderno estándar) e inglés
Instrucciones de sintonización
allam-1-13b-instruct se basa en el modelo de aprendizaje profundo ( Allam-13b-base ), que es un modelo de base entrenado previamente en un total de 3 billones de tokens en inglés y árabe, incluidos los tokens vistos desde su inicialización. El conjunto de datos árabes contiene 500.000 millones de tokens tras la limpieza y la deduplicación. Los datos adicionales proceden de colecciones de código abierto y de rastreos web. El modelo de la base de datos de allam-1-13b-instruct se ha perfeccionado con un conjunto seleccionado de 4 millones de pares de preguntas y respuestas en árabe y 6 millones en inglés.
Longitud de la ventana contextual (entrada + salida): 16,384
Nota: El máximo de nuevos tokens, es decir, los tokens que genera el modelo de la fundación por solicitud, está limitado a 8.192.
Lenguas naturales admitidas
Inglés
Lenguajes de programación soportados
El modelo de base codellama-34b-instruct-hf es compatible con numerosos lenguajes de programación, como Python, C++, Java, PHP, Typescript (Javascript), C#, Bash, etc.
Instrucciones de sintonización
La versión ajustada de la instrucción se alimentó con la entrada de la instrucción en lenguaje natural y la salida esperada para guiar al modelo a generar respuestas útiles y seguras en lenguaje natural.
Las variantes destiladas de los modelos de la serie " DeepSeek-R1 " basadas en los modelos " Llama 3.1" son proporcionadas por " DeepSeek AI". Los modelos de aprendizaje profundo ( DeepSeek-R1 ) son modelos de código abierto con potentes capacidades de razonamiento. Las muestras de datos generadas por el modelo DeepSeek R1 se utilizan para ajustar un modelo base de Llama.
Los modelos deepseek-r1-distill-llama-8b y deepseek-r1-distill-llama-70b son versiones simplificadas del modelo DeepSeek-R1 basadas en los modelos Llama 3.1 8B y Llama 3.3 70B respectivamente.
Uso
De uso general con indicaciones de zero- o few-shot y están diseñados para sobresalir en tareas de seguimiento de instrucciones como resumen, clasificación, razonamiento, tareas de código, así como matemáticas.
Tamaños disponibles
8.000 millones de parámetros
70.000 millones de parámetros
Nivel de precios API
8b: Pequeño
70: Grande
Para más información sobre precios, véase el cuadro 5.
8b y 70b: Longitud de la ventana de contexto (entrada + salida): 131 072
Nota: El máximo de nuevos tokens, es decir, los tokens generados por el modelo de fundación por solicitud, está limitado a 32 768.
Lenguas naturales admitidas
Inglés
Instrucciones de sintonización
Los modelos de aprendizaje por refuerzo ( DeepSeek-R1 ) se entrenan utilizando el aprendizaje por refuerzo (RL) a gran escala sin ajuste fino supervisado (SFT) como paso preliminar. Las etapas posteriores de RL y SFT tienen como objetivo mejorar los patrones de razonamiento y alinear el modelo con las preferencias humanas. DeepSeek-R1-Distill los modelos se ajustan en función de modelos de código abierto, utilizando muestras generadas por DeepSeek-R1.
El modelo de elyza-japanese-llama-2-7b-instruct es proporcionado por ELYZA, Inc en Hugging Face. El modelo de la fundación elyza-japanese-llama-2-7b-instruct es una versión del modelo Llama 2 de Meta que está entrenado para comprender y generar texto japonés. El modelo se pone a punto para resolver diversas tareas que siguen instrucciones del usuario y para participar en un diálogo.
Uso
Uso general con indicaciones " zero- o " few-shot ". Funciona bien para la clasificación y extracción en japonés y para la traducción entre inglés y japonés. Funciona mejor cuando se le pregunta en japonés.
Size
7.000 millones de parámetros
Nivel de precios API
Clase 2. Para más información sobre precios, véase el cuadro 3.
Disponibilidad
Proporcionado por IBM y desplegado en hardware multiusuario en el centro de datos de Tokio.
Longitud de la ventana contextual (entrada + salida): 4,096
Lenguas naturales admitidas
Japonés, inglés
Instrucciones de sintonización
Para la formación en japonés se utilizaron textos en japonés procedentes de numerosas fuentes, entre ellas Wikipedia y el Open Super-large Crawled ALMAnaCH coRpus (un corpus multilingüe que se genera clasificando y filtrando el lenguaje en el corpus Common Crawl). El modelo se puso a punto con un conjunto de datos creado por ELYZA. El conjunto de datos ELYZA Tasks 100 contiene 100 tareas diversas y complejas creadas manualmente y evaluadas por humanos. El conjunto de datos ELYZA Tasks 100 está disponible públicamente en HuggingFace.
La serie de modelos EuroLLM ha sido desarrollada por el proyecto Unified Transcription and Translation for Extended Reality (UTTER) y la Unión Europea. Los modelos EuroLLM Instruct son modelos de código abierto especializados en comprender y generar texto en las 24 lenguas oficiales de la Unión Europea (UE), así como en 11 lenguas internacionales de importancia comercial y estratégica.
Uso
Adecuado para tareas lingüísticas multilingües como el seguimiento de instrucciones generales y la traducción de idiomas.
Tamaños
1.7 mil millones de parámetros
9.000 millones de parámetros
Nivel de precios API
1.7b: Pequeño
9b: Pequeño
Para más información sobre precios, véase el cuadro 5.
Disponibilidad
Despliegue bajo demanda para uso exclusivo.
Límites de fichas
1.7b y 9b: Longitud de la ventana de contexto (entrada + salida): 4,096
Los modelos se han entrenado con 4 billones de tokens de los lenguajes naturales admitidos a partir de datos web, datos paralelos, Wikipedia, Arxiv, varios libros y conjuntos de datos Apollo.
El modelo de flan-t5-xl-3b es proporcionado por Google en Hugging Face. El modelo se basa en el modelo de transformador de transferencia de texto a texto preentrenado ( T5 ) y utiliza métodos de ajuste de instrucciones para lograr un mejor rendimiento de zero- y few-shot . El modelo también se afina con datos de la cadena de pensamiento para mejorar su capacidad de realizar tareas de razonamiento.
Nota:Este modelo de base se puede ajustar utilizando el Tuning Studio.
Uso
Uso general con indicaciones " zero- o " few-shot ".
Size
3.000 millones de parámetros
Nivel de precios API
Clase 1. Para más información sobre precios, véanse los cuadros 3 y 5.
Disponibilidad
Proporcionado por IBM y desplegado en hardware multiusuario.
Longitud de la ventana contextual (entrada + salida): 4,096
Lenguas naturales admitidas
Multilingüe
Instrucciones de sintonización
El modelo se puso a punto en tareas que implican el razonamiento en varios pasos a partir de datos de cadenas de pensamiento, además de las tareas tradicionales de procesamiento del lenguaje natural. Se publican detalles sobre los conjuntos de datos de entrenamiento utilizados.
El modelo de flan-t5-xxl-11b es proporcionado por Google en Hugging Face. Este modelo se basa en el modelo de transformador de transferencia de texto a textoT5) preentrenado y utiliza métodos de ajuste de instrucciones para lograr un mejor rendimiento de " zero- y " few-shot ". El modelo también se afina con datos de la cadena de pensamiento para mejorar su capacidad de realizar tareas de razonamiento.
Uso
Uso general con indicaciones " zero- o " few-shot ".
Size
11.000 millones de parámetros
Nivel de precios API
Clase 2. Para más información sobre precios, véanse los cuadros 3 y 5.
Disponibilidad
Proporcionado por IBM y desplegado en hardware multiusuario.
Longitud de la ventana contextual (entrada + salida): 4,096
Lenguas naturales admitidas
Inglés, alemán, francés
Instrucciones de sintonización
El modelo se puso a punto en tareas que implican el razonamiento en varios pasos a partir de datos de cadenas de pensamiento, además de las tareas tradicionales de procesamiento del lenguaje natural. Se publican detalles sobre los conjuntos de datos de entrenamiento utilizados.
El modelo de flan-ul2-20b es proporcionado por Google en Hugging Face. Este modelo se entrenó utilizando los Paradigmas Unificadores de Aprendizaje de LenguasUL2). El modelo está optimizado para la generación de lenguaje, la comprensión del lenguaje, la clasificación de textos, la respuesta a preguntas, el razonamiento de sentido común, el razonamiento de textos largos, la fundamentación de conocimientos estructurados y la recuperación de información, el aprendizaje en contexto, el estímulo " zero-shot y el estímulo único.
Uso
Uso general con indicaciones " zero- o " few-shot ".
Size
20.000 millones de parámetros
Nivel de precios API
Clase 3. Para más información sobre precios, véanse los cuadros 3 y 5.
Disponibilidad
Proporcionado por IBM y desplegado en hardware multiusuario.
Longitud de la ventana contextual (entrada + salida): 4,096
Lenguas naturales admitidas
Inglés
Instrucciones de sintonización
El modelo flan-ul2-20b se entrena previamente en la versión colosal y depurada del corpus de rastreo web de Common Crawl. El modelo se ajusta con múltiples objetivos de preentrenamiento para optimizarlo para diversas tareas de procesamiento del lenguaje natural. Se publican detalles sobre los conjuntos de datos de entrenamiento utilizados.
El modelo de la fundación jais-13b-chat es un modelo bilingüe de gran tamaño para árabe e inglés que está perfeccionado para apoyar tareas conversacionales.
Uso
Admite preguntas y respuestas, resumen, clasificación, generación, extracción y traducción en árabe.
Size
13.000 millones de parámetros
Nivel de precios API
Clase 2. Para más información sobre precios, véase el cuadro 3.
Disponibilidad
Proporcionado por IBM y desplegado en hardware multiusuario en el centro de datos de Fráncfort.
Longitud de la ventana contextual (entrada + salida): 2,048
Lenguas naturales admitidas
Árabe (árabe moderno estándar) e inglés
Instrucciones de sintonización
Jais-13b-chat se basa en el modelo de aprendizaje profundo ( Jais-13b ), que es un modelo de base entrenado con 116 000 millones de tokens en árabe y 279 000 millones de tokens en inglés. Jais-13b-chat está perfeccionado con un conjunto seleccionado de 4 millones de pares de preguntas y respuestas en árabe y 6 millones en inglés.
Los modelos de cimientos de la colección Llama 4 proceden de Meta. Los modelos llama-4-maverick-17b-128e-instruct-fp8 y llama-4-scout-17b-16e-instruct son modelos multimodales que utilizan una arquitectura de mezcla de expertos ( MoE ) para obtener un rendimiento optimizado, el mejor de su clase, en la comprensión de textos e imágenes.
El modelo Llama 4 Maverick es un modelo multimodal de 17.000 millones de parámetros activos con 128 expertos. El modelo Llama 4 Scout es un modelo multimodal de 17.000 millones de parámetros activos con 16 expertos. La Llama 4 modelos
Uso
Genera diálogos multilingües como un chatbot, utiliza un formato de consulta específico para cada modelo, optimizado para el reconocimiento visual, el razonamiento de imágenes, el subtitulado y la respuesta a preguntas generales sobre una imagen.
Size
17.000 millones de parámetros
Nivel de precios API
Estos modelos están disponibles sin coste alguno.
Para más información sobre precios, véase el cuadro 3.
Disponibilidad
Proporcionado por IBM y desplegado en hardware multiusuario.
Llama 4 se preentrenó en una colección más amplia de 200 idiomas. El modelo Llama 4 Scout se preentrenó con aproximadamente 40 billones de tokens y el modelo Llama 4 Maverick se preentrenó con aproximadamente 22 billones de tokens de datos multimodales procedentes de información disponible públicamente y bajo licencia de Meta.
El gran modelo lingüístico multilingüe (LLM) Llama 3.3 de ' Meta ' es un modelo generativo (texto de entrada/texto de salida) preentrenado y ajustado a las instrucciones con 70.000 millones de parámetros.
El llama-3-3-70b-instruct es una revisión del popular Llama 3.1 70B Instruct foundation model. El modelo de la fundación Llama 3.3 es mejor en codificación, razonamiento paso a paso y llamada de herramientas. A pesar de su menor tamaño, el rendimiento del modelo Llama 3.3 es similar al del modelo Llama 3.1 405b, lo que lo convierte en una excelente opción para los desarrolladores.
Uso
Genera diálogos multilingües como un chatbot. Utiliza un formato de consulta específico para cada modelo.
Size
70.000 millones de parámetros
Nivel de precios API
Clase 13
Para más información sobre precios, véase el cuadro 3.
Disponibilidad
IBM proporciona una versión cuantificada del modelo desplegada en hardware multiusuario.
Hay dos versiones del modelo disponibles para desplegar bajo demanda para uso exclusivo:
llama-3-3-70b-instruct-hf: Versión original publicada en Hugging Face por Meta.
llama-3-3-70b-instruct: Una versión cuantizada del modelo que puede desplegarse con 2 GPUs en lugar de 4.
Longitud de la ventana contextual (entrada + salida): 131,072
Lenguas naturales admitidas
Inglés, alemán, francés, italiano, portugués, hindi, español y tailandés
Instrucciones de sintonización
Llama 3.3 se preentrenó con 15 billones de tokens de datos procedentes de fuentes públicas. Los datos de ajuste fino incluyen conjuntos de datos de instrucciones disponibles públicamente, así como más de 25 millones de ejemplos generados sintéticamente.
La colección de modelos de cimentación Llama 3.2 está disponible en Meta. Los modelos llama-3-2-1b-instruct y llama-3-2-3b-instruct son los más pequeños Llama 3.2 que caben en un dispositivo móvil. Se trata de modelos ligeros, sólo de texto, que pueden utilizarse para crear agentes altamente personalizados en los dispositivos.
Por ejemplo, puedes pedir a los modelos que resuman los diez últimos mensajes que has recibido, o que resuman tu agenda para el mes que viene.
Uso
Genera diálogos como un chatbot. Utilice un formato de consulta específico para cada modelo. Su reducido tamaño y sus modestos requisitos de memoria y recursos informáticos permiten ejecutar localmente los modelos Llama 3.2 Instruct en la mayoría de los equipos, incluidos los móviles y otros dispositivos de última generación.
Tamaños
1.000 millones de parámetros
3.000 millones de parámetros
Nivel de precios API
1b: Clase C1
3b: Clase 8
Para más información sobre precios, véase el cuadro 3.
Longitud de la ventana contextual (entrada + salida)
1b: 131,072
3b: 131,072
El máximo de nuevos tokens, es decir, de tokens generados por los modelos de la fundación por solicitud, está limitado a 8.192.
Lenguas naturales admitidas
Inglés, alemán, francés, italiano, portugués, hindi, español y tailandés
Instrucciones de sintonización
Preentrenado con hasta 9 billones de tokens de datos de fuentes públicas. Los logits de los modelos Llama 3.1 8B y 70B se incorporaron a la fase de preentrenamiento del desarrollo del modelo, en la que los resultados (logits) de estos modelos más grandes se utilizaron como objetivos a nivel de token. En el postentrenamiento, se alinea el modelo preentrenado utilizando el ajuste fino supervisado (SFT), el muestreo de rechazo (RS) y la optimización de preferencia directa (DPO).
La colección de modelos de cimientos Llama 3.2 de ' Meta ' la proporciona ' Meta. Los modelos llama-3-2-11b-vision-instruct y llama-3-2-90b-vision-instruct se han creado para casos de uso de entrada de imágenes y salida de texto, como la comprensión a nivel de documento, la interpretación de tablas y gráficos y el subtitulado de imágenes.
Uso
Genera diálogos como un chatbot y puede realizar tareas de visión por ordenador, como clasificación, detección e identificación de objetos, transcripción de imagen a texto (incluida la escritura a mano), preguntas y respuestas contextuales, extracción y procesamiento de datos, comparación de imágenes y asistencia visual personal. Utiliza un formato de consulta específico para cada modelo.
Tamaños
11.000 millones de parámetros
90.000 millones de parámetros
Nivel de precios API
11b: Clase 9
90b: Clase 10
Para más información sobre precios, véase el cuadro 3.
Disponibilidad
Proporcionado por IBM y desplegado en hardware multiusuario.
Longitud de la ventana contextual (entrada + salida)
11b: 131,072
90b: 131,072
El máximo de nuevos tokens, es decir, de tokens generados por los modelos de la fundación por solicitud, está limitado a 8.192. Los tokens que se cuentan para una imagen que envíe al modelo no se incluyen en la longitud de la ventana contextual.
Lenguas naturales admitidas
Inglés, alemán, francés, italiano, portugués, hindi, español y tailandés con entradas de sólo texto. Inglés sólo cuando se incluye una imagen con la entrada.
Instrucciones de sintonización
los modelos Llama 3.2 Vision " utilizan ponderaciones de adaptadores de razonamiento de imágenes que se entrenan por separado de las ponderaciones del modelo lingüístico principal. Esta separación preserva el conocimiento general del modelo y lo hace más eficiente tanto en tiempo de preentrenamiento como de ejecución. Los modelos de Llama 3.2 Vision se entrenaron previamente con 6000 millones de pares de imágenes y texto, lo que requirió muchos menos recursos informáticos que los necesarios para entrenar previamente el modelo de base de Llama 3.1 70B. Llama 3.2 Los modelos también funcionan de manera eficiente porque pueden aprovechar más recursos informáticos para el razonamiento de imágenes solo cuando la entrada lo requiere.
La colección de modelos de cimientos Llama 3.2 de ' Meta ' la proporciona ' Meta. La llama-guard-3-11b-vision es una evolución multimodal del modelo Llama-Guard-3 de sólo texto. El modelo puede utilizarse para clasificar el contenido de imágenes y texto de las entradas de los usuarios (clasificación de avisos) como seguro o inseguro.
Uso
Utiliza el modelo para comprobar la seguridad de la imagen y el texto en un aviso de imagen a texto.
Size
11.000 millones de parámetros
Nivel de precios API
Clase 9. Para más información sobre precios, véase el cuadro 3.
Disponibilidad
Proporcionado por IBM y desplegado en hardware multiusuario.
Longitud de la ventana contextual (entrada + salida): 131,072
El máximo de nuevos tokens, es decir, de tokens generados por los modelos de la fundación por solicitud, está limitado a 8.192. Los tokens que se cuentan para una imagen que envíe al modelo no se incluyen en la longitud de la ventana contextual.
Lenguas naturales admitidas
Inglés, alemán, francés, italiano, portugués, hindi, español y tailandés con entradas de sólo texto. Inglés sólo cuando se incluye una imagen con la entrada.
Instrucciones de sintonización
Modelo preentrenado y ajustado para la clasificación de la seguridad de los contenidos. Para más información sobre los tipos de contenidos clasificados como no seguros, consulte la ficha modelo.
La colección de modelos de cimientos Llama 3.1 de ' Meta ' la proporciona ' Meta. El modelo de base Llama 3.1 es un modelo multilingüe que admite el uso de herramientas y tiene capacidades de razonamiento más sólidas en general.
Uso
Utilícelo para resumir textos largos y con agentes conversacionales multilingües o asistentes de codificación.
Size
8.000 millones de parámetros
Nivel de precios API
Para más información sobre precios, véase el cuadro 5.
Disponibilidad
Despliegue bajo demanda para uso exclusivo.
Límites de fichas
Longitud de la ventana contextual (entrada + salida): 131,072
Lenguas naturales admitidas
Inglés, alemán, francés, italiano, portugués, hindi, español y tailandés
La colección de modelos de cimientos Llama 3.1 de ' Meta ' la proporciona ' Meta. Los modelos básicos de Llama 3.1 son modelos generativos de sólo texto preentrenados y ajustados a las instrucciones, optimizados para casos de uso de diálogo multilingüe. Los modelos utilizan el ajuste fino supervisado y el aprendizaje por refuerzo con información humana para ajustarse a las preferencias humanas de utilidad y seguridad.
El modelo llama-3-405b-instruct es el modelo de base de código abierto más grande de Meta hasta la fecha. Este modelo de base también puede utilizarse como generador de datos sintéticos, juez de clasificación de datos posteriores a la formación o modelo de profesor/supervisor que puede mejorar las capacidades especializadas en modelos derivados más fáciles de inferir.
Uso
Genera diálogos como un chatbot. Utiliza un formato de consulta específico para cada modelo.
Tamaños
8.000 millones de parámetros
70.000 millones de parámetros
405.000 millones de parámetros
Nivel de precios API
8b: Clase 1
70b: Clase 2
405b: Clase 3 (entrada), Clase 7 (salida)
Para más información sobre precios, véase el cuadro 3.
Para conocer los precios de los modelos 8b y 70b bajo demanda, consulte la Tabla 5.
Disponibilidad
405b: Proporcionado por IBM desplegado en hardware multiusuario.
8b y 70b únicamente: Despliegue bajo demanda para uso dedicado.
Los despliegues IBM de los modelos de cimientos 8b y 70b están obsoletos. Para más detalles, consulte el ciclo de vida del modelo Foundation.
Longitud de la ventana contextual (entrada + salida)
8b y 70b: 131.072
405b: 16,384
Aunque el modelo admite una longitud de ventana de contexto de 131.072, la ventana se limita a 16.384 para reducir el tiempo que tarda el modelo en generar una respuesta.
El máximo de nuevos tokens, es decir, de tokens generados por los modelos de la fundación por solicitud, está limitado a 4.096.
Lenguas naturales admitidas
Inglés, alemán, francés, italiano, portugués, hindi, español y tailandés
Instrucciones de sintonización
Llama 3.1 se preentrenó con 15 billones de tokens de datos procedentes de fuentes públicas. Los datos de ajuste fino incluyen conjuntos de datos de instrucciones disponibles públicamente, así como más de 25 millones de ejemplos generados sintéticamente.
La familia de modelos de base Meta Llama 3 son modelos de lenguaje grandes, abiertos y accesibles que se construyen con Meta Llama 3 y que proporciona Meta en Hugging Face. Los modelos básicos de Llama 3 3 son modelos lingüísticos ajustados a las instrucciones que pueden admitir diversos casos de uso.
Uso
Genera diálogos como un chatbot.
Tamaños
8.000 millones de parámetros
70.000 millones de parámetros
Nivel de precios API
8b: Clase 1
70b: Clase 2
Para más información sobre precios, véanse los cuadros 3 y 5.
Disponibilidad
Proporcionado por IBM implementado en hardware multiusuario ( 70b solo en la región de Sídney). Obsoleto
Longitud de la ventana contextual (entrada + salida)
8b: 8,192
70b: 8,192
Nota: El máximo de nuevos tokens, es decir, los tokens generados por los modelos de la fundación por solicitud, está limitado a 4.096.
Lenguas naturales admitidas
Inglés
Instrucciones de sintonización
Llama 3 incluye mejoras en los procedimientos posteriores a la formación que reducen las tasas de falsos rechazos, mejoran la alineación y aumentan la diversidad en el resultado del modelo de la fundación. El resultado es una mayor capacidad de razonamiento, generación de código y seguimiento de instrucciones. Llama 3 tiene más fichas de formación ( 15T ) que le permiten comprender mejor el idioma.
Los modelos de Llama 2 Chat son proporcionados por Meta en Hugging Face. Los modelos afinados son útiles para la generación de chats. Los modelos se preentrenan con datos en línea disponibles públicamente y se perfeccionan mediante aprendizaje por refuerzo a partir de comentarios humanos.
Puede elegir entre utilizar la versión del modelo con 13.000 millones de parámetros o con 70.000 millones.
Uso
Genera diálogos como un chatbot. Utiliza un formato de consulta específico para cada modelo.
Size
13.000 millones de parámetros
70.000 millones de parámetros
Nivel de precios API
Clase 1. Para más información sobre precios, véanse los cuadros 3 y 5.
Disponibilidad
13b
Proporcionado por IBM y desplegado en hardware multiusuario
Longitud de la ventana contextual (entrada + salida)
13b: 4,096
70b: 4,096
Lenguas naturales admitidas
Inglés
Instrucciones de sintonización
Llama 2 se preentrenó con 2 billones de tokens de datos procedentes de fuentes públicas. Los datos de ajuste incluyen conjuntos de datos de instrucciones disponibles públicamente y más de un millón de ejemplos nuevos anotados por humanos.
Mistral Large 2 es una familia de grandes modelos de lenguaje desarrollados por Mistral AI. El modelo de la fundación mistral-large habla con fluidez y comprende la gramática y el contexto cultural del inglés, francés, español, alemán e italiano. El modelo de base también puede entender docenas de otros idiomas. El modelo tiene una gran ventana de contexto, lo que significa que puede añadir documentos de gran tamaño como información contextual en las solicitudes que envíe para casos de uso de generación aumentada por recuperación (RAG). El modelo de base de datos de la Fundación de la Web ( mistral-large ) es eficaz en tareas programáticas, como generar, revisar y comentar código, invocar funciones, y puede generar resultados en formato JSON.
Para más información sobre los primeros pasos, consulta la páginawatsonx.ai en el sitio web ' Mistral AI.
Uso
Adecuado para tareas complejas de razonamiento multilingüe, incluidas la comprensión de textos, la transformación y la generación de código. Debido a la gran ventana contextual del modelo, utilice el parámetro max tokens para especificar un límite de tokens cuando pregunte al modelo.
Nivel de precios API
El precio para inferir el modelo de e Mistral Large o proporcionado no se asigna mediante un multiplicador. Se utilizan los siguientes niveles de precios especiales:
Nivel de entrada: Mistral Large Entrada
Nivel de salida: Mistral Large
Para más información sobre precios, véase el cuadro 3. Para obtener detalles sobre los precios de la implementación de este modelo bajo demanda, consulte la Tabla 5.
Atención : Este modelo de fundación tiene una tarifa de acceso adicional que se aplica por hora de uso.
Disponibilidad
Proporcionado por IBM y desplegado en hardware multiusuario
Longitud de la ventana contextual (entrada + salida): 131,072
Nota: El número máximo de nuevos tokens, es decir, los tokens generados por el modelo de fundación por solicitud, está limitado a 16 384.
Lenguas naturales admitidas
Inglés, francés, alemán, italiano, español, chino, japonés, coreano, portugués, neerlandés, polaco y docenas de idiomas más.
Lenguajes de programación soportados
El modelo mistral-large se ha entrenado en más de 80 lenguajes de programación, incluidos Python, Java, C, C++, JavaScript, Bash, Swift y Fortran.
Instrucciones de sintonización
El modelo de la fundación mistral-large está preentrenado en diversos conjuntos de datos como texto, bases de código y datos matemáticos de varios dominios.
Arquitectura modelo
Sólo decodificador
Licencia
Para conocer las condiciones de uso, incluida la información sobre las protecciones contractuales relacionadas con la indemnización limitada, consulte Condiciones de uso.
El modelo de base mistral-large-instruct-2411, de Mistral AI , pertenece a la familia de modelos Mistral Large 2. La modelo está especializada en razonamiento, conocimiento y codificación. El modelo amplía las capacidades del modelo de base de datos de la Fundación de Internet ( Mistral-Large-Instruct-2407 ) para incluir un mejor manejo de contextos de mensajes largos, instrucciones de mensajes del sistema y solicitudes de llamada de funciones.
Uso
El modelo de la fundación mistral-large-instruct-2411 es multilingüe, competente en codificación, centrado en los agentes y se adhiere a las indicaciones del sistema para ayudar en las tareas de generación aumentada de recuperación y otros casos de uso en los que es necesario manejar indicaciones con un contexto amplio.
Size
123 mil millones de parámetros
Nivel de precios API
Para más información sobre precios, véase el cuadro 5.
Atención : Este modelo de fundación tiene una tarifa de acceso adicional que se aplica por hora de uso.
Longitud de la ventana contextual (entrada + salida): 131,072
Lenguas naturales admitidas
Habla varios idiomas y es especialmente competente en inglés, francés, alemán, español, italiano, portugués, chino, japonés, coreano, árabe e hindi.
Lenguajes de programación soportados
El modelo de base de datos de la Fundación de la Ciencia de Datos ( mistral-large-instruct-2411 ) ha sido entrenado en más de 80 lenguajes de programación, incluyendo: JavaScript ( Python ), Java, C, C++, Ruby ( JavaScript, ), Bash, Swift y Python ( Fortran ).
Instrucciones de sintonización
El modelo de base mistral-large-instruct-2411 amplía el modelo de base Mistral-Large-Instruct-2407 de Mistral AI. El entrenamiento mejoró las capacidades de razonamiento del modelo. La formación también se centró en reducir las alucinaciones ajustando el modelo para que sea más prudente y perspicaz en sus respuestas y para que reconozca cuándo no puede encontrar soluciones o no tiene suficiente información para dar una respuesta fiable.
Licencia
Para conocer las condiciones de uso, incluida la información sobre las protecciones contractuales relacionadas con la indemnización limitada, consulte Condiciones de uso.
El modelo de base de la fundación mistral-nemo-instruct-2407 de Mistral AI se construyó en colaboración con NVIDIA. Mistral NeMo obtiene unos resultados excepcionales en razonamiento, conocimiento del mundo y precisión de codificación, especialmente para un modelo de su tamaño.
Uso
El modelo " Mistral NeMo " es multilingüe y se entrena en la llamada a funciones.
Size
12.000 millones de parámetros
Nivel de precios API
Para más información sobre precios, véase el cuadro 5.
Disponibilidad
Despliegue bajo demanda para uso exclusivo.
Límites de fichas
Longitud de la ventana contextual (entrada + salida): 131,072
Lenguas naturales admitidas
Habla varios idiomas y es especialmente competente en inglés, francés, alemán, español, italiano, portugués, chino, japonés, coreano, árabe e hindi.
Lenguajes de programación soportados
El modelo " Mistral NeMo " se ha entrenado en varios lenguajes de programación.
Instrucciones de sintonización
Mistral NeMo tuvo una fase avanzada de ajuste y alineación.
Mistral Small 3 es un modelo de base rentable, rápido y fiable desarrollado por Mistral AI. El modelo de razonamiento mistral-small-24b-instruct-2501, que se ha perfeccionado mediante instrucciones, funciona bien en tareas que requieren cierta capacidad de razonamiento, como la extracción de datos, la síntesis de un documento o la redacción de descripciones. Creado para admitir aplicaciones de agente, con cumplimiento de las indicaciones del sistema y llamada de funciones con generación de salida JSON.
Para más información sobre los primeros pasos, consulta la páginawatsonx.ai en el sitio web ' Mistral AI.
Uso
Adecuado para agentes de conversación y llamadas de función.
Nivel de precios API
Clase 9
Para más información sobre precios, véase el cuadro 3.
Disponibilidad
Proporcionado por IBM implementado en hardware multiusuario solo en la región de Frankfurt.
Longitud de la ventana de contexto (entrada + salida): 32,768
Nota:
El máximo de nuevos tokens, es decir, los tokens generados por el modelo de fundación por solicitud, está limitado a 16 384.
Lenguas naturales admitidas
Inglés, francés, alemán, italiano, español, chino, japonés, coreano, portugués, neerlandés, polaco y docenas de idiomas más.
Lenguajes de programación soportados
El modelo de Inteligencia Artificial ( mistral-small-24b-instruct-2501 ) ha sido entrenado en más de 80 lenguajes de programación, incluyendo: JavaScript ( Python ), Java, C, C++, Ruby ( JavaScript, ), Bash, Swift y Python ( Fortran ).
Instrucciones de sintonización
El modelo de la fundación mistral-small-24b-instruct-2501 está preentrenado en diversos conjuntos de datos como texto, bases de código y datos matemáticos de varios dominios.
Mistral AI proporciona el modelo de base mixtral-8x7b-base. El modelo de la fundación mixtral-8x7b-base es una red generativa de mezcla de expertos dispersos que agrupa los parámetros del modelo y, a continuación, para cada token elige un subconjunto de grupos (denominados expertos ) para procesar el token. Como resultado, cada ficha tiene acceso a 47.000 millones de parámetros, pero sólo utiliza 13.000 millones de parámetros activos para la inferencia, lo que reduce los costes y la latencia.
Uso
Adecuado para muchas tareas, como clasificación, resumen, generación, creación y conversión de códigos y traducción de idiomas.
Size
46.46.7.000 millones de parámetros
Nivel de precios API
Para más información sobre precios, véase el cuadro 5.
Disponibilidad
Despliegue bajo demanda para uso exclusivo.
Límites de fichas
Longitud de la ventana de contexto (entrada + salida): 32,768
Nota: El número máximo de nuevos tokens, es decir, los tokens generados por el modelo de fundación por solicitud, está limitado a 16 384.
Mistral AI proporciona el modelo de base mixtral-8x7b-instruct-v01. El modelo de la fundación mixtral-8x7b-instruct-v01 es una red generativa de mezcla de expertos dispersa preentrenada que agrupa los parámetros del modelo y, a continuación, para cada token, elige un subconjunto de grupos (denominados expertos ) para procesar el token. Como resultado, cada ficha tiene acceso a 47.000 millones de parámetros, pero sólo utiliza 13.000 millones de parámetros activos para la inferencia, lo que reduce los costes y la latencia.
Uso
Adecuado para muchas tareas, como clasificación, resumen, generación, creación y conversión de códigos y traducción de idiomas. Debido a la ventana de contexto inusualmente grande del modelo, utilice el parámetro max tokens para especificar un límite de tokens cuando pregunte al modelo.
Size
46.46.7.000 millones de parámetros
Nivel de precios API
Clase 1. Para más información sobre precios, véase el cuadro 3.
Longitud de la ventana de contexto (entrada + salida): 32,768
Nota: El número máximo de nuevos tokens, es decir, los tokens generados por el modelo de fundación por solicitud, está limitado a 16 384.
Lenguas naturales admitidas
Inglés, francés, alemán, italiano, español
Instrucciones de sintonización
El modelo de base de datos Mixtral está preentrenado con datos de Internet. El modelo de base de la fundación Mixtral 8x7B Instruct está ajustado para seguir instrucciones.
El modelo de mt0-xxl-13b es proporcionado por BigScience en Hugging Face. El modelo está optimizado para soportar tareas de generación y traducción de idiomas con inglés, idiomas distintos del inglés y avisos multilingües.
Utilización: Uso general con indicaciones ' zero- o ' few-shot '. En las tareas de traducción, incluya un punto para indicar el final del texto que desea traducir o el modelo podría continuar la frase en lugar de traducirla.
Size
13.000 millones de parámetros
Nivel de precios API
Para más información sobre precios, véase el cuadro 5.
Longitud de la ventana contextual (entrada + salida): 4,096
Lenguas naturales admitidas
El modelo se entrena previamente con datos multilingües en 108 idiomas y se perfecciona con datos multilingües en 46 idiomas para realizar tareas multilingües.
Instrucciones de sintonización
BigScience publica detalles sobre su código y sus conjuntos de datos.
Pixtral 12B es un modelo multimodal desarrollado por Mistral AI. El modelo de la base de datos de imágenes de la Fundación Internacional para la Conservación de los Documentos ( pixtral-12b ) está entrenado para entender tanto imágenes como documentos naturales y es capaz de capturar imágenes con su resolución y relación de aspecto naturales, lo que proporciona flexibilidad en el número de tokens utilizados para procesar una imagen. El modelo de base admite varias imágenes en su ventana de contexto larga. El modelo es eficaz en tareas multimodales de entrada de imágenes y salida de texto y destaca en el seguimiento de instrucciones.
Uso
Comprensión de gráficos y figuras, respuesta a preguntas de documentos, razonamiento multimodal y seguimiento de instrucciones.
Size
12.000 millones de parámetros
Nivel de precios API
Clase 9. Para más información sobre precios, véase el cuadro 3.
Longitud de la ventana contextual (entrada + salida): 128,000
El máximo de nuevos tokens, es decir, de tokens generados por los modelos de la fundación por solicitud, está limitado a 8.192.
Lenguas naturales admitidas
Inglés
Instrucciones de sintonización
El modelo pixtral-12b se entrena con datos de imagen y texto intercalados y se basa en el modelo Mistral Nemo con un codificador de visión de 400 millones de parámetros entrenado desde cero.
Los modelos de cimientos obsoletos se resaltan con un icono de advertencia de obsoleto . Para obtener más información sobre la retirada de productos, incluidos los detalles de la retirada de modelos de la fundación, consulte Ciclo de vida de los modelos de la fundación.
Acerca de las cookies de este sitioNuestros sitios web necesitan algunas cookies para funcionar correctamente (necesarias). Además, se pueden utilizar otras cookies con su consentimiento para analizar el uso del sitio, para mejorar la experiencia del usuario y para publicidad.Para obtener más información, consulte sus opciones de preferencias de cookies. Al visitar nuestro sitio web, acepta que procesemos la información tal y como se describe en ladeclaración de privacidad de IBM.Para facilitar la navegación, sus preferencias de cookies se compartirán entre los dominios web de IBM que se muestran aquí.