Modelos de bases de terceros
Puede elegir entre una colección de modelos de bases de terceros en IBM watsonx.ai.
Los siguientes modelos están disponibles en watsonx.ai:
- allam-1-13b-instruct
- codellama-34b-instruct-hf
- deepseek-r1-distill-llama-8b
- deepseek-r1-distill-llama-70b
- elyza-japanese-llama-2-7b-instruct
- eurollm-1-7b-instruct
- eurollm-9b-instruct
- flan-t5-xl-3b
- flan-t5-xxl-11b
- flan-ul2-20b
- jais-13b-chat
- llama-3-3-70b-instruct
- llama-3-2-1b-instruct
- llama-3-2-3b-instruct
- llama-3-2-11b-vision-instruct
- llama-3-2-90b-vision-instruct
- llama-guard-3-11b-vision
- llama-3-1-8b
- llama-3-1-8b-instruct
- llama-3-1-70b-instruct
- llama-3-405b-instruct
- llama-3-8b-instruct
- llama-3-70b-instruct
- llama-2-13b-chat
- llama-2-70b-chat
- mistral-large
- mistral-large-instruct-2407
- mistral-large-instruct-2411
- mistral-nemo-instruct-2407
- mistral-small-24b-instruct-2501
- mixtral-8x7b-base
- mixtral-8x7b-instruct-v01
- mt0-xxl-13b
- pixtral-12b
Para obtener más información sobre las distintas formas en que se pueden implantar estos modelos, y para ver un resumen de los precios y la información sobre la duración de la ventana contextual de los modelos, consulte Modelos de cimentación compatibles.
Para obtener más información sobre los modelos de base de maquillaje de IBM, consulte los modelos de base de maquillaje de IBM.
Cómo elegir un modelo
Para revisar los factores que pueden ayudarle a elegir un modelo, como las tareas y los idiomas admitidos, consulte Elegir un modelo y Puntos de referencia del modelo Foundation.
Detalles del modelo de cimentación
Los modelos de bases de datos en watsonx.ai admiten una amplia gama de casos de uso, tanto para lenguajes naturales como para lenguajes de programación. Para ver los tipos de tareas que pueden realizar estos modelos, revise y pruebe las indicaciones de ejemplo.
allam-1-13b-instruct
El modelo de la fundación allam-1-13b-instruct es un modelo bilingüe de gran tamaño para árabe e inglés proporcionado por el Centro Nacional de Inteligencia Artificial y respaldado por la Autoridad Saudí de Datos e Inteligencia Artificial que está perfeccionado para apoyar tareas conversacionales. La serie " ALLaM " es una colección de potentes modelos lingüísticos diseñados para avanzar en la tecnología de la lengua árabe. Estos modelos se inicializan con pesos e Llama-2 es y reciben formación tanto en árabe como en inglés.
- Uso
- Admite preguntas y respuestas, resumen, clasificación, generación, extracción y traducción en árabe.
- Size
- 13.000 millones de parámetros
- Nivel de precios API
- Clase 2. Para más información sobre precios, véase el cuadro 3.
- Disponibilidad
- Proporcionado por IBM y desplegado en hardware multiusuario en el centro de datos de Fráncfort.
- Implementación bajo demanda para uso exclusivo, excepto en el centro de datos de Fráncfort.
- Pruébela
- Experimente con muestras:
- Límites de fichas
- Longitud de la ventana contextual (entrada + salida): 4,096
- Lenguas naturales admitidas
- Árabe (árabe moderno estándar) e inglés
- Instrucciones de sintonización
- allam-1-13b-instruct se basa en el modelo de aprendizaje profundo ( Allam-13b-base ), que es un modelo de base entrenado previamente en un total de 3 billones de tokens en inglés y árabe, incluidos los tokens vistos desde su inicialización. El conjunto de datos árabes contiene 500.000 millones de tokens tras la limpieza y la deduplicación. Los datos adicionales proceden de colecciones de código abierto y de rastreos web. El modelo de la base de datos de allam-1-13b-instruct se ha perfeccionado con un conjunto seleccionado de 4 millones de pares de preguntas y respuestas en árabe y 6 millones en inglés.
- Arquitectura modelo
- Sólo decodificador
- Licencia
- Licencia comunitariaLlama 2 y licenciaALLaM
- Más información
- Lea el siguiente recurso:
codellama-34b-instruct-hf
Un modelo de generación de código programático que se basa en Llama 2 de ' Meta. Code Llama está pensado para generar y discutir código.
- Uso
- Utilice Code Llama para crear mensajes que generen código basado en entradas de lenguaje natural, expliquen código o completen y depuren código.
- Size
34.000 millones de parámetros
- Nivel de precios API
Clase 2. Para más información sobre precios, véase el cuadro 3.
- Disponibilidad
Proporcionado por IBM y desplegado en hardware multiusuario.
Este modelo está obsoleto. Véase Ciclo de vida del modelo Foundation.
- Pruébela
Experimente con muestras:
- Límites de fichas
Longitud de la ventana contextual (entrada + salida): 16,384
Nota: El número máximo de nuevos tokens, es decir, los tokens que genera el modelo de fundación por solicitud, está limitado a 8192.
- Lenguas naturales admitidas
Inglés
- Lenguajes de programación soportados
El modelo de base de datos de la Fundación de la Web ( codellama-34b-instruct-hf ) es compatible con muchos lenguajes de programación, incluidos Python, C++, Java, PHP, Typescript (Javascript), C#, Bash y más.
- Instrucciones de sintonización
La versión ajustada de la instrucción se alimentó con la entrada de la instrucción en lenguaje natural y la salida esperada para guiar al modelo a generar respuestas útiles y seguras en lenguaje natural.
- Arquitectura modelo
decodificador
- Licencia
- Más información
Lea los siguientes recursos:
DeepSeek-R1 modelos destilados
Las variantes destiladas de los modelos de la serie " DeepSeek-R1 " basadas en los modelos " Llama 3.1" son proporcionadas por " DeepSeek AI". Los modelos de aprendizaje profundo ( DeepSeek-R1 ) son modelos de código abierto con potentes capacidades de razonamiento. Las muestras de datos generadas por el modelo DeepSeek R1 se utilizan para ajustar un modelo base de Llama.
Los modelos deepseek-r1-distill-llama-8b y deepseek-r1-distill-llama-70b son versiones simplificadas del modelo DeepSeek-R1 basadas en los modelos Llama 3.1 8B y Llama 3.3 70B respectivamente.
- Uso
De uso general con indicaciones de zero- o few-shot y están diseñados para sobresalir en tareas de seguimiento de instrucciones como resumen, clasificación, razonamiento, tareas de código, así como matemáticas.
- Tamaños disponibles
- 8.000 millones de parámetros
- 70.000 millones de parámetros
- Nivel de precios API
8b: Pequeño
70: Grande
Para más información sobre precios, véase el cuadro 5.
- Disponibilidad
Despliegue bajo demanda para uso exclusivo.
- Pruébela
Experimente con muestras:
- Límites de fichas
8b y 70b: Longitud de la ventana de contexto (entrada + salida): 131 072
Nota: El máximo de nuevos tokens, es decir, los tokens generados por el modelo de fundación por solicitud, está limitado a 32 768.
- Lenguas naturales admitidas
Inglés
- Instrucciones de sintonización
Los modelos de aprendizaje por refuerzo ( DeepSeek-R1 ) se entrenan utilizando el aprendizaje por refuerzo (RL) a gran escala sin ajuste fino supervisado (SFT) como paso preliminar. Las etapas posteriores de RL y SFT tienen como objetivo mejorar los patrones de razonamiento y alinear el modelo con las preferencias humanas. DeepSeek-R1-Distill los modelos se ajustan en función de modelos de código abierto, utilizando muestras generadas por DeepSeek-R1.
- Arquitectura modelo
decodificador
- Licencia
8b: Licencia
70b: Licencia
- Más información
Lea los siguientes recursos:
elyza-japanese-llama-2-7b-instruct
El modelo de elyza-japanese-llama-2-7b-instruct es proporcionado por ELYZA, Inc en Hugging Face. El modelo de la fundación elyza-japanese-llama-2-7b-instruct es una versión del modelo Llama 2 de Meta que está entrenado para comprender y generar texto japonés. El modelo se pone a punto para resolver diversas tareas que siguen instrucciones del usuario y para participar en un diálogo.
- Uso
- Uso general con indicaciones " zero- o " few-shot ". Funciona bien para la clasificación y extracción en japonés y para la traducción entre inglés y japonés. Funciona mejor cuando se le pregunta en japonés.
- Size
- 7.000 millones de parámetros
- Nivel de precios API
- Clase 2. Para más información sobre precios, véase el cuadro 3.
- Disponibilidad
- Proporcionado por IBM y desplegado en hardware multiusuario en el centro de datos de Tokio.
- Pruébela
- Experimente con muestras:
- Límites de fichas
- Longitud de la ventana contextual (entrada + salida): 4,096
- Lenguas naturales admitidas
- Japonés, inglés
- Instrucciones de sintonización
- Para la formación en japonés se utilizaron textos en japonés procedentes de numerosas fuentes, entre ellas Wikipedia y el Open Super-large Crawled ALMAnaCH coRpus (un corpus multilingüe que se genera clasificando y filtrando el lenguaje en el corpus Common Crawl). El modelo se puso a punto con un conjunto de datos creado por ELYZA. El conjunto de datos ELYZA Tasks 100 contiene 100 tareas diversas y complejas creadas manualmente y evaluadas por humanos. El conjunto de datos ELYZA Tasks 100 está disponible públicamente en HuggingFace.
- Arquitectura modelo
- decodificador
- Licencia
- Licencia
- Más información
- Lea los siguientes recursos:
EuroLLM Indique
La serie de modelos EuroLLM ha sido desarrollada por el proyecto Unified Transcription and Translation for Extended Reality (UTTER) y la Unión Europea. Los modelos EuroLLM Instruct son modelos de código abierto especializados en comprender y generar texto en las 24 lenguas oficiales de la Unión Europea (UE), así como en 11 lenguas internacionales de importancia comercial y estratégica.
- Uso
Adecuado para tareas lingüísticas multilingües como el seguimiento de instrucciones generales y la traducción de idiomas.
- Tamaños
- 1.7 mil millones de parámetros
- 9.000 millones de parámetros
- Nivel de precios API
1.7b: Pequeño
9b: Pequeño
Para más información sobre precios, véase el cuadro 5.
- Disponibilidad
Despliegue bajo demanda para uso exclusivo.
- Límites de fichas
1.7b y 9b: Longitud de la ventana de contexto (entrada + salida): 4,096
- Lenguas naturales admitidas
Alemán, búlgaro, checo, croata, danés, eslovaco, esloveno, español, estonio, finés, francés, griego, húngaro, inglés, irlandés, italiano, letón, lituano, maltés, neerlandés, polaco, portugués, rumano, sueco, árabe, catalán, chino, gallego, hindi, japonés, coreano, noruego, ruso, turco y ucraniano.
- Instrucciones de sintonización
Los modelos se han entrenado con 4 billones de tokens de los lenguajes naturales admitidos a partir de datos web, datos paralelos, Wikipedia, Arxiv, varios libros y conjuntos de datos Apollo.
- Arquitectura modelo
decodificador
- Licencia
- Más información
Lea los siguientes recursos:
flan-t5-xl-3b
El modelo de flan-t5-xl-3b es proporcionado por Google en Hugging Face. El modelo se basa en el modelo de transformador de transferencia de texto a texto preentrenado ( T5 ) y utiliza métodos de ajuste de instrucciones para lograr un mejor rendimiento de zero- y few-shot . El modelo también se afina con datos de la cadena de pensamiento para mejorar su capacidad de realizar tareas de razonamiento.
- Uso
- Uso general con indicaciones " zero- o " few-shot ".
- Size
- 3.000 millones de parámetros
- Nivel de precios API
- Clase 1. Para más información sobre precios, véanse los cuadros 3 y 5.
- Disponibilidad
- Proporcionado por IBM y desplegado en hardware multiusuario.
- Despliegue bajo demanda para uso exclusivo.
- Pruébela
- Solicitudes de ejemplo
- Límites de fichas
- Longitud de la ventana contextual (entrada + salida): 4,096
- Lenguas naturales admitidas
- Multilingüe
- Instrucciones de sintonización
- El modelo se puso a punto en tareas que implican el razonamiento en varios pasos a partir de datos de cadenas de pensamiento, además de las tareas tradicionales de procesamiento del lenguaje natural. Se publican detalles sobre los conjuntos de datos de entrenamiento utilizados.
- Arquitectura modelo
- Codificador-decodificador
- Licencia
- licenciaApache 2.0
- Más información
- Lea los siguientes recursos:
flan-t5-xxl-11b
El modelo de flan-t5-xxl-11b es proporcionado por Google en Hugging Face. Este modelo se basa en el modelo de transformador de transferencia de texto a textoT5) preentrenado y utiliza métodos de ajuste de instrucciones para lograr un mejor rendimiento de " zero- y " few-shot ". El modelo también se afina con datos de la cadena de pensamiento para mejorar su capacidad de realizar tareas de razonamiento.
- Uso
- Uso general con indicaciones " zero- o " few-shot ".
- Size
- 11.000 millones de parámetros
- Nivel de precios API
- Clase 2. Para más información sobre precios, véanse los cuadros 3 y 5.
- Disponibilidad
- Proporcionado por IBM y desplegado en hardware multiusuario.
- Despliegue bajo demanda para uso exclusivo.
- Pruébela
- Experimente con muestras:
- Límites de fichas
- Longitud de la ventana contextual (entrada + salida): 4,096
- Lenguas naturales admitidas
- Inglés, alemán, francés
- Instrucciones de sintonización
- El modelo se puso a punto en tareas que implican el razonamiento en varios pasos a partir de datos de cadenas de pensamiento, además de las tareas tradicionales de procesamiento del lenguaje natural. Se publican detalles sobre los conjuntos de datos de entrenamiento utilizados.
- Arquitectura modelo
- Codificador-decodificador
- Licencia
- licenciaApache 2.0
- Más información
- Lea los siguientes recursos:
flan-ul2-20b
El modelo de flan-ul2-20b es proporcionado por Google en Hugging Face. Este modelo se entrenó utilizando los Paradigmas Unificadores de Aprendizaje de LenguasUL2). El modelo está optimizado para la generación de lenguaje, la comprensión del lenguaje, la clasificación de textos, la respuesta a preguntas, el razonamiento de sentido común, el razonamiento de textos largos, la fundamentación de conocimientos estructurados y la recuperación de información, el aprendizaje en contexto, el estímulo " zero-shot y el estímulo único.
- Uso
- Uso general con indicaciones " zero- o " few-shot ".
- Size
- 20.000 millones de parámetros
- Nivel de precios API
- Clase 3. Para más información sobre precios, véanse los cuadros 3 y 5.
- Disponibilidad
- Proporcionado por IBM y desplegado en hardware multiusuario.
- Despliegue bajo demanda para uso exclusivo.
- Pruébela
- Experimente con muestras:
- Solicitudes de ejemplo
- Ejemplo de pregunta: Resumen de la convocatoria de resultados
- Ejemplo de pregunta: Resumen de la transcripción de una reunión
- Ejemplo de pregunta: Clasificación de escenarios
- Ejemplo de pregunta: Clasificación de sentimientos
- Ejemplo de mensaje: Generación de notas de agradecimiento
- Ejemplo de consulta: Extracción de entidades con nombre
- Ejemplo de pregunta: Extracción de hechos
- Cuaderno de muestra: Utilizar watsonx para resumir documentos de ciberseguridad
- Cuaderno de muestra: Utilizar watsonx y LangChain para responder a preguntas mediante la generación aumentada por recuperación (RAG)
- Cuaderno de muestra: Utilizar watsonx, Elasticsearch y LangChain para responder preguntas (RAG)
- Cuaderno de muestra: Utilización de watsonx y de la biblioteca Python Elasticsearch para responder a preguntas (RAG)
- Límites de fichas
- Longitud de la ventana contextual (entrada + salida): 4,096
- Lenguas naturales admitidas
- Inglés
- Instrucciones de sintonización
- El modelo flan-ul2-20b se entrena previamente en la versión colosal y depurada del corpus de rastreo web de Common Crawl. El modelo se ajusta con múltiples objetivos de preentrenamiento para optimizarlo para diversas tareas de procesamiento del lenguaje natural. Se publican detalles sobre los conjuntos de datos de entrenamiento utilizados.
- Arquitectura modelo
- Codificador-decodificador
- Licencia
- licenciaApache 2.0
- Más información
- Lea los siguientes recursos:
jais-13b-chat
El modelo de la fundación jais-13b-chat es un modelo bilingüe de gran tamaño para árabe e inglés que está perfeccionado para apoyar tareas conversacionales.
- Uso
- Admite preguntas y respuestas, resumen, clasificación, generación, extracción y traducción en árabe.
- Size
- 13.000 millones de parámetros
- Nivel de precios API
- Clase 2. Para más información sobre precios, véase el cuadro 3.
- Disponibilidad
- Proporcionado por IBM y desplegado en hardware multiusuario en el centro de datos de Fráncfort.
- Pruébela
- Ejemplo de mensaje: Chat en árabe
- Límites de fichas
- Longitud de la ventana contextual (entrada + salida): 2,048
- Lenguas naturales admitidas
- Árabe (árabe moderno estándar) e inglés
- Instrucciones de sintonización
- Jais-13b-chat se basa en el modelo de aprendizaje profundo ( Jais-13b ), que es un modelo de base entrenado con 116 000 millones de tokens en árabe y 279 000 millones de tokens en inglés. Jais-13b-chat está perfeccionado con un conjunto seleccionado de 4 millones de pares de preguntas y respuestas en árabe y 6 millones en inglés.
- Arquitectura modelo
- decodificador
- Licencia
- licenciaApache 2.0
- Más información
- Lea los siguientes recursos:
Llama 3.3 70B Instruct
El gran modelo lingüístico multilingüe (LLM) Llama 3.3 de ' Meta ' es un modelo generativo (texto de entrada/texto de salida) preentrenado y ajustado a las instrucciones con 70.000 millones de parámetros.
El llama-3-3-70b-instruct es una revisión del popular Llama 3.1 70B Instruct foundation model. El modelo de la fundación Llama 3.3 es mejor en codificación, razonamiento paso a paso y llamada de herramientas. A pesar de su menor tamaño, el rendimiento del modelo Llama 3.3 es similar al del modelo Llama 3.1 405b, lo que lo convierte en una excelente opción para los desarrolladores.
- Uso
Genera diálogos multilingües como un chatbot. Utiliza un formato de consulta específico para cada modelo.
- Size
70.000 millones de parámetros
- Nivel de precios API
Clase 13
Para más información sobre precios, véase el cuadro 3.
- Disponibilidad
IBM proporciona una versión cuantificada del modelo desplegada en hardware multiusuario.
Hay dos versiones del modelo disponibles para desplegar bajo demanda para uso exclusivo:
- llama-3-3-70b-instruct-hf: Versión original publicada en Hugging Face por Meta.
- llama-3-3-70b-instruct: Una versión cuantizada del modelo que puede desplegarse con 2 GPUs en lugar de 4.
- Pruébela
Experimente con muestras:
- Límites de fichas
Longitud de la ventana contextual (entrada + salida): 131,072
- Lenguas naturales admitidas
Inglés, alemán, francés, italiano, portugués, hindi, español y tailandés
- Instrucciones de sintonización
Llama 3.3 se preentrenó con 15 billones de tokens de datos procedentes de fuentes públicas. Los datos de ajuste fino incluyen conjuntos de datos de instrucciones disponibles públicamente, así como más de 25 millones de ejemplos generados sintéticamente.
- Arquitectura modelo
Sólo decodificador
- Licencia
- Más información
Lea los siguientes recursos:
Llama 3.2 Instruct
La colección de modelos de cimientos Llama 3.2 de ' Meta ' la proporciona ' Meta. Los modelos llama-3-2-1b-instruct y llama-3-2-3b-instruct son los modelos Llama 3.2 más pequeños que caben en un dispositivo móvil. Se trata de modelos ligeros, sólo de texto, que pueden utilizarse para crear agentes altamente personalizados en los dispositivos.
Por ejemplo, puedes pedir a los modelos que resuman los diez últimos mensajes que has recibido, o que resuman tu agenda para el mes que viene.
- Uso
Genera diálogos como un chatbot. Utilice un formato de consulta específico para cada modelo. Su reducido tamaño y sus modestos requisitos de memoria y recursos informáticos permiten ejecutar localmente los modelos Llama 3.2 Instruct en la mayoría de los equipos, incluidos los móviles y otros dispositivos de última generación.
- Tamaños
- 1.000 millones de parámetros
- 3.000 millones de parámetros
- Nivel de precios API
- 1b: Clase C1
- 3b: Clase 8
Para más información sobre precios, véase el cuadro 3.
Para más información sobre precios, consulte Detalles de facturación de los activos de IA generativa.
- Disponibilidad
- Proporcionado por IBM y desplegado en hardware multiusuario.
- Pruébela
- Límites de fichas
Longitud de la ventana contextual (entrada + salida)
- 1b: 131,072
- 3b: 131,072
El máximo de nuevos tokens, es decir, de tokens generados por los modelos de la fundación por solicitud, está limitado a 8.192.
- Lenguas naturales admitidas
Inglés, alemán, francés, italiano, portugués, hindi, español y tailandés
- Instrucciones de sintonización
Preentrenado con hasta 9 billones de tokens de datos de fuentes públicas. Los logits de los modelos Llama 3.1 8B y 70B se incorporaron a la fase de preentrenamiento del desarrollo del modelo, en la que los resultados (logits) de estos modelos más grandes se utilizaron como objetivos a nivel de token. En el postentrenamiento, se alinea el modelo preentrenado utilizando el ajuste fino supervisado (SFT), el muestreo de rechazo (RS) y la optimización de preferencia directa (DPO).
- Arquitectura modelo
Sólo decodificador
- Licencia
- Más información
Lea los siguientes recursos:
Llama 3.2 Vision Instruct
La colección de modelos de cimientos Llama 3.2 de ' Meta ' la proporciona ' Meta. Los modelos llama-3-2-11b-vision-instruct y llama-3-2-90b-vision-instruct se han creado para casos de uso de entrada de imágenes y salida de texto, como la comprensión a nivel de documento, la interpretación de tablas y gráficos y el subtitulado de imágenes.
- Uso
Genera diálogos como un chatbot y puede realizar tareas de visión por ordenador, como clasificación, detección e identificación de objetos, transcripción de imagen a texto (incluida la escritura a mano), preguntas y respuestas contextuales, extracción y procesamiento de datos, comparación de imágenes y asistencia visual personal. Utiliza un formato de consulta específico para cada modelo.
- Tamaños
- 11.000 millones de parámetros
- 90.000 millones de parámetros
- Nivel de precios API
- 11b: Clase 9
- 90b: Clase 10
Para más información sobre precios, véase el cuadro 3.
- Disponibilidad
Proporcionado por IBM y desplegado en hardware multiusuario.
- Pruébela
- Límites de fichas
Longitud de la ventana contextual (entrada + salida)
- 11b: 131,072
- 90b: 131,072
El máximo de nuevos tokens, es decir, de tokens generados por los modelos de la fundación por solicitud, está limitado a 8.192. Los tokens que se cuentan para una imagen que envíe al modelo no se incluyen en la longitud de la ventana contextual.
- Lenguas naturales admitidas
Inglés, alemán, francés, italiano, portugués, hindi, español y tailandés con entradas de sólo texto. Inglés sólo cuando se incluye una imagen con la entrada.
- Instrucciones de sintonización
los modelos Llama 3.2 Vision " utilizan ponderaciones de adaptadores de razonamiento de imágenes que se entrenan por separado de las ponderaciones del modelo lingüístico principal. Esta separación preserva el conocimiento general del modelo y lo hace más eficiente tanto en tiempo de preentrenamiento como de ejecución. Los modelos de Llama 3.2 Vision se entrenaron previamente con 6000 millones de pares de imágenes y texto, lo que requirió muchos menos recursos informáticos que los necesarios para entrenar previamente el modelo de base de Llama 3.1 70B. Llama 3.2 Los modelos también funcionan de manera eficiente porque pueden aprovechar más recursos informáticos para el razonamiento de imágenes solo cuando la entrada lo requiere.
- Arquitectura modelo
Sólo decodificador
- Licencia
- Más información
Lea los siguientes recursos:
llama-guard-3-11b-vision
La colección de modelos de cimientos Llama 3.2 de ' Meta ' la proporciona ' Meta. La llama-guard-3-11b-vision es una evolución multimodal del modelo Llama-Guard-3 de sólo texto. El modelo puede utilizarse para clasificar el contenido de imágenes y texto de las entradas de los usuarios (clasificación de avisos) como seguro o inseguro.
- Uso
Utiliza el modelo para comprobar la seguridad de la imagen y el texto en un aviso de imagen a texto.
- Size
- 11.000 millones de parámetros
- Nivel de precios API
Clase 9. Para más información sobre precios, véase el cuadro 3.
- Disponibilidad
Proporcionado por IBM y desplegado en hardware multiusuario.
- Pruébela
- Límites de fichas
Longitud de la ventana contextual (entrada + salida): 131,072
El máximo de nuevos tokens, es decir, de tokens generados por los modelos de la fundación por solicitud, está limitado a 8.192. Los tokens que se cuentan para una imagen que envíe al modelo no se incluyen en la longitud de la ventana contextual.
- Lenguas naturales admitidas
Inglés, alemán, francés, italiano, portugués, hindi, español y tailandés con entradas de sólo texto. Inglés sólo cuando se incluye una imagen con la entrada.
- Instrucciones de sintonización
Modelo preentrenado y ajustado para la clasificación de la seguridad de los contenidos. Para más información sobre los tipos de contenidos clasificados como no seguros, consulte la ficha modelo.
- Arquitectura modelo
Sólo decodificador
- Licencia
- Más información
Lea los siguientes recursos:
Llama 3.1 8b
La colección de modelos de cimientos Llama 3.1 de ' Meta ' la proporciona ' Meta. El modelo de base Llama 3.1 es un modelo multilingüe que admite el uso de herramientas y tiene capacidades de razonamiento más sólidas en general.
- Uso
- Utilícelo para resumir textos largos y con agentes conversacionales multilingües o asistentes de codificación.
- Size
- 8.000 millones de parámetros
- Nivel de precios API
- Para más información sobre precios, véase el cuadro 5.
- Disponibilidad
- Despliegue bajo demanda para uso exclusivo.
- Límites de fichas
- Longitud de la ventana contextual (entrada + salida): 131,072
- Lenguas naturales admitidas
- Inglés, alemán, francés, italiano, portugués, hindi, español y tailandés
- Arquitectura modelo
- Sólo decodificador
- Licencia
- Más información
- Lea los siguientes recursos:
Llama 3.1 Instruct
La colección de modelos de cimientos Llama 3.1 de ' Meta ' la proporciona ' Meta. Los modelos básicos de Llama 3.1 son modelos generativos de sólo texto preentrenados y ajustados a las instrucciones, optimizados para casos de uso de diálogo multilingüe. Los modelos utilizan el ajuste fino supervisado y el aprendizaje por refuerzo con información humana para ajustarse a las preferencias humanas de utilidad y seguridad.
El modelo llama-3-405b-instruct es el modelo de base de código abierto más grande de Meta hasta la fecha. Este modelo de base también puede utilizarse como generador de datos sintéticos, juez de clasificación de datos posteriores a la formación o modelo de profesor/supervisor que puede mejorar las capacidades especializadas en modelos derivados más fáciles de inferir.
- Uso
Genera diálogos como un chatbot. Utiliza un formato de consulta específico para cada modelo.
- Tamaños
- 8.000 millones de parámetros
- 70.000 millones de parámetros
- 405.000 millones de parámetros
- Nivel de precios API
- 8b: Clase 1
- 70b: Clase 2
- 405b: Clase 3 (entrada), Clase 7 (salida)
Para más información sobre precios, véase el cuadro 3.
Para conocer los precios de los modelos 8b y 70b bajo demanda, consulte la Tabla 5.
- Disponibilidad
- 405b: Proporcionado por IBM desplegado en hardware multiusuario.
- 8b y 70b únicamente: Despliegue bajo demanda para uso dedicado.
Los despliegues IBM de los modelos de cimientos 8b y 70b están obsoletos. Para más detalles, consulte el ciclo de vida del modelo Foundation.
- Pruébela
- Límites de fichas
Longitud de la ventana contextual (entrada + salida)
8b y 70b: 131.072
405b: 16,384
- Aunque el modelo admite una longitud de ventana de contexto de 131.072, la ventana se limita a 16.384 para reducir el tiempo que tarda el modelo en generar una respuesta.
El máximo de nuevos tokens, es decir, de tokens generados por los modelos de la fundación por solicitud, está limitado a 4.096.
- Lenguas naturales admitidas
Inglés, alemán, francés, italiano, portugués, hindi, español y tailandés
- Instrucciones de sintonización
Llama 3.1 se preentrenó con 15 billones de tokens de datos procedentes de fuentes públicas. Los datos de ajuste fino incluyen conjuntos de datos de instrucciones disponibles públicamente, así como más de 25 millones de ejemplos generados sintéticamente.
- Arquitectura modelo
Sólo decodificador
- Licencia
- Más información
Lea los siguientes recursos:
Llama 3 Instruct
La familia de modelos de base Meta Llama 3 son modelos de lenguaje grandes, abiertos y accesibles que se construyen con Meta Llama 3 y que proporciona Meta en Hugging Face. Los modelos básicos de Llama 3 3 son modelos lingüísticos ajustados a las instrucciones que pueden admitir diversos casos de uso.
- Uso
Genera diálogos como un chatbot.
- Tamaños
- 8.000 millones de parámetros
- 70.000 millones de parámetros
- Nivel de precios API
- 8b: Clase 1
- 70b: Clase 2
Para más información sobre precios, véanse los cuadros 3 y 5.
- Disponibilidad
- Proporcionado por IBM implementado en hardware multiusuario ( 70b solo en la región de Sídney).
- Despliegue bajo demanda para uso exclusivo.
- Pruébela
- Límites de fichas
Longitud de la ventana contextual (entrada + salida)
- 8b: 8,192
- 70b: 8,192
Nota: El máximo de nuevos tokens, es decir, los tokens generados por los modelos de la fundación por solicitud, está limitado a 4.096.
- Lenguas naturales admitidas
Inglés
- Instrucciones de sintonización
Llama 3 incluye mejoras en los procedimientos posteriores a la formación que reducen las tasas de falsos rechazos, mejoran la alineación y aumentan la diversidad en el resultado del modelo de la fundación. El resultado es una mayor capacidad de razonamiento, generación de código y seguimiento de instrucciones. Llama 3 tiene más fichas de formación ( 15T ) que le permiten comprender mejor el idioma.
- Arquitectura modelo
Sólo decodificador
- Licencia
- Más información
Lea los siguientes recursos:
Llama 2 Chat
Los modelos de Llama 2 Chat son proporcionados por Meta en Hugging Face. Los modelos afinados son útiles para la generación de chats. Los modelos se preentrenan con datos en línea disponibles públicamente y se perfeccionan mediante aprendizaje por refuerzo a partir de comentarios humanos.
Puede elegir entre utilizar la versión del modelo con 13.000 millones de parámetros o con 70.000 millones.
- Uso
Genera diálogos como un chatbot. Utiliza un formato de consulta específico para cada modelo.
- Size
- 13.000 millones de parámetros
- 70.000 millones de parámetros
- Nivel de precios API
Clase 1. Para más información sobre precios, véanse los cuadros 3 y 5.
- Disponibilidad
- 13b
- Proporcionado por IBM y desplegado en hardware multiusuario
- Despliegue bajo demanda para uso exclusivo
- 70b
- Despliegue bajo demanda para uso exclusivo
El despliegue de este modelo de base proporcionado por IBM ha quedado obsoleto. Véase Ciclo de vida del modelo Foundation.
- 13b
- Pruébela
Experimente con muestras:
- Límites de fichas
Longitud de la ventana contextual (entrada + salida)
- 13b: 4,096
- 70b: 4,096
- Lenguas naturales admitidas
Inglés
- Instrucciones de sintonización
Llama 2 se preentrenó con 2 billones de tokens de datos procedentes de fuentes públicas. Los datos de ajuste incluyen conjuntos de datos de instrucciones disponibles públicamente y más de un millón de ejemplos nuevos anotados por humanos.
- Arquitectura modelo
Sólo decodificador
- Licencia
- Más información
Lea los siguientes recursos:
mistral-large
Mistral Large 2 es una familia de grandes modelos de lenguaje desarrollados por Mistral AI. El modelo de la fundación mistral-large habla con fluidez y comprende la gramática y el contexto cultural del inglés, francés, español, alemán e italiano. El modelo de base también puede entender docenas de otros idiomas. El modelo tiene una gran ventana de contexto, lo que significa que puede añadir documentos de gran tamaño como información contextual en las solicitudes que envíe para casos de uso de generación aumentada por recuperación (RAG). El modelo de base de datos de la Fundación de la Web ( mistral-large ) es eficaz en tareas programáticas, como generar, revisar y comentar código, invocar funciones, y puede generar resultados en formato JSON.
Para más información sobre los primeros pasos, consulta la páginawatsonx.ai en el sitio web ' Mistral AI.
- Uso
Adecuado para tareas complejas de razonamiento multilingüe, incluidas la comprensión de textos, la transformación y la generación de código. Debido a la gran ventana contextual del modelo, utilice el parámetro max tokens para especificar un límite de tokens cuando pregunte al modelo.
- Nivel de precios API
El precio para inferir el modelo de e Mistral Large o proporcionado no se asigna mediante un multiplicador. Se utilizan los siguientes niveles de precios especiales:
- Nivel de entrada: Mistral Large Entrada
- Nivel de salida: Mistral Large
Para más información sobre precios, véase el cuadro 3. Para obtener detalles sobre los precios de la implementación de este modelo bajo demanda, consulte la Tabla 5.
Atención : Este modelo de fundación tiene una tarifa de acceso adicional que se aplica por hora de uso.- Disponibilidad
- Proporcionado por IBM y desplegado en hardware multiusuario
- Despliegue bajo demanda para uso exclusivo
- Pruébela
- Límites de fichas
Longitud de la ventana contextual (entrada + salida): 131,072
Nota: El número máximo de nuevos tokens, es decir, los tokens generados por el modelo de fundación por solicitud, está limitado a 16 384.
- Lenguas naturales admitidas
Inglés, francés, alemán, italiano, español, chino, japonés, coreano, portugués, neerlandés, polaco y docenas de idiomas más.
- Lenguajes de programación soportados
El modelo mistral-large se ha entrenado en más de 80 lenguajes de programación, incluidos Python, Java, C, C++, JavaScript, Bash, Swift y Fortran.
- Instrucciones de sintonización
El modelo de la fundación mistral-large está preentrenado en diversos conjuntos de datos como texto, bases de código y datos matemáticos de varios dominios.
- Arquitectura modelo
Sólo decodificador
- Licencia
Para conocer las condiciones de uso, incluida la información sobre las protecciones contractuales relacionadas con la indemnización limitada, consulte Condiciones de uso.
- Más información
- Lea los siguientes recursos:
mistral-large-instruct-2411
El modelo de base mistral-large-instruct-2411, de Mistral AI , pertenece a la familia de modelos Mistral Large 2. La modelo está especializada en razonamiento, conocimiento y codificación. El modelo amplía las capacidades del modelo de base de datos de la Fundación de Internet ( Mistral-Large-Instruct-2407 ) para incluir un mejor manejo de contextos de mensajes largos, instrucciones de mensajes del sistema y solicitudes de llamada de funciones.
- Uso
El modelo de la fundación mistral-large-instruct-2411 es multilingüe, competente en codificación, centrado en los agentes y se adhiere a las indicaciones del sistema para ayudar en las tareas de generación aumentada de recuperación y otros casos de uso en los que es necesario manejar indicaciones con un contexto amplio.
- Size
123 mil millones de parámetros
- Nivel de precios API
Para más información sobre precios, véase el cuadro 5.
Atención : Este modelo de fundación tiene una tarifa de acceso adicional que se aplica por hora de uso.- Disponibilidad
Despliegue bajo demanda para uso exclusivo.
- Pruébela
- Límites de fichas
Longitud de la ventana contextual (entrada + salida): 131,072
- Lenguas naturales admitidas
Habla varios idiomas y es especialmente competente en inglés, francés, alemán, español, italiano, portugués, chino, japonés, coreano, árabe e hindi.
- Lenguajes de programación soportados
El modelo de base de datos de la Fundación de la Ciencia de Datos ( mistral-large-instruct-2411 ) ha sido entrenado en más de 80 lenguajes de programación, incluyendo: JavaScript ( Python ), Java, C, C++, Ruby ( JavaScript, ), Bash, Swift y Python ( Fortran ).
- Instrucciones de sintonización
El modelo de base mistral-large-instruct-2411 amplía el modelo de base Mistral-Large-Instruct-2407 de Mistral AI. El entrenamiento mejoró las capacidades de razonamiento del modelo. La formación también se centró en reducir las alucinaciones ajustando el modelo para que sea más prudente y perspicaz en sus respuestas y para que reconozca cuándo no puede encontrar soluciones o no tiene suficiente información para dar una respuesta fiable.
- Licencia
Para conocer las condiciones de uso, incluida la información sobre las protecciones contractuales relacionadas con la indemnización limitada, consulte Condiciones de uso.
- Más información
- Lea los siguientes recursos:
mistral-nemo-instruct-2407
El modelo de base de la fundación mistral-nemo-instruct-2407 de Mistral AI se construyó en colaboración con NVIDIA. Mistral NeMo obtiene unos resultados excepcionales en razonamiento, conocimiento del mundo y precisión de codificación, especialmente para un modelo de su tamaño.
- Uso
- El modelo " Mistral NeMo " es multilingüe y se entrena en la llamada a funciones.
- Size
- 12.000 millones de parámetros
- Nivel de precios API
- Para más información sobre precios, véase el cuadro 5.
- Disponibilidad
- Despliegue bajo demanda para uso exclusivo.
- Límites de fichas
- Longitud de la ventana contextual (entrada + salida): 131,072
- Lenguas naturales admitidas
- Habla varios idiomas y es especialmente competente en inglés, francés, alemán, español, italiano, portugués, chino, japonés, coreano, árabe e hindi.
- Lenguajes de programación soportados
- El modelo " Mistral NeMo " se ha entrenado en varios lenguajes de programación.
- Instrucciones de sintonización
- Mistral NeMo tuvo una fase avanzada de ajuste y alineación.
- Licencia
- licenciaApache 2.0
- Más información
- Lea los siguientes recursos:
mistral-small-24b-instruct-2501
Mistral Small 3 es un modelo de base rentable, rápido y fiable desarrollado por Mistral AI. El modelo de razonamiento mistral-small-24b-instruct-2501, que se ha perfeccionado mediante instrucciones, funciona bien en tareas que requieren cierta capacidad de razonamiento, como la extracción de datos, la síntesis de un documento o la redacción de descripciones. Creado para admitir aplicaciones de agente, con cumplimiento de las indicaciones del sistema y llamada de funciones con generación de salida JSON.
Para más información sobre los primeros pasos, consulta la páginawatsonx.ai en el sitio web ' Mistral AI.
- Uso
Adecuado para agentes de conversación y llamadas de función.
- Nivel de precios API
Clase 9
Para más información sobre precios, véase el cuadro 3.
- Disponibilidad
Proporcionado por IBM implementado en hardware multiusuario solo en la región de Frankfurt.
- Pruébela
- Límites de fichas
Longitud de la ventana de contexto (entrada + salida): 32,768
Nota:
- El máximo de nuevos tokens, es decir, los tokens generados por el modelo de fundación por solicitud, está limitado a 16 384.
- Lenguas naturales admitidas
Inglés, francés, alemán, italiano, español, chino, japonés, coreano, portugués, neerlandés, polaco y docenas de idiomas más.
- Lenguajes de programación soportados
El modelo de Inteligencia Artificial ( mistral-small-24b-instruct-2501 ) ha sido entrenado en más de 80 lenguajes de programación, incluyendo: JavaScript ( Python ), Java, C, C++, Ruby ( JavaScript, ), Bash, Swift y Python ( Fortran ).
- Instrucciones de sintonización
El modelo de la fundación mistral-small-24b-instruct-2501 está preentrenado en diversos conjuntos de datos como texto, bases de código y datos matemáticos de varios dominios.
- Arquitectura modelo
Sólo decodificador
- Licencia
- Más información
Lea los siguientes recursos:
mixtral-8x7b-base
Mistral AI proporciona el modelo de base mixtral-8x7b-base. El modelo de la fundación mixtral-8x7b-base es una red generativa de mezcla de expertos dispersos que agrupa los parámetros del modelo y, a continuación, para cada token elige un subconjunto de grupos (denominados expertos ) para procesar el token. Como resultado, cada ficha tiene acceso a 47.000 millones de parámetros, pero sólo utiliza 13.000 millones de parámetros activos para la inferencia, lo que reduce los costes y la latencia.
- Uso
Adecuado para muchas tareas, como clasificación, resumen, generación, creación y conversión de códigos y traducción de idiomas.
- Size
46.46.7.000 millones de parámetros
- Nivel de precios API
Para más información sobre precios, véase el cuadro 5.
- Disponibilidad
Despliegue bajo demanda para uso exclusivo.
- Límites de fichas
Longitud de la ventana de contexto (entrada + salida): 32,768
Nota: El número máximo de nuevos tokens, es decir, los tokens generados por el modelo de fundación por solicitud, está limitado a 16 384.
- Lenguas naturales admitidas
Inglés, francés, alemán, italiano, español
- Arquitectura modelo
Sólo decodificador
- Licencia
- Más información
Lea los siguientes recursos:
mixtral-8x7b-instruct-v01
Mistral AI proporciona el modelo de base mixtral-8x7b-instruct-v01. El modelo de la fundación mixtral-8x7b-instruct-v01 es una red generativa de mezcla de expertos dispersa preentrenada que agrupa los parámetros del modelo y, a continuación, para cada token, elige un subconjunto de grupos (denominados expertos ) para procesar el token. Como resultado, cada ficha tiene acceso a 47.000 millones de parámetros, pero sólo utiliza 13.000 millones de parámetros activos para la inferencia, lo que reduce los costes y la latencia.
- Uso
Adecuado para muchas tareas, como clasificación, resumen, generación, creación y conversión de códigos y traducción de idiomas. Debido a la ventana de contexto inusualmente grande del modelo, utilice el parámetro max tokens para especificar un límite de tokens cuando pregunte al modelo.
- Size
46.46.7.000 millones de parámetros
- Nivel de precios API
Clase 1. Para más información sobre precios, véase el cuadro 3.
- Pruébela
- Límites de fichas
Longitud de la ventana de contexto (entrada + salida): 32,768
Nota: El número máximo de nuevos tokens, es decir, los tokens generados por el modelo de fundación por solicitud, está limitado a 16 384.
- Lenguas naturales admitidas
Inglés, francés, alemán, italiano, español
- Instrucciones de sintonización
El modelo de base de datos Mixtral está preentrenado con datos de Internet. El modelo de base de la fundación Mixtral 8x7B Instruct está ajustado para seguir instrucciones.
- Arquitectura modelo
Sólo decodificador
- Licencia
- Más información
Lea los siguientes recursos:
mt0-xxl-13b
El modelo de mt0-xxl-13b es proporcionado por BigScience en Hugging Face. El modelo está optimizado para soportar tareas de generación y traducción de idiomas con inglés, idiomas distintos del inglés y avisos multilingües.
Utilización: Uso general con indicaciones ' zero- o ' few-shot '. En las tareas de traducción, incluya un punto para indicar el final del texto que desea traducir o el modelo podría continuar la frase en lugar de traducirla.
- Size
- 13.000 millones de parámetros
- Nivel de precios API
- Clase 2. Para más información sobre precios, véase el cuadro 5.
- Disponibilidad
- Desplegado bajo demanda para uso exclusivo.
- Pruébela
- Experimenta con las siguientes muestras:
- Lenguas naturales admitidas
- Multilingüe
- Límites de fichas
- Longitud de la ventana contextual (entrada + salida): 4,096
- Lenguas naturales admitidas
- El modelo se entrena previamente con datos multilingües en 108 idiomas y se perfecciona con datos multilingües en 46 idiomas para realizar tareas multilingües.
- Instrucciones de sintonización
- BigScience publica detalles sobre su código y sus conjuntos de datos.
- Arquitectura modelo
- Codificador-decodificador
- Licencia
- licenciaApache 2.0
- Más información
- Lea los siguientes recursos:
pixtral-12b
Pixtral 12B es un modelo multimodal desarrollado por Mistral AI. El modelo de la base de datos de imágenes de la Fundación Internacional para la Conservación de los Documentos ( pixtral-12b ) está entrenado para entender tanto imágenes como documentos naturales y es capaz de capturar imágenes con su resolución y relación de aspecto naturales, lo que proporciona flexibilidad en el número de tokens utilizados para procesar una imagen. El modelo de base admite varias imágenes en su ventana de contexto larga. El modelo es eficaz en tareas multimodales de entrada de imágenes y salida de texto y destaca en el seguimiento de instrucciones.
- Uso
- Comprensión de gráficos y figuras, respuesta a preguntas de documentos, razonamiento multimodal y seguimiento de instrucciones.
- Size
- 12.000 millones de parámetros
- Nivel de precios API
- Clase 9. Para más información sobre precios, véase el cuadro 3.
Disponibilidad
- Pruébela
- Límites de fichas
Longitud de la ventana contextual (entrada + salida): 128,000
El máximo de nuevos tokens, es decir, de tokens generados por los modelos de la fundación por solicitud, está limitado a 8.192.
- Lenguas naturales admitidas
Inglés
- Instrucciones de sintonización
El modelo pixtral-12b se entrena con datos de imagen y texto intercalados y se basa en el modelo Mistral Nemo con un codificador de visión de 400 millones de parámetros entrenado desde cero.
- Arquitectura modelo
Sólo decodificador
- Licencia
- Más información
Lea los siguientes recursos:
Los modelos de cimientos obsoletos se resaltan con un icono de advertencia de obsoleto . Para obtener más información sobre la retirada de productos, incluidos los detalles de la retirada de modelos de la fundación, consulte Ciclo de vida de los modelos de la fundación.
Más información
Tema principal: Modelos de bases compatibles