Para encontrar el foundation model que mejor se adapte a sus necesidades, compare los resultados de los distintos modelos de cimentación con los parámetros de rendimiento pertinentes.
Los puntos de referencia de los modelos Foundation son métricas que ponen a prueba la capacidad de un " foundation model" para generar resultados precisos o esperados a partir de conjuntos de datos de prueba específicos. Los criterios de referencia abarcan diversas capacidades, como si el modelo puede responder a preguntas sobre temas que van desde las matemáticas elementales hasta asuntos jurídicos y finanzas, o si el modelo puede resumir textos, generar textos en otros idiomas, etc.
Busque puntos de referencia que pongan a prueba el modelo frente a las tareas específicas que le interesan. Revisar las métricas puede ayudarle a calibrar las capacidades de un foundation model antes de probarlo.
The following foundation model benchmarks are available in watsonx.ai:
- Evaluaciones comparativas de comprensión del inglésIBM
- Puntos de referencia de código abierto para la comprensión del inglés
- Puntos de referencia de código abierto para la comprensión multilingüe de idiomas
Encontrar las puntuaciones de referencia del modelo
Para acceder a los puntos de referencia foundation model, siga estos pasos:
En watsonx.ai Prompt Lab en modo chat, haga clic en el campo Modelo y, a continuación, seleccione Ver todos los modelos de cimientos.
Haga clic en la pestaña Puntos de referencia del modelo para ver los puntos de referencia disponibles.
Haga clic en el icono Filtro para cambiar factores como los modelos o tipos de referencia que se mostrarán en la vista de comparación.
Las puntuaciones van de 0 a 100. Cuanto más altas sean las puntuaciones, mejor.
Evaluaciones comparativas de comprensión del inglés IBM
Los puntos de referencia de comprensión del inglés IBM son puntos de referencia publicados por IBM basados en pruebas realizadas por IBM Research para evaluar la capacidad de cada modelo para realizar tareas comunes.
En la tabla siguiente se describen los conjuntos de datos, los objetivos y las métricas de las pruebas comparativas IBM.
Nombre de la referencia | Objetivo | Descripción del conjunto de datos | Métrica |
---|---|---|---|
Resumen | Condensa grandes cantidades de texto en unas pocas frases que recogen los puntos principales. Resulta útil, por ejemplo, para capturar las ideas clave, las decisiones o los puntos de acción de la transcripción de una reunión larga. | Asks the models to summarize text and compares the AI-generated summaries to human-generated summaries from three datasets: • IT dialogs • Technical support dialogs • Social media blogs |
Puntuación media ROUGE-L |
Generación aumentada por recuperación (RAG) | Técnica en la que un foundation model se complementa con conocimientos procedentes de fuentes externas. En la etapa de recuperación, se identifican los documentos pertinentes de una fuente externa a partir de la consulta del usuario. En el paso de generación, se incluyen partes de esos documentos en la pregunta para generar una respuesta basada en información relevante. | Presenta preguntas basadas en la información de documentos de 3 conjuntos de datos distintos | Puntuación media ROUGE-L |
Clasificación | Identifica los datos como pertenecientes a distintas clases de información. Útil para categorizar la información, como las opiniones de los clientes, de modo que pueda gestionarla o actuar en consecuencia con mayor eficacia. | Cinco conjuntos de datos con contenidos variados, incluidos contenidos contractuales que deben clasificarse y contenidos que deben evaluarse en cuanto a sentimiento, emoción y tono. | Puntuación media F1 |
Generación | Genera lenguaje en respuesta a las instrucciones y pistas que se proporcionan en las indicaciones foundation model. | Un conjunto de datos con correos electrónicos de marketing | Puntuación de SacreBLEU |
Extracción | Busca términos o menciones clave en los datos basándose en el significado semántico de las palabras y no en simples coincidencias de texto. | Compara las menciones de entidades encontradas por el modelo con las menciones de entidades encontradas por un humano. Los conjuntos de datos incluyen uno con 12 entidades con nombre y otro con tres tipos de sentimientos. | Puntuación media F1 |
Modelos de referencia de código abierto para la comprensión del inglés
Las pruebas comparativas de comprensión del inglés de código abierto muestran los resultados de las pruebas realizadas por IBM Research utilizando principalmente conjuntos de datos en inglés publicados por terceros, como instituciones académicas o equipos de investigación de la industria.
En la tabla siguiente se describen los conjuntos de datos, los objetivos y las métricas de los parámetros de comprensión del inglés.
Nombre de la referencia | Objetivo | Descripción del conjunto de datos | Métrica | Información relacionada |
---|---|---|---|---|
20 Grupos de noticias | Evalúa la capacidad de un modelo para clasificar texto. | Una versión del conjunto de datos 20 newsgroups de scikit-learn con casi 20.000 documentos de grupos de noticias agrupados en 20 categorías, como ordenadores, automóviles, deportes, medicina, espacio y política. | Puntuación F1 | - Ficha del conjunto de datos sobre la Hugging Face |
Arena-Hard-Auto | Evalúa la capacidad de un modelo para responder a preguntas. | 500 peticiones de usuarios a partir de datos en directo que se envían a la plataforma de crowd-sourcing Chatbot Arena. | La métrica muestra el porcentaje de victorias de las respuestas modelo. | - Ficha del conjunto de datos sobre Hugging Face - Documento de investigación |
AttaQ 500 | Evalúa si un modelo es susceptible de vulnerabilidades de seguridad. | Preguntas diseñadas para provocar respuestas perjudiciales en las categorías de engaño, discriminación, información perjudicial, abuso de sustancias, contenido sexual, información personal identificable (IPI) y violencia. | La métrica muestra la seguridad del modelo. | - Ficha del conjunto de datos sobre Hugging Face - Documento de investigación |
BBQ (Parámetro de sesgo para responder a las preguntas) |
Evalúa la capacidad de un modelo para reconocer enunciados que contienen opiniones sesgadas sobre personas de lo que los angloparlantes estadounidenses consideran clases protegidas. | Conjuntos de preguntas que ponen de relieve los prejuicios. | La métrica mide la precisión de las respuestas. | - Ficha del conjunto de datos sobre Hugging Face - Documento de investigación |
BillSum | Evalúa la capacidad de un modelo para resumir un texto. | Conjunto de datos que resume los proyectos de ley del Congreso de EE.UU. y del estado de California. | Puntuación ROUGE-L para el resumen generado. | - Ficha del conjunto de datos sobre Hugging Face - Documento de investigación |
Base de datos de reclamaciones de la CFPB | Evaluar la capacidad de un modelo para clasificar texto. | Oficina de Protección Financiera del Consumidor (CFPB) quejas de clientes reales sobre informes de crédito, préstamos estudiantiles, transferencias de dinero y otros servicios financieros. | Puntuación F1 | - Ficha del conjunto de datos en Unitxt.ai |
CLAPnq | Evaluar la capacidad de un modelo para utilizar la información de los pasajes para responder a preguntas. | Parejas de preguntas y respuestas largas. | Puntuación F1 | - Ficha del conjunto de datos sobre Hugging Face - Documento de investigación |
FinQA | Evalúa la capacidad de un modelo para responder a preguntas sobre finanzas y realizar razonamientos numéricos. | Más de 8.000 pares de preguntas sobre finanzas escritas por expertos en finanzas. | La métrica mide la precisión de las respuestas. | - Ficha del conjunto de datos sobre Hugging Face - Documento de investigación |
FLORES-101 | Evalúa la capacidad de un modelo para traducir texto. | Artículos de la Wikipedia en inglés traducidos a 101 idiomas por traductores humanos profesionales | Puntuación de SacreBLEU | - Ficha del conjunto de datos sobre Hugging Face - Documento de investigación |
HellaSwag | Evalúa la capacidad de un modelo para completar escenarios de sentido común. | Preguntas de opción múltiple extraídas de ActivityNet y WikiHow. | La métrica mide la precisión de las respuestas. | - Ficha del conjunto de datos sobre Hugging Face - Documento de investigación |
LegalBench | Evalúa la capacidad de un modelo para razonar sobre escenarios jurídicos. | 162 tareas que abarcan diversos textos, estructuras y ámbitos jurídicos. | Puntuación F1 | - Ficha del conjunto de datos sobre Hugging Face - Documento de investigación |
MMLU-Pro | Evaluar la capacidad de un modelo para comprender tareas difíciles. | Una versión más desafiante del conjunto de datos Massive Multitask Language Understanding (MMLU) que tiene más preguntas centradas en el razonamiento y aumenta las opciones de respuesta de 4 a 10 opciones. | La métrica mide la precisión de las respuestas. | - Ficha del conjunto de datos sobre Hugging Face - Documento de investigación |
OpenBookQA | Evaluar la capacidad de un modelo para utilizar el razonamiento en varios pasos y la comprensión de textos enriquecidos para responder a preguntas de opción múltiple. | Simula el formato de un examen a libro abierto para proporcionar pasajes de apoyo y pares de preguntas y respuestas de opción múltiple. | La métrica mide la precisión de las respuestas. | - Ficha del conjunto de datos sobre Hugging Face - Documento de investigación |
TLDR | Evalúa la capacidad de un modelo para resumir un texto. | Más de 3 M de posts preprocesados de Reddit con una longitud media de 270 palabras para el contenido y 28 palabras en el resumen. | Puntuación ROUGE-L para el resumen generado. | - Ficha del conjunto de datos sobre Hugging Face - Documento de investigación |
TNE universal | Evalúa la capacidad de un modelo para reconocer entidades con nombre. | Incluye 19 conjuntos de datos de diversos ámbitos, como noticias y redes sociales. Los conjuntos de datos incluyen anotaciones de entidades con nombre y abarcan 13 idiomas distintos. | Puntuación F1 | - Ficha del conjunto de datos sobre la Hugging Face |
Puntos de referencia de código abierto sobre comprensión lingüística multilingüe para modelos fundacionales
Las pruebas comparativas de comprensión lingüística multilingüe de código abierto muestran los resultados de las pruebas realizadas por IBM Research utilizando conjuntos de datos multilingües publicados por terceros, como instituciones académicas o equipos de investigación de la industria.
En la tabla siguiente se describen los conjuntos de datos, los objetivos, las métricas y las lenguas de destino de las pruebas multilingües.
Nombre de la referencia | Objetivo | Descripción del conjunto de datos | Métrica | Idiomas | Información relacionada |
---|---|---|---|---|---|
Inglés básico | Evalúa si un modelo puede traducir frases en inglés a estos idiomas: Francés, alemán, español, portugués, japonés y coreano. | 850 palabras clave en inglés y sus traducciones. | La métrica muestra la puntuación de contención de cadenas, que mide la distancia de palabras o caracteres entre la frase de destino y la traducción de referencia. | El conjunto de datos es compatible con inglés, francés, alemán, español, portugués, japonés y coreano. Disponible en watsonx.ai para los modelos que admiten coreano. | Lista de palabras de inglés básico de Ogden |
Belebele | Evalúa la capacidad de lectura-comprensión multilingüe y de respuesta a preguntas de un modelo. | Preguntas, pasajes relacionados y respuestas de opción múltiple en 122 idiomas. | La métrica mide la precisión de las respuestas. | Disponible en watsonx.ai para los modelos compatibles con alemán, árabe, coreano, español, francés, japonés y portugués. | Ficha del conjunto de datos sobre la Hugging Face |
MASIVO | Evalúa la capacidad de un modelo para clasificar texto multilingüe. | Más de 1 millón de expresiones procedentes de interacciones con el asistente de voz de Amazon, localizadas en 52 idiomas y anotadas con información sobre la intención y el tipo de ranura. | Puntuación F1 | Disponible en watsonx.ai para los modelos compatibles con alemán, árabe, coreano, español, francés, japonés y portugués. | Ficha del conjunto de datos sobre la Hugging Face |
MASIVO con indicaciones en inglés | Evalúa la capacidad de un modelo para clasificar texto multilingüe con etiquetas en inglés. | Más de 1 millón de expresiones procedentes de interacciones con el asistente de voz de Amazon, localizadas en 52 idiomas y anotadas con información sobre la intención y el tipo de ranura. | Puntuación F1 | Disponible en watsonx.ai para los modelos compatibles con árabe y coreano. | Ficha del conjunto de datos sobre la Hugging Face |
MKQA | Evalúa la capacidad de respuesta multilingüe de un modelo. | Incluye 10 K pares de preguntas y respuestas para cada una de las 26 lenguas (en total 260 K pares). | Puntuación F1 | Disponible en watsonx.ai para los modelos compatibles con alemán, árabe, coreano, español, francés, japonés y portugués. | Ficha del conjunto de datos sobre la Hugging Face |
MLSUM | Evalúa la capacidad de un modelo para resumir textos multilingües. | Más de 1.5 millones de pares de artículos y resúmenes de periódicos en línea en 5 idiomas (francés, alemán, español, ruso y turco) y periódicos en inglés de CNN y Daily Mail | Puntuación ROUGE-L para el resumen generado. | Disponible en watsonx.ai para los modelos compatibles con francés y alemán. | Ficha del conjunto de datos sobre la Hugging Face |
XGLUE.qg | Evalúa la capacidad de un modelo para comprender textos multilingües y generar preguntas perspicaces sobre el texto. | 11 tareas en 19 idiomas | Puntuación ROUGE-L de la pregunta generada. | Disponible en watsonx.ai para los modelos compatibles con francés, alemán, portugués y español. | Ficha del conjunto de datos sobre la Hugging Face |
XGLUE.wpr | Evalúa la capacidad de un modelo para recuperar y clasificar textos multilingües. | 11 tareas que abarcan 19 idiomas. | Puntuación de la ganancia acumulada normalizada descontada (NDCG) para la recuperación de información y la clasificación. | Disponible en watsonx.ai para los modelos compatibles con francés, alemán, portugués y español. | Ficha del conjunto de datos sobre la Hugging Face |
XLSum | Evalúa la capacidad de un modelo para resumir textos multilingües. | 1. 1.35 M resúmenes comentados por profesionales de artículos de noticias de la BBC en 44 idiomas. | Puntuación ROUGE-L para el resumen generado. | Disponible en watsonx.ai para los modelos compatibles con árabe, francés, japonés, coreano, portugués y español. | Ficha del conjunto de datos sobre la Hugging Face |
XMMLU | Evalúa la capacidad del modelo para responder a preguntas multilingües sobre matemáticas elementales, historia de EE.UU., informática, derecho, etc. | Traducciones del conjunto de datos en inglés de Massive Multitask Language Understanding (MMLU), que consta de preguntas tipo test de conocimientos generales. | La métrica mide la precisión de las respuestas. | Disponible en watsonx.ai para los modelos compatibles con árabe, francés y coreano. | |
XNLI | Evalúa la capacidad de un modelo para clasificar frases multilingües. | Subconjunto de datos del conjunto de datos MNLI (Multi-Genre Natural Language Inference), que incluye pares de frases de origen colectivo anotadas con información textual de vinculación y traducidas a 14 idiomas. | La métrica mide la precisión de las respuestas. | Disponible en watsonx.ai para los modelos compatibles con árabe, francés, alemán y español. | Ficha del conjunto de datos en GitHub |
XNLI con instrucciones en inglés | Evalúa la capacidad de un modelo para clasificar frases multilingües cuando las instrucciones están en inglés. | Subconjunto de datos del conjunto de datos MNLI (Multi-Genre Natural Language Inference), que contiene pares de frases de origen colectivo anotadas con información textual de vinculación, traducidas a 14 idiomas | La métrica mide la precisión de las respuestas. | Disponible en watsonx.ai para los modelos compatibles con el árabe. | Ficha del conjunto de datos en GitHub |
XWinograd | Evalúa la capacidad de un modelo para comprender el contexto y resolver la ambigüedad en un texto multilingüe. | Colección multilingüe de esquemas Winograd, que son pares de frases con significados drásticamente diferentes debido a ligeros cambios de palabras. | La métrica mide la precisión de las respuestas. | Disponible en watsonx.ai para los modelos que admiten portugués. | Ficha del conjunto de datos sobre la Hugging Face |
Entender las métricas de referencia
Algunas métricas se explican por sí mismas, como la puntuación de precisión de un modelo probado con conjuntos de datos de opción múltiple. Otros son menos conocidos. La siguiente lista describe las métricas que se utilizan para cuantificar el rendimiento del modelo en watsonx.ai:
- F1
- Mide si se ha alcanzado el equilibrio óptimo entre precisión y recuperación. A menudo se utiliza para puntuar tareas de clasificación en las que la precisión mide cuántas de las frases totales se clasifican como la clase de frase correcta y la recuperación mide con qué frecuencia se clasifican las frases que deberían clasificarse.
- Ganancia acumulada descontada normalizada (NDCG)
- Una métrica de calidad de la clasificación que compara las clasificaciones generadas con un orden de referencia en el que los elementos más relevantes se encuentran en la parte superior de la lista clasificada.
- ROUGE-L
- Se utiliza para puntuar la calidad de los resúmenes midiendo la similitud entre el resumen generado y el resumen de referencia. ROUGE son las siglas de Recall-Oriented Understudy for Gisting Evaluation. La L significa puntuación basada en la secuencia de palabras coincidentes más larga. Esta métrica busca coincidencias dentro de la secuencia que reflejen el orden de las palabras a nivel de frase.
- SacreBLEU
- Bilingual Evaluation Understudy (BLEU) es una métrica para comparar una traducción generada con una traducción de referencia. SacreBLEU es una versión que facilita el uso de la métrica proporcionando conjuntos de datos de prueba de muestra y gestionando la tokenización de forma estandarizada. Se utiliza sobre todo para evaluar la calidad de las tareas de traducción, pero también puede emplearse para puntuar tareas de resumen.
- Seguridad
- Una métrica utilizada con el índice de referencia AttaQ 500 que combina la métrica Adjusted Rand Index (ARI), que tiene en cuenta las etiquetas asociadas a los ataques, y la Silhouette Score, que evalúa características basadas en clusters como la cohesión, la separación, la distorsión y la probabilidad. Para más información, consulte el artículo de investigación Unveiling safety vulnerabilities of large language models.
- Porcentaje de victorias
- Métrica utilizada con la referencia Arena-Hard-Auto para mostrar el porcentaje de conversaciones en las que las respuestas del modelo conducen a la finalización satisfactoria de una acción. Para más información, consulte el documento de investigación From crowsourced data to high-quality benchmarks: Arena-Hard y Benchbuilder pipelie.
Más información
Tema principal: Modelos de fundaciones subvencionadas