Puede realizar un seguimiento y medir los resultados de sus activos de IA para ayudar a garantizar que cumplen los procesos empresariales, independientemente de dónde se creen o ejecuten sus modelos.
Puede utilizar las evaluaciones de modelos como parte de sus estrategias de gobernanza de la IA para garantizar que los modelos de los entornos de despliegue cumplen las normas de conformidad establecidas, independientemente de las herramientas y marcos que se utilicen para crear y ejecutar los modelos. Este enfoque garantiza que los modelos estén libres de sesgos, puedan ser explicados y comprendidos fácilmente por los usuarios empresariales y sean auditables en las transacciones comerciales.
- Servicio necesario
- tiempo de ejecución de watsonx.ai
- Formato de los datos de formación
- Relacional: Tablas en orígenes de datos relacionales
- Tabular: Archivos Excel (.xls o .xlsx), archivos CSV
- Textual: En los archivos o tablas relacionales soportadas
- Datos conectados
- Cloud Object Storage (infrastructure)
- Db2
- Tamaño de datos
- Cualquiera
Con Watsonx.governance, puede evaluar los activos de IA generativa y los modelos de aprendizaje automático para obtener información sobre el rendimiento del modelo a lo largo del ciclo de vida de la IA.
Puede ejecutar los siguientes tipos de evaluaciones con watsonx.governance:
- Calidad
Evalúa en qué medida su modelo predice resultados correctos que coinciden con los datos de prueba etiquetados. - Equidad
Evalúa si el modelo produce resultados sesgados que favorecen a un grupo en detrimento de otro. - Modelos compatibles con Drift
Evalúa cómo su modelo cambia en precisión y consistencia de datos comparando transacciones recientes con sus datos de entrenamiento. - Deriva v2
Evalúa los cambios en la salida de su modelo, la precisión de sus predicciones y la distribución de sus datos de entrada. - Salud del modelo
Evalúa la eficacia con la que el despliegue de su modelo procesa sus transacciones. - Calidad de la IA generativa
Mide lo bien que su foundation model realiza las tareas
Al activar las evaluaciones, puede optar por ejecutarlas de forma continua en los siguientes intervalos programados por defecto:
Evaluación | Calendario por defecto de la suscripción en línea | Programación por defecto de la suscripción por lotes |
---|---|---|
Calidad | 1 hora | 1 semana |
Equidad | 1 hora | 1 semana |
Desviación | 3 horas | 1 semana |
Desviación v2 | 1 día | N/D |
Estado del modelo | 1 hora | N/D |
Calidad de la IA generativa | 1 hora | N/D |
Las evaluaciones del estado del modelo se activan de forma predeterminada cuando se proporcionan datos de carga útil para evaluar activos de IA generativa y modelos de aprendizaje automático.
Evaluación de activos de IA generativa
Puede evaluar los activos de IA generativa para medir lo bien que su modelo realiza las siguientes tareas:
- Clasificación de texto
- Clasifique el texto en clases o etiquetas predefinidas.
- Resumen de texto
- Resumir un texto de forma precisa y concisa.
- Generación de contenido
- Producir textos u otras formas de contenido pertinentes y coherentes a partir de sus aportaciones.
- Respuesta a preguntas
- Proporcionar respuestas precisas y contextualmente pertinentes a sus consultas.
- Extracción de entidades
- Identificar y categorizar segmentos específicos de información dentro de un texto.
- Recuperación-Generación aumentada
- Recupere e integre conocimientos externos en los resultados de sus modelos.
El tipo de evaluación que puede ejecutar viene determinado por el tipo de tarea que desea que realice su modelo. Las evaluaciones de IA generativa calculan métricas que proporcionan información sobre el rendimiento de su modelo en estas tareas. Las evaluaciones de equidad y calidad sólo pueden medir el rendimiento de las tareas de clasificación de textos. Drift v2 y las evaluaciones de calidad de IA generativa pueden medir el rendimiento de cualquier tipo de tarea.
Puede evaluar los activos de plantillas de avisos para medir el rendimiento de los modelos creados por IBM o evaluar plantillas de avisos independientes para modelos no creados ni alojados por IBM. Puede ejecutar estas evaluaciones en proyectos y espacios de despliegue para obtener información sobre activos individuales dentro de su entorno de desarrollo. Si desea evaluar y comparar varios activos simultáneamente, puede realizar experimentos con Evaluation Studio para ayudarle a identificar los activos con mejor rendimiento.
Para realizar evaluaciones, debe gestionar los datos para las evaluaciones de modelos proporcionando datos de prueba que contengan columnas de referencia que incluyan la entrada y la salida esperada del modelo para cada activo. El tipo de datos de prueba que proporcione puede determinar el tipo de evaluación que puede realizar. Puede proporcionar información o datos de carga útil para permitir evaluaciones de activos de IA generativa. Para realizar evaluaciones de calidad, debe proporcionar datos de retroalimentación para medir el rendimiento de las tareas de clasificación de texto. Equidad y deriva v2 las evaluaciones utilizan datos de carga útil para medir el rendimiento de su modelo. Las evaluaciones de calidad de la IA generativa utilizan datos de retroalimentación para medir el rendimiento de las tareas de extracción de entidades.
Las evaluaciones de calidad de la IA generativa pueden utilizar datos de carga útil y retroalimentación para calcular métricas para los siguientes tipos de tareas:
- Recopilación de textos
- Generación de contenido
- Respuesta a preguntas
- Recuperación-Generación aumentada
Los datos de la carga útil son necesarios para las tareas de generación aumentada por recuperación.
Evaluación de modelos de aprendizaje automático
Puede evaluar los modelos de aprendizaje automático para medir lo bien que predicen los resultados. Watsonx.governance admite evaluaciones para los siguientes tipos de modelos de aprendizaje automático:
- Modelos de clasificación
Predecir resultados categóricos en función de sus características de entrada
- Clasificación binaria: Predecir uno de dos resultados posibles
- Clasificación multiclase: Predecir uno de varios resultados
- modelos de regresión
Predecir resultados numéricos continuos
Con watsonx.governance, puede evaluar modelos de aprendizaje automático en espacios de despliegue. Para ejecutar las evaluaciones, debe prepararse para evaluar los modelos proporcionando detalles sobre los datos de entrenamiento y los resultados del modelo.
También debe gestionar los datos para las evaluaciones de modelos con el fin de determinar el tipo de evaluación que puede ejecutar para generar perspectivas métricas. Para realizar evaluaciones de calidad, debe proporcionar datos de retroalimentación que contengan la misma estructura y columnas de predicción de sus datos de entrenamiento con el resultado conocido del modelo. Para ejecutar evaluaciones de equidad, deriva y deriva v2, debe proporcionar datos de carga útil que coincidan con la estructura de los datos de entrenamiento.
Watsonx.governance registra estos tipos de datos para calcular las métricas de los resultados de su evaluación. Debe enviar transacciones modelo para generar resultados precisos de forma continua.
También puede crear evaluaciones y métricas personalizadas para generar una mayor variedad de perspectivas sobre el rendimiento de su modelo. Para obtener información sobre cómo su modelo predice los resultados, puede configurar la explicabilidad.
Más información
Motores, infraestructuras y modelos de aprendizaje automático soportados
Evaluación de las plantillas de avisos en los espacios de despliegue
Evaluación de las plantillas de avisos para los modelos de fundación no IBM
Tema principal: Gobierno de activos de IA