0 / 0
Volver a la versión inglesa de la documentación
Aplicación de pruebas de equidad a experimentos de AutoAI
Última actualización: 28 nov 2024
Aplicación de pruebas de equidad a experimentos de AutoAI

Evalúe un experimento de equidad para asegurarse de que sus resultados no están sesgados a favor de un grupo sobre otro.

Limitaciones

Las evaluaciones de equidad no están soportadas para experimentos de series temporales.

Evaluación de experimentos y modelos de equidad

Cuando usted define un experimento y genera un modelo de aprendizaje automático, quiere estar seguro de que sus resultados son fiables e imparciales. El sesgo en un modelo de aprendizaje automático puede producirse cuando el modelo aprende las lecciones incorrectas durante el entrenamiento. Este escenario puede dar como resultado que no haya suficientes datos o que la recopilación o gestión de datos sea deficiente cuando el modelo genera predicciones. Es importante evaluar un experimento para ver si muestra signos de sesgo a fin de corregirlos en el momento adecuado y generar confianza en los resultados del modelo.

AutoAI incluye las siguientes herramientas, técnicas y características para ayudarle a evaluar y remediar un experimento de sesgo.

Definiciones y términos

Atributo de equidad : el sesgo o equidad se mide normalmente utilizando un atributo de equidad como, por ejemplo, el género, la etnia o la edad.

Grupo supervisado/de referencia - El grupo supervisado son los valores del atributo de equidad para los que desea medir el sesgo. Los valores del grupo supervisado se comparan con los valores del grupo de referencia. Por ejemplo, si se utiliza Fairness Attribute=Gender para medir el sesgo contra las mujeres, el valor del grupo supervisado es "Female" y el valor del grupo de referencia es "Male".

Resultado favorable/desfavorable -Un concepto importante en la detección de sesgo es el de resultado favorable y desfavorable del modelo. Por ejemplo, Claim approved podría considerarse un resultado favorable y Claim denied podría considerarse un resultado desfavorable.

Impacto dispar : la métrica utilizada para medir el sesgo (calculado como la proporción del porcentaje de resultado favorable para el grupo supervisado respecto al porcentaje de resultado favorable para el grupo de referencia). Se dice que existe un sesgo si el valor de impacto dispar es menor que un umbral especificado.

Por ejemplo, si se aprueba el 80% de las reclamaciones de seguros realizadas por hombres pero solo se aprueba el 60% de las reclamaciones realizadas por mujeres, el impacto dispar es: 60/80 = 0.75. Normalmente, el valor de umbral para el sesgo es 0,8. Dado que esta relación de impacto dispar es inferior a 0,8, se considera que el modelo está sesgado.

Tenga en cuenta que cuando la proporción de impacto dispar es mayor que 1.25 [el valor inverso (impacto1/disparate ) está por debajo del umbral 0.8] también se considera sesgado.

Vea un vídeo sobre la evaluación y la mejora de la equidad

Vea este vídeo para ver cómo evaluar un modelo de aprendizaje automático para garantizar la equidad para asegurarse de que los resultados no están sesgados.

Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.

Aplicar prueba de equidad para un experimento de AutoAI en la interfaz de usuario

  1. Abra Valores de experimento.

  2. Pulse la pestaña Equidad.

  3. Habilitar opciones para equidad. Las opciones son las siguientes:

    • Evaluación de la equidad: Habilite esta opción para comprobar la desviación de cada interconexión calculando la ración de impacto dispar. Este método realiza un seguimiento de si una interconexión tiene una tendencia a proporcionar un resultado favorable (preferido) para un grupo más a menudo que otro.
    • Umbral de equidad: establezca un umbral de equidad para determinar si existe un sesgo en un conducto basándose en el valor de la proporción de impacto dispar. El valor predeterminado es 80, que representa una proporción de impacto dispar menor que 0.80.
    • Resultados favorables: Especifique el valor de la columna de predicción que se consideraría favorable. Por ejemplo, el valor puede ser "aprobado", "aceptado" o lo que se ajuste a su tipo de predicción.
    • Método de atributo protegido automático: Elija cómo evaluar las características que son una potencial fuente de sesgo. Puede especificar la detección automática, en cuyo caso AutoAI detecta atributos protegidos comúnmente, incluyendo: sexo, etnia, estado civil, edad y código postal. Dentro de cada categoría, AutoAI trata de determinar un grupo protegido. Por ejemplo, para la categoría sex, el grupo supervisado sería female.
    Nota: En la modalidad automática, es probable que una característica no se identifique correctamente como un atributo protegido si tiene valores no típicos, por ejemplo, estar en un idioma que no sea el inglés. La detección automática sólo está soportada para el inglés.
    • Método de atributo protegido manual: Especifique manualmente un resultado y proporcione el atributo protegido eligiendo entre una lista de atributos. Tenga en cuenta que cuando proporcione manualmente atributos, debe definir un grupo y especificar si es probable que tenga los resultados esperados (el grupo de referencia) o si debe revisarse para detectar la varianza de los resultados esperados (el grupo supervisado).

Por ejemplo, esta imagen muestra un conjunto de grupos de atributos especificados manualmente para la supervisión.

Evaluación de un grupo para sesgo potencial

Guarde los valores que aplicar y ejecute el experimento para aplicar la evaluación de equidad a las interconexiones.

Notas:

  • Para modelos de varias clases, puede seleccionar varios valores en la columna de predicción para clasificarlos como favorables o no.
  • Para los modelos de regresión, puede especificar un rango de resultados que se consideran favorables o no.
  • Las evaluaciones de equidad no están disponibles actualmente para experimentos de series temporales.

Lista de atributos detectados automáticamente para medir la equidad

Cuando la detección automática está habilitada, AutoAI detectará automáticamente los atributos siguientes si están presentes en los datos de entrenamiento. Los atributos deben estar en inglés.

  • age
  • estado_ciudadanía
  • color
  • incapacidad
  • origen étnico
  • género
  • información_genética_
  • hándicap
  • lengua
  • marital
  • creencia_política
  • pregnancy
  • Religión
  • estado_veterano

Aplicación de prueba de equidad para un experimento de AutoAI en un cuaderno

Puede realizar pruebas de equidad en un experimento de AutoAI entrenado en un cuaderno y ampliar las prestaciones más allá de lo que se proporciona en la interfaz de usuario.

Ejemplo de detección de sesgo

En este ejemplo, utilizando la API de Python en tiempo de ejecución de watsonx.ai (ibm-watson-machine-learning), la configuración del optimizador para la detección de sesgos se configura con la siguiente entrada, donde:

  • name - nombre del experimento
  • prediction_type - tipo del problema
  • prediction_column - nombre de columna de destino
  • fairness_info - configuración de detección de sesgo
fairness_info = {
            "protected_attributes": [
                {
                    "feature": "personal_status", 
                    "reference_group": ["male div/sep", "male mar/wid", "male single"],
                    "monitored_group": ["female div/dep/mar"]
                },
                {
                    "feature": "age", 
                    "reference_group": [[26, 100]],
                    "monitored_group": [[1, 25]]}
            ],
            "favorable_labels": ["good"],
            "unfavorable_labels": ["bad"],
}

from ibm_watson_machine_learning.experiment import AutoAI

experiment = AutoAI(wml_credentials, space_id=space_id)
pipeline_optimizer = experiment.optimizer(
    name='Credit Risk Prediction and bias detection - AutoAI',
    prediction_type=AutoAI.PredictionType.BINARY,
    prediction_column='class',
    scoring='accuracy',
    fairness_info=fairness_info,
    retrain_on_holdout=False
   )

Evaluación de resultados

Puede ver los resultados de la evaluación de cada interconexión.

  1. En la página Resumen del experimento, pulse el icono de filtro para la tabla de clasificación de interconexiones.
  2. Elija las métricas de impacto dispares para su experimento. Esta opción evalúa una métrica general y una métrica para cada grupo supervisado.
  3. Revise las métricas del conducto para obtener un impacto dispar para determinar si tiene un problema con el sesgo o simplemente para determinar qué conducto funciona mejor para una evaluación de equidad.

En este ejemplo, el conducto que se ha clasificado en primer lugar para la precisión también tiene una puntuación de ingresos dispares que está dentro de los límites aceptables.

Visualización de los resultados de equidad

Mitigación de sesgo

Si se detecta un sesgo en un experimento, puede mitigarlo optimizando su experimento mediante el uso de "puntuadores combinados": ' accuracy_and_disparate_impact o ' r2_and_disparate_impact, ambos definidos por el código abierto ' Paquete LALE.

Los puntuadores combinados se utilizan en el proceso de búsqueda y optimización para devolver modelos justos y precisos.

Por ejemplo, para optimizar la detección de sesgos para un experimento de clasificación:

  1. Abra Valores de experimento.
  2. En la página Predicciones , elija optimizar Precisión e impacto dispar en el experimento.
  3. Vuelva a ejecutar el experimento.

La métrica Precisión e impacto dispar crea una puntuación combinada para la precisión y la equidad para los experimentos de clasificación. Una puntuación más alta indica mejores medidas de rendimiento y equidad. Si la puntuación de impacto dispar está entre 0.9 y 1.11 (un nivel aceptable), se devuelve la puntuación de precisión. De lo contrario, se devuelve un valor de impacto dispar menor que la puntuación de precisión, con un valor inferior (negativo) que indica un espacio de equidad.

Lea esta Publicación del blog sobre la detección de sesgo en AutoAI.

Próximos pasos

Resolución de problemas de experimentos de AutoAI

Tema principal: Visión general de AutoAI

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información