Equidad, Rendición de Cuentas, y Transparencia en el Aprendizaje Automático para el caso la discriminación de género

Introducción a los Modelos Computacionales. Grado en Ingeniería Informática. Universidad de Córdoba. 2022-2023

Javier Sánchez Monedero (Universidad de Córdoba)
Ana Valdivia García (Oxford University)

Objetivos

Parte I (Javier Sánchez)

  • Introducción y motivación a FATE en inteligencia artificial
  • Cuantificando y mitigando sesgos: FairLearn

Parte II (Ana Valdivia)

Introducción y motivación a FATE

¿Por dónde empezar? Libros

¿Por dónde empezar? En vídeo

FATE:

  • Fairness: imparcialidad/ecuanimidad
  • Accountability: rendición de cuentas
  • Transparency: transparencia
  • Ethics: ética

facctconference.org
facctconference.org/network

Objetivos del seminario

Discriminación en sistemas/modelos que toman decisiones trascendentales

  • Esto no considera otras formas de discriminación o injusticia
  • Las cuestiones de discriminación/igualdad necesitan de otro tipo de intervenciones no técnicas (ver libros recomendados)

La discriminación no es un concepto general, depende:

  • Dominio del problema
  • Grupo social

La presentación de Judging the algorithm dará una visión más interdisciplinar de este problema.

Grupos protegidos

Clases protegidas (no en todos los contextos):

  • EEUU: “raza”, color, sexo, religión, ciudadanía, embarazo...
  • España: género, ley igualdad de trato, embarazo, ley igualdad de trato “raza”, embarazo...

La definición de grupos protegidos va más allá e incluye las categorías no binarias y la interseccionalidad

There’s No Scientific Basis for Race—It’s a Made-Up Label. National Geographic. 2018, March 12.

Ley integral igualdad de trato y no discriminación

Artículo 23 Ley 15/2022, de 12 de julio:

Las personas también tienen sesgos

Diferencias (O'Neil 2016):

  • Sistematización
  • Escala
  • Nuevos grupos "digitales" discriminados

O’Neil, C (2018). Armas de destrucción matemática

Casos: PNL + Visión Artificial

center

Zhao, J. et. al (2017). Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraints.

Casos: reconocimiento facial

Análisis interseccional del rendimiento en reconocimiento facial de Amazon Rekognition. La menor tasa de acierto se da para las mujeres de piel oscura.

Fuente Buolamwini (2019). Response: Racial and Gender bias in Amazon Rekognition — Commercial AI System for Analyzing Faces.

Casos: biomedicina

center

Verna, E. C., & Lai, J. C. (2020). Time for Action to Address the Persistent Sex-Based Disparity in Liver Transplant Access. JAMA Surgery, 155(7), 545–547.https://doi.org10.1001/jamasurg.2020.1126

A1. ¿Cómo cuantificarías el sesgo en los problemas anteriores?

  • Reconocimiento facial: el modelo tiene menos precisión identificando mujeres con piel oscura
  • Medicina: el modelo subestima el riesgo de mujeres de morir en lista de espera
  • Procesamiento lenguaje natural: el sistema reproduce estereotipos de género asociados a profesiones

Inventarios de casos

Automating Society Report 2020

Observatory of Algorithms with Social Impact

A2. Accede al informe de Algorithm Watch para ver si conoces estos sistemas. Igualmente entra en OASI y elige "Spain" para descubrir sistemas en uso.

Cuantificando y mitigando sesgos

¿Cómo medir y mitigar el sesgo?

Ecuanimidad sin hacer nada (unawareness)

center

Actualizada del NIPS 2017 Tutorial on Fairness in Machine Learning

Análisis exploratorio

  • Comprobar distribución (prevalencia/prior) etiqueta de clase
  • Comprobar distribución (prevalencia/prior) etiqueta de clase por grupos
  • Comprobar:
    • Visual
    • Estadística descriptiva
    • Contraste de hipótesis

Un ejemplo excelente lo podeis ver en Straw, I., & Wu, H. (2022).

Straw, I., & Wu, H. (2022). Investigating for bias in healthcare algorithms: A sex-stratified analysis of supervised machine learning models in liver disease prediction. BMJ Health & Care Informatics, 29(1), e100457. https://doi.org/10.1136/bmjhci-2021-100457

El "zoo" de las métricas de ecuanimidad

center

Castelnovo, A., Crupi, R., Greco, G. et al. A clarification of the nuances in the fairness metrics landscape. Sci Rep 12, 4209 (2022). https://doi.org/10.1038/s41598-022-07939-1

A3. Caso test médico

  • Supongamos test genérico (con o sin técnicas estadísticas) de diagnóstico de una enfermedad. ¿Qué errores debemos minimizar?
  • Respecto a la clase: ¿qué metricas nos interesan?
  • ¿Y si el test requiere otra prueba invasiva y/o costosa?
  • ¿Y si vamos a priorizar por riesgo de muerte a corto plazo?

A4. ¿Cómo podemos mitigar?

  • Ya tenemos una medida del sesgo estadístico
  • ¿Cómo podríamos mitigar?
  • Pero antes: ¿tiene sentido una intervención estadística/algorítmica?

Técnicas de mitigación de sesgos

Fuente Ntoutsi, E., Fafalios, P., Gadiraju, U., Iosifidis, V., Nejdl, W., Vidal, M.-E., … Staab, S. (2020). Bias in data-driven artificial intelligence systems—An introductory survey. WIREs Data Mining and Knowledge Discovery, 10(3), e1356. https://doi.org/10.1002/widm.1356

Caso detección paciente hepático: ILPD

center

"Across all classifiers females suffer from a higher false negative rate (FNR), while males suffer from a higher false positive rate"

Straw I, Wu H. BMJ Health Care Inform 2022;29:e100457. doi:10.1136/bmjhci-2021-100457

Caso detección paciente hepático: ILPD

center

"mixed results: the accuracy disparity benefits females across all classifiers, whereas the ROC_AUC disparity demonstrates a benefit for males in three out of four classifiers ... for all classifiers the FNR is consistently higher for females"

Straw I, Wu H. BMJ Health Care Inform 2022;29:e100457. doi:10.1136/bmjhci-2021-100457

Herramientas ML para mitigación y explicabilidad


https://fairlearn.org/

Otras:

https://ai-fairness-360.org/

https://pair-code.github.io/what-if-tool/

Cuaderno Jupyter con FairLearn e ILPD

  • Reproducción de los experimentos de Straw I, Wu H. BMJ Health Care Inform 2022
  • Base de datos Indian Liver Patient Dataset (ILPD)

https://github.com/javism/seminariofate2022/blob/master/IndianLiverPatientDataset-seminar.ipynb

Auditando a un algoritmo interdisciplinarmente

center

Enlace a la segunda parte Judging the algorithm (PDF)

A. Valdivia, C. Hyde-Vaamonde, J. García-Marcos. Judging the algorithm: A case study on the risk assessment tool for gender-based violence implemented in the Basque country. https://arxiv.org/abs/2203.03723

Resumen y Conclusiones

Recap: Fuentes de sesgo

center

Fuente Luke Vilain.

Resumen

  • El paso de prototipos de investigación a aplicaciones reales de la inteligencia artificial ha motivado la aparición de muchas áreas
  • No solo FATE: IA robusta, privacidad en IA (aprendizaje federado, cifrado homeomórfico...), interacción persona-máquina (HCI)...
  • Áreas implicadas según contexto: ética, derecho, política...
  • Regulaciones (IA Act, GDPR, Ley Rider, AESIA...) y estándares (IEEE,ISO)
  • Oportunidades de aprendizaje y comprender mejor los problemas y los conceptos de estadística.
  • ¡¡Sistemas sociotécnicos!!

Trabajos relacionados de AYRNA

Explorar límites de precisión vs ecuanimidad

Valdivia, A., Sánchez‐Monedero, J., & Casillas, J. (2021). How fair can we go in machine learning? Assessing the boundaries of accuracy and fairness. Int J Intel Sys, 36(4), 1619–1643. https://doi.org/10.1002/int.22354

Índice alternativo al MELD/MELD-na

El grupo AYRNA en colaboración con el IMIBIC y otros centros trabaja en alternativas al MELD que no discriminen por género como estimador de riesgo de mortalidad en trasplantes hepáticos.

Trabajos relacionados de AYRNA

Desarrollo Ley Rider

Guía práctica y herramienta sobre la obligación empresarial de información sobre el uso de algoritmos en el ámbito laboral. Ministerio de Trabajo y Economía Social. Gobierno de España. 2022. https://prensa.mites.gob.es/WebPrensa/noticias/laboral/detalle/4125

Proyecto AlgoRace

Proyecto AlgoRace. Investigación sobre discriminación racial e inteligencia artificial. 2021-2023. https://algorace.org/

Referencias (I)

Referencias (II)

  • Verna, E. C., & Lai, J. C. (2020). Time for Action to Address the Persistent Sex-Based Disparity in Liver Transplant Access. JAMA Surgery, 155(7), 545–547.https://doi.org10.1001/jamasurg.2020.1126

  • Straw, I., & Wu, H. (2022). Investigating for bias in healthcare algorithms: A sex-stratified analysis of supervised machine learning models in liver disease prediction. BMJ Health & Care Informatics, 29(1), e100457. https://doi.org/10.1136/bmjhci-2021-100457

  • Castelnovo, A., Crupi, R., Greco, G. et al. A clarification of the nuances in the fairness metrics landscape. Sci Rep 12, 4209 (2022). https://doi.org/10.1038/s41598-022-07939-1

  • Ntoutsi, E., Fafalios, P., Gadiraju, U., Iosifidis, V., Nejdl, W., Vidal, M.-E., … Staab, S. (2020). Bias in data-driven artificial intelligence systems—An introductory survey. WIREs Data Mining and Knowledge Discovery, 10(3), e1356. https://doi.org/10.1002/widm.1356

  • A. Valdivia, C. Hyde-Vaamonde, J. García-Marcos. Judging the algorithm: A case study on the risk assessment tool for gender-based violence implemented in the Basque country. https://arxiv.org/abs/2203.03723

--- # ¿Por dónde empezar? Libros ![h:12em ](pics/armas-destruccion-matematica.jpg) ![h:12em ](pics/AutomatingInequality.jpg) ![h:12em ](pics/book-design-justice.jpg) ![h:12em ](pics/fairmlbook.png)

Con el "pero" de lo difícil de expresar la pertenencia a grupo, es interesante [intersectionalityscore.com](https://intersectionalityscore.com/) ![bg right fit](pics/intersectionalityscore.png)

Penitenciario: "Predicción" riesgo de reincidencia: el sistema sobreestima el riesgo para afroamericanos en comparación con población blanca

# Definición formal

--- # Heurísticas para cuantificar el sesgo: ![](pics/fairness_tree.png) > Fuente https://textbook.coleridgeinitiative.org/chap-bias.html#dealing-with-bias

--- # Oportunidades de aprendizaje e investigación * Revisitar problemas desde otros puntos de vista * Mejorar entendimiento de la inteligencia artificial y la estadística * Trabajar con equipos interdisciplinares y diversos * Trabajar con colectivos