Por definición, en la XAI son englobados tanto los modelos considerados como interpretables como las técnicas que permiten hacer entendibles, de manera clara y sencilla, los sistemas y modelos de Inteligencia Artificial que son considerados como opacos. Debido a esto, como se muestra en la figura 1, se distingue entre Modelos transparentes que son aquellos que, por su sencillez algorítmica, pueden ser entendidos por los seres humanos; y las técnicas post-hoc, que son el conjunto de técnicas que pueden ser aplicadas después del entrenamiento del modelo para entender su funcionamiento y sus predicciones. 

En los Modelos transparentes se engloban todos los modelos que puedan ser considerados como interpretables, es decir, que puedan ser entendidos completamente de una manera sencilla por un ser humano [1]. Además, a la hora de analizarlos, hay que tener en cuenta que este tipo de modelos pueden también ser abordados desde el punto de vista del dominio en el que son interpretables, es decir, según su transparencia algorítmica, descomponibilidad y simulabilidad [2]: 

  • Simulabilidad. Es la capacidad de un modelo que tiene para ser simulado o pensado por un ser humano. Los sistemas basados en reglas no cumplen con esta condición. 
    • Descomponibilidad. Es la capacidad que tiene un modelo de ser explicado por partes. Esta capacidad requiere que cada entrada del modelo deba ser también interpretable. 
      • Transparencia algorítmica. Es la capacidad que tiene un modelo de que el ser humano entienda el proceso seguido por este para producir cualquier salida a partir de una entrada de datos. 

        Dentro de los modelos considerados transparentes, se encuentran ejemplos como las regresiones lineales o logísticas, que, por su sencillez a la hora de calcular una predicción, son fácilmente entendibles por los seres humanos; los árboles de decisión, cuya estructura permite crear buenas explicaciones gracias a la visualización que estos presentan; los sistemas basados en reglas de decisión donde las reglas que los componen facilitan a los humanos la comprensión de las predicciones o resultados generados; y los modelos aditivos, como los GAM o GLM, que son extensiones de los modelos de regresión y tratan cada variable utilizada para predecir de manera independiente [3]. 

        En las técnicas post-hoc se engloban las técnicas aplicadas sobre los modelos considerados black-box models para conseguir así su entendimiento por parte de los seres humanos. Como se puede observar en la figura 1, según los resultados que generan, las técnicas post-hoc se clasifican en los siguientes cuatro enfoques [3]: 

        • Model internals. Se engloban los componentes y mecanismos internos de los modelos que son considerados como interpretables dentro de los modelos transparentes. Dentro de estos tipos de componentes pueden encontrarse los pesos de los modelos lineales, que indican la importancia y dirección de la relación entre las características o las divisiones o extracciones que se pueden utilizar sobre los árboles de decisión, que muestran cómo se toman las decisiones basadas en reglas secuenciales. 
          • Model surrogate. Se engloban las técnicas que permiten la aproximación de un modelo de manera local (una parte o instancia de un modelo) o global (de todo el modelo) a partir de modelos considerados como transparentes. Dentro de este tipo de aproximación se puede encontrar técnicas como LIME que permite proporcionar explicaciones comprensibles para modelos de caja negra mediante la aproximación local de sus predicciones, Anchors que permite explicar las predicciones de un modelo mediante reglas locales altamente precisas y específicas, o SHAP que permite obtener tanto explicaciones locales mediante la descomposición de la predicción de una instancia en contribuciones individuales de las características, como explicaciones globales al sumarizar estas contribuciones para múltiples instancias. 
            • Feature summary. Se engloban las técnicas que generan estadísticas numéricas que se pueden extraer tras el entrenamiento del modelo y durante la predicción de este junto a las visualizaciones que se pueden realizar de estas estadísticas. Dentro de esta técnica se pueden encontrar métodos como estadísticas de resumen clásicas, la importancia de características que permite observar el peso de cada una de las características en una predicción, o visualización de gráficas de dependencia (PDP) ayudan a comprender cómo una o más características específicas influyen en la predicción de un modelo. 
              • Example-based. Se engloban las técnicas que son utilizadas para realizar explicaciones individuales de instancias de datos a partir de otras instancias de datos las cuales pueden ser reales o simuladas. Dentro de estas técnicas encontramos los Counterfactual que son explicaciones que se centran en describir qué cambios son requeridos en una instancia de datos para conseguir una predicción diferente, las Influential observations que observa como varía la predicción de un modelo cuando son eliminadas las instancias de datos influyentes, o los Prototypes and criticisms que presenta cómo se ven los ejemplos promedio y más inusuales para que los usuarios puedan construir mejores interpretaciones y comprender los datos. 

                Referencias

                1. Lipton ZC (2018) The mythos of model interpretability: In machine learning, the concept of interpretability is both important and slippery. Queue 16(3):31–57 
                2. Alejandro Barredo Arrieta, Natalia Díaz-Rodríguez, Javier Del Ser, Adrien Bennetot, Siham Tabik, Alberto Barbado, Salvador García, Sergio Gil-López, Daniel Molina, Richard Benjamins, Raja Chatila, Francisco Herrera (2019) Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges toward Responsible AI 
                3. Molnar, C. (2022). Interpretable machine learning: A guide for making black box models explainable (2nd ed.). Leanpub. https://christophm.github.io/interpretable-ml-book/