Definición de umbrales en modelos de regresión para la identificación de contrafácticos

Cuando hablamos de explicaciones contráfacticas, casi siempre pensamos en modelos de clasificación: “si hubieras cambiado X, el modelo te habría dado la clase positiva”. Sin embargo, en regresión no existe una “clase” como tal, sino un valor continuo. Por eso aparece una pregunta clave: ¿cuándo consideramos que un contrafáctico es válido?

La respuesta habitual es introducir umbrales: definir una condición del tipo “quiero que la predicción sea al menos T” o “quiero reducir la predicción por debajo de T”. Ese umbral convierte el objetivo continuo de la regresión en una meta alcanzable, y a partir de ahí la generación de contrafácticso pasa a ser un problema de búsqueda/optimización con restricciones.

En la literatura, se pueden distinguir tres enfoques para imponer esas restricciones (incluyendo umbrales) al generar contrafácticos:

1) User Constraints: restricciones antes o después de la búsqueda

El primer enfoque agrupa métodos donde las restricciones se aplican fuera del núcleo de generación:

Antes de buscar: se limita el espacio de soluciones posible (por ejemplo, “la edad solo puede aumentar” o “dos variables deben moverse en la misma dirección”).
Después de buscar: se generan candidatos y luego se filtran los que no cumplen criterios de factibilidad, alcanzabilidad o plausibilidad.

Este tipo de restricciones son especialmente útiles cuando el umbral en regresión implica acciones poco realistas. Por ejemplo: si queremos que una predicción baje de T, pero el método propone cambios fuera de distribución (valores “raros” para el dominio), el contrafáctico deja de ser útil aunque cumpla el objetivo numérico.

2) Constraints-based CFE: restricciones dentro de la optimización

En el segundo enfoque, las restricciones dejan de ser un “accesorio” y pasan a formar parte del problema de optimización que genera el contrafáctico. La idea es: no buscamos cualquier contrafáctico que cruce el umbral, sino uno que además sea plausible, factible y coherente con el dominio. Dentro de este enfoque encontramos:

Restricciones causales y de factibilidad (locales del usuario) junto con restricciones globales de distribución.
Uso de modelos generativos condicionados a restricciones para garantizar soluciones factibles.
Formulaciones explícitas como optimización con restricciones y preferencias de usuario.

3) Interactive / User-in-the-loop: restricciones iterativas durante la generación

El tercer enfoque asume algo muy realista: el usuario rara vez sabe desde el inicio todas sus restricciones, o se da cuenta de ellas cuando ve propuestas. Aquí el contrafáctico se construye en un ciclo: 1) el sistema propone, 2) el usuario da feedback y 3) el sisema ajusta el espacio de búsqueda y propne de nuevo.

En definitiva, definir umbrales en modelos de regresión no es un detalle menor, sino el puente que convierte una predicción continua en un objetivo accionable para construir contrafácticos útiles. Sin embargo, cruzar un umbral no basta: las recomendaciones deben ser plausibles, alcanzables y coherentes con las restricciones del dominio y del propio usuario. Por eso, los enfoques de la literatura ofrecen distintos equilibrios entre control, realismo y flexibilidad. Elegir bien (y justificarlo) es clave para que los contrafácticos no solo “funcionen” matemáticamente, sino que realmente ayuden a tomar decisiones en contextos reales.

AUDITAI

IA3migdem

Definición de umbrales en modelos de regresión para la identificación de contrafácticos