En entradas anteriores ya mostramos cómo los Modelos de Mezclas Gaussianas (GMM) pueden reproducir con éxito el comportamiento de motores de helicóptero, mejorando la detección de anomalías incluso con pocos datos.
Sin embargo, los GMM no son la única forma de abordar el problema. En esta línea, decidimos explorar otra técnica más general y flexible desde el punto de vista estadístico: las cópulas.
¿Qué son las cópulas?
Las cópulas son una herramienta matemática diseñada para modelar dependencias entre variables de manera independiente a sus distribuciones individuales. Dicho de forma simple: permiten separar qué forma tiene cada variable de cómo se relacionan entre sí.
En muchos sistemas físicos las variables (temperatura, potencia, velocidad, presión, etc.) no están relacionadas de manera lineal. Una subida de temperatura puede estar asociada a un pequeño cambio de par, pero solo en ciertos regímenes de operación; fuera de ellos, esa relación puede invertirse. Este tipo de relaciones no lineales y asimétricas son difíciles de capturar con modelos convencionales, y ahí es donde las cópulas ofrecen una ventaja teórica.
Imagina que tenemos varias variables y queremos generar nuevos ejemplos que mantengan las correlaciones reales. Las cópulas permiten hacerlo en tres pasos:
- Transformación marginal: cada variable se convierte en una variable uniforme entre 0 y 1, utilizando su distribución empírica (básicamente, su percentil).
- Modelado de dependencias: en este espacio uniforme, se ajusta una cópula, que define la estructura de dependencia entre las variables.
- Generación inversa: una vez entrenado el modelo, se generan nuevos puntos en el espacio uniforme y se aplican las transformaciones inversas para volver al dominio real de los sensores.
De esta manera, las cópulas permiten construir una distribución multivariante realista, incluso cuando las relaciones entre las variables son complejas o no gaussianas.
Tipos de cópulas utilizadas
En nuestro experimento probamos tres familias diferentes de cópulas, cada una con propiedades distintas:
- Cópula Gaussiana: la más clásica y sencilla, basada en una correlación lineal entre variables. Es adecuada cuando las relaciones son suaves y simétricas.
- Cópula t-Student: similar a la Gaussiana, pero con colas más pesadas, lo que permite capturar mejor eventos extremos (por ejemplo, picos simultáneos de temperatura y presión).
- Cópula de Clayton: un tipo de cópula archimediana que modela mejor las dependencias en el extremo inferior, es decir, cuando varias variables tienden a disminuir al mismo tiempo.
En todos los casos, las cópulas se ajustaron únicamente con datos de funcionamiento normal, utilizando transformaciones suaves y regularizaciones para garantizar estabilidad numérica. Una vez entrenadas, se generaron nuevos puntos sintéticos mediante muestreo aleatorio y se aplicaron filtros básicos para eliminar valores fuera de rango o duplicados.
Por qué las cópulas resultan atractivas
A diferencia de los GMM, que asumen que los datos pueden explicarse como una combinación de distribuciones normales, las cópulas no hacen suposiciones sobre las formas de las variables individuales. Pueden adaptarse a distribuciones no gaussianas, sesgadas o con colas largas, que son comunes en sistemas físicos reales.
Además, las cópulas son interpretables: la matriz de correlaciones o los parámetros de dependencia pueden analizarse directamente para entender cómo se relacionan las variables. En campos como la ingeniería o la meteorología, esto permite extraer conocimiento adicional del sistema.
Limitaciones encontradas en nuestro estudio
Aunque las cópulas son teóricamente potentes, su rendimiento práctico en nuestro caso fue inferior al obtenido con los Modelos de Mezclas Gaussianas (GMM).
Tras integrar los datos sintéticos generados mediante cópulas en el entrenamiento del autoencoder, los resultados mostraron una reducción del F1-score (la métrica que combina precisión y exhaustividad) en todos los escenarios. Por ejemplo, con un 25 % de datos reales, el F1-score pasó de 0.72 (modelo base) a 0.58 con cópula gaussiana.
En otras palabras, el modelo detectaba menos anomalías reales y producía más falsos negativos. Esto sugiere que, aunque las cópulas reproducen bien las correlaciones globales, no siempre capturan correctamente las relaciones específicas entre sensores que definen el comportamiento del motor.
La principal dificultad es que el proceso de transformar cada variable en un espacio uniforme puede distorsionar pequeñas variaciones locales, justo las que un autoencoder necesita para distinguir entre “normal” y “anómalo”. Además, las cópulas tienden a suavizar las relaciones, perdiendo matices asociados a regímenes de operación concretos (por ejemplo, el paso del ralentí al despegue).
Qué aprendimos de esta experiencia
Pese a los resultados menos favorables, el uso de cópulas ofrece lecciones valiosas. Primero, confirma que la generación de datos sintéticos no es una solución universal: cada técnica tiene sus puntos fuertes y sus limitaciones según el tipo de datos y la naturaleza de las dependencias entre variables.
En segundo lugar, abre la puerta a exploraciones híbridas: modelos que combinen cópulas con enfoques más expresivos, como los GMM o los modelos basados en deep learning (por ejemplo, copula flows o variational copulas). Estos enfoques podrían aprovechar la capacidad de las cópulas para representar dependencias complejas sin renunciar a la flexibilidad de los modelos generativos modernos.
Finalmente, el trabajo refuerza una idea clave: la calidad de los datos sintéticos no depende solo de que “se parezcan” a los reales, sino de que aporten información útil al modelo de destino. En nuestro caso, las cópulas reproducían bien la estadística general, pero no enriquecían el aprendizaje del autoencoder tanto como lo hacía el GMM.
Conclusión
Las cópulas representan una herramienta elegante y poderosa para modelar dependencias entre variables, y su uso en generación de datos sintéticos sigue siendo un campo en expansión. En contextos donde las relaciones entre sensores son suaves o bien definidas, pueden ofrecer resultados muy competitivos.
En el ámbito aeroespacial, sin embargo, donde los sistemas son altamente no lineales y multimodales, su aplicación requiere aún más investigación. Aun así, su potencial interpretativo y su base matemática sólida las convierten en un componente interesante dentro del conjunto de técnicas para crear datos sintéticos realistas y seguros, contribuyendo, en última instancia, a un mantenimiento predictivo más confiable y transparente.
