Escasez de Datos de Fallos en el Sector Aeroespacial

En el sector aeroespacial una de las problemáticas más importantes es la seguridad. Es por ello por lo que, entre otras cosas, la aviación se ha convertido en el medio de transporte más seguro del mundo. Esta seguridad es el resultado de un proceso de mejora continua y de mucho trabajo a nivel de ingeniería y regulación.

Pero al mismo tiempo, esta seguridad provoca que no existan (por suerte) una gran cantidad de datos de fallos bien anotados y clasificados. Suelen ser mecanismos muy complejos y caros, por lo que el provocar de forma voluntaria estos fallos sería muy costoso a nivel económico, por lo que esa tampoco es una opción real. El problema es que, si queremos utilizar algoritmos que nos ayuden a hacer un mantenimiento más inteligente, se necesitan estos propios datos de fallos para poder entrenarlos. Es aquí donde entra la generación de datos sintéticos.

La idea de nuestro trabajo fue precisamente abordar este problema: ¿cómo entrenar modelos capaces de detectar anomalías en motores de helicópteros cuando apenas existen datos de fallos? En lugar de intentar forzar la obtención de datos reales, exploramos el uso de datos sintéticos, es decir, datos generados artificialmente pero con las mismas características estadísticas que los reales.

Para ello, lo que hizo el equipo de mantenimiento inteligente fue entrenar un autoencoder, un tipo de red neuronal que aprende cómo debería comportarse un motor en condiciones normales. Cuando el modelo ve datos que se salen de ese patrón, interpreta que algo no encaja y lo marca como posible anomalía. Este tipo de enfoque tiene una gran ventaja: no necesita datos de fallos, solo de funcionamiento normal.

El siguiente paso fue comprobar si podíamos mejorar ese aprendizaje generando más ejemplos de funcionamiento normal. y ahí es donde entramos nosotros. Para ello probamos dos formas distintas de crear datos sintéticos:

  • Copulas, una técnica más matemática que intenta reproducir las dependencias entre sensores sin asumir que la relación sea lineal o sencilla.
  • Modelos de Mezclas Gaussianas (GMM), que aprenden a representar los diferentes modos de operación del motor (por ejemplo, distintos regímenes de potencia o temperatura) y luego generan nuevos puntos de datos realistas combinando esas “subpoblaciones”.

Para evaluar ambos métodos, evaluamos el rendimiento del autoencoder entrenado utilizando una combinación de datos reales y datos sintéticos, y luego lo comparamos respecto a la versión original, todo ello simulando escasez de datos.

EscenarioPrecisiónExhaustividad (Recall)F1-scoreExactitud (Accuracy)
A1 (25% Real)0.77310.67990.72350.7927
A2.1 (25% + GMM×1)0.82480.82060.82270.8589
A2.2 (25% + GMM×2)0.83460.85340.84390.8740
A4 (10% Real)0.75850.61550.67960.7684
A5.1 (10% + GMM×2)0.80820.80080.80450.8447
A5.2 (10% + GMM×3)0.82850.83120.82980.8640
EscenarioPrecisiónExhaustividad (Recall)F1-scoreExactitud (Accuracy)
A1 (25% Real)0.77310.67990.72350.7927
A3.1 (25% + Cópula×1)0.87930.43730.58410.7516
A3.2 (25% + Cópula×2)0.80450.43420.56400.7322
A4 (10% Real)0.75850.61550.67960.7684
A6.1 (10% + Cópula×2)0.84860.44880.58710.7482
A6.2 (10% + Cópula×3)0.77880.46130.57940.7328

Los resultados fueron claros: los datos generados con GMM mejoraron notablemente la detección de anomalías, sobre todo cuando la cantidad de datos reales era reducida. En cambio, los datos creados con copulas no aportaron mejora, lo que indica que este tipo de modelo no logró capturar bien la complejidad de las relaciones entre los sensores.

En resumen, demostramos que la generación de datos sintéticos puede ser una herramienta muy útil para el mantenimiento predictivo en entornos donde los fallos son escasos, como ocurre en la aviación. Si conseguimos ampliar artificialmente los datos de comportamiento normal sin perder realismo, los algoritmos pueden aprender mejor y detectar antes posibles desviaciones. Es un paso más hacia una aviación más segura y un mantenimiento más eficiente.