El mantenimiento predictivo, apoyado en técnicas de machine learning, se ha posicionado como una de las grandes promesas para la industria. Detectar anomalías antes de que se conviertan en fallos críticos puede ahorrar costes y evitar paradas inesperadas. Sin embargo, la experiencia demuestra que el éxito de estos sistemas depende, en gran medida, de la calidad y relevancia de los datos utilizados.
El objetivo: detectar anomalías en motores
El propósito de este proyecto fue desarrollar un sistema capaz de identificar comportamientos anómalos en motores de vehículos, diferenciando entre funcionamiento normal y posibles fallos. Para ello, se emplearon datos sensorizados y etiquetas que indicaban el estado del motor.
El proceso: modelos y visualización
Se aplicaron técnicas de reducción de dimensionalidad como t-SNE y PCA para explorar la separabilidad de los datos. Además, se entrenaron autoencoders con diferentes funciones de pérdida (MSE y Mahalanobis) y se evaluaron los resultados mediante métricas estándar y visualizaciones del espacio latente.
A pesar de los esfuerzos, los resultados obtenidos fueron consistentes: los modelos no lograron distinguir de manera fiable entre estados normales y anómalos. Las visualizaciones mostraban una gran superposición entre clases, y las métricas de evaluación reflejaban una baja capacidad de detección.
Causas: el problema está en los datos
El análisis detallado reveló que la principal limitación no residía en los modelos, sino en los propios datos. Las causas principales fueron:
- Variables poco informativas: Las variables sensorizadas no reflejaban cambios significativos entre un motor sano y uno con fallos. Si los sensores no capturan el fenómeno relevante, ningún modelo podrá detectarlo.
- Etiquetas poco representativas: Las etiquetas de fallo no correspondían a cambios reales en el comportamiento del motor, lo que dificultaba el aprendizaje de patrones anómalos.
- Desbalance y escasez de anomalías: La mayoría de los datos correspondían a estados normales, y los ejemplos de fallo eran escasos o mal definidos.
- Preprocesamiento insuficiente: El preprocesamiento de los datos no logró extraer información relevante para la tarea de detección.
Conclusión: la importancia de los datos relevantes
Este caso pone de manifiesto que, en mantenimiento predictivo y detección de anomalías, la clave no está en la sofisticación del algoritmo, sino en la relevancia y coherencia de los datos. Sin variables que reflejen el fenómeno a detectar y etiquetas fiables, ningún modelo podrá ofrecer resultados útiles. Antes de invertir en modelos complejos, es fundamental validar que los datos disponibles contienen la información necesaria para resolver el problema planteado.