Las distribuciones normales o gaussianas están presentes, de una manera u otra, en la mayoría de los modelos estadísticos tradicionales que se usan hoy en día, en los que describimos que los datos provienen de una distribución normal, ya que la naturaleza tiende a seguir esta distribución (lo que llamamos el Teorema del Límite Central) [1]
La idea de los Modelos Mixtos Gaussianos (GMM) se basa en que los datos no vienen de una única distribución gaussiana, si no de la suma de diferentes distribuciones gaussianas cada una con su media y varianza. Los principales componentes del modelo que tenemos que elegir son:
- De cuántas distribuciones normales diferentes originan nuestros datos, esto puede ser una decisión basada en el conocimiento de los datos o algo que configurar con los resultados del algoritmo.
- Asignar cada dato a una distribución: Con esto podemos añadir conocimiento al modelo, pero podemos hacerlo arbitrariamente también.
El modelo se entrena entonces iterando: calculando como de probable es que los datos se originen de las distribuciones normales fijadas, y cambiando las distribuciones para que se asemejen lo máximo a las distribuciones reales de los datos.
Una vez el modelo se ha entrenado, obtendremos estas distribuciones, si queremos generar un nuevo punto sintético, basta con generar datos de estas distribuciones.
Los resultados de este modelo para la creación de datos sintéticos con el caso de uso de las turbinas de la NASA [2] son presentados en esta imagen:

A los que más tarde les añadimos ruido :

Un problema de generar datos de esta manera es que el componente temporal de los datos no es aprendido por el modelo, lo que puede significar que estos datos no tengan un gran valor por si mismos para inferir información de ellos.
Nos sirven como una opción para crear datos, pero necesitamos desarrollar otros modelos capaces de captar características mas complejas de los datos. Y lo subiremos todo al blog ¡ No os lo perdáis!
Referencias:
[1] Kwak, S. G., & Kim, J. H. (2017). Central limit theorem: the cornerstone of modern statistics. Korean journal of anesthesiology, 70(2), 144-156.
[2] A. Saxena and K. Goebel (2008). «PHM08 Challenge Data Set», NASA Ames Prognostics Data Repository (http://ti.arc.nasa.gov/project/prognostic-data-repository), NASA Ames Research Center, Moffett Field, CA