Metodologías Data Science aplicables al MPI

Los avances en el campo de la Inteligencia Artificial se han desarrollado en las últimas décadas a partir del diseño e implementación de nuevas técnicas y algoritmos, a partir de los cuales, y desde un punto de vista práctico, se han generado modelos de aplicación que han permitido resolver problemas de todo tipo. A diferencia de otras áreas, como la Ingeniería del Software, apenas se han desarrollado metodologías, flujos de trabajo o ciclos de vida para abordar las diferentes fases en la implementación de soluciones basadas en procesos de Inteligencia Artificial. No fue hasta finales de los años 80 cuando surgieron las primeras propuestas a partir de una mezcla de Ingeniería de Software e Inteligencia Artificial. Así, fue a principios de este siglo cuando surgió el primer enfoque metodológico para el campo de la Minería de Datos, que se denominó CRISP-DM, el cual obtuvo un amplio reconocimiento en el mundo académico y en la industria como un estándar de facto para el uso de la Inteligencia Artificial en la toma de decisiones y resolución práctica de problemas.

CRISP-DM es uno de los “frameworks” más comunes para la minería y el análisis de datos aplicado en muchas organizaciones. Consta de seis fases iterativas: Comprensión del negocio, donde la meta y los objetivos del negocio se construyen en torno al proyecto; Comprensión de datos, que implica la adquisición y exploración de datos; Preparación de datos donde los datos se depuran y transforman; Modelado donde se aplican modelos estadísticos o de Inteligencia Artificial (Machine Learning en concreto) a los datos; Evaluación donde se determina el desempeño del modelo y su adecuación a las metas y objetivos de negocio establecidos; Implementación donde el modelo se coloca en el entorno de producción para generar información. Basado en datos, CRISP-DM puede cambiar entre fases en función de los resultados y garantizar que el proceso de Ciencia de Datos sea consistente en la consecución de los objetivos de una empresa. Muchas de las modificaciones a lo largo de los años se han realizado para adaptarse a propósitos dispares para diferentes contextos que van desde el Big Data hasta la Ciberseguridad, pasando por las Fintech, por nombrar algunos.

Con el paso del tiempo, el uso conjunto de la Inteligencia Artificial con la estadística, el análisis de datos y la informática, con un enfoque orientado al análisis de Big Data, ha dado lugar a un campo interdisciplinario que generalmente se denomina Ciencia de Datos. Esto, unido a la aparición de plataformas de Cloud Computing a disposición de las empresas, que les permite lanzar proyectos basados en Data Science de forma rápida, ha propiciado el desarrollo de nuevos enfoques metodológicos más avanzados que el CRISP-DM, promovidos por grandes empresas tecnológicas, como el propuesto por AWS (Amazon Web Services).  El TDSP (Team Data Science Process) de Microsoft o el Workflow diseñado por Google.

Más allá de las propuestas de las grandes empresas, se han propuesto varios enfoques en forma de “frameworks” reconocidos en el sector como CRISP-DM, CRISP-Machine Learning(Q), OSEMN, LADM, DDM, AGILE DATA SCIENCE o SEMMA. Por otro lado, existen enfoques ampliamente reconocidos desde la perspectiva académica, como los trabajos de Aakash Tandel, John Thomas, Aakanksha Joshi o Philip Guo, en forma de flujos de trabajo bien definidos.