Etiqueta: Tratamiento de datos
-
Optimización con Dask y Parquet
En el contexto de un proyecto reciente de análisis de datos de sensores de drones, me enfrenté a un desafío común en la ingeniería de datos y ML: la brecha entre el volumen de los datos brutos y los recursos de hardware disponibles. Este artículo detalla la transición técnica de un flujo de trabajo basado…
-
Dask: Computación Paralela y Distribuida para la Ciencia de Datos
Dask es una biblioteca de código abierto diseñada para permitir el procesamiento eficiente de datos a gran escala y la ejecución de tareas de computación intensiva, superando las limitaciones de herramientas como Pandas y NumPy cuando el volumen de datos excede la memoria RAM de una única máquina. ¿Qué es Dask y Por Qué Utilizarlo?…
