Next Tech

Adaptación de Scrum para el desarrollo de soluciones de Business Analytics con CRISP-DM

7 Mins de lectura

Scrum es sin lugar a dudas el framework para organización de equipos de trabajo más utilizado del mundo. Sin embargo, en entornos de Business Analytics requiere de adaptaciones para que funcione con las características de estos proyectos. En este artículo proponemos una adaptación de Scrum utilizando ciertas prácticas y enfoques de CRISP-DM.

CRISP-DM es una metodología ampliamente utilizada por la industria para proyectos de Business Analytics. Define las siguientes fases de desarrollo que, en mayor o menor medida, deberían incluirse en cualquier proyecto de analíticas avanzadas:

  • Comprensión del negocio: Esta fase inicial se centra en la comprensión de los objetivos y requisitos del proyecto desde una perspectiva empresarial, y luego convertir este conocimiento en una definición de un proyecto de analíticas avanzadas, y un plan preliminar diseñado para alcanzar los objetivos.
  • Comprensión de Datos: Esta fase comienza con una colección inicial de datos y procesos con actividades con el objetivo de familiarizarse con los datos, identificar la calidad de los problemas, para descubrir las primeras señales dentro de los datos y detectar temas interesantes para poder formular las hipótesis necesarias que ayudarán en la definición de los procesos de analíticas.
  • Preparación de datos: Esta fase cubre todas las actividades para construir el conjunto de datos necesarios para entrenar los modelos de analíticas avanzadas. Estas tareas son ejecutadas en múltiples oportunidades y sin orden. Las tareas incluyen selección y transformación de tablas, registros y atributos y limpieza de datos para las herramientas de modelado.
  • Modelado: En esta fase se seleccionan y aplican varias técnicas de modelado y se entrenan los modelos para resolver el problema en cuestión. Hay varias técnicas que tienen requerimientos específicos para la formación de los datos, por lo que frecuentemente es necesario volver a la fase de preparación de datos para aproximar el problema desde un ángulo diferente.
  • Evaluación: En esta etapa en el proyecto ha construido un modelo (o modelos) que parece tener gran calidad, desde una perspectiva de análisis de datos.
  • Despliegue: Esta fase depende de los requerimientos, pudiendo ser simple como la generación de un reporte o compleja como la implementación de un proceso de explotación de información que atraviese a toda la organización.

El desafío con CRISP-DM es obtener resultados procesables del proyecto de analítica, convirtiéndolo en procesos de negocios y entregando los resultados a los tomadores de decisiones. Existen varias trampas potenciales en la metodología que pueden conducir al fracaso del proyecto:

  • Atascarse en la fase de Comprensión de datos: preparación de datos: la gran cantidad de datos existentes puede hacer que el equipo se pierda al tratar de hacer coincidir los casos de uso del negocio con los datos disponibles.
  • Atascarse en el ciclo de modelado de preparación de datos: potencialmente puede ser un ciclo infinito sin suficientes controles y enfoque para salir del ciclo. No existe un modelo perfecto, pero es difícil determinar cuándo el modelo es «suficientemente bueno».
  • Saliendo de la comprensión comercial principal del ciclo de evaluación: los proyectos de análisis de datos pueden iterar muchas veces en todo este ciclo y nunca entrar en la implementación.

Scrum optimizado para Business Analytics con CRISP-DM

Dentro de sus características, teniendo en cuenta que Scrum es una metodología pensada y diseñada para el desarrollo ágil de software, las características que mejor se adaptan a un proyecto de analítica avanzada son las siguientes:

  • Planificación y priorización al comienzo de cada Sprint. Cada sprint comienza con una reunión de planificación y priorización que ayuda a alinear el equipo de datos con las necesidades de la organización. El mantener reuniones periódicas de planificación y priorización proporciona a las partes interesadas (internas y externas) una mejor comprensión de los costes asociados con cada esfuerzo y los costes generales que provoca el cambio frecuente de prioridades y/o de contexto.
  • Definición clara de los entregables y plazos de entrega para cada una de las tareas. Un problema común al que se enfrentan los proyectos de analítica avanzada es la falta de enfoque o el descarrilamiento de aquellas investigaciones que acaban sin lograr ningún objetivo. Para ello se puede utilizar la herramienta de Producto de Datos descrita en este pliego.
  • Demos y retrospectivas al final de cada sprint. El objetivo es ayudar al equipo a aprender unos de otros, celebrar las metas conseguidas, y obtener ideas y comentarios sobre cómo mejorar de cara al próximo sprint. Teniendo en cuenta que cada uno tiene una duración de entre 30 y 60 minutos y, sin embargo, contribuyen tanto al crecimiento del equipo, la satisfacción y el bienestar, conllevan un retorno de la inversión muy alto.

Sin embargo, Scrum conlleva los siguientes problemas para los proyectos de Business Analytics:

  • Estimaciones más complicadas de cuantificar. La propia naturaleza de las tareas a realizar de soluciones de analítica avanzada hace que éstas sean más complejas que en un proyecto de desarrollo de software puro y, por lo tanto, sean más difíciles de estimar.
  • Cambio de alcance y requerimientos demasiado rápido. Debido a la naturaleza del negocio, el alcance y / o los requisitos de las partes interesadas pueden cambiar rápidamente. A medida que se exploran los datos para obtener respuestas, los análisis y la solución requeridos pueden cambiar a medida que se realiza el trabajo. Por ejemplo, las partes interesadas pueden tener convicciones firmes sobre la causa de un problema y la solución requerida, pero los datos pueden sugerir algo más. Como resultado, el alcance planificado de trabajo y tareas tendrá que pivotar en consecuencia. Esto puede ser perjudicial para el sprint si se hace con demasiada frecuencia.
  • Falsas expectativas de que los sprints deberían tener entregables como los de desarrollo de software. Muchas personas familiarizadas con Scrum, probablemente desde un contexto de ingeniería, esperan obtener código al final de cada sprint. Al aplicar Scrum por primera vez a este tipo de proyectos, la mayoría de los jefes de proyecto intentan tener un resultado bien definido o entregable. En el contexto de la ingeniería, esto podría ser configurar algo de infraestructura, implementar una nueva característica o desarrollar un nuevo front-end. En estos casos, existe claramente un resultado tangible del que pueden informar hacia arriba, como a través de la demostración de la nueva característica o front-end. Sin embargo, en el caso de la Business Analytics, el trabajo implica un análisis en el que alguien espera una respuesta, o un modelo de aprendizaje automático que contribuye a una mejora medible en ciertas métricas. Dichos criterios de aceptación son difíciles de definir al definir tareas y asignar tickets. Además, dado que la ciencia de datos es en parte una investigación, los jefes de proyecto que adoran la línea de tiempo pueden encontrar la falta de plazos claros desorientadora. Esto lleva a jefes de proyecto frustrados donde no se alcanzan los resultados esperados, y estresan indebidamente a los científicos de datos que no tienen el tiempo y el espacio para innovar y encontrar soluciones óptimas.

Las diferencias que existen entre un proyecto de desarrollo de software y uno de ciencia de datos deben ser consideradas para obtener una mejor adaptación de la forma de trabajo a los requerimientos de este último tipo de proyectos. Elementos como la definición de hecho, los tiempos del proyecto y los diferentes tipos de entregables al final de un sprint, por citar algunos, serán objeto de modificaciones para lograr que lo mejor de Scrum se aplique a la ciencia de datos.

A continuación, se plantea la relación de las etapas de CRISP-DM con los elementos de Scrum:

Las fases de Comprensión del negocio y Comprensión de los datos se vinculan directamente con el armado de los Product Backlog y Sprint Backlog.

Las fases que incluyen tratamiento de datos: Preparación de los Datos, Modelado y Despliegue, se relacionan con el trabajo que puede ser ejecutado a lo largo de un sprint.

Finalmente, la fase de Evaluación se ve representada en la reunión de Sprint Review.

 

Scrum Data Analytics

 

De esta manera, se podrían ejecutar iteraciones sucesivas en las que se elaboren avances de la solución propuesta para los objetivos del proyecto. Siguiendo los principios de scrum y organizando las tareas del modo en que lo plantea CRISP-DM, se podrían combatir los principales problemas derivados del uso de una metodología tradicional, tipo cascada, para los proyectos de analítica avanzada.

Entregables de cada sprint

¿Cuáles van a ser los entregables al final de cada sprint siguiendo esta metodología? Los entregables, no requieren ser modelos totalmente validados y listos para su uso, sino que pueden ser elementos intermedios como datasets generados, modelos parcialmente validados, resultados para revisión o informes de metadatos, entre otros. El objetivo que se persigue en la distribución del trabajo en sprints es mostrar al cliente un resultado que, aunque parcial, permita tener una visión del avance del proyecto, evaluarlo y determinar si es viable para el cumplimiento de los objetivos. Este feedback es necesario para tener la posibilidad de corregir el rumbo del proyecto en caso de errores. Como ejemplo práctico, en un proyecto después de la evaluación del primer modelo de clasificación se detectó un problema de overfitting que requería de una nueva preparación de datos para aproximar el problema desde otra perspectiva distinta. La combinación de la naturaleza iterativa de CRISP, junto con las técnicas de agilidad propiciadas por el uso de un framework de gestión de proyectos basado en Scrum permitieron tanto comunicar al cliente este problema con la rapidez necesaria, como obrar en consecuencia y aplicar otras técnicas distintas de modelado.

 

Si te interesa la metodología SCRUM adaptada a proyectos de Data y quieres conocer cómo podemos ayudar a sacar mayor partido a tus datos, contáctanos. Nuestro equipo de Data&Analytics estará encantado de ayudarte. 

Mariano Minoli
3 posts

Sobre el autor
Co-director del Departamento de Data & Analytics de Hiberus. Con más de 20 años de recorrido en el mundo de datos, es un perfil de referencia en proyectos de Big Data y Machine Learning. Doctor en informática y colaborador en el ámbito de investigación de Inteligencia Artificial. Profesional certificado en SQL Server (MCITP) Oracle (OCA) y Machine Learning por el Instituto de Tecnología de Massachusetts (MIT). Lidera actualmente proyectos de adopción de tecnologías de Big Data y Machine Learning en clientes del ámbito público y privado.
Artículos

Visualización y análisis de datos, integración de tecnologías big data, machine learning e inteligencia artificial

Hiberus cuenta entre sus tecnologías diferenciales con una unidad especializada en servicios de Data & Analytics. Ofrecemos soluciones integrales de consultoría estadística y análisis de datos con especialización por áreas de conocimiento.

¿Te ayudamos?

Artículos relacionados
Next Tech

Análisis geolingüístico: patrimonio lingüístico con Microsoft Power BI

6 Mins de lectura
“La lengua es en cierto modo la manifestación externa del espíritu de los pueblos.” (Guillermo de Humboldt) Cuando hablamos de la lengua…
Next Tech

3 formas de usar Inteligencia Artificial en Power BI sin escribir código

4 Mins de lectura
“La inteligencia artificial es la capacidad de un sistema para interpretar correctamente datos externos, para aprender de dichos datos y emplear esos…
Next Tech

Las novedades de Microsoft Inspire 2020: Power Platform, cloud y trabajo más colaborativo

3 Mins de lectura
Microsoft cada año nos tiene acostumbrados a su gran evento mundial de partners, Inspire, donde se anuncian grandes novedades sobre el fabricante y…

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *