Uno de los principales objetivos del Instituto de la Ciencia de Datos es establecer buenas prácticas y metodologías de la Ciencia de Datos. Debido a su reciente definición, la Ciencia de Datos no cuenta con una metodología o conjunto de pasos a seguir estándar que se aplique en todos los proyectos. Si bien, algunas metodologías como CRISP o SEMMA son muy difundidas, no existe un consenso general en una metodología especifica para que los proyectos de Ciencia de Datos sean exitosos. Esto se hizo evidente al analizar los resultados de la encuesta del sitio web KDnuggets. En lo personal, yo prefiero una metodología propia de 7 pasos que describo a continuación:

Definición del Proyecto y su Objetivo

Antes de comenzar a analizar datos y a construir modelos, es necesario fijar y delimitar claramente lo que se pretende lograr o mejorar mediante la Ciencia de Datos. En la experiencia del autor, objetivos muy ambiciosos, como querer transformar todas las áreas de la empresa o personalizar la experiencia de absolutamente todos los clientes, pueden resultar en un camino al fracaso. Todos queremos llegar lejos con nuestras metas y objetivos, pero lo ideal es establecer un proceso de mejora continua, con objetivos claros, concisos y alcanzables, pero sobretodo, objetivos que generen valor en el corto plazo.

Obtención de Datos

Una vez definido nuestro objetivo comienza la etapa más tediosa pero extremadamente importante dentro de la Ciencia de Datos. Esta etapa se refiere al proceso de adquisición y limpieza de datos. La adquisición puede ser tan sencilla como copiar datos a la plataforma analítica desde bases de datos o archivos hasta algo tan complejo como la búsqueda y obtención de terceros de datos que puedan ser útiles para el proyecto. Nunca se tiene la certeza absoluta de que los datos que se tienen o se piensa adquirir realmente ayudarán a cumplir nuestro objetivo. Los modelos predictivos requieren en ocasiones que los datos no tengan valores ausentes y ciertas técnicas de Machine Learning pueden generar resultados no óptimos debido a la presencia de valores extremos o erróneos. La limpieza de datos consiste en detectar y corregir estas situaciones para tener buenos resultados.

Entendimiento de los Datos

Esta etapa ocurre usualmente en paralelo a la obtención de datos. Es esencial que un experto del negocio explique reglas, excepciones y cualquier detalle relativo a los datos como puede ser su origen (capturados manualmente, provienen de un sensor, de una empresa tercera, etc.). Así mismo, el equipo de Ciencia de Datos debe entender las estrategias de negocio que se han adoptado a lo largo de los años, cambios en regulaciones y políticas, en pocas palabras, debe entender claramente cómo funciona el negocio para poder aterrizar soluciones prácticas y factibles, así como poder establecer una o varias hipótesis a comprobar alineadas a los objetivos del proyecto.

Construcción del modelo

Es una etapa muy interesante en la que mediante técnicas multidisciplinarias se busca encontrar el mejor modelo posible que nos permita tomar mejores decisiones. El mejor modelo no siempre es el más efectivo o el más eficiente, todo dependerá de acuerdo a las necesidades de cada proyecto. También es importante evitar la “parálisis por análisis”, esto es dedicar un tiempo excesivo en encontrar una solución, ya que usualmente el tiempo es un factor muy importante para obtener resultados satisfactorios o las condiciones del entorno o mercado pueden cambiar mientras se construye el modelo.

Validación del modelo

Antes de comenzar a aplicar el modelo obtenido es importante revisar y discutir abiertamente los resultados con expertos de negocio y de ser posible con otros equipos de Ciencia de Datos. La opinión de los usuarios no técnicos, que al final de cuentas usarán el modelo, es frecuentemente ignorada, derivando en ocasiones en modelos que nunca son usados.

Aplicación del Modelo

Si el proyecto no fue planificado adecuadamente esta etapa será un fracaso. Modelos extremadamente complejos, o que demanden un alto mantenimiento, o una cantidad de recursos elevados serán difícilmente puestos en producción u otorgarán los resultados deseados. En ocasiones puede resultar muy riesgoso aplicar al 100% el modelo obtenido, por lo que para comprobar las hipótesis planteadas y comprobar el funcionamiento correcto del modelo, se realizan Diseños Experimentales en grupos de control para garantizar que el modelo será seguro de aplicar en su totalidad.

Monitoreo del Modelo

Las condiciones bajo las que se construyó el modelo pueden diferir en la realidad o cambiar conforme pasa el tiempo, por lo que es importante un monitoreo constante de tal manera que se garantice que las predicciones del modelo sean certeras o que no exceda un valor de error umbral de diseño. Dependiendo de los resultados obtenidos podrán replantearse ciertas partes del proyecto, o bien, mejorar continuamente el proceso para obtener gradualmente mejores resultados.

Es importante señalar que esta metodología no es un ciclo secuencial. Rara vez en un proyecto de Ciencia de Datos encontramos soluciones cruzando una única vez el ciclo. Se trata de un proceso iterativo en el que es usual que imprevistos o resultados no satisfactorios se vayan encontrando en cualquiera de las fases. Y estas situaciones indeseadas nos hacen ir pasos atrás, o bien, se deben replantear las hipótesis que hemos planteado para resolver el problema.

¿Ustedes emplean una metodología similar a la planteada? ¿Cuáles son las principales dificultades a las que se han enfrentado en proyectos de Ciencia de Datos? ¿Han tenido la necesidad de tomar una ruta diferente a la metodología que usualmente aplican?