DataOps como lo ha definido Gartner es “Una práctica de gestión de datos colaborativa enfocada en la integración y automatización de flujos de datos entre los gestores y los consumidores de datos en una organización. El objetivo de DataOps es crear entregas predecibles y una gestión de cambio en los datos, modelos de datos y artefactos relacionados. DataOps utiliza tecnología para automatizar la entrega de datos con un nivel apropiado de seguridad, calidad y metadatos para mejorar el uso y el valor de los datos en un entorno dinámico”.
DataOps nació a partir de la filosofía de DevOps y combina Lean Thinking, prácticas ágiles y cultura DevOps pero, totalmente enfocado en analítica de datos para lograr automatizaciones, velocidad y precisión en el procesamiento de los datos, democratización en el acceso, integración y por supuesto asegurar su calidad.
La realidad para afrontar las iniciativas de analítica de datos
El término DataOps fue introducido en el año 2014 por Lenny Liebmann, donde explicaba la necesidad de tener una práctica que permitiera a las iniciativas de Big Data tener mayor probabilidad de éxito. En 2016 Gartner estimó que cerca del 60% de los proyectos de BigData fallaba, en el 2017 esa cifra ascendió al 85% y para el 2021 según una encuesta de Harvard Business Review, solo el 24% de las compañías califican sobre 7, en una escala del 1 al 10, los resultados de sus iniciativas en analítica.
A raíz de dichos estudios, se ha identificado que la única forma de lograr resultados distintos a los que las organizaciones obtienen actualmente aun utilizando analítica, es pensando diferente, con eso se hace referencia a que la analítica no es un elemento más que debe adherirse a los procesos actuales, debe ser integrada a los procesos existentes para impulsar cambios su definición y ejecución actual, lo anterior valida el motivo del porqué de “Ops” dentro del término DataOps, que hace referencia a la necesidad de que los datos no solamente sean almacenados, gestionados y mostrados en reportes y tableros de control, sino que deben convertirse en un producto reproducible que aprovisione una nueva forma de ejecutar los procesos y apoye como un elemento dinámico las operaciones corporativas.
La analítica no es un elemento más que debe adherirse a los procesos actuales, debe ser integrada a los procesos existentes
Tradicionalmente, las iniciativas analíticas se afrontan desde la perspectiva técnica y un más recientemente desde la perspectiva del científico de datos, el volumen exagerado de datos que ahora se captura o se importa desde fuentes externas como redes sociales, páginas web, streaming, sensores entre otros, han hecho que las empresas sientan presión e inicien sus proyectos de analítica sin seguir una secuencia que pueda garantizar los resultados.
Es común pensar que los proyectos de analítica empiezan con la definición de un caso de uso, la adquisición de una herramienta de analítica y la contratación de un analista y/o un científico de datos, debido a que es bien conocido que estos perfiles profesionales, saben trabajar con grandes volúmenes de datos para encontrar piezas de gran valor y saben perfectamente qué tipo de análisis realizar para convertirlos en información relevante para la compañía. Desafortunadamente, esa es la práctica que ha fallado durante años, debido a que ese tan anhelado algoritmo que podría descubrir algo nuevo es tan solo la punta del Iceberg que depende de muchos otros factores que no suelen tenerse en cuenta.
Seis ventajas de ‘DataOps’ para el negocio
DataOps no es una arquitectura o tecnología como tal, ni está relacionado a una herramienta o lenguaje de programación específico, pero, para establecer algunos de sus principios si se requieren la selección y uso de una herramienta, por lo tanto, es importante tener claro que, según las necesidades y objetivos de la organización, DataOps a través de tecnología o no, te ayudará a promover cambios dentro de los cuales se destacan los siguientes:
- Usar una estrategia de datos: que permita la colaboración de los equipos de trabajo desde la ingesta de datos hasta la analítica, trabajando de forma sincronizada para que los datos estén disponibles en menos tiempo, con mayor calidad y más accesibles.
- Cambiar la idea: que “Entre mayor sea la cantidad de datos, mejores serán los análisis” por, “Entre mejor sea la gestión de datos y estén disponibles ágilmente a través de un proceso repetible y optimizado, mejor serán los análisis”.
- Evitar la duplicación de datos: generar productos de datos con mayor acceso, calidad, disponibilidad para la operación, evitando así que cada una de las áreas busque crear su propia copia para suplir sus necesidades específicas.
- Mejorar la analítica de datos: a través del uso de algoritmos de Machine Learning que permitan a los equipos de analistas y científicos de datos recolectar, procesar y analizar grandes volúmenes de datos antes de ser entregados a las áreas internas de la compañía.
- Proveer una retroalimentación constante: entre las áreas de la compañía que usan los productos de datos y los equipos de trabajo de analítica que gestionan los datos, para facilitar la corrección de errores, la adaptación y la adopción de nuevos retos o líneas de negocio.
- Utilizar la analítica para apoyar tecnologías de automatización: eliminando el consumo de tiempo en tareas manuales automatizándolas para la operación y aprovisionamiento de datos de alta calidad.
Es así como el DataOps sugiere afrontar las iniciativas de datos desde una perspectiva que busca asegurar el éxito de la inversión, para evitar estar en el grupo del 86% de las compañías que consideran que sus iniciativas de analítica no impactan positivamente a la empresa, ni cumplen con los objetivos propuestos.