Vivimos en un mundo de datos híbridos. En la última década, según un estudio reciente de Statista, la cantidad de datos estructurados creados, capturados, copiados y consumidos a nivel mundial ha pasado de menos de 1 ZB en 2011 a unos 14 ZB en 2020. Si hablamos de datos no estructurados, en la nube y datos de máquinas, hay que añadir otros 50 ZB.
La tendencia es que el volumen de información vaya a más, triplicándose para 2025. Capitalizar todo su potencial requiere contar con recursos como son los data lakes, repositorios centralizados y escalables diseñados para almacenar, procesar (en tiempo real o por lotes), analizar y proteger grandes cantidades de datos de todo tipo.
Este tipo de “lagos” impulsan el uso de análisis de datos de misión crítica a gran escala, business intelligence (BI) y machine learning, así como el uso de data warehouse empresariales. Precisamente, en los últimos años se ha acuñado el término ‘data lakehouse’, que combina los beneficios de un data warehouse y de un data lake, pero con un pequeño hándicap: mientras que los “lagos” son abiertos, los lakehouses no.
“Los clientes exigen cada vez más desde el principio. Más formatos, más motores, más interoperabilidad. Y eso solo se consigue con lakehouse abiertos”, comenta Juan Carlos Sánchez de La Fuente, Regional Director España y Portugal de Cloudera. “Un data lakehouse abierto aborda los problemas de interoperabilidad y de arquitectura en su core. Innovar consiste en resolver los problemas con las mejores herramientas, sin importar el proveedor, de ahí la necesidad de este salto en la concepción de este tipo de infraestructuras”, añade.
Cloudera Data Platform incorpora Apache Iceberg
Cloudera ha anunciado que Apache Iceberg está disponible en su plataforma Cloudera Data Platform (CDP) como parte de su estrategia en pro del open source. Concebido como un proyecto de Netflix y después donado a la Fundación Apache Software en 2018, Apache Iceberg es un formato abierto de alto rendimiento, nacido en la nube y que es capaz de escalar los petabytes independientemente de la capa de almacenamiento subyacente y de la capa del motor de acceso.
Al ser la primera plataforma híbrida que ofrece data lakehouse abiertos, CDP permite realizar análisis multifunción a escala de petabytes, tanto en flujos de datos en streaming como en datos almacenados en un almacén cloud nativo, ya sea en múltiples nubes como on-premise.
El despliegue de Apache Iceberg en CDP incluye Cloudera Data Warehousing, Cloudera Data Engineering y Cloudera Machine Learning, soluciones que permiten a analistas y científicos de datos colaborar fácilmente con la información de la que disponen, independientemente de su elección de herramientas o motores analíticos.
La velocidad y la precisión de Apache Iceberg en CDP permiten a las organizaciones combinar almacenes de datos a gran escala con datos procedentes del IoT en tiempo real, así como aplicar machine learning e inteligencia artificial para una serie de casos de uso que no eran prácticos o incluso posibles anteriormente.