En marzo de 2024 Dell Lanzó Data Lakehouse, una solución llave en mano con un motor de consultas basado en la tecnología Starburst, que proporciona acceso de alto rendimiento y alta concurrencia a datos distribuidos, independientemente de la fuente de datos y su ubicación. Dell Data Lakehouse se basa en el almacenamiento compatible con Dell S3, que proporciona una capa de almacenamiento de alto rendimiento y alta disponibilidad para almacenar y consultar datos en formatos abiertos como iceberg.
Los líderes de TI y de datos se enfrentan al desafío de acelerar la analítica y la IA mientras se mantienen los costes bajo control. Si bien la adopción del data lakehouse ofrece ventajas de rendimiento a costes más bajos, los equipos de ingeniería de datos y de TI deben decidir qué datos optimizar y almacenar en caché y cuáles dejar como están en el datalake.
Los responsables de datos de muchas empresas se quejan de que los datos están aumentando más rápido que sus presupuestos. Para responder a estas necesidades, Dell presenta Warp Speed en Dell Data Lakehouse para optimizar el almacenamiento de datos en el almacenamiento compatible con S3 de Dell.
Warp Speed es una nueva característica de Dell Data Lakehouse que aprende de forma autónoma los patrones de consulta e identifica los datos a los que se accede con frecuencia para crear índices y cachés óptimos, al tiempo que mantiene los datos a los que se accede con poca frecuencia en el lugar donde están ubicados.
Warp Speed acelera el rendimiento de las consultas mientras se mantienen los costes. Con Warp Speed, el mismo clúster puede ejecutar consultas al datalake de tres a cinco veces más rápido sin necesidad de ningún cambio en la consulta por parte del usuario final. También puede ayudar a reducir el tamaño de los clústeres hasta en un 40%.
Facilidad en las consultas
En términos más sencillos, las organizaciones pueden ejecutar más consultas en clústeres grandes o ejecutar el mismo volumen de consultas en clústeres más pequeños.
• Aceleración de consultas en los datalake: Permite indexar de forma autónoma el lago de datos y acelerar bajo demanda los conjuntos de datos exploratorios sin involucrar la ingeniería de datos.
• Creación de paneles de control de alto rendimiento: Permite desglosar más rápido de TB a PB de datos, sin ningún cambio en la experiencia del usuario final. Las mismas consultas ahora se ejecutan más rápido.
• Indexación autónoma: Esta función crea tipos de índice apropiados (mapa de bits, diccionario, árbol) adaptados a cada bloque de datos, lo que acelera operaciones como uniones, filtros y búsquedas. Los índices se almacenan en un SSD en los nodos de computación para un acceso rápido.
• Almacenamiento en caché inteligente: El almacenamiento en caché inteligente es un almacenamiento en caché de bloques en columnas SSD patentado que optimiza el rendimiento en función de la frecuencia de uso de datos. El almacenamiento en caché elimina el análisis innecesario de tablas y proporciona una mayor reutilización de datos entre consultas, lo que ahorra costes de procesamiento.