Data Lakehouse: la solución para una gestión eficiente de los datos

Esta arquitectura permite integrar y unificar un data warehouse y un data lake obteniendo lo mejor de ambos mundos.

Publicado el 25 Mar 2022

Data Lakehouse: la solución para una gestión eficiente de los datos.

La aplicación de la Inteligencia Artificial al análisis de datos para conseguir una visión y automatización mejorada es una prioridad tecnológica de las empresas en crecimiento. Pero las opciones de repositorio de datos que han existido de un tiempo a esta parte tienden a quedarse cortas en tanto en cuanto a su capacidad para servir como base para el análisis de big data impulsado por IA.

Los data warehouses tradicionales, por ejemplo, admiten conjuntos de datos de múltiples fuentes, pero requieren una estructura de datos consistente. Son comparativamente caros y no pueden realizar un análisis de big data. No obstante, cuentan con capacidades efectivas de administración, organización e integridad de datos. Como resultado, los usuarios pueden encontrar fácilmente lo que necesitan y las organizaciones evitan las cargas operativas y de costes de almacenar copias duplicadas o innecesarias.

Por otra parte, los data lakes más nuevos son altamente escalables y pueden ingerir datos estructurados y semiestructurados junto con datos no estructurados como texto, imágenes, video y audio. Almacenan convenientemente los datos en una arquitectura plana que se puede consultar en conjunto y ofrecen la velocidad y el menor coste necesario para el análisis de big data. Por otro lado, no admiten transacciones ni imponen la calidad de los datos. Si los encargados de administrar ese “lago de datos” no configuran procesos y metadatos precisos para organizarlos, el lago puede convertirse rápidamente en lo que se conoce como un “data swamp” (un pantano de datos), es decir, un lago de datos que dificulta la localización por parte de los usuarios.

Se necesita, pues, una fusión de lo mejor de ambos mundos.

Lakehouse, una solución convergente

Lakehouse es un repositorio moderno que almacena todos los datos estructurados, semiestructurados y no estructurados como lo hace un lago de datos. Sin embargo, también disfruta de la calidad, el rendimiento, la seguridad y la gobernanza que aporta un data warehouse. Como tal, este espacio está emergiendo como la única arquitectura de datos que admite inteligencia empresarial (BI), análisis SQL, aplicaciones de datos en tiempo real, ciencia de datos, IA y aprendizaje automático (ML), todo en una única plataforma convergente.

En este sentido, la arquitectura open lakehouse implementa estructuras de datos y funciones de administración similares a las de un almacén directamente sobre el almacenamiento en la nube en formatos abiertos, lo que proporciona:

  • Compatibilidad con diversos tipos de datos, desde no estructurados hasta estructurados, cargas de trabajo de big data, análisis e IA.
  • Coherencia, ya que varias partes leen o escriben datos al mismo tiempo.
  • Compatibilidad con BI directamente en los datos de origen, lo que reduce la obsolescencia, la latencia y el coste operativo de tener dos copias de datos tanto en un data lake como en un warehouse.
  • Formatos de almacenamiento abiertos con API para una variedad de herramientas y motores, incluidas las bibliotecas ML y Python/R, que pueden acceder a los datos directamente.
  • Transmisión de extremo a extremo para habilitar informes en tiempo real y eliminar la necesidad de sistemas separados dedicados a servir aplicaciones de datos en tiempo real.
  • Cumplimiento y evolución del esquema.
  • Mecanismos sólidos de gobernanza y auditoría.
  • Recursos informáticos y de almacenamiento desacoplados para habilitar el escalado asíncrono.

El reto de soportar múltiples repositorios

Es habitual compensar las deficiencias respectivas de los repositorios existentes mediante la ejecución de múltiples sistemas, por ejemplo, un lago de datos, varios data warehouses y otros sistemas diseñados específicamente. Este proceso no es el más adecuado pues no está exento de ineficiencias. En particular, los datos albergados en un tipo de repositorio a menudo se excluyen de los análisis que se ejecutan en otro, lo que no resulta óptimo.

Además, tener varias plataformas implica la creación de procedimientos costosos y complicados desde el punto de vista operativo para mover los datos del lago al almacén, si es necesario. Para abordar los problemas de calidad del data lake, por ejemplo, muchos utilizan a menudo procesos de extracción/transformación/carga (ETL, del inglés extract/transform/load), que les permite copiar un pequeño subconjunto de datos del lago al almacén para aplicaciones de BI y soporte de decisiones importantes. Esta arquitectura dual requiere ingeniería continua para datos ETL entre las dos plataformas. Cada paso de ETL corre el riesgo de introducir errores que reducen la calidad de los datos.

En segundo lugar, los principales sistemas de aprendizaje automático, como TensorFlow, PyTorch y XGBoost, no funcionan bien en los almacenes de datos. Los datos depositados en estos entornos, por lo tanto, no pueden ser parte del conjunto de datos agregados multiestructurados, que son los que producen los resultados más completos para una empresa. Muchos de los avances recientes en AI/ML han sido en la mejora de modelos para procesar datos no estructurados, que los warehouses no pueden ejecutar. A diferencia de BI, que extrae una pequeña cantidad de datos y para los cuales los almacenes están optimizados, los sistemas ML procesan grandes conjuntos de datos utilizando código complejo que no es SQL.

Desde la perspectiva del data lake, la falta de coherencia de los datos hace que sea casi imposible mezclar añadidos y lecturas, y los trabajos por lotes y de transmisión. Esto supone que los resultados comerciales de esta técnica no sean los esperados.

Fusión en una sola arquitectura

Los data lakehouses están habilitados por un nuevo diseño de sistema abierto con estructuras de datos y funciones de data management de un almacén, pero se implementan directamente en las plataformas de almacenamiento modernas y de bajo coste utilizadas para los lagos de datos. Fusionarlos en una sola arquitectura implica que los conjuntos de datos pueden moverse más rápido, ya que se puede acceder a los datos sin acceder a múltiples sistemas. Los lagos también garantizan que los equipos tengan los datos más completos y actualizados disponibles para proyectos de data science, IA/ML y análisis empresarial.

Más información sobre el tema:

¿Qué te ha parecido este artículo?

Tu opinión es importante para nosotros.

D
Redacción Data Center Market

Artículos relacionados

Artículo 1 de 3