Cuatro consejos para el procesamiento de datos en tiempo real

El objetivo de este reportaje es ofrecer recomendaciones para ayudarle a crear un entorno escalable y rentable para procesar datos en las instalaciones o directamente en el Edge.

Publicado el 18 Mar 2022

Cuatro consejos para el procesamiento de datos en tiempo real

El procesamiento de datos en tiempo real es una necesidad para casi todas las empresas y organizaciones de todo el mundo. Es la base de servicios como la gestión de identidades, la prevención del fraude, las transacciones financieras, los motores de recomendación, la gestión de las relaciones con los clientes y la supervisión de las redes sociales. También es la base del análisis predictivo, la inteligencia artificial y el aprendizaje automático o machine learning.

El reto para muchas organizaciones está en saber escalar los recursos en tiempo real de tal manera que reduzca los costes y aumente los ingresos. Pero varios elementos lo dificultan, como demuestran las siguientes cifras de Statista:

Crecimiento masivo de datos: Se espera generar más de 180 Zettabytes de datos para 2025.

Mayor digitalización: Se prevé que las organizaciones transformadas digitalmente contribuyan a más de la mitad del PIB mundial para 2023.

Análisis en tiempo real: La cantidad de datos en tiempo real en la esfera de datos global crecerá de 9,5 Zettabytes en 2020 a 51 Zettabytes en 2025.

Requerimientos on-premise para datos confidenciales

Un enfoque a considerar es migrar datos a la nube pública. La nube es atractiva porque reduce el gasto de capital a cambio de un gasto operativo flexible, según los requisitos dinámicos de una empresa. La nube también admite un escalado rápido.

Sin embargo, las tarifas derivadas de esa transferencia de datos pueden aumentar rápidamente, y además hay que tener en cuenta que no todos los datos son susceptibles para subir a la nube. Para cumplir con las regulaciones gubernamentales y/o las políticas de seguridad internas, las organizaciones pueden considerar necesario proteger los datos confidenciales en las propias instalaciones. De manera similar, una empresa puede decidir mantener sus datos más críticos, desde registros financieros hasta archivos de ingeniería, localmente, donde pueda proteger mejor estos datos.

Por lo tanto, los equipos deben poder almacenar, procesar y administrar datos en tiempo real en sus propios centros de datos. Y para ello necesitan una solución que reduzca costes, simplifique la administración y que sea capaz de escalar rápidamente, transformando estos datos en ingresos, a una velocidad mayor que la competencia.

Construcción de un entorno escalable y rentable
Construcción de un entorno escalable y rentable

Construcción de un entorno escalable y rentable

Estos cuatro consejos pueden ayudar a crear un entorno escalable y rentable para procesar datos, ya sea on-premise o en el Edge.

Integre una base de datos NoSQL con Kafka y Spark: Para organizaciones con una base de datos de más de 5 TB y la necesidad de procesar un gran volumen de datos en tiempo real, es necesario considerar implementar una base de datos NoSQL junto con otras herramientas en tiempo real, como Kafka y Spark.

Haga coincidir los componentes de su servidor con su caso de negocio: Para que el software que respalda su base de datos logre el mejor rendimiento en tiempo real a escala, también necesita el hardware de servidor adecuado. A escala, la memoria del servidor (DRAM) es cara y consume cada vez más energía. También requiere discos duros para proporcionar almacenamiento confiable a largo plazo. Actualmente, hay disponibles en el mercado nuevas opciones de memoria persistente del servidor (PMem) que igualan la velocidad de la DRAM, pero son menos costosas y conservan los datos en el caso por ejemplo de una posible interrupción del suministro eléctrico.

Escalar vertical y horizontalmente: Por lo general, los sistemas están diseñados para escalar verticalmente (por ejemplo, agregar más recursos a un servidor o nodo existente) o escalar horizontalmente (por ejemplo, aumentar la cantidad de servidores o nodos). Idealmente, el procesamiento de datos en tiempo real requiere una solución de base de datos, hardware y software que pueda escalar tanto vertical como horizontalmente.

Utilice la distribución inteligente de datos para reducir la latencia y aumentar la resiliencia: A medida que crecen los clústeres de procesamiento, es importante evitar los “puntos críticos”. Los puntos calientes o hot spots surgen cuando una parte de un clúster se requiere o se usa con más frecuencia que otros recursos. Esto genera cuellos de botella y una degradación general del rendimiento del clúster. La tecnología, como el equilibrio de carga, garantiza que todos los recursos de un clúster efectúen aproximadamente la misma cantidad de trabajo. Distribuir la carga de esta manera reduce la latencia y elimina los cuellos de botella. La distribución inteligente también permite la creación de clústeres que abarcan varios centros de datos, lo que aumenta la resiliencia.

Resultados en el mundo real para datos en tiempo real

Dell Technologies ha trabajado con Aerospike para acelerar el procesamiento de datos en tiempo real. Aerospike es una compañía que ofrece soluciones que eliminan las compensaciones entre alto rendimiento, escala, consistencia y bajo coste total de operaciones.

Por ejemplo, permite el uso de almacenamiento flash en paralelo para realizar lecturas con una latencia de submilisegundos. Esto admite un rendimiento muy alto (100K a 1M) necesario para cargas de escritura intensas durante el procesamiento en tiempo real. Utilizando una arquitectura de memoria híbrida con un índice puramente en memoria, Aerospike puede lograr una ampliación vertical a un coste total de propiedad cinco veces menor en comparación con una implementación de memoria de acceso aleatorio (RAM) de servidor puro. Por lo tanto, la arquitectura de almacenamiento se puede optimizar para el rendimiento y la escala.

Además, la arquitectura admite la gestión algorítmica de clústeres combinada con la replicación global de centros de datos cruzados para admitir el filtrado complejo, el enrutamiento dinámico y las capacidades de recuperación automática. Esto facilita que los sistemas se recuperen rápidamente de eventos adversos mientras mantienen el rendimiento, lo que lo hace ideal para el procesamiento de datos de misión crítica en tiempo real.

El procesamiento de datos en tiempo real solo puede volverse cada vez más esencial para las empresas con el tiempo. Con la tecnología adecuada, las empresas pueden superar los desafíos actuales de datos en tiempo real para mejorar su agilidad, eficiencia y rentabilidad en general. Y al invertir en soluciones de hardware y software que funcionan juntas para brindar un rendimiento óptimo, los entornos de procesamiento de datos en tiempo real continuarán ampliándose y ampliándose en los años venideros.

Las tecnologías Intel potencian la analítica

El análisis de datos es la clave para desbloquear el máximo valor que puede extraer de los datos en toda la organización. Para crear una estrategia de análisis productiva y rentable que obtenga resultados, se necesita un hardware de alto rendimiento que esté optimizado para funcionar con el software que utiliza.

El análisis de datos moderno abarca una variedad de tecnologías, desde plataformas y bases de datos de análisis dedicadas hasta aprendizaje profundo e inteligencia artificial. ¿Acabas de empezar con la analítica? ¿Estás listo para evolucionar tu estrategia de análisis o mejorar la calidad de tus datos? Siempre hay espacio para crecer, e Intel está listo para ayudar. Con un ecosistema profundo de socios y tecnologías de análisis, Intel acelera los esfuerzos de los científicos de datos, analistas y desarrolladores en todas las industrias.

¿Qué te ha parecido este artículo?

Tu opinión es importante para nosotros.

D
Redacción Data Center Market

Artículos relacionados

Artículo 1 de 5