Secretos de DevOps: cómo potenciar la IA con un acceso más rápido a los datos

Las aplicaciones modernas que requieren tiempos de procesamiento muy rápidos y almacenes de datos a hiperescala para aprovechar la IA. El aprendizaje automático o la analítica de datos también requieren infraestructuras modernas y rentables.

Algunas organizaciones están apostando por la nube pública, pero seguir las tendencias no siempre sirve para todas las necesidades. El coste total de propiedad de los almacenes de datos a gran escala y a largo plazo en la nube, puede empezar a superar los beneficios, lo que resulta irónico si se tiene en cuenta que más del 60% de las empresas consideran el ahorro de costes como la principal razón para pasarse a la nube.

Los profesionales de TI con los que trabajamos en el sector financiero, las grandes instituciones gubernamentales e incluso los proveedores de SaaS están buscando activamente nuevas soluciones de software multi-nube y on-prem para mantener sus datos de manera más eficaz y rentable. Utilizar software on-prem para almacenar y gestionar datos en múltiples entornos de nube pública es una solución viable para muchos. Y el ingrediente secreto puede ser sorprendente:

El coste total de propiedad de los almacenes de datos a gran escala y a largo plazo en la nube, puede empezar a superar los beneficios

Software de almacenamiento de objetos rápido on-prem

Una reciente encuesta de Vanson Bourne a líderes de TI europeos predice que el almacenamiento de objetos all-flash reemplazará las soluciones de almacenamiento primario en los próximos tres a cinco años para impulsar las aplicaciones que utilizan IA, ML y análisis de datos.

Estos resultados también están respaldados por una reciente encuesta de ESG realizada en Estados Unidos, que concluyó que el almacenamiento de objetos all-flash está “en camino de convertirse en la base del nuevo ecosistema moderno de almacenamiento de datos”. El 77% de los profesionales de TI de las organizaciones que utilizan actualmente el almacenamiento de objetos all-flash señalaron que la tecnología ha tenido un gran impacto o ha sido una tecnología que ha cambiado la manera de entender su entorno de almacenamiento local.

Hay al menos siete razones por las cuales el almacenamiento de objetos se ha hecho imprescindible para respaldar modelos de inteligencia artificial eficaces.

Escalabilidad infinita: Grandes cantidades de datos requieren enormes cantidades de almacenamiento, y las cargas de trabajo de IA/ML requieren una solución que pueda escalar infinitamente a medida que crecen los datos. El almacenamiento de objetos es el único tipo de almacenamiento que puede escalar sin límites hasta decenas de petabytes y más allá dentro de un único espacio de nombres global.

Protección de datos integrada: Realizar regularmente copias de seguridad de un conjunto de datos de entrenamiento de varios petabytes no sólo es prohibitivo en cuanto a costes y tiempo, sino que es totalmente irreal. La mayoría de los sistemas de almacenamiento de objetos, por su diseño, no requieren copias de seguridad. Más bien, almacenan los datos con suficiente redundancia para que estén siempre protegidos.

Capacidades de búsqueda y clasificación de metadatos inherentes: Una necesidad absoluta en la fase de preparación de los datos necesaria para construir y entrenar modelos de ML eficaces son los metadatos detallados y descriptivos, que permiten etiquetar, buscar, localizar y analizar fácilmente los datos. Mientras que los sistemas de archivos y bloques no permiten atributos extendidos definidos por la aplicación o el usuario, los sistemas de almacenamiento de objetos ofrecen formas únicas de identificar los datos con metadatos increíblemente ricos y personalizables. Su naturaleza permite un etiquetado fácil, una capacidad de búsqueda robusta y rápida como un rayo, así como una gestión eficiente de enormes conjuntos de datos.

Funcionalidad multi-tenant: Aislar las cargas de trabajo a través de la multitenencia permite que varios equipos de científicos de datos trabajen simultáneamente con la misma fuente de datos sin que se afecten mutuamente o compitan por los recursos.

Rendimiento sostenido: La capacidad de mantener la canalización de datos a un ritmo óptimo es crucial para el entrenamiento de modelos de ML. Los sistemas modernos de almacenamiento de objetos mantienen un alto rendimiento de los datos y, además, permiten la escalabilidad para aumentar la capacidad y el rendimiento general del sistema, tanto de forma independiente como lineal.

Lengua franca para los algoritmos de IA/ML que se ejecutan en la nube: Independientemente de dónde residan los datos, la integración con la nube pública es importante, sobre todo porque las plataformas de nube pública ofrecen algunos conjuntos de herramientas listos y atractivos para la IA/ML. Las mejores soluciones de almacenamiento de objetos permiten a los usuarios gestionar los datos basados en la nube y los locales dentro de un único espacio de nombres unificado, eliminando los silos de datos y permitiendo que los recursos se utilicen de forma cooperativa e intercambiable sin ninguna pérdida de funcionalidad, independientemente de dónde se encuentren.

Bajo coste total de propiedad (TCO): Una infraestructura de almacenamiento diseñada para las cargas de trabajo de IA/ML debe proporcionar no sólo capacidad y rendimiento, sino también rentabilidad en lo que respecta al almacenamiento, el traslado y la gestión de los múltiples petabytes de datos necesarios para el entrenamiento óptimo de los modelos. Al aprovechar la tecnología de servidores estándar y la capacidad de operar a gran escala en un único sistema, el almacenamiento de objetos ofrece todo esto a una fracción del coste del almacenamiento empresarial tradicional. Las soluciones definidas por software pueden alojarse en servidores x86 estándar asequibles y crecer a lo largo de varias generaciones de hardware para reducir los costes.

Secretos de DevOps: cómo potenciar la IA con un acceso más rápido a los datos

Israel Serrano

Artículos relacionados

Secretos de DevOps: cómo potenciar la IA con un acceso más rápido a los datos

Israel Serrano

Artículos relacionados

Código Rss

Código Rss