Por qué la resiliencia del centro de datos es más importante ahora y en el futuro

Uptime Institute preguntó a más de 300 gerentes de centros de datos cómo la pandemia cambiaría sus operaciones, una respuesta destacó: dos tercios de los que respondieron esperaban aumentar la resiliencia (capacidad de recuperación) de sus centros de datos centrales en los próximos años.

Publicado el 08 Jul 2021

Cómo han cambiado los niveles de redundancia

Por Rafael Serrano, consultor senior de Uptime Institute

Recientemente, Uptime Institute preguntó a más de 300 gerentes de centros de datos cómo la pandemia cambiaría sus operaciones, una respuesta destacó: dos tercios de los que respondieron esperaban aumentar la resiliencia (capacidad de recuperación) de sus centros de datos centrales en los próximos años. Muchos dijeron que esperaban que sus costos aumentaran como resultado.

El razonamiento es muy claro: la pandemia, o cualquier otra futura, puede significar operar con menos personal y posiblemente con cadenas de suministro y servicio interrumpidas. El monitoreo remoto y el mantenimiento preventivo ayudarán a reducir la probabilidad de un incidente, pero las máquinas siempre fallarán. Tiene sentido reducir el impacto de las fallas aumentando la redundancia del sistema.

Pero incluso antes de la pandemia había una tendencia hacia niveles más altos de redundancia. Como se muestra en la figura siguiente, aproximadamente la mitad de los que participaron en la Encuesta global de proveedores, diseñadores y asesores de Uptime Institute informaron que sus clientes han aumentado los niveles de redundancia en los últimos tres a cinco años.

Esta tendencia puede parecer poco sorprendente para algunos, pero no era del todo predecible. El crecimiento de la nube ha ido acompañado de un uso mucho mayor de zonas de disponibilidad regional y resiliencia multisitio. Al menos en teoría, estos reducen sustancialmente el impacto de las interrupciones de las instalaciones en un solo sitio, porque el tráfico y las cargas de trabajo pueden desviarse a otros lugares. Con esta capacidad, algunos operadores (Facebook es un ejemplo) han procedido con niveles más bajos de redundancia de lo que era común en el pasado (ahorrando así costos y energía).

Sin embargo, el uso de zonas de disponibilidad ha tenido sus propios problemas, y los problemas de redes y software a menudo causan interrupciones en el servicio. Y la pérdida de un centro de datos afecta inmediatamente tanto a la capacidad como la demanda de tráfico en otros, lo que aumenta los riesgos. Por esta razón, incluso los grandes proveedores de nube y los operadores de aplicaciones de Internet administran en su mayoría instalaciones de mantenimiento simultáneo, y es común que estipulen que los socios de colocación tengan instalaciones de nivel N + 2.

Con una variedad de opciones, el cambio general hacia una mayor resiliencia sigue siendo lento y bastante matizado, y los diseñadores favorecen principalmente las configuraciones N + 1 o N + 2 de acuerdo con las necesidades del sitio y del negocio y, a menudo, de acuerdo con la creatividad de los diseñadores. En general, en realidad hay una disminución marginal en la cantidad de centros de datos en 2N, pero un cambio constante en tres años de N + 1 a N + 2, no solo en energía, sino también en enfriamiento (vea la figura a continuación). También hay un aumento en el uso de zonas de disponibilidad activa-activa, como se analiza en la Encuesta de centros de datos globales 2020 de Uptime Institute.

Niveles de redundancia
Niveles de redundancia

Los patrones de demanda y la creciente dependencia de TI explican en parte estos niveles más altos de redundancia / resiliencia. El nivel de resiliencia necesario para cada servicio o por cada cliente está dictado por los requisitos comerciales, pero esto no se fija en el tiempo. La creciente criticidad de muchos servicios de TI destaca la importancia de mitigar el riesgo a través de una mayor resiliencia. La “criticidad progresiva”, una situación en la que la infraestructura y los procesos no se han actualizado para reflejar la creciente criticidad de las aplicaciones o los procesos comerciales que admiten, puede requerir actualizaciones de redundancia.

Uptime Institute espera que los operadores hagan un mayor uso de la resiliencia distribuida en el futuro, especialmente a medida que se diseñan más cargas de trabajo utilizando arquitecturas de nube o microservicios (las cargas de trabajo son más portátiles y las instancias se copian más fácilmente). Pero no hay indicios de que esto esté disminuyendo la necesidad de resiliencia a nivel de sitio. El software que ejecuta estos servicios distribuidos suele ser opaco, complejo y puede ser propenso a errores de programación o configuración. Los datos de interrupciones anuales muestran que este tipo de problemas están proliferando. Además, las fallas de cualquier componente importante pueden producirse en cascada, lo que dificulta y hace que la recuperación sea costosa, con datos y aplicaciones sincronizados en varios sitios.

La pandemia ha aumentado los costos del centro de datos

Cuando la pandemia comenzó a tener un impacto a principios de 2020, rápidamente quedó claro que los operadores de centros de datos iban a tener que invertir más si iban a proporcionar los servicios en los que confían sus clientes. Las necesidades a corto plazo incluían equipo de protección, limpieza profunda y, al parecer, más gastos para respaldar turnos prolongados y más personal de apoyo.

Ha sido menos claro si la pandemia también provocó una ola más sustancial de inversión en automatización y monitoreo en el centro de datos. Una encuesta del Uptime Institute de julio de 2020 mostró que el 90% de los operadores dijeron que aumentarían el uso del monitoreo remoto como resultado de la pandemia, y el 73% dijo que aumentarían el uso de la automatización.

Sin embargo, las intenciones no siempre se traducen en acción e inversión. En general, no se esperaba que los proveedores de herramientas de monitoreo remoto, software y automatización, presten más atención en los medios al aumento del gasto en la nube.

La investigación de 2020 también reveló que muchos esperaban gastar más en infraestructura y resiliencia como resultado directo de la pandemia. Esto no era del todo esperado, ya que los medios de comunicación prestaron más atención al gasto en la nube.

Sin embargo, en la última de varias encuestas del Uptime Institute sobre el impacto de COVID-19, hay alguna evidencia de que el gasto en infraestructura, monitoreo y personal ha aumentado como resultado de la pandemia. Porque en 10 (40%) de los operadores dicho gasto ha aumentado debido a la pandemia, y solo uno de cada 20 (6%) dice que ha disminuido. La mayoría dijo que el gasto aumentó en menos del 20%, aunque algunos valores atípicos registraron aumentos mucho mayores.

El cuadro a continuación muestra las cuatro áreas principales que han contribuido al aumento del gasto durante la pandemia.

Incremento costes del data center
Incremento costes del data center

Los datos sugieren que, si bien la pandemia puede disminuir durante 2021 y 2022, es probable que el aumento del gasto se mantenga. El gasto en equipo de protección y personal adicional puede retroceder, pero las inversiones en tecnología de capital, ya sea en una mayor automatización / monitoreo o en la resiliencia del sitio, pueden tardar años en alcanzar su punto máximo y luego requerirían un apoyo operativo continuo. Como resultado, los centros de datos deberían ser más resilientes en los próximos años y un poco menos susceptibles a problemas con un componente crítico: los humanos. Pero es poco probable que disminuyan los costos operativos.

Por ahora, la tendencia es clara: una mayor resiliencia en todos los niveles es el enfoque de menos riesgo, incluso si significa algún gasto adicional y duplicación de esfuerzos.

¿Qué te ha parecido este artículo?

Tu opinión es importante para nosotros.

D
Redacción Data Center Market

Artículos relacionados

Artículo 1 de 2