I escribió recientemente sobre la interrupción generalizada de AWS. No me di cuenta de que solo unos días después, el mundo sería testigo de la caída de otro proveedor de nube. Esta vez fue Microsoft Azure. Lo que ocurrió a finales de octubre no fue simplemente otro problema técnico. Fue una segunda llamada de atención en cuestión de días y afectó a millones de personas en todo el mundo.

Microsoft Azure cayó

El 29 de octubre, Microsoft Azure, una de las plataformas en la nube más grandes del mundo, dejó de funcionar. Esto provocó apagones digitales generalizados. Los estudiantes no pudieron iniciar sesión en Teams. Viajeros en Aerolíneas de Alaska no pudieron facturar en sus vuelos. jugadores Al abrir Xbox o Minecraft se produjeron fallos de conexión. Incluso las rutinas cotidianas como colocar un Starbucks Se interrumpieron los pedidos móviles o la verificación de una membresía de Costco.

El problema vino de un error de configuración en Azure Front Doorel sistema que dirige el tráfico de Internet a diferentes aplicaciones. Esto desencadenó una cadena de fracasos. El corte duró más de ocho horas. Por la noche, Microsoft anunció que la mayoría de los servicios volvían a la normalidad, aunque un pequeño número de clientes seguían experimentando problemas.

Es importante tener en cuenta que Microsoft informó una interrupción similar el 9 de octubre. Microsoft comunicado oficial explicó: «Este incidente de la AFD el 29 de octubre no estuvo directamente relacionado con el incidente anterior de la AFD, del 9 de octubre. Ambos incidentes estaban ampliamente relacionados con el riesgo de propagación de la configuración (inherente a una red de entrega de contenido global, en la que los cambios de ruta/WAF/origen deben implementarse rápidamente en todo el mundo), pero si bien el modo de falla fue similar, los defectos subyacentes fueron diferentes».

Dos apagones importantes

Esta interrupción de Azure ocurrió pocos días después de la importante interrupción de AWS que causó problemas generalizados en la banca, la educación, la logística, las aplicaciones para el consumidor y el entretenimiento. Con dos perturbaciones masivas ocurriendo tan juntas, ahora es imposible ignorar una cuestión más amplia. ¿Estamos siendo testigos de un problema universal más profundo con la confiabilidad de la nube?

Estos cortes muestran un patrón. El ecosistema de la nube está extremadamente centralizado. Un pequeño número de proveedores tienen una enorme responsabilidad. La infraestructura es increíblemente compleja, lo que significa que incluso los errores más pequeños pueden afectar a todos los continentes. Detrás de la experiencia fluida que esperamos todos los días hay una delicada red de servidores, configuraciones, sistemas de enrutamiento, sistemas de refrigeración y decisiones humanas. Cuanto más concentrado está este sistema, más vulnerable se vuelve.

También me pregunto si la creciente adopción de la IA es una causa indirecta de estos fallos en la nube. Las cargas de trabajo de IA también están ejerciendo presión sobre la nube existente. La contratación ha disminuido en empresas de tecnología como Amazon y Microsoft en su conjunto, por lo que sus divisiones de nube deben soportar un mayor uso de la nube con menos personal.

Sin embargo, las interrupciones de Azure y AWS demostraron que Internet es tan fuerte como el error de configuración más pequeño enterrado en lo más profundo de un sistema global. Ya no se trata de acontecimientos técnicos aislados. Son acontecimientos sociales. Afectan las aulas, los planes de viaje, las compras de alimentos, los servicios públicos, las transacciones financieras, el entretenimiento y el trabajo.

Planificación siguiente

Cuando una nube tropieza, el mundo lo siente. Cuando dos nubes tropiezan en un mes, la conversación pasa de la sorpresa a la preocupación.

Las empresas y los gobiernos ahora están reconsiderando cuánta confianza depositan en un solo proveedor de nube. Ellos son explorando maneras mantenerse operativo si su proveedor de nube falla. Muchos están considerando estrategias híbridas o de múltiples nubes para reducir el riesgo. Los reguladores pueden comenzar a tratar la infraestructura de la nube de la misma manera que tratan las redes eléctricas o los sistemas de transporte, porque las interrupciones ahora tienen amplias consecuencias sociales y económicas. La resiliencia se está volviendo tan importante como la velocidad y la escalabilidad. Los proveedores de la nube han incorporado redundancia de máquinas, pero no es suficiente.

La nube sigue siendo una de las tecnologías más poderosas de nuestro tiempo. Transformó la forma en que el mundo almacena datos, se comunica y colabora. Pero no es invencible. Necesita salvaguardias más sólidas, mejores estrategias de conmutación por error y más diversidad en su arquitectura para evitar fallas en cascada.

La confiabilidad es clave

Esta interrupción fue más que un inconveniente. Fue un recordatorio de cuán profundamente se ha entretejido la nube en el tejido de la vida moderna. El trabajo escolar, los viajes, las comunicaciones, las compras, los pagos, el entretenimiento, las reuniones de trabajo y los sistemas gubernamentales dependen de la maquinaria de la nube. Cuando falla, el impacto va mucho más allá de las empresas que alojan allí sus datos.

La nube azul regresó por la mañana y la vida continuó. Al final todo volvió a la normalidad, pero los cortes seguirán. Nos recordaron que detrás de cada aplicación y servicio hay un sistema complejo en el que rara vez pensamos. La confiabilidad es la próxima frontera. La confianza debe ganarse, no asumirse. El futuro de Internet pertenecerá a quienes lo construyan más fuerte que antes.



Source link