Amazon está reforzando las barreras internas después de que recientes interrupciones afectaran la operación de comercio electrónico de la compañía, incluida una interrupción relacionada con su asistente de codificación de inteligencia artificial Q.
Dave Treadwell, vicepresidente senior de servicios de comercio electrónico de Amazon, dijo al personal el martes que surgió una «tendencia de incidentes» desde el tercer trimestre de 2025, incluidos «varios incidentes importantes» en las últimas semanas, según un documento interno obtenido por Business Insider. Al menos una de esas interrupciones estuvo relacionada con el asistente de codificación de inteligencia artificial Q de Amazon, mientras que otras expusieron problemas más profundos, explicó otro documento interno.
Los problemas incluyeron lo que describió como «cambios de alto radio de explosión», donde las actualizaciones de software se propagaron ampliamente porque los aviones de control carecían de salvaguardias adecuadas. (Un plano de control guía cómo fluyen los datos a través de una red informática).
En otros casos, la corrupción de datos tardó horas en solucionarse. Algunas fallas se remontaron a mecanismos básicos, como el requisito de que dos personas autoricen los cambios de código, que faltaban o se omitían.
En respuesta, Amazon está introduciendo controles más estrictos que requerirán que los ingenieros documenten los cambios de código de manera más exhaustiva y obtengan aprobaciones adicionales. Al mismo tiempo, la compañía está desarrollando otras salvaguardas diseñadas para introducir lo que los ejecutivos describieron como «fricción controlada» en el proceso de revisión del cambio de código.
«Estamos implementando prácticas de seguridad temporales que introducirán fricción controlada en los cambios en las partes más importantes de la experiencia minorista», escribió Treadwell en el documento el martes. «Paralelamente, invertiremos en soluciones más duraderas que incluyan salvaguardias tanto deterministas como agentes».
Los problemas de Amazon son un ejemplo de cómo la IA generativa está cambiando la forma en que se escribe, verifica y envía el software. Los servicios de codificación de IA, como Claude Code y las ofertas Q y Kiro de Amazon, ayudan a los ingenieros a producir mucho más código que en el pasado. Sin embargo, aún es necesario verificar este código para detectar errores y otros problemas potenciales antes de publicarlo en el mundo. Cuando esta avalancha de código nuevo llega a los procesos tradicionales de revisión de software, pueden surgir problemas.
«Agentic» versus «determinista»
Treadwell, de Amazon, escribió que las nuevas barreras de código de la compañía combinarán herramientas «agentes» impulsadas por IA con sistemas «deterministas» más predecibles y basados en reglas.
Esto aborda uno de los problemas centrales de los modelos de IA. Estos nuevos y poderosos servicios no son deterministas. Eso significa que puedes hacer la misma pregunta dos veces y un modelo de IA puede arrojar respuestas ligeramente diferentes. Esto a veces hace que esta tecnología sea inadecuada para los flujos de trabajo corporativos que deben ser 100% precisos en todo momento. Esto incluye sistemas básicos de software de planificación de recursos empresariales y probablemente se aplica a cosas cruciales como datos de productos, precios, pedidos y transacciones en un mercado de comercio electrónico gigante, como el operado por Amazon.
El martes temprano, Treadwell celebró una reunión con algunos empleados de Amazon para discutir cómo abordar los problemas recientes. Un portavoz de Amazon dijo a Business Insider que la reunión era parte de una revisión semanal regular y que el negocio en la nube de Amazon Web Services no estuvo involucrado en ninguno de estos incidentes.
«Como parte del trabajo normal, la reunión incluirá una revisión de la disponibilidad de nuestro sitio web y aplicación mientras nos enfocamos en la mejora continua», dijo el portavoz.
GenAI «acelerará la exposición»
Algunas de las interrupciones más graves ocurrieron la semana pasada, según documentos internos.
El 2 de marzo, los clientes de los mercados de Amazon vieron tiempos de entrega incorrectos al agregar artículos a sus carritos. El incidente provocó la pérdida de casi 120.000 pedidos y aproximadamente 1,6 millones de errores en el sitio web. La herramienta de inteligencia artificial Q de Amazon fue uno de los principales contribuyentes que desencadenó el evento, según una revisión interna.
«El uso de GenAI en operaciones de aviones de control acelerará la exposición de bordes afilados y lugares donde no existen barandillas», decía un documento interno sobre el incidente del 2 de marzo. «Necesitamos inversiones en la seguridad de los aviones de control».
El 5 de marzo, otra interrupción provocó una caída del 99% en los pedidos en los mercados norteamericanos de Amazon, lo que provocó la pérdida de 6,3 millones de pedidos, según uno de los documentos internos. Un factor clave fue un cambio de producción que se implementó sin utilizar un proceso formal de documentación y aprobación llamado Gestión de Cambios Modelados.
«No hay validación automática previa al despliegue», decía el documento. «Un solo operador autorizado podría ejecutar un cambio de configuración de alto radio de explosión sin barreras de seguridad».
Un portavoz de Amazon dijo a Business Insider que solo un incidente revisado el martes estaba relacionado con la IA y ninguno de ellos involucraba código escrito por IA.
Un reinicio de seguridad de 90 días
Ahora, Amazon está implementando una directriz de seguridad temporal de 90 días que servirá como complemento a las políticas existentes, según uno de los documentos internos.
La nueva política se dirige a aproximadamente 335 «sistemas de nivel 1», o servicios que pueden afectar directamente a los consumidores, que han experimentado múltiples incidentes que afectan los pedidos desde el año pasado y son propiedad de organizaciones de nivel vicepresidente.
Según la nueva política, los ingenieros de Amazon deben conseguir que dos personas revisen su trabajo antes de realizar cambios en la codificación. También deben utilizar una herramienta interna de documentación y aprobación y un sistema de codificación automatizado que cumpla estrictamente con las reglas centrales de ingeniería de confiabilidad de Amazon.
Amazon también está notificando a todos los propietarios de sistemas de nivel 1, así como a los líderes de nivel director y vicepresidente, instruyéndoles a auditar todas las actividades de cambio de código de producción dentro de sus organizaciones.
El portavoz de Amazon dijo a Business Insider que no es exacto decir que los ingenieros junior y de nivel medio deben obtener la aprobación de los ingenieros superiores para cualquier cambio asistido por IA.
El Financial Times informó anteriormente que Amazon estaba celebrando una reunión de «inmersión profunda» sobre las interrupciones el martes y que la herramienta de codificación Kiro AI de la compañía causó en parte una interrupción del servicio AWS de 13 horas en diciembre.
¿Tienes algún consejo? Póngase en contacto con este periodista por correo electrónico a ekim@businessinsider.com o Signal, Telegram o WhatsApp en 650-942-3061. Usar una dirección de correo electrónico personal, una red WiFi que no sea del trabajo y un dispositivo que no sea del trabajo; aquí está nuestra guía para compartir información de forma segura.








