Amazon Web Services (AWS) ha publicado finalmente su informe post-incidente sobre el apagón que paralizó gran parte de Internet el pasado 20 de octubre de 2025. La compañía ha confirmado que la raíz del problema fue un fallo en el sistema de resolución DNS que afectó directamente a DynamoDB, su servicio de base de datos NoSQL.

El error, detectado inicialmente en la región US-EAST-1, uno de los núcleos más críticos de la red de AWS, provocó una cascada de fallos en servicios dependientes que van desde Amazon.com y Netflix hasta plataformas gubernamentales y sistemas de soporte interno del propio AWS.

Aunque el incidente duró menos de 16 horas, su impacto fue global. Sitios web dejaron de cargar, las aplicaciones basadas en la nube mostraban errores constantes, y servicios esenciales quedaron inoperativos, evidenciando la dependencia masiva del ecosistema digital de la infraestructura de Amazon.

Ad

Cómo comenzó la caída

El problema se manifestó a las 11:49 PM (PDT) del 19 de octubre, cuando AWS notificó tasas de error elevadas en varios servicios dentro de la región US-EAST-1. En cuestión de minutos, la inestabilidad se propagó, afectando a los endpoints de DynamoDB y a otros sistemas que dependen de sus consultas.

El fallo estaba relacionado con el DNS (Domain Name System), el sistema que traduce los nombres de dominio en direcciones IP. En la práctica, el DNS actúa como la “guía telefónica de Internet”. Al fallar, los servicios no podían localizar las rutas correctas para comunicarse entre sí, provocando un bloqueo en cadena.

Entre las consecuencias inmediatas, la imposibilidad de resolver dominios internos causó la interrupción de procesos críticos de red, limitando el acceso tanto a servicios públicos como a herramientas internas de soporte.

La respuesta técnica de AWS

A las 12:26 AM del 20 de octubre, los ingenieros de AWS habían identificado la causa raíz del fallo. Implementaron correcciones progresivas en los endpoints regionales y comenzaron a restaurar la funcionalidad de DynamoDB. Para las 2:24 AM, el servicio ya mostraba una recuperación parcial.

Sin embargo, la magnitud del apagón obligó a imponer restricciones temporales en el lanzamiento de nuevas instancias EC2 —las máquinas virtuales de Amazon— con el fin de estabilizar la infraestructura y evitar un colapso secundario.

A lo largo de la mañana, el proceso de recuperación avanzó de forma gradual. A las 12:28 PM (PDT), la mayoría de los clientes ya reportaban mejoras sustanciales, y a las 3:01 PM se confirmó la restauración completa de todos los servicios.

Un fallo que no fue un ataque

En su comunicado oficial, Amazon aclaró que no hubo indicios de ciberataque ni de actividad maliciosa. El incidente fue consecuencia de un fallo interno en el sistema de resolución de nombres, que afectó al enrutamiento interno de servicios dependientes de DynamoDB.

El informe también subraya la rapidez de la respuesta del equipo de ingeniería, destacando que las mitigaciones comenzaron en menos de 40 minutos desde la detección inicial. Aun así, la caída dejó claro que incluso infraestructuras del tamaño de AWS no son inmunes a vulnerabilidades estructurales.

Impacto global y dependencia crítica

La interrupción no solo afectó a empresas tecnológicas. Plataformas de vídeo, tiendas online, servicios financieros y portales gubernamentales experimentaron interrupciones generalizadas. En algunos casos, los clientes no podían iniciar sesión, procesar pagos ni acceder a paneles administrativos.

Entre los servicios más afectados se encontraron Amazon.com, Netflix, Slack, Trello, Twitch y varias agencias públicas que alojan sus sistemas en AWS. El incidente, según los expertos, demuestra hasta qué punto Internet depende de una infraestructura concentrada en pocos proveedores de nube.

AWS afirma haber implementado ya mejoras en sus protocolos de monitoreo y detección temprana de fallos DNS, además de medidas para aislar los servicios interdependientes de DynamoDB.

La compañía también instó a sus clientes a consultar el AWS Health Dashboard para recibir alertas en tiempo real sobre posibles incidencias y a mantener planes de continuidad operativa preparados para interrupciones de infraestructura.

MLuz Domínguez
Periodista especializada en ciberseguridad y tecnología. Mi enfoque se centra en analizar mundo de las aplicaciones y la seguridad especialmente en redes sociales. Con un interés constante en informar sobre avances, riesgos y sin olvidar la importancia de la prevención, busco compartir información precisa y comprensible para el usuario.

Deja un comentario

Por favor, introduce tu comentario
Por favor, introduce tu nombre