A estas alturas, todo el mundo sabe que WhatsApp, Facebook e Instagram han sufrido una caída que ha durado varias horas. Literalmente, los servicios de Facebook desaparecieron de Internet. Era media tarde del 4 de octubre de 2021 cuando estas plataformas comenzaban a tener fallos. Los usuarios que trataban de enviar un mensaje a través de la aplicación de mensajería veían cómo no se llegaba a enviar por mucho que esperasen. La versión Web de WhatsApp directamente no cargaba. Y resultaba imposible actualizar las publicaciones de las redes sociales.
No es la primera vez que ocurría. Sin ir más lejos, el pasado mes de marzo estos sitios web de Facebook también dejaron de estar disponibles a nivel mundial. Pero dicha caída duró tan solo un par de horas. La de ayer se mantuvo durante casi siete horas. No fue hasta las 12:33 am cuando Facebook publicaba en su perfil de Twitter una disculpa y anunciaba que sus servicios empezaban a volver a la normalidad.
To the huge community of people and businesses around the world who depend on us: we're sorry. We’ve been working hard to restore access to our apps and services and are happy to report they are coming back online now. Thank you for bearing with us.
— Facebook (@Facebook) October 4, 2021
La ironía se hace patente. Twitter fue la red social elegida por muchos internautas para anunciar el fallo de los servicios de las redes sociales de Mark Zuckerberg, y por supuesto para hacer sus conjeturas sobre los motivos.
Y es que a los pocos minutos de comenzar el fallo la polémica estaba servida. ¿Se trataba de un error de configuración, un error humano o un ciberataque?
Un ciberataque mediante una botnet denominada Mirai ya había hecho de las suyas unos años antes, en 2016, afectando precisamente a sitios web como Twitter y a otros muchos otros en todo el mundo. Nadie se libra de una caída ya sea por un motivo interno o externo.
En el caso de esta nueva caída de Facebook, diversas fuentes y especialistas empezaron a señalar a los DNS como los responsables, y es una teoría cada vez más afianzada, especialmente desde que Facebook lanzara un comunicado oficial.
En él, el vicepresidente de Infraestructura de Facebook, Santosh Janardhan, reconocía que el fallo se debía a un “cambio de configuración”.
“Nuestros equipos de ingeniería han descubierto que los cambios de configuración en los routers centrales que coordinan el tráfico de red entre nuestros centros de datos causaron problemas que interrumpieron esta comunicación. Esta interrupción del tráfico de red tuvo un efecto en cascada en la forma en que se comunican nuestros centros de datos, lo que provocó la interrupción de nuestros servicios”, explica en el post.
También advertía de forma proactiva, que no tienen evidencia de que los datos de los usuarios se hayan visto comprometidos como resultado de esta caída.
A raíz de esto, los especialistas señalan como causa del error a los DNS y el protocolo BGP, que complementa y profundiza la explicación dada por la compañía.
Demasiadas siglas, vamos a ello de una forma lo más sencilla posible.
¿Qué es un DNS y por qué puede producir una caída de esta magnitud?
Los usuarios nos comunicamos con los ordenadores y los dispositivos en nuestro lenguaje natural. Pero las máquinas hablan en otro idioma. El DNS es el traductor que nos permite comunicarnos entre personas y máquinas, traduciendo los distintos lenguajes. Es una explicación muy simplificada y no del todo correcta técnicamente, pero sirve para que entendamos la base del problema.
DNS es el Sistema de Nombres de Dominio (Domain Name System). Cuando queremos acceder a una página web, nosotros introducimos su nombre, el dominio (por ejemplo, www.bitlifemedia.com) pero lo que verdaderamente necesita el navegador para llevarnos a ella es un número, la dirección IP del servidor donde está almacenada esa web. Esos números son el lenguaje en el que hablan las máquinas. El proceso de traducción de los nombres de dominio en las IP numéricas es la labor que realiza el Sistema de Nombres de Dominio o DNS.
El periodista especializado en cibercrimen, Brian Krebs, explicaba a última hora de la noche de ayer que el error se produjo por una actualización rutinaria de BGP que salió mal. «La actualización bloqueó a los usuarios remotos, de forma que no podían revertir los cambios, y los que tenían acceso físico no contaban con acceso lógico o de red», señalaba Krebs, citando a una fuente de confianza.
Ahora la pregunta es: ¿qué es BGP y qué relación guarda con los DNS?
BGP son las siglas de Border Gateway Protocol, y, simplificando mucho, se trata de un sistema que permite que podamos acceder a una web de la forma más rápida posible.
Internet está compuesto por una gigantesca cantidad de nodos y puntos de red. Por eso es llamada la red de redes. Encontrar la mejor ruta para ir de un punto A a un punto B no es nada sencillo en internet, sobre todo cuando nuestro ordenador está en un lugar del planeta y queremos acceder a información que está almacenada en un servidor en la otra punta del globo.
Aquí es donde entra en juego el famoso BGP, un protocolo que ayuda a trazar la ruta más corta y eficiente para enviar los datos.
Para facilitar esa tarea, los grandes routers que hacen que Internet funcione tienen enormes listas, constantemente actualizadas, de las posibles rutas que pueden utilizarse. En definitiva, sin BPG, los routers no sabrían qué hacer, e Internet directamente no funcionaría.
Así lo explican desde Cloudflare, quienes han analizado el caso, explicando en este post con detalles técnicos el fallo que atribuyen a estos errores.
BGP es de alguna forma el pegamento que une a la red de redes, permitiendo que una red (en este caso, Facebook) anuncie su presencia a otras redes que forman Internet. Durante la caída, Facebook no estaba anunciando su presencia, por lo que los ISP (proveedores de servicios de internet) y otras redes no eran capaces de encontrar la red de Facebook y por tanto no estaba disponible.
En la tarde de ayer, desde Cloudflare detectaron que Facebook no estaba anunciando esas rutas, las que correspondían a sus DNS. Como consecuencia directa, los DNS no estaban disponibles y los DNS dejaban de resolver los nombres de dominio (de traducir).
A lo largo de los próximos días seguiremos conociendo, probablemente, más información, aunque todo apunta a esta cascada de acontecimientos la que ha provocado el fallo global que ha afectado a millones usuarios de todo el mundo.
Esta caída de WhatsApp y Facebook no es la primera ni será la última. Los problemas en los sistemas de dominio han sido los causantes de otras caídas similares a esta, por ejemplo este mismo verano, otras empresas como Airbnb, British Airways o Playstation también sufrieron cortes debido a fallos en los DNS.