Facebook se autoborró de Internet, errada configuración de BGP y DNS

Foto: Facebook

Algunos cambios errados de configuración en los enrutadores troncales (que coordinan el tráfico de red entre sus centros de datos) han causado la interrupción de Facebook y su familia de aplicaciones: Instagram, Facebook, WhatsApp.

Este error ha sido la explicación oficial que se ha ofrecido desde la compañía de Mark Zuckerberg, a propósito de la caída de la plataforma a escala mundial (4-10-2021) que ha durado más de seis horas.

Hay que comenzar por entender que el BGP (Border Gateway Protocol o Protocolo de puerta de enlace fronteriza) permite intercambiar información de enrutamiento entre sistemas autónomos en Internet. Este mecanismo “anuncia” su presencia a otras redes que forman parte de la web.

El Sistema de Nombres de Dominio (DNS), por su parte, es una tecnología que brinda la posibilidad de abrir direcciones de Internet, ya que mantiene un directorio de nombres de dominio y los traduce a direcciones de IP (Protocolo de Internet) para que los navegadores carguen los recursos de Internet.

“Esta interrupción del tráfico de la red tuvo un efecto en cascada en la forma en que se comunican nuestros centros de datos, lo que paralizó nuestros servicios”.

La cita corresponde a Santosh Janardhan, vicepresidente de Infraestructura de Facebook, quien además ha informado que la caída ha afectado a muchas herramientas y sistemas internos que utilizan en sus operaciones diarias. Esto habría complicado el pronto diagnóstico y solución del problema.

“Queremos dejar en claro que no hubo actividad maliciosa detrás de esta interrupción; su causa principal fue un cambio de configuración defectuoso por nuestra parte”.

En la compañía tampoco han tenido evidencia de que los datos de usuarios se hayan visto comprometidos como resultado del tiempo de inactividad. “A todas las personas y empresas de todo el mundo que dependen de nosotros, lamentamos las molestias causadas por la interrupción”.

Mantenimiento conllevó al apagón

Janardhan ha resaltado que la interrupción ha sido provocada por el sistema que administra la capacidad de la red troncal global de Facebook. El tráfico de datos entre todas sus instalaciones informáticas se gestiona mediante enrutadores, los que determinan dónde enviar todos los datos entrantes y salientes.

Los ingenieros de la compañía a menudo necesitan tomar parte de la red troncal fuera de línea para el mantenimiento, ya sea para reparar una línea de fibra, agregar más capacidad o actualizar el software en el BGP.

“Esta fue la fuente del apagón… Durante uno de estos trabajos de mantenimiento de rutina, se emitió un comando con la intención de evaluar la disponibilidad de la capacidad de la red troncal global, que accidentalmente cortó todas las conexiones en nuestra red troncal”.

A pesar de que los sistemas están diseñados para auditar comandos como estos y evitar errores, precisamente un error en esa herramienta de auditoría ha impedido detener correctamente el comando.

Para garantizar un funcionamiento confiable, los servidores DNS desactivan esos anuncios de BGP si no pueden “hablar” con los centros de datos, ya que sería una clara indicación de una conexión de red no saludable.

Entonces, toda la red troncal se retiró de la operación y esto ha provocado que las ubicaciones se declararan insalubres y retiraran esos anuncios de BGP. El resultado final ha sido que los servidores DNS se volvieron inalcanzables a pesar de que todavía estaban operativos, según el ejecutivo, y esto hizo imposible que el resto de Internet encontrara los servidores.

Descartado un ciberataque

Matthew Prince, cofundador y CEO de Cloudflare, empresa estadounidense de infraestructura y seguridad de sitios web, ha coincidido con la versión oficial que descarta un posible ciberataque.

“Nada de lo que vemos relacionado con la interrupción de los servicios de Facebook sugiere que fue un ataque. La explicación más probable es que las rutas de Internet de la empresa (BGP) se retiraron por error durante el mantenimiento”.

Celso Martinho y Tom Strickx, director de Ingeniería y líder técnico de Red Perimetral en Cloudflare, respectivamente, también han confirmado que los nombres DNS dejaron de resolverse y las IP de infraestructura de Facebook han quedado inalcanzables durante la interrupción mundial.

“Era como si alguien hubiera ‘sacado los cables’ de sus centros de datos de una vez y los hubiera desconectado de Internet. Este no era un problema de DNS en sí mismo, pero un DNS defectuoso fue el primer síntoma que vimos de una interrupción más grande de Facebook”.

Ambos han afirmado que se retiraron las rutas, los servidores DNS de Facebook se desconectaron y, un minuto después de que ocurriera el problema, los ingenieros de Cloudflare coincidieron en una sala preguntándose por qué 1.1.1.1 (IP) no podía resolver el dominio (facebook.com).

Lo cierto del caso es que más de tres mil 500 millones de personas quedaron incomunicadas en estas redes sociales y comenzaron a buscar alternativas como Telegram, Twitter y Signal, aumentando las consultas de DNS a estas plataformas.

Rafa Merino ha resaltado el hecho de que los ingenieros no pudieron acceder rápidamente a reconfigurar sus BGP, debido a que Facebook hospeda sus propios servidores DNS.

Para el tecnólogo, la traducción es simple: “se han borrado a sí mismos de Internet. Tampoco pueden comunicarse entre ellos mismos porque también hospedan su propio correo”.

La compañía ha terminado con una caída del 4.9 % en la Bolsa de Nueva York, lo que ha supuesto una merma de siete mil millones de dólares en la ya abultada fortuna de Zuckerberg.

Todo esto, además, ha sucedido en medio de fuertes escándalos que arropan a la empresa por la publicación de algunos artículos en The Wall Street Journal.

En el diario han obtenido documentos internos de Facebook que, entre otras cosas, determinarían que Instagram es perjudicial para una parte de sus usuarios más jóvenes y que la red social también sería tóxica para las adolescentes.