Comment une mauvaise configuration de routage a provoqué la panne de Facebook

Facebook Internet Serveurs et réseaux mis à jour le 05 octobre 2021 à 21H00

Facebook et ses services affiliés ont arrêté de fonctionner pendant près de six heures à la suite d'une mauvaise configuration des routeurs backbone de l'entreprise. Une panne historique par sa durée, qui intervient dans un contexte tendu pour l'entreprise, accusée de mentir sur sa politique de modération par une ancienne employée.

Comment une mauvaise configuration de routage a provoqué la panne de Facebook © Greg Bulla/Unsplash

L'entreprise Facebook et ses différents produits – Facebook, Messenger, Instagram, WhatsApp, Oculus et Workplace – ont été touchés par une panne totale de près de 6 heures. Elle a affecté les utilisateurs du monde entier avec des conséquences très inégales puisque dans certains pays, ces réseaux sociaux font office de canaux principaux de communication, les SMS étant toujours très coûteux.

L'incident a débuté un peu avant 16h heure française, d'après les signalements faits sur le site spécialisé Downdetector témoignant de l'impossibilité d'accéder aux sites Internet de l'entreprise. Des messages d'erreur s'affichaient, faisant allusion aux noms de domaine qui étaient introuvables. De leurs côtés, les applications mobiles n'affichaient pas de message mais ne se mettaient plus à jour, incapables également d'accéder aux domaines de Facebook. La panne a finalement été résolue à minuit heure française.

Les systèmes internes de l'entreprise ont également été affectés par la panne. Certains employés ont fait état de l'impossibilité d'accéder au siège social de l'entreprise car leur badge ne fonctionnait plus, rapporte une journaliste du New York Times sur Twitter. Aussi, ils auraient massivement utilisé les SMS et la messagerie de Microsoft Outlook pour communiquer.

Les Protocoles sur lesquels reposent Internet au coeur de la panne
Dans le détail, vu de l'extérieur, ce sont les serveurs DNS (Domain Name System) faisant autorité pour Facebook.com qui ne répondaient plus, rapporte Stéphane Bortzmeyer, architecte système et réseau à l'Association française Internet en coopération (Afnic), sur son blog. C'est la raison pour laquelle les sites Internet de Facebook et ses filiales affichaient un message d'erreur relatif au nom de domaine.

Pour bien comprendre cet incident, il faut revenir sur le fonctionnement d'Internet en tant qu'infrastructure. Comme son nom l'indique, Internet est un ensemble de réseaux interconnectés (interconnected networks) qui permet à des terminaux clients et à des serveurs de communiquer efficacement au moyen d'un protocole de communication commun (l'Internet Protocol, abrégé en IP). Les noms de domaines jouent un rôle fondamental dans cette infrastructure car ils permettent de traduire une adresse IP en un nom intelligible et facilement mémorisable pour faciliter l'accès à une ressource (par exemple un site web). Si le DNS ne répond plus, l'adresse ne peut plus être résoudre et la ressource est inaccessible.

Un changement de configuration en cause
Plus spécifiquement, c'est au niveau du Border Gateway Protocol (BGP) que les choses se sont jouées. Epine dorsale du fonctionnement d'Internet, le BGP est un protocole de routage utilisé pour échanger des informations de routage et d'accessibilité de réseaux entre systèmes autonomes (Autonomous Systems ou AS). Un AS est un très grand réseau ou groupe de réseaux sous le contrôle d'une seule et même entité et ayant une politique de routage interne cohérente. Chaque ordinateur ou appareil qui se connecte à Internet est relié à un système de ce type.Le protocole BGP permet à ces grands systèmes de connaître toutes les routes possibles les reliant aux autres réseaux.

Durant la panne, Facebook a peu communiqué. Il a fallu atteindre la fin de l'incident pour que l'entreprise de Menlo Park donne davantage de détails dans un billet de blog signé par Santosh Janardhan, VP Engineering and Infrastructure. Mettant fin à certaines spéculations, il a ainsi expliqué que la panne avait été provoquée par "un changement de configuration défectueux", et plus précisément "un changement de configuration sur les routeurs backbone qui coordonnent le trafic réseau entre nos centres de données".

En résumé : en modifiant de façon erronée la configuration des routeurs reliant ses data centers entre eux, Facebook a coupé les connexions entre les sites gérant le stockage de données et les calculs et ceux, plus spécialisés, qui connectent cette grande infrastructure au reste d'Internet. Ne voyant plus de lien derrière eux et pour éviter une mauvaise connexion, ces derniers ont automatiquement cessé d'émettre leur présence (via le BGP), les rendant invisibles au reste du monde, comme si Facebook n'existait pas (les DNS ne répondant plus), et provoquant cette panne monstre. Facebook indique que des sécurités sont normalement en place pour éviter une catastrophe "en cascade" de ce type, mais qu'un bug a empêché leur déclenchement.

Un contexte déjà difficile pour Facebook
Cet incident historique par sa durée a fait chuter l'action de Facebook. A la clôture de Wall Street, elle reculait de 4,89% à 326,23 dollars. La société américaine a également perdu environ 545 000 dollars de revenus publicitaires par heure pendant la panne, d'après des estimations de Bloomberg.

Surtout, cette panne est survenue dans un contexte tendu pour la société américaine. Frances Haugen, lanceuse d'alerte et ancienne product manager au sein de Facebook, a accordé une interview à la chaîne américaine CBS dans laquelle elle accuse Facebook d'avoir choisi "le profit plutôt que la sécurité". Celle qui est à l'origine des Facebook Files, une série de documents accablants publiés dans le Wall Street Journal, affirme que le réseau social ment sur sa politique de lutte contre la haine et la désinformation. Elle doit être auditionnée ce mardi par le Congrès américain. Elle a également transmis les documents dont elle dispose à plusieurs gouvernements européens, dont la France.

Facebook subit également une forte pression réglementaire, notamment de la part de Bruxelles. A ce titre, le commissaire européen Thierry Breton a profité de cette panne pour rappeler dans un tweet que "dans l'espace numérique mondial, tout le monde pourrait subir un arrêt". En pleine discussion sur le paquet DSA/DMA, il réitère son ambition de doter "les Européens d'un meilleur numérique via la réglementation (...)". A noter que la régulation des grandes plateformes n'empêchera pas la survenue d'une mauvaise configuration.