De wereldwijde storing waardoor Facebook, Instagram en WhatsApp afgelopen dinsdag meer dan zes uur lang onbereikbaar waren werd veroorzaakt door een commando dat tijdens onderhoudswerkzaamheden op een systeem werd ingevoerd en een bug in een audittool, zo stelt Facebook in een verdere analyse van het incident.

Het systeem in kwestie beheert de capaciteit van Facebooks wereldwijde backbonenetwerk. Dit netwerk verbindt alle datacentra van Facebook met elkaar. Tijdens onderhoudswerkzaamheden aan de backbone werd op dit systeem een commando uitgevoerd om de wereldwijde backbonecapaciteit op te vragen. Dit commando schakelde onbedoeld alle verbindingen in het backbonenetwerk uit, waardoor alle datacenters van Facebook werden afgesloten.

Facebook zegt dat er een audittool is die dergelijke commando's controleert, maar door een bug in deze tool werd het commando niet gestopt. Hierdoor werd de verbinding tussen de servers van Facebook en het internet verbroken, wat voor een tweede probleem zorgde. De dns-servers van Facebook maken gebruik van het border gateway protocol (BGP) om hun aanwezigheid aan de rest van het internet aan te kondigen.

Wanneer de dns-servers van Facebook geen verbinding met de datacenters van het techbedrijf hebben stoppen ze met het aankondigen van hun aanwezigheid via BGP. "Het eindresultaat was dat onze dns-servers onbereikbaar werden, ook al waren ze nog steeds operationeel. Dit maakte het onmogelijk voor het internet om onze servers te vinden", zegt Facebooks Santosh Janardhan.

Bij het verhelpen van de problemen liep Facebook tegen twee problemen aan. Het was namelijk niet mogelijk om de datacenters op normale wijze te bereiken, aangezien hun netwerken down waren, en door het verlies van dns waren veel tools die Facebook normaal gebruikt om storingen te onderzoeken en verhelpen niet bruikbaar. Engineers moesten dan ook fysiek naar de datacenters om de systemen weer online te brengen.

Vanwege beveiligingsmaatregelen nam het enige tijd in beslag voordat de engineers toegang hadden en aan de slag konden. "We hebben veel gedaan om ongeautoriseerde toegang tot onze systemen te voorkomen, en het was interessant om te zien hoe deze beveiliging ons tegenhield om een storing te herstellen die niet het gevolg was van malafide activiteit, maar onze eigen fout", merkt Janardhan op. Hij stelt dat Facebook maatregelen neemt om herhaling van een dergelijk incident te voorkomen.