image

NS wijst mede naar falend back-upsysteem als reden voor grote treinstoring

dinsdag 5 april 2022, 12:14 door Redactie, 17 reacties

Een falend back-upsysteem was mede de reden voor de grote treinstoring van afgelopen zondag waardoor in het gehele land geen treinen konden reiden, zo laat staatssecretaris Heijnen van Infrastructuur en Waterstaat in een brief aan de Tweede Kamer weten. De storing begon zondagochtend in de planningsystemen van NS voor materiaal en personeel en reisinformatie.

Deze systemen zijn volgens NS essentieel om treinen volgens de dienstregeling te laten rijden. Vanwege de storing in de systemen werd besloten om de dienstregeling gecontroleerd stil te leggen en de treinen naar het eerstvolgende station te laten rijden. Uit een eerste analyse van NS bleek dat een belangrijk onderdeel in het systeem niet goed meer werkte.

Voor dergelijke gevallen beschikt NS over een back-upsysteem, maar daar waren ook problemen mee. "Onder normale omstandigheden kan terug worden gevallen op een back-up, zodat deze systemen blijven functioneren. Deze back-up werkte gisteren ook niet naar behoren. De reden hiervan zal grondig worden onderzocht", aldus Heijnen. NS heeft de staatssecretaris laten weten dat het reizigers zal compenseren. Hoe de compensatie er precies uit zal zien is nog niet bekend.

De staatssecretaris heeft NS gevraagd om een onafhankelijke evaluatie naar de storing uit te laten voeren waarbij ook het niet naar behoren functioneren van het back-upsysteem wordt meegenomen.

Reacties (17)
05-04-2022, 12:49 door Anoniem
Gelukkig is de NS de backup van de motorfiets die de backup van de auto is. Zo erg was het allemaal niet.
Wel weer grappig om te zien dat wederom een bedrijf onderuit gaat door digi-gedram.
05-04-2022, 13:02 door Anoniem
Och daar zijn ze al jaren mee aan het stoeien.

https://nos.nl/artikel/2383135-onderzoek-naar-landelijke-treinstoring-in-volle-gang (2021)
https://www.ovpro.nl/trein/2015/02/03/spoorchaos-rond-utrecht-wegens-ict-fout-prorail/?gdpr=accept (2015)
https://www.bnnvara.nl/joop/artikelen/verkeersleiding-spoor-heeft-geen-back-up-bewijs-van-falend-bestuur (2010)
05-04-2022, 13:30 door Anoniem
Het gaat hier om het woord "mede" wat was de primaire vector?
05-04-2022, 14:20 door Briolet
Door Anoniem: Het gaat hier om het woord "mede" wat was de primaire vector?

Volgens het 8 uur journaal van gisteren was de primaire oorzaak een draadbreuk bij Hoofddorp. De gevolgen hiervan hadden echter door andere systemen opgevangen moeten worden.
05-04-2022, 14:32 door Anoniem
ah gevalletje de backup word nooit getest of deze wel doet wat je ervan verwacht.
05-04-2022, 14:59 door Anoniem
Jaren geleden was het falende backupsysteem ook al de schuldige, niemand die hier iets van leert?
05-04-2022, 15:01 door Anoniem
Een falend back-upsysteem kan NOOIT de reden zijn voor de grote treinstoring. Het probleem is een falend hoofdsysteem en dat het standby systeem (waarom noemen ze het backup?) ook niet werkte zegt alleen maar iets over de organisatie ervan; amateuristisch of zeer lage kwaliteit applicatiesoftware. Dan laat ik het OS even buiten beschouwing want daar valt ook het een en ander over aan te merken, zoals de ransomware gevoeligheid.
05-04-2022, 15:33 door Anoniem
Een backup is pas een backup als hij ook werkt. Er was dus geen backup.

"Hey Sjef, de backup doet het niet."
"Maakt niet uit, daar kijken we volgende sprint wel een keer naar."
05-04-2022, 16:44 door Anoniem
Door Anoniem: Och daar zijn ze al jaren mee aan het stoeien.

https://nos.nl/artikel/2383135-onderzoek-naar-landelijke-treinstoring-in-volle-gang (2021)
https://www.ovpro.nl/trein/2015/02/03/spoorchaos-rond-utrecht-wegens-ict-fout-prorail/?gdpr=accept (2015)
https://www.bnnvara.nl/joop/artikelen/verkeersleiding-spoor-heeft-geen-back-up-bewijs-van-falend-bestuur (2010)
Je hebt duidelijk geen idee waarover je het hebt. Alle voorbeelden die je hier geeft, zijn ProRail systemen. De storing van zondag was door een storing van een NS systeem.
05-04-2022, 16:48 door Anoniem
Door Anoniem: Een falend back-upsysteem kan NOOIT de reden zijn voor de grote treinstoring. Het probleem is een falend hoofdsysteem en dat het standby systeem (waarom noemen ze het backup?) ook niet werkte zegt alleen maar iets over de organisatie ervan; amateuristisch of zeer lage kwaliteit applicatiesoftware. Dan laat ik het OS even buiten beschouwing want daar valt ook het een en ander over aan te merken, zoals de ransomware gevoeligheid.
Op basis van wat we nu weten, is het nog veel te vroeg om conclusies te trekken. Maar ook ik ben heel nieuwsgierig naar de reden waarom de back-up (failover) niet heeft gewerkt. Ik vrees - en zie dit bij heel veel organisaties - dat de backup/failover nauwelijks tot nooit wordt getest. Kort cyclisch met Agile aanpassingen maken aan het hoofd en back-up systeem, systeemtesten in een testomgeving, maar de daadwerkelijke failover waarbij de hele keten een rol speelt niet testen.

Maar goed, onderzoek zal het hopelijk aan het licht brengen.
05-04-2022, 18:56 door Anoniem
Door Anoniem: ... het standby systeem (waarom noemen ze het backup?) ...
Ze noemen dat backup omdat dat goed Engels is. Een backup is een reserve of een vervanger. Als in een voetbalwedstrijd de keeper vervangen moet worden noemen ze de invaller ook een backup. De herkomst van het woord lijkt op ons steuntje in de rug. Dat we in IT-jargon gewend zijn geraakt aan de betekenis reservekopie van data (zie je dat daar reserve in wordt gebruikt?) wil nog niet zeggen dat dat de enige betekenis is. Het gebruik voor een systeem dat klaarstaat om op terug te vallen is correct.

Ik kan je aanbevelen om enige nieuwsgierigheid te ontwikkelen naar de herkomst van woorden. Voor het Nederlands is er de (uitstekende) website https://etymologiebank.nl, waarin een autoriteit op dat gebied in Nederland (Nicole van der Sijs) diverse bronnen combineert. Voor het Engels is er het veel beknoptere maar ook goede https://www.etymonline.com/.

Het aardige is dat als je dit soort bronnen raadpleegt, ook voor woorden die je als technisch jargon kent, er muntjes vallen. Mijn ervaring is dat mensen die een woord naar mijn idee nogal vreemd gebruiken vaak juist beter dan ik door blijken te hebben hebben wat het woord eigenlijk betekent.
05-04-2022, 22:10 door Anoniem
Door Anoniem:
Door Anoniem: Een falend back-upsysteem kan NOOIT de reden zijn voor de grote treinstoring. Het probleem is een falend hoofdsysteem en dat het standby systeem (waarom noemen ze het backup?) ook niet werkte zegt alleen maar iets over de organisatie ervan; amateuristisch of zeer lage kwaliteit applicatiesoftware. Dan laat ik het OS even buiten beschouwing want daar valt ook het een en ander over aan te merken, zoals de ransomware gevoeligheid.
Op basis van wat we nu weten, is het nog veel te vroeg om conclusies te trekken. Maar ook ik ben heel nieuwsgierig naar de reden waarom de back-up (failover) niet heeft gewerkt. Ik vrees - en zie dit bij heel veel organisaties - dat de backup/failover nauwelijks tot nooit wordt getest. Kort cyclisch met Agile aanpassingen maken aan het hoofd en back-up systeem, systeemtesten in een testomgeving, maar de daadwerkelijke failover waarbij de hele keten een rol speelt niet testen.

Maar goed, onderzoek zal het hopelijk aan het licht brengen.

Ik ben ook wel benieuwd .
Afgezien van de specifieke technische reden - ook naar de gekozen systeemopzet - en vooral naar de reden waarom "terugschakelen op een beperkte vervoersopzet zonder centrale planning" niet mogelijk was , of niet gedaan was.

Bij sommige keuzes die je kunt maken als je een heel erg redundante omgeving bouwt zijn soms "te complex om te willen" .

Met name als de beheerorganisatie er niet rijp voor is zou je - als architect - soms een iets minder technisch superdeluxe model moeten kiezen en accepteren dat een failover bijvoorbeeld langer duurt of een simpele handmatige actie vergt .

Als er hard genoeg geroepen wordt "we mogen GEEN SECONDE" down zijn kan het erg complex worden om letterlijk sub-seconde failover te leveren . En wordt dat een opzet die veel vraagt van de technici/beheerders die moeten zorgen dat alles wat daaromheen hangt blijft werken (en bewaakt wordt) voor die doodenkele keer dat het een keer moet omschakelen .
En als om enige reden de omschakeling faalt zijn er maar weinig mensen die dat - ook nog onder druk - snel kunnen oplossen.

Overigens - je commentaar op agile/sprints is niet terecht - voordat agile bestond werden backups/recovery/failover ook ZELDEN OF NOOIT volledig getest . Dat heeft niks met agile te maken, en alles met mensen die _wel_ weten dat er een falende test een grote impact heeft , en heel weinig direct zichtbaar rendement .

Het zijn maar weinig organisaties waar men het aandurft om de initiele pijn van "ging niet helemaal zoals bedoeld" te nemen om op die manier zeker te zijn dat "overschakelen op de standby" ook echt werkt, dat iedereen eraan gewend is , en dat het echt werkt. Na elke faal gewoon de problemen analyseren, oplossen, en dan nogmaals een volledige test plannen vergt echt durf - en dekking vanuit het senior management .
06-04-2022, 00:01 door Joep Lunaar - Bijgewerkt: 06-04-2022, 00:04
verwijderd (onbedoeld dubbele toevoeging)
06-04-2022, 00:02 door Joep Lunaar - Bijgewerkt: 06-04-2022, 00:05
verwijderd (onbedoeld dubbele toevoeging)
06-04-2022, 00:03 door Joep Lunaar
...
Door Anoniem:
Op basis van wat we nu weten, is het nog veel te vroeg om conclusies te trekken. Maar ook ik ben heel nieuwsgierig naar de reden waarom de back-up (failover) niet heeft gewerkt. Ik vrees - en zie dit bij heel veel organisaties - dat de backup/failover nauwelijks tot nooit wordt getest. Kort cyclisch met Agile aanpassingen maken aan het hoofd en back-up systeem, systeemtesten in een testomgeving, maar de daadwerkelijke failover waarbij de hele keten een rol speelt niet testen.

Maar goed, onderzoek zal het hopelijk aan het licht brengen.

Gokje, ik weet niet of dit speelde, maar:

Er bestaat een wonderlijke cultuur in de IT die het acceptabel acht dat een systeem niet "mag" werken als een licentie niet aanwezig "lijkt". Een systeem controleert of de vereiste licentie aanwezig en geldig is en zo niet dan stopt het systeem; de verificatie is zeer invasief. Er zijn vele mogelijke oorzaken dat de controle van de licentie faalt en het plat gaan is meestal disproportioneel. Systeemupdates zijn typisch momenten dat een licentietest ten onrechte kan falen. Hele netwerken zijn daardoor soms plat gegaan.
06-04-2022, 00:13 door Anoniem
Door Joep Lunaar: ...
Door Anoniem:
Op basis van wat we nu weten, is het nog veel te vroeg om conclusies te trekken. Maar ook ik ben heel nieuwsgierig naar de reden waarom de back-up (failover) niet heeft gewerkt. Ik vrees - en zie dit bij heel veel organisaties - dat de backup/failover nauwelijks tot nooit wordt getest. Kort cyclisch met Agile aanpassingen maken aan het hoofd en back-up systeem, systeemtesten in een testomgeving, maar de daadwerkelijke failover waarbij de hele keten een rol speelt niet testen.

Maar goed, onderzoek zal het hopelijk aan het licht brengen.

Gokje, ik weet niet of dit speelde, maar:

Er bestaat een wonderlijke cultuur in de IT die het acceptabel acht dat een systeem niet "mag" werken als een licentie niet aanwezig "lijkt". Een systeem controleert of de vereiste licentie aanwezig en geldig is en zo niet dan stopt het systeem; de verificatie is zeer invasief. Er zijn vele mogelijke oorzaken dat de controle van de licentie faalt en het plat gaan is meestal disproportioneel. Systeemupdates zijn typisch momenten dat een licentietest ten onrechte kan falen. Hele netwerken zijn daardoor soms plat gegaan.
Inderdaad ook meegemaakt dat windows zijn licentie verloor waardoor er niet meer via het netwerk geweekt kon worden. Levensgroot nadeel van closed source. Wat dat betreft is open source ook op dit gebied veel vriendelijker
09-04-2022, 10:21 door Anoniem
De Nederlandse Spoorwegen zijn een angstig, risicomijdend bedrijf geworden dat bij grote problemen veel te snel overgaat tot het stilleggen van het complete treinverkeer. Dat zeggen spoorkenners naar aanleiding van de grote treinstoring van afgelopen zondag.

https://www.ad.nl/auto/angst-regeert-bij-ns-argumentatie-om-treinen-niet-te-laten-rijden-is-lariekoek-gelul~adb4da0f/
Reageren

Deze posting is gelocked. Reageren is niet meer mogelijk.