Rondgang langs ICT'ers

Experts zeer kritisch na uitval UU-websites en systemen

brand datacenter. Foto: Shutterstock
Foto: Shutterstock

Grote vraagtekens zetten Slinger Jansen, universitair hoofddocent informatica met specialisatie cybersecurity, en UU-docent Nishant Saurabh met een expertise in cloudopslag bij de gang van zaken rondom de uitval en herstart van veel Utrechtse websites en systemen. Zij stellen dat het in het geval van een calamiteit noodzakelijk is om snel te kunnen wisselen naar andere servers waarop back-ups staan. Jansen: “Je wilt snel kunnen terugvallen op een systeem waarop in ieder geval je essentiële diensten draaien, zoals de server die toegang geeft tot gebouwen. Het feit dat dit niet gebeurde, vind ik heel zorgelijk.”

De brand van 7 mei in het datacentrum NorthC, waar servers van de Universiteit Utrecht (UU) staan, zorgde ervoor dat diensten van de universiteit het een week lang niet of niet naar behoren deden. Medewerkers hadden tijdelijk geen toegang meer tot hun werkruimte, kwamen niet bij hun documenten op de O-schijf en studenten konden niet bij hun lesmateriaal en huiswerk. Verschillende websites, waaronder die van DUB, waren een week lang uit de lucht.

Kritieke diensten
De universiteit zelf wil in deze fase waarin alle energie naar het herstel gaat nog niet veel uitleg geven over wat er precies misging. Maar uit een rondgang van DUB langs ICT'ers die tijdens de uitval werkten aan het herstel, en uit de gesprekken met Slinger Jansen en Nishant Saurabh, blijkt dat het in theorie mogelijk was geweest om bij stroomuitval direct over te schakelen naar een andere server, waarop een kopie van alle diensten staat. De UU heeft er echter in het verleden voor gekozen geen complete automatische omleiding naar een back-up in te richten.

Te duur
De UU zou vanwege het geld en mogelijk ook vanwege de technische complexiteit niet hiervoor hebben gekozen, zo suggeren de ICT'ers die DUB sprak. Ze zeggen dat de UU in het verleden wel haar kritieke diensten heeft geïnventariseerd. Op basis daarvan zou toen besloten zijn om slechts twee daarvan te voorzien van een online back-up. Dat zou gaan om het netwerk waarop de laptops, de wifi en de kabels in de gebouwen functioneren en het authenticatiesysteem waarmee het solis-inlogsysteem werkt. Daardoor was het mogelijk om dit systeem na een tijdje te herstarten via de online back-up. 

Overschakelen naar back-ups
Universitair hoofddocent Informatica Slinger Jansen vindt dat de UU wel had moeten regelen dat bij een storing alles automatisch overschakelt naar back-up servers. Ook al maakte de UU geen gebruik van de dure automatische omleiding van het datacentrum in Almere naar back-up servers, dan nog had de universiteit volgens Jansen zelf ervoor “kunnen zorgen dat alle data automatisch worden omgeleid naar de back-up servers” in een ander datacentrum. “We zouden dan bijvoorbeeld een dagje via Italië kunnen werken in plaats van Nederland of via Groningen in plaats van Almere.”

UU loopt achter
Jansen: “Andere organisaties doen dat ook. Als er brand is in het datacentrum waarop de server van ING of Instagram staat, merken we dat niet eens. Die diensten blijven online. De UU loopt wat dat betreft achter. Alle data zijn te repliceren en op andere plekken te zetten, maar blijkbaar hebben we op de universiteit nog niet de mentaliteit om zo te werken.”

Daardoor lagen de UU-systemen er veel langer uit dan had gehoeven en ging het opstarten langzaam. Volgens Jansen heeft de UU ICT’ers in dienst met “veel expertise”. “De mensen die nu hard aan het werk zijn om alles op te lossen, weten ook hoe dit soort scenario’s technisch kunnen worden opgevangen. Tegelijk laat deze situatie zien dat er voor de universiteit nog een belangrijke ontwikkelstap ligt op het gebied van crisisvoorbereiding en investeringen in digitale continuïteit.”

 

Migratiebeleid
Ook universitair docent Informatica Nishant Saurabh ziet dat de universiteit geen goed rampenplan heeft, omdat het lang duurde voordat UU-systemen weer draaiden. “In elk datacentrum kan een brand ontstaan. Daarom is het belangrijk om overal back-ups van te hebben. Drie back-ups zijn meestal de standaard, waarbij deze ook online moeten staan. Daarbij moet er ook een migratieplan zijn, om snel data te kunnen verplaatsen als je uit de lucht ben. De universiteit lijkt dit niet goed geregeld te hebben.”

Ik hoop dat de storing een wake-up call is

Volgens Saurabh is het niet altijd eenvoudig om een enorm computersysteem automatisch door te sturen naar back-upservers. “Maar er moet op z’n minst wel een semi-geautomatiseerde oplossing worden ingezet”, zegt de onderzoeker. “Je moet kunnen anticiperen op een noodsituatie en al bepalen hoe je migratiebeleid eruitziet om de tijd offline tot een minimum te beperken.”

Anticiperen
De UU had volgens de onderzoeker eigenlijk al moeten reageren voordat de noodsituatie zich daadwerkelijk voordeed. Saurabh: “Onze onderzoeksgroep heeft een goede software ontwikkeld die door bepaalde statistieken te monitoren helpt bij het anticiperen op problemen. Je ziet op tijd welke situaties je kunt tegenkomen en welke acties je kunt ondernemen om de problemen te beperken, bijvoorbeeld door de juiste persoon te waarschuwen. Dat is een semi-geautomatiseerde actie. Ik krijg niet het gevoel dat de Universiteit Utrecht een van deze dingen heeft geregeld. Ik hoop dat de storing een wake-up call voor haar is.”

brand datacenter. Foto: Shutterstock

Foto: Shutterstock

Data op verschillende servers opslaan
Saurabh ziet vooral dat de ICT-faciliteiten van de UU onvoldoende gemoderniseerd zijn. Het grootste probleem is volgens hem dat de data van de universiteit lokaal zijn opgeslagen, waarbij veel verschillende diensten op servers in één gebouw staan. Als er iets misgaat in dat gebouw, zoals bij het datacentrum in Almere het geval was, vallen al deze diensten uit. Saurabh pleit voor het decentraliseren van systemen, waarbij niet de gehele infrastructuur door één organisatie wordt beheerd. Verschillende diensten, zoals de pasjes, applicaties en O-schijf staan dan niet op servers in één datacentrum, maar op verschillende plekken. 

De UU zou er bijvoorbeeld aan kunnen denken om onderdeel te worden van een gedeelde infrastructuur met andere Nederlandse universiteiten. “Als de UU platligt, zouden de servers van de andere universiteiten nog wel bereikbaar zijn. De diensten van de UU zouden dan nog steeds bereikbaar moeten zijn via de andere servers, geïsoleerd door middel van beveiligde toegangscontrole."

Reactie CvB 
Het College van Bestuur (CvB) laat in een schriftelijke reactie weten dat het zich realiseert dat “de brand bij het datacentrum van NorthC grote impact heeft gehad op studenten en medewerkers, en dat er vragen zijn over de mate waarin we hierop voorbereid waren. We begrijpen dat die vragen er zijn. Na het Pinksterweekend starten we met de evaluatie en bekijken we welke lessen er hieruit te trekken zijn. Het College van Bestuur wil voor die tijd niet inhoudelijk reageren op de suggesties die in dit artikel worden gedaan door Slinger Jansen en Nishant Saurabh. Dit betekent ook dat er nu niet is gekeken of de informatie zoals die door DUB en de experts wordt geschetst, feitelijk correct is.”

Login to comment

Reacties

We stellen prijs op relevante en respectvolle reacties. Reageren op DUB kan door in te loggen op de site. Dat kan door een DUB-account aan te maken of met je Solis-ID. Reacties die niet voldoen aan onze spelregels worden verwijderd. Lees eerst ons reactiebeleid voordat u reageert.

Als een UU SAP beheerder ben ik toch wel een beetje teleurgesteld dat er niet wordt benoemd dat ons ERP (met zweet en de nodige zorgen) in een secundair datacentrum online hebben ondergebracht. Ondanks de node triage; netwerk, identity en onderwijs/onderzoek diensten gaan ons noodzakelijkerwijs voor. Heel veel dank aan de netwerk collega's!

Komen weekend de rollback to normal.

Ik kan uit ervaring meedelen dat kiezen voor redundancy niet gratis is. Automatisch is trouwens een leugen: een disaster recovery test is niet zonder risico en de benodigde audit trail kost veel effort waar lastig waardering voor te vinden is. Totdat het echt misgaat :)

Met z'n allen om de tafel en zorgvuldig business continuity inrichten zou ik zeggen.

Laten we vooropstellen: ongelukken gebeuren en netwerken zijn niet 100% betrouwbaar. Dat weet iedereen. Maar kunnen we er alsjeblieft voor zorgen dat er geen single points of failure zijn die processen platleggen die hier helemaal los van horen te staan? Er is bijvoorbeeld geen enkele logische reden waarom zoiets simpels als iets printen in de binnenstad afhankelijk moet zijn van een actieve server in Almere.

De theorie achter failover-datacenters en disaster recovery (DR) bij calamiteiten is grotendeels ontwikkeld in de jaren 1970 en 1980. Iedere ICT-professional weet hoe het in theorie zou moeten: met een onbeperkt budget is een robuuste, goed geteste failover-oplossing relatief "eenvoudig" te realiseren. Helaas leven we niet in die ideale wereld, waardoor er altijd keuzes en afwegingen gemaakt moeten worden op basis van kosten, complexiteit en risico.Na de recente uitval van het datacenter in Almere is het daarom verstandig om kritisch te herzien of die gemaakte keuzes nog steeds de juiste zijn.

Dank aan de collega’s van ITS voor het uitstekende werk en de vakkundige aanpak om alles weer snel operationeel te krijgen.

Advertentie