Rondgang langs ICT'ers
Experts zeer kritisch na uitval UU-websites en systemen
Grote vraagtekens zetten Slinger Jansen, universitair hoofddocent informatica met specialisatie cybersecurity, en UU-docent Nishant Saurabh met een expertise in cloudopslag bij de gang van zaken rondom de uitval en herstart van veel Utrechtse websites en systemen. Zij stellen dat het in het geval van een calamiteit noodzakelijk is om snel te kunnen wisselen naar andere servers waarop back-ups staan. Jansen: “Je wilt snel kunnen terugvallen op een systeem waarop in ieder geval je essentiële diensten draaien, zoals de server die toegang geeft tot gebouwen. Het feit dat dit niet gebeurde, vind ik heel zorgelijk.”
De brand van 7 mei in het datacentrum NorthC, waar servers van de Universiteit Utrecht (UU) staan, zorgde ervoor dat diensten van de universiteit het een week lang niet of niet naar behoren deden. Medewerkers hadden tijdelijk geen toegang meer tot hun werkruimte, kwamen niet bij hun documenten op de O-schijf en studenten konden niet bij hun lesmateriaal en huiswerk. Verschillende websites, waaronder die van DUB, waren een week lang uit de lucht.
Kritieke diensten
De universiteit zelf wil in deze fase waarin alle energie naar het herstel gaat nog niet veel uitleg geven over wat er precies misging. Maar uit een rondgang van DUB langs ICT'ers die tijdens de uitval werkten aan het herstel, en uit de gesprekken met Slinger Jansen en Nishant Saurabh, blijkt dat het in theorie mogelijk was geweest om bij stroomuitval direct over te schakelen naar een andere server, waarop een kopie van alle diensten staat. De UU heeft er echter in het verleden voor gekozen geen complete automatische omleiding naar een back-up in te richten.
Te duur
De UU zou vanwege het geld en mogelijk ook vanwege de technische complexiteit niet hiervoor hebben gekozen, zo suggeren de ICT'ers die DUB sprak. Ze zeggen dat de UU in het verleden wel haar kritieke diensten heeft geïnventariseerd. Op basis daarvan zou toen besloten zijn om slechts twee daarvan te voorzien van een online back-up. Dat zou gaan om het netwerk waarop de laptops, de wifi en de kabels in de gebouwen functioneren en het authenticatiesysteem waarmee het solis-inlogsysteem werkt. Daardoor was het mogelijk om dit systeem na een tijdje te herstarten via de online back-up.
Overschakelen naar back-ups
Universitair hoofddocent Informatica Slinger Jansen vindt dat de UU wel had moeten regelen dat bij een storing alles automatisch overschakelt naar back-up servers. Ook al maakte de UU geen gebruik van de dure automatische omleiding van het datacentrum in Almere naar back-up servers, dan nog had de universiteit volgens Jansen zelf ervoor “kunnen zorgen dat alle data automatisch worden omgeleid naar de back-up servers” in een ander datacentrum. “We zouden dan bijvoorbeeld een dagje via Italië kunnen werken in plaats van Nederland of via Groningen in plaats van Almere.”
UU loopt achter
Jansen: “Andere organisaties doen dat ook. Als er brand is in het datacentrum waarop de server van ING of Instagram staat, merken we dat niet eens. Die diensten blijven online. De UU loopt wat dat betreft achter. Alle data zijn te repliceren en op andere plekken te zetten, maar blijkbaar hebben we op de universiteit nog niet de mentaliteit om zo te werken.”
Daardoor lagen de UU-systemen er veel langer uit dan had gehoeven en ging het opstarten langzaam. Volgens Jansen heeft de UU ICT’ers in dienst met “veel expertise”. “De mensen die nu hard aan het werk zijn om alles op te lossen, weten ook hoe dit soort scenario’s technisch kunnen worden opgevangen. Tegelijk laat deze situatie zien dat er voor de universiteit nog een belangrijke ontwikkelstap ligt op het gebied van crisisvoorbereiding en investeringen in digitale continuïteit.”
Migratiebeleid
Ook universitair docent Informatica Nishant Saurabh ziet dat de universiteit geen goed rampenplan heeft, omdat het lang duurde voordat UU-systemen weer draaiden. “In elk datacentrum kan een brand ontstaan. Daarom is het belangrijk om overal back-ups van te hebben. Drie back-ups zijn meestal de standaard, waarbij deze ook online moeten staan. Daarbij moet er ook een migratieplan zijn, om snel data te kunnen verplaatsen als je uit de lucht ben. De universiteit lijkt dit niet goed geregeld te hebben.”
Ik hoop dat de storing een wake-up call is
Volgens Saurabh is het niet altijd eenvoudig om een enorm computersysteem automatisch door te sturen naar back-upservers. “Maar er moet op z’n minst wel een semi-geautomatiseerde oplossing worden ingezet”, zegt de onderzoeker. “Je moet kunnen anticiperen op een noodsituatie en al bepalen hoe je migratiebeleid eruitziet om de tijd offline tot een minimum te beperken.”
Anticiperen
De UU had volgens de onderzoeker eigenlijk al moeten reageren voordat de noodsituatie zich daadwerkelijk voordeed. Saurabh: “Onze onderzoeksgroep heeft een goede software ontwikkeld die door bepaalde statistieken te monitoren helpt bij het anticiperen op problemen. Je ziet op tijd welke situaties je kunt tegenkomen en welke acties je kunt ondernemen om de problemen te beperken, bijvoorbeeld door de juiste persoon te waarschuwen. Dat is een semi-geautomatiseerde actie. Ik krijg niet het gevoel dat de Universiteit Utrecht een van deze dingen heeft geregeld. Ik hoop dat de storing een wake-up call voor haar is.”
Foto: Shutterstock
Data op verschillende servers opslaan
Saurabh ziet vooral dat de ICT-faciliteiten van de UU onvoldoende gemoderniseerd zijn. Het grootste probleem is volgens hem dat de data van de universiteit lokaal zijn opgeslagen, waarbij veel verschillende diensten op servers in één gebouw staan. Als er iets misgaat in dat gebouw, zoals bij het datacentrum in Almere het geval was, vallen al deze diensten uit. Saurabh pleit voor het decentraliseren van systemen, waarbij niet de gehele infrastructuur door één organisatie wordt beheerd. Verschillende diensten, zoals de pasjes, applicaties en O-schijf staan dan niet op servers in één datacentrum, maar op verschillende plekken.
De UU zou er bijvoorbeeld aan kunnen denken om onderdeel te worden van een gedeelde infrastructuur met andere Nederlandse universiteiten. “Als de UU platligt, zouden de servers van de andere universiteiten nog wel bereikbaar zijn. De diensten van de UU zouden dan nog steeds bereikbaar moeten zijn via de andere servers, geïsoleerd door middel van beveiligde toegangscontrole."
Reactie CvB
Het College van Bestuur (CvB) laat in een schriftelijke reactie weten dat het zich realiseert dat “de brand bij het datacentrum van NorthC grote impact heeft gehad op studenten en medewerkers, en dat er vragen zijn over de mate waarin we hierop voorbereid waren. We begrijpen dat die vragen er zijn. Na het Pinksterweekend starten we met de evaluatie en bekijken we welke lessen er hieruit te trekken zijn. Het College van Bestuur wil voor die tijd niet inhoudelijk reageren op de suggesties die in dit artikel worden gedaan door Slinger Jansen en Nishant Saurabh. Dit betekent ook dat er nu niet is gekeken of de informatie zoals die door DUB en de experts wordt geschetst, feitelijk correct is.”
Weet je wat nou mooi zou zijn? Volgend jaar een informaticus in U-raad! Upload 1-3 juni nr.5 van VUUR, Maurits, de raad in!