Waarom moeten onderzoekers al die samenvattingen persoonlijk doorpluizen?, vroeg statisticus Rens van de Schoot zich af. Beeld uit een YouTube-filmpje van de UU

Hoogleraar en it’ers ontwikkelen digitale speurhond voor datasets

Body: 

De kersverse hoogleraar Rens van de Schoot beschikt sinds kort over een algoritme dat relevante wetenschappelijke artikelen uit bibliotheken weet te selecteren. De software kan onderzoekers vele uren werk besparen. “Dit bewijst de enorme potentie van teams waarin wetenschappers en ondersteuners samenwerken.”

Read in English

Hij ziet het al helemaal voor zich: een app à la Tinder waarmee je door een paar keer naar links en naar rechts te swipen een algoritme leert waar je naar op zoek bent in grote datasets. De computer kan vervolgens het zware werk doen.

Het zou zomaar het resultaat kunnen zijn van een project waarin de recent benoemde hoogleraar Statistiek Rens van de Schoot samen met UU-programmeurs van Information & Technology Services (ITS) software ontwikkelde die relevante wetenschappelijke artikelen uit de grote databases van bibliotheken weet te vissen.

Inmiddels zijn ook de Utrechtse Universiteitsbibliotheek en geesteswetenschappers van Digital Humanities aangeschoven. “We zitten nu nog in de testfase om te kijken of het algoritme echt zo goed is als we denken.”

Sneller samenvattingen beoordelen
De software kan wetenschappers een tijdrovende klus besparen. Wie wil weten wat er tot nu toe allemaal over een specifiek onderwerp gepubliceerd is, moet vaak duizenden samenvattingen doorvlooien. Lang niet alle artikelen die bij zo’n zoekopdracht naar voren komen, zijn relevant voor de onderzoeksvraag. Vorig jaar werden in Utrecht 283 van dergelijke zoektochten ondernomen. Van de Schoot: “Stel dat je veertig van die abstracts per uur kunt beoordelen en je moet er tienduizend doen. Dan ben je wel even bezig.”

Van de Schoot hoopt dat hij samen met de universitaire programmeurs ook bijdraagt aan een hogere kwaliteit van het wetenschappelijke proces: “Eigenlijk zou elke promovendus aan het begin van een promotietraject een systematische review van de bestaande literatuur moeten doen. Alleen dan weet je wat er allemaal al over jouw onderwerp bekend is. Dat kan straks hopelijk binnen een dag of zo.”

Succesformule
Helemaal nieuw is de vinding overigens niet. Maar in vergelijking met twee bestaande systemen presteert de Utrechtse software stukken beter, aldus Van de Schoot. Het prototype bestempelde bij testcases zo’n 80 procent van artikelen uit een database van 10.000 artikelen terecht als irrelevant en miste maar vijf relevante artikelen. “Waarschijnlijk niet slechter dan als een mens dat werk zou doen. Mensen maken immers ook fouten.”

De succesformule van het model is volgens Van de Schoot dat het ‘zelflerend’ is. Het schotelt onderzoekers enkele malen vijf gevonden artikelen voor, waarop deze aangeeft of deze wel of niet relevant zijn. De succesratio neemt daarbij steeds verder toe. “De kunst is nu dat proces te vervolmaken. Het moet zo snel mogelijk en met zo weinig betrokkenheid van de onderzoeker zelf.”

De software is al beschikbaar via het opensource-platform GitHub, maar gebruikers moeten wel de programmeertaal Python kennen. Toch krijgt Van de Schoot nu al veel positieve reacties van collega’s. “Iedereen dit ooit zo’n overzichtsstudie heeft gedaan zegt: had dit even wat eerder gedaan.”

Teamprestatie
Van de Schoot benadrukt dat het gaat om een teamprestatie waarbij hij als onderzoeker vanuit het focusgebied applied data sciences samen optrok met de afdeling ITS. Bij de testfase zijn nu dus ook medewerkers van de UB en Geesteswetenschappen betrokken. “Ik kan vanuit de inhoud zeggen wat ik graag zou willen doen, maar ik heb de kennis van anderen binnen de universiteit nodig om dat ook mogelijk te maken. Dit project heeft me laten zien hoe waardevol die samenwerking is.”

Met medewerkers van Utrecht Holdings, die een markt zoeken voor wetenschappelijke kennis, bekijkt Van de Schoot hoe de nieuwe opensource-software een mooie interface kan krijgen die zijn vinding voor een breder publiek gebruiksvriendelijk maakt. Misschien wordt dat dan inderdaad wel die app tinderstyle. “Dat zou pas echt mooi zijn”, aldus een glunderende Van de Schoot.

Video onder kader

Voor dit project kreeg Rens van de Schoot een subsidie van 25.000 euro vanuit het universitaire innovatiefonds voor IT-toepassingen in onderzoeksprojecten. Met het fonds wil de Universiteit Utrecht kleinschalige maar risicovolle projecten ondersteunen die zich richten op IT-innovaties die het onderzoek versterken. Tot nu kregen 14 projecten financiële steun, waaronder bijvoorbeeld ook twee projecten van sociologiehoogleraar Arnout van de Rijt.

In het ene project werkt Van de Rijt samen met econoom Dirk Gerritsen. Zij onderzoeken of op gokmarkten de inschattingen van winkansen uit het verleden van invloed blijven op latere inschattingen. Ze hebben een systeem gebouwd dat bij gokwedstrijden op het internet vroegtijdig inzet op een kandidaat. Een achterliggende vraag daarbij is onder meer of gokmarkten op grotere schaal, bijvoorbeeld rondom presidentiële verkiezingen of referenda, het mis kunnen hebben als gevolg van sociale beïnvloeding. Dat zou eventueel kunnen verklaren waarom overwinningen van Brexit en Trump als een verrassing kwamen.

Met informaticus Erik Jan van Leeuwen kijkt Van de Rijt naar omstandigheden waaronder nepnieuws zich makkelijk verspreidt in een populatie. Hiervoor zetten ze een grootschalig experiment op waarin echte sociale netwerken worden nagebootst. Ook bij deze projecten zijn medewerkers van de directie ITS betrokken, respectievelijk programmamanager Menno Rasch en IT-engineer Martin Schukman.

 

Facebook Twitter Whatsapp Mail