Vrij geven ‘open data’ in de praktijk lastig
Als wetenschappelijk onderzoek met publiek geld is betaald, moeten de uitkomsten ook vrijelijk toegankelijk zijn. Tegenwoordig is bijna iedereen het daarmee eens, maar hoe moet het in de praktijk?
Onderzoekers uit allerlei hoeken van de wetenschap spraken gisteren met elkaar over open data. De meeste wetenschappers steunen intussen het principe dat wetenschappelijke artikelen voor iedereen te lezen moeten zijn als ze voortkomen uit publiek gefinancierd onderzoek. Maar gisteren ging de discussie nog een stap verder: hoe zit het met de ruwe data van wetenschappelijk onderzoek, waar die artikelen op gebaseerd zijn?
Idealiter zouden wetenschappers op elkaars werk moeten voortbouwen, dus ook die data moeten toegankelijk zijn. Alleen kan dat niet altijd. Soms zijn de data privacygevoelig of doorkruisen ze commerciële belangen als het bedrijfsleven erbij betrokken is. Militair onderzoek naar wapens en bommen moet misschien ook niet de hele wereld overgaan. Verder is het lastig als de ene onderzoeksgroep verplicht is de data openbaar te maken, terwijl de andere ze juist contractueel geheim moet houden.
Maar er spelen nog meer problemen, bleek tijdens de bijeenkomst van onderzoeksfinancier NWO. “Bijna niemand kan met onze ruwe data overweg”, zei astronoom Marco de Vos van de radiotelescoop in Westerbork. “Daarvoor zou je precies moeten weten hoe het apparaat werkt. Er zijn misschien maar vijf mensen die er iets van snappen. We laten opgeschoonde resultaten zien, anders heeft het geen enkele zin. Je maakt wetenschappelijke data niet toegankelijk door ze zomaar op straat te gooien.”
Dat vonden andere aanwezigen ook. “Stel dat je een Word-document online zet”, zei Arjan van Hessen, taalkundige van de Universiteit Twente. “Dan moet je wel een Word-programma hebben om het te kunnen lezen. Dus wie data online zet, moet ook de tools verstrekken om er wijs uit te worden.” Daarom zijn er internationale standaarden nodig waar datasets aan moeten voldoen, stelde hij. Natuurlijk kunnen de data zelf onzinnig of verkeerd verkregen zijn, gaf hij grif toe toen iemand het voorbeeld van de frauderende hoogleraar Diederik Stapel aanhaalde, maar een dataset moet in ieder geval bruikbaar zijn voordat je hem kunt bekritiseren.
Nog lastiger is het bewaren van data als de software blijft veranderen: wie garandeert dat de data over vijftien jaar nog steeds te lezen zijn? Data veranderen ook of ze worden aangevuld. Er zijn bovendien talloze verschillende soorten data, van reeksen tabellen tot plaatjes van geologische objecten.
Na afloop van de discussie verzuchtte hoogleraar Hans Bennis van het Meertens Instituut dat er waarschijnlijk miljoenen euro’s nodig zijn om oude data te bewaren en toegankelijk te houden. “En wie moet dat doen? In de astronomie kun je met andere landen samenwerken, maar dat ligt anders als je opnames van dialecten wilt opslaan, zoals wij. En wat moet je met de twitterberichten van politici? Er is een digitale organisatie nodig die zich voor zulke vraagstukken verantwoordelijk voelt, zoals we ook de Koninklijke Bibliotheek of het Nationaal Archief hebben. Je kunt het niet aan de onderzoekers zelf overlaten.”
Dat laatste bleek ook uit het slotwoord van NWO-voorzitter Jos Engelen. Die onthulde dat hij geen idee heeft waar de data zijn gebleven van het onderzoek dat hij in zijn jonge jaren verrichtte. “En dat voelt niet goed.”
In de toekomst kan dat niet meer gebeuren, verwacht hij, en al helemaal niet als het onderzoek met belastinggeld is betaald. Sinds een jaar eist NWO dat wetenschappelijke data vrij toegankelijk moeten zijn als NWO voor het onderzoek heeft betaald.