Hoeveel meer kun je onderzoeken als je data koppelt?

De overheid heeft verschillende administraties waarvan de data in principe te koppelen zijn. Hoeveel meer zou je kunnen onderzoeken als je die data bij elkaar kunt brengen? Dat heeft de Algemene Rekenkamer getest in het onderzoek naar inkomenssteun van de EU voor Nederlandse boeren.

Beeld: Willy Nihot
Pieter Oosterwijk

Het werken met data past in de strategie van de Algemene Rekenkamer om bij onderzoeken zo veel mogelijk nieuwe methoden en technieken in te zetten.

Onderzoeker Pieter Oosterwijk: “In het begin was ons onderzoek naar EU-inkomenssteun voor boerenbedrijven nog heel erg een methodologische exercitie waarbij ik werk van een onderzoeksinstituut controleerde. Maar toen we doorkregen welke databronnen er allemaal beschikbaar zijn en wat we daarmee kunnen doen, werd het voor mij pas echt interessant. Ik besefte dat we hier een bestand hebben waar voor meer dan € 700 miljoen aan subsidies in staat en vroeg mij af hoe ver je dat geld zou kunnen volgen.”

Meer dan een steekproef

“Het ging voor ons om meer dan een steekproef”, aldus Oosterwijk (34), “wij wilden weten of het mogelijk was om over de hele populatie een uitspraak te doen. Waar de overheid vaak nog onderzoek doet op steekproeven, kreeg ik als onderzoeker met als specialisatie data-analyse de ruimte om verder door te prikken en te laten zien dat beschikbare informatiebronnen grotendeels aan elkaar gekoppeld kunnen worden.”

De RVO (Rijksdienst voor Ondernemend Nederland) beheert voor de rijksoverheid EU-subsidies en keert de bedragen uit. In het onderzoek naar de EU-inkomenssteun voor boerenbedrijven heeft de Rekenkamer gekeken of het mogelijk was om de data van de RVO te koppelen aan data van het CBS (Centraal Bureau voor de Statistiek). 

Het landbouwonderzoek was onderdeel van Verantwoordingsdag 2019 en hoort bij het op 15 mei jl. gepubliceerde Rapport bij de Nationale Verklaring 2019. De inkomensondersteuning voor boeren is onderdeel van de steun die Nederland van de Europese Unie ontvangt en maakt daarom deel uit van de Nationale Verklaring die het kabinet jaarlijks naar het parlement stuurt om zich te verantwoorden over EU-geld dat in gedeeld beheer in Nederland is besteed. 

“We hebben”, vervolgt Oosterwijk, “het volledige bedrag in beeld bij de RVO, maar de RVO heeft niet alle informatie die wij interessant vinden; die heeft het CBS wel. Denk aan de rechtsvorm van een boerenbedrijf, is het een BV, hoe groot is het bedrijf, welk type bedrijf is het, wat is het inkomen van het huishouden? 

Op het beleidsterrein zelf ben ik geen expert. Voor mij als data-analist is het interessant om te kijken of informatie beter benut kan worden door verschillende administraties van de overheid te koppelen. Ik wil weten hoe ver we kunnen komen als we de data van het ene instituut (CBS) dat beschikt over beleidsinteressante gegevens, koppelen aan het andere instituut (RVO) dat alle bedragen heeft.”

Controleren en ‘schoonmaken’

Oosterwijk: “Om de administraties te kunnen koppelen moet je de bedrijven met een variabele identificeren. Een groot risico is daarbij dat je de verkeerde variabele gebruikt of systematisch bedrijven er tussenuit vallen. Met alle gevolgen van dien voor de kwaliteit van het onderzoek. Het is dus zaak om ruim de tijd te nemen en dat nauwkeurig te controleren. Om te voorkomen dat de uitkomsten niet kloppen is het bovendien belangrijk dat de data goed ‘schoongemaakt’ zijn: slecht bijgehouden administraties, of kleine programmeerfouten kunnen de resultaten compleet vertekenen.”

€ 426 miljoen in beeld

In het onderzoek naar de EU-subsidies is het uiteindelijk gelukt om voor € 426 miljoen (van de € 700 miljoen) de informatie goed in beeld te brengen. Pieter Oosterwijk: “Ik zou het een geweldige uitdaging vinden om nog verder te kunnen puzzelen en ook de overige € 300 miljoen proberen in beeld te krijgen.”

Kennis en vaardigheden relevant maken

Pieter Oosterwijk heeft een bachelor psychologie gedaan, een onderzoeksmaster methoden en statistiek, en is gepromoveerd op psychometrie, het toepassingsgebied van statistiek in de psychologie. Oosterwijk: “Ik ben in 2016 bij de Rekenkamer gekomen ongeveer tegelijkertijd met enkele andere data-analisten. 

Inmiddels zijn onze werkzaamheden gebundeld en uitgegroeid tot een data-hub, waar ICT-kennis en -vaardigheden van de Algemene Rekenkamer bij elkaar komen. Daar kan ik mijn methodologische kennis, het programmeren, mijn statistiekvaardigheden en mijn kennis over moderne data-analysetechnieken relevant maken voor de Rekenkamer, en daarmee de Tweede Kamer van goede informatie voorzien en de politiek een beetje minder feitenvrij maken.”