Privacygevoelige dossiers onderzoeken zonder ze te hoeven lezen: hoe RTL Nieuws dat deed

Nieuws | Onderzoeksjournalistiek

Robotjournalistiek, een computer die nieuws analyseert en zelfstandig teksten schrijft, is de nachtmerrie van menig journalist. Vervangen worden door een machine, dat wil niemand. Maar geautomatiseerde data-analyse kan journalisten ook hélpen, bewees het team van RTL Nieuws onlangs. Op de redactie was een tip binnengekomen over Bureau Jeugdzorg Utrecht. Door een fout van de dienst zou een groot aantal gevoelige dossiers met een simpel trucje in te zien zijn. Het zou onder andere gaan om dossiers van kinderen die kampen met psychische aandoeningen en de gevolgen van seksueel misbruik.

Computerscript

De redactie stond in dubio. Aan de ene kant wilde ze weten hoe gevoelig de informatie was die op straat was komen te liggen. Tegelijkertijd voelde het ethisch niet verantwoord om in gegevens van kwetsbare kinderen te neuzen. Een computerscript bood uiteindelijk soelaas, vertellen Daniël Verlaan en Wouter van Dijke die samen het onderzoek deden. Verlaan deed het journalistieke speurwerk, Wouter schreef het computerprogramma.

‘We wilden een aantal dingen weten: om hoeveel mensen gaat het en waar gaat de informatie over?’ legt Wouter uit. ‘Dus hebben wij een script geschreven dat niet alleen de unieke namen telde, maar ook de meest voorkomende woorden. Zo wisten we vrij snel dat het in een groot deel van de documenten om onderwerpen ging als geweld, gamen, verslaving, gezin, misbruik, drugs.’

Tien willekeurige dossiers

Daniël Verlaan

Met alleen de data-analyse waren ze er niet. Om de uitkomsten te kunnen interpreteren was enige kennis van de opbouw van de dossiers en het soort informatie dat ze behelsden nodig. ‘Daarom hebben we tien random gekozen dossiers wél gelezen. Daarin ging het om misbruik, onhandelbare kinderen, geweld. Heel gedetailleerd. Mensen werden met naam en toenaam genoemd, er stonden zelfs 06-nummers in,’ vertelt Verlaan.

Om zeker te weten dat de tip klopte en de dossiers echt waren, heeft Verlaan vijf van de personen nagetrokken. ‘Dat gaat online vrij makkelijk. We vonden snel Facebook- en Twitter-profielen en zagen dat de personen ook daadwerkelijk uit de regio Utrecht kwamen. De profielen waren bovendien jaren geleden aangemaakt: ze waren dus niet verzonnen om ons om de tuin te leiden.’
Met deze informatie in het achterhoofd konden de journalisten de data-analyse duiden. Hun beeld werd bevestigd. Alle dossiers bevatten vergelijkbare schrijnende situaties en details. Ze hoefden niet verder te lezen om hun verhaal rond te krijgen: Bureau Jeugdzorg was op grote schaal nalatig geweest met de beveiliging van de privacy van zijn kwetsbare cliënten.

We zijn ook gewoon nerds die het leuk vinden om dit soort analyses te programmeren

Dat Verlaan en Van Dijke er bij dit project kozen voor een atypische manier van werken, en het grootste deel van hun bronnenmateriaal níet lazen, maakten ze onderdeel van het verhaal. Van Dijke:We doen wel veel met data en gebruiken scripts om ze te analyseren, maar dit was voor het eerst dat we een script gebruikten om het inzien van de data te vervangen. We merken dat transparantie hierover door het publiek gewaardeerd wordt. Je neemt de lezer mee in de afwegingen die je hebt gemaakt. Dat is belangrijk voor je geloofwaardigheid.’ Verlaan legde daarom in zijn stuk precies uit hoe ze te werk waren gegaan. ‘We zijn ook gewoon nerds die het leuk vinden om dit soort analyses te programmeren, en we vinden het best cool om erover te vertellen.’

Gezichten blurren

Verlaan kan zich voorstellen dat deze aanpak ook nuttig is voor andere onderzoeken naar privacygevoelige informatie. Databestanden met naaktfoto’s, bijvoorbeeld – Verlaan deed ook onderzoek naar kinderpornonetwerken en wraaksites. ‘Dan wil je bijvoorbeeld weten om wat voor soort foto’s het gaat. Worden er seksuele handelingen verricht? Zijn mensen naakt? Gaat het om kinderen? We zouden dan een script kunnen schrijven dat gezichten herkent en deze dan automatisch blurt. Dan zouden we de beelden kunnen bekijken zonder de privacy van de slachtoffers te schenden.’

Ook voor het onderzoek naar de gevaarlijkste wegen in Nederland bleek een data-script van toegevoegde waarde. Van Dijke: ‘Dan hebben we niet alleen het verhaal over de gevaarlijkste weg, maar hebben weveen database gebouwd waarin de kijkers hun eigen wijk kunnen opzoeken. Dan is het datawerk naast de analyse ook een tool om de lezer beter te bedienen.’

Wouter van Dijke

Menselijk speurwerk

Desondanks kan een computerscript het journalistieke handwerk nooit geheel vervangen, denken beiden. Het computerwerk kan handig zijn bij een eerste analyseslag van grote databergen, maar zonder menselijk denk- en speurwerk ben je nergens. Dat is ook de conclusie van Nicholas Diakopoulos, directeur van het Computational Journalism Lab aan de Northwestern University, Illinois. In zijn onderzoek naar journalistieke toepassingen voor kunstmatige intelligentie concludeert hij: ‘Droidward and Botstein can’t do it all’. Scripts en algoritmes zullen het journalistieke werk makkelijker gaan maken, maar om goed naar bronnen te luisteren en verbanden te leggen blijft de journalist van vlees en bloed nodig, schrijft hij.

Hoe zwaar de onderwerpen van hun analyses vaak ook zijn, de twee RTL-journalisten worden elke keer weer enthousiast van het datawerk achter de schermen. De robotjournalistiek blijft lonken. Op dit moment werkt RTL Nieuws aan een computerscript dat automatisch nieuwsberichten genereert. Verlaan: ‘Het is ook gewoon een beetje een spelletje. Het is elke keer een uitdaging om iets nieuws te verzinnen waarin we data-analyse en journalistiek handwerk kunnen combineren.’

Nieuwsbrief

Ontvang ons laatste nieuws
Hidden
Dit veld is bedoeld voor validatiedoeleinden en moet niet worden gewijzigd.