Hoe Belgische onderzoeksjournalisten Airbnb-data wisten los te peuteren
Nieuws |
Airbnb publiceert regelmatig cijfers over huurders en verhuurders. Zo kunnen journalisten in het press center onder andere vinden dat Airbnb in meer dan 65.000 steden actief is en dat er al meer dan 260 miljoen reizen via de website geboekt zijn. Helaas zeggen de cijfers meestal weinig over de impact van de verhuursite in specifieke regio’s en steden. Daarom besloten Stijn Debrouwere, Lars Bové en Tobe Steel, journalisten voor het Vlaamse dagblad De Tijd, zelf een onderzoek op te zetten. Ze ontdekten onder andere dat niet alle verhuurders aan de Vlaamse regelgeving voldoen, en dat achter sommige Airbnb-verhuurders commerciële bedrijven schuilgaan. De resultaten werden afgelopen zomer gepubliceerd in De Tijd. De productie leverde ze een nominatie voor De Loep binnen de categorie ‘Signalerende Onderzoeksjournalistiek’ op.
Web scraper verzamelt Airbnb-data
Debrouwere, Bové en Steel waren niet de eersten die onderzoek deden naar Airbnb. Wetenschapper Tom Slee begon in 2013 met het verzamelen van data over de impact van Airbnb in de Verenigde Staten. Daarvoor gebruikte hij een scraper; een computertechniek waarmee ongestructureerde data van een website geëxtraheerd kan worden en vervolgens op een gestructureerde manier kan worden opgeslagen. Die scraper publiceerde hij op GitHub, een populaire website waarop mensen software met elkaar kunnen delen.
Dataspecialist Debrouwere gebruikte de scraper van Slee om een nieuwe scraper te bouwen. ‘Dat er al een scraper bestond, heeft zeker meegespeeld in onze onderwerpkeuze’, vertelt Debrouwere. ‘Het hele onderzoek heeft een paar weken in beslag genomen. Zonder die bestaande scraper had dat makkelijk nog een week extra kunnen zijn. Het uitvoeren van een data-analyse en het maken van interactieve producties kunnen erg veel tijd in beslag nemen.’
Gelukkig wierp al dat harde werk zijn vruchten af. Uiteindelijk besloten ze het onderzoek zelfs uit te breiden naar andere landen en verzamelden ze ook data over Frankrijk, Duitsland en Nederland. De data over Nederland werd gedeeld met Trouw.
Handige onderzoeksmethode
Scraping is in sommige gevallen de enige manier om aan bepaalde datasets te komen. ‘Airbnb is erg selectief in het vrijgeven van data’, legt Debrouwere uit. ‘Als journalist krijg je vaak datasets voorgeschoteld waarvan je je afvraagt of ze wel echt het volledige verhaal vertellen.’ Hij is daarom van mening dat scraping een handige techniek kan zijn om als onderzoeksjournalist te beheersen.
‘Als journalist krijg je vaak datasets voorgeschoteld waarvan je je afvraagt of ze wel echt het volledige verhaal vertellen.’
Toch is een scraper volgens hem geen standaard succesformule voor ieder online onderzoek. ‘Een scraper is op zich niet magisch’, zegt hij. ‘De scraper struint pagina’s af en haalt er de relevante informatie uit. Dat zou een journalist ook handmatig kunnen doen, maar een scraper doet het een stuk sneller. Het is vooral belangrijk dat je van tevoren weet hoe je de data zelf zou kunnen extraheren. Als je dat weet, is het meestal niet zo moeilijk om een computer de rest van het werk automatisch te laten doen.’
Kritiek van Airbnb
Airbnb leverde forse kritiek op het gebruik van scrapers om informatie over de verhuursite te verzamelen. ‘Airbnb zegt dat zij hun gebruikers gedurende het hele jaar volgen, en dat hun data daarom betrouwbaarder is’, zegt Debrouwere. ‘Ik denk dat het voor Airbnb meer een soort van PR is geweest om te zeggen dat onze onderzoeksmethode niet in orde is. Die reactie hadden we van tevoren al wel verwacht, maar dat maakt het niet minder jammer. We hadden liever een wat constructievere relatie met Airbnb gehad.’
Of Debrouwere, Bove en Steel hun nominatie weten te verzilveren, wordt op vrijdag 6 april tijdens de Avond van de Onderzoeksjournalistiek bekendgemaakt.