‘Wow this is magic’

Scrapen is een wezenlijk onderdeel van datajournalistiek en verwijst naar de technieken waarmee data van digitale bronnen opgehaald en overzichtelijk geordend wordt. Dat klinkt ingewikkeld en lijkt enkel besteed aan programmeurs, maar volgens online journalist Paul Bradshaw kunnen journalisten zonder technische achtergrond het prima leren. Persinnovatie-verslaggever Moniek Verstegen liep mee met de cursus ‘Scrapen voor journalisten’ die Bradshaw onlangs gaf aan de Hogeschool Utrecht.

Door: Moniek Verstegen

Magie

Het internet is een grote bron van informatie waar interessante journalistieke verhalen uit te halen zijn, je moet alleen wel weten hoe je die informatie destilleert uit de enorme databases achter de websites. Reden te meer om je als journalist eens over de basisvaardigheden van het scrapen te buigen, vond ook Goof van de Winkel van de Hogeschool Utrecht, organisator van de cursus. De cursus was voor de tweede keer op rij uitverkocht en onder de deelnemers waren journalisten van onder meer RTL, VPRO en Wegener. Maar ook andere geïnteresseerden zoals mensen van de Consumentenbond, vertelt Van de Winkel.

Bradshaw legt uit waar het bij scrapen in essentie om gaat: Uiteindelijk kun je dingen meten die eerst onmeetbaar waren." Hij zet ons aan het werk met een spreadsheet in een Google Drive-account. Met behulp van ingebouwde functies als ‘importhtml’ importeren we in een paar klikken de tabel van deze Wikipedia-pagina overzichtelijk in de spreadsheet. Het enige wat we hoeven te doen is de juiste variabelen, zoals de url van de website, invullen. ‘Wow, this is magic’, klinkt het in het lokaal; er lijkt een nieuwe wereld voor de cursisten open te gaan.

Patronen ontdekken

We spelen wat met de functies en proberen verschillende databronnen uit. Bradshaw benadrukt dat je bij scrapen in principe niets uit je hoofd hoeft te leren. Het is wel van belang dat je weet wat er bedoeld wordt met veelvoorkomende termen. Als je dat weet, kun je altijd achterhalen hoe je een bepaalde functie moet gebruiken. "De argumenten van een functie zijn als de ingrediënten van een recept. Welke ingrediënten je nodig hebt vind je in de documentatie van een functie: dat kun je gewoon intikken in Google", legt hij uit, en tot vervelends toe test hij onze nieuw verworven kennis van het jargon.

Bij scrapen maak je gebruik van de code van een website. De truc is om patronen in deze code te ontdekken, zodat je de computer mee kunt geven welke informatie hij moet ophalen. Dat kan met de functies van Google Spreadsheet, maar bijvoorbeeld ook met Web Scraper, ingebouwd in webbrowser Chrome of met tools waarvan de basisversie voor iedereen gratis te downloaden is. Bradshaw’s persoonlijke favoriet is OutWit Hub. "Maar probeer zelf welke voor jou het meest intuïtief werkt." Tenslotte zijn ‘bibliotheken’ als BeautifulSoup en lxml ook de moeite waard om een kijkje te nemen als je met een scraping-project begint. Hier staan collecties van functies die anderen al eens hebben gemaakt, die je heel eenvoudig voor je eigen project kan gebruiken.

Toch uitbesteden?

Ter afsluiting van de cursusdag scrapen we op verzoek van een cursist gezamenlijk data van Funda.nl. Hoe lang stonden verkochte huizen in Utrecht gemiddeld te koop? Tot Bradshaw’s genoegen staat de looptijd per huis al vernoemd, maar het blijft een uitdaging om alles overzichtelijk in één tabel te krijgen. "Probeer het probleem in verschillende fases op te delen", adviseert hij. We scrapen eerst de looptijd van het eerst verkochte huis. Vervolgens maken we een tabel met de url van alle huizen waarvan we de looptijd willen scrapen en passen vervolgens de functie toe op al deze urls. En het lukt. Meer dan honderd verkochte huizen en hun bijbehorende looptijd staan overzichtelijk in een Excel-tabel.

De cursisten zijn aan het eind van de dag enigszins verdeeld in hun enthousiasme. Hoewel de een zegt zo snel mogelijk een hele dag uit te gaan trekken om met de tools te gaan spelen, stelt een ander dat het uiteindelijk toch sneller werkt om iemand in te huren voor een scrape-project. "Als je het niet continu doet weet je er waarschijnlijk toch te weinig van af", stelt een van de cursisten. Voor een ieder die het toch graag zelf wil gaan doen: het e-book Scraping for Journalists heeft dezelfde opbouw als de cursus en is hier verkrijgbaar.

Lees meer

Reageer

Geef een reactie

*