Technologie maakt journalistiek handwerk makkelijker bij KRO-NCRV

Tijdrovende journalistieke klussen zoals het doorzoeken van documenten worden met automatiseringstechnologie een stuk eenvoudiger. Page Facts, winnaar van The Challenge in 2015, onderzoekt bij KRO-NCRV de mogelijkheden. Initiatiefnemer Luuk Ex blogt.

Waarschijnlijk zullen jonge journalisten steil achterover slaan bij het zien van Spotlight. In die op waarheid gebaseerde film heeft de onderzoeksredactie van The Boston Globe aanwijzingen dat er op grote schaal seksueel misbruik plaatsvindt binnen de katholieke kerk. De kerk zou steeds na een delict priesters op verlof gestuurd hebben, of verplaatst naar een andere regio. Als een redacteur stuit op een register van priesters, voorzien van aantekeningen over verplaatsingen en verloven, zoekt de voltallige redactie daarin drie weken (!) naar verdachten. Gewapend met een wijsvinger, een liniaal en een pen. Wat een werk.

720x405-MCDSPOT_EC005_H

Bekijk fragment Spotlight

De nieuwste generatie journalisten zou het anders aanpakken. Zij scannen de registers. Vervolgens laten ze die uitlezen door Optical Character Recognition (OCR) met bijvoorbeeld Adobe 9.0 of PDF OCR. En de tekst is doorzoekbaar met ctrl-f en de trefwoorden ‘verplaatsing’ en verlof’. Dat scheelt drie weken werk.

Toch behoort deze automatisering nog niet tot de standaard redactionele werkwijze. Dat merkte ik tijdens mijn eerste week op mijn nieuwe werkplek bij Reporter Radio, het Spotlight van KRO-NCRV. Recent werkte ik mee aan een onderzoek over de vraag op hoeveel asielaanvragen het kabinet rekent. Om het verhaal hard te krijgen moesten we een grote hoeveelheid papieren documenten en foto’s doorspitten.

Drie dagen met de vingerzoekmethode werken

Toen ik voorstelde alles in te scannen en met OCR doorzoekbaar te maken –dan konden we alle bekende prognoses zo uit de documenten vissen– keek de redactie verrast. Direct kwamen er verhalen los over eerder onderzoek waarbij de voltallige redactie, net als in Spotlight, drie dagen de wijsvingerzoekmethode had gehanteerd. De afdeling Digitaal & Innovatie van KRO-NCRV stelde onlangs de vraag of men bij de omroep wel op de hoogte is van de laatste ontwikkelingen op wetenschappelijk en innovatief gebied.

Bij Page Facts houden we ons bezig met nieuwe ontwikkelingen als OCR, die het journalistieke handwerk vergemakkelijken. Hoe kunnen we software inzetten voor het verifiëren van betrouwbaarheid online? Of in bredere zin, hoe kunnen we nieuwe technologie inzetten voor journalistiek? De ontwikkelingen op dit terrein gaan razendsnel en de kennis hierover bij veel journalistieke redacties blijft achter. Page Facts probeert daarom overzicht te maken van tools en zelf tools te ontwikkelen die journalisten nodig hebben om zich een weg te banen door de enorme hoeveelheid gegevens. KRO-NCRV vroeg een collega en mij of wij wilden gaan uitzoeken welke technologie de journalistieke redacties bij KRO-NCRV ingezet kunnen worden.

Techniek in spraak- en tekstherkenning

Ik was verrast door Media Distillery, een Nederlandse start-up die de laatste techniek in spraakherkenning, tekstherkenning en beeldherkenning combineert om Nederlandse televisie- en radioprogramma’s doorzoekbaar te maken. Hun zoekmachine leek ons inzetbaar voor verschillende taken. Bijvoorbeeld voor het terugzoeken van fragmenten.

Vaak hoor ik op redacties dat iemand iets relevants oppikt op radio of televisie, maar niet precies meer weet waar en wanneer: “Ik zag iets over de deradicalisering van een Nederlandse jongen waarbij de politie langs zijn huis ging en zijn moeder ook in beeld was. Maar ik weet niet meer bij welk programma en wanneer precies.” Vermoedelijk beginnen veel redacteuren niet eens aan de zoektocht met zo’n onduidelijke herinnering.

Maar met Media Distillery durfden wij het wel aan. De zoekmachine zet alles wat wordt gezegd om in tekst en maakt het doorzoekbaar. We vermoedden dat de woorden “deradicalisering” of “radicalisering” en “moeder” wel waren gevallen. En inderdaad, we vonden het fragment met de tijdscode en originele bron erbij.

Screenshot Media Distillery

Niet afhankelijk van de uploader

Met dit voorbeeld werd ook direct duidelijk wat de toegevoegde waarde van de nieuwe technologie is. Vindbaarheid van video’s op YouTube en Uitzending Gemist is afhankelijk van annotatie. De uploader van een filmpje schrijft op wat er te zien is, meestal in één zin. Als bij het item over deradicalisering de moeder niet was genoteerd, dan hadden we de video zeker niet teruggevonden. Bij Media Distillery bepaalt de technologie de annotatie. Daardoor zijn we niet afhankelijk van wat de uploader op dat moment belangrijk acht.

Wat ook veelbelovend is, is de beeldherkenning. Media Distillery is in staat om logo’s en gezichten te herkennen. De technologie moet nog verder ontwikkeld worden, maar nu al lukt het de zoekmachine om in miljoenen televisieframes het groenblauwe logo van KPN aan te wijzen. Je typt ‘logo:kpn’ en ziet een lijst met fragmenten van schaatswedstrijden en voetbalinterviews met op de achtergrond het logo.

Wat heeft dit met Page Facts te maken? Welnu, het vinden of verzinnen en maken van een innovatie is maar een onderdeel van het automatiseren van journalistieke werkzaamheden. Net zo belangrijk is het implementeren van de technologie. Waar moet je beginnen, bij de redacteuren of de hoofdredactie? En hoe ga je om met sceptici die argwanend kijken naar de ‘vernieuwingsdrang’ van sommige collega’s? Een pilot met Media Distillery zal voor KRO-NCRV en voor ons erg leerzaam zijn. Afgelopen maand testten ruim vijftig redactieleden de veelbelovende techniek. Eens kijken hoe de eindredactie daar op reageert.

Reageer

Geef een reactie

*