NPO-programma’s doorzoekbaar dankzij tool die ondertiteling uitleest

ondertiteling

Een nieuwe tool maakt een flink deel van de afleveringen van NPO-programma’s op woordniveau doorzoekbaar. De ‘888zoeker’, die fragmenten opspoort op basis van de ondertitels van Teletekst, moet research voor journalisten vergemakkelijken.

De gebruiker voert in de 888zoeker een woord of woordgroep in; bijvoorbeeld Merkel of Zwarte Piet. Vervolgens verschijnen passages uit fragmenten van NPO-programma’s die deze woorden bevatten, inclusief een link naar de desbetreffende uitzending op npostart.nl. Dankzij een aanvullende plugin voor Chrome start de uitzending op het moment dat het desbetreffende zoekwoord valt.

Er kan ook op specifieke programma’s worden gezocht. Op die manier is bijvoorbeeld te achterhalen hoe vaak en wanneer premier Rutte het in het wekelijkse Gesprek met de minister-president van de NOS over Zwarte Piet had (vier keer).

ResearchAssistant

De 888zoeker is gemaakt door ResearchAssistant, een klein, jong collectief dat bestaat uit journalist Tove Oegema, programmeur Robert-Jan Korteschiel en programmeur/journalist Erik van Zummeren. Oegema: ‘Ons doel is om journalisten met tools te helpen bij het doen van research. We richten ons op de stappen in het proces die omslachtig zijn en die we technisch makkelijker kunnen maken.’

Een deel van journalistiek onderzoek is: bekijken wat er eerder over een onderwerp gezegd is. ‘Normaal ga je dan googelen en alles wat je tegenkomt lezen en bekijken. Het is lastig om vooraf de relevantie van zoekresultaten in te schatten,’ zegt Oegema. De 888zoeker, waarmee behalve op precieze woordcombinaties ook onder meer kan worden gefilterd op moment van uitzending, moet een deel van dat proces stroomlijnen.

Crawler

De meeste toonaangevende journalistieke en maatschappelijke programma’s van de publieke omroep zijn in de database opgenomen: van Buitenhof tot Andere Tijden Sport. Vooralsnog gaat de content terug tot 2010. De makers willen het archief later verder verdiepen.

‘We hebben de ondertitels van 888-Teletekst gescrapet (geautomatiseerd losgetrokken, red.) en een crawler gebouwd die de NPO-site afzoekt op nieuwe content. De tool is nog niet perfect, maar we hebben besloten hem alvast online te zetten zodat we hopelijk feedback van journalisten krijgen. Testen is belangrijk, anders blijf je te lang theoretisch bezig.’

Er bestond overigens al een zoekmachine voor het NPO-archief (en andere tv-archieven): DAAN, een dienst van Beeld & Geluid. ‘Maar daarin kun je alleen zoeken naar complete fragmenten, op basis van de globale omschrijvingen van die fragmenten,’ zegt Oegema. ‘De 888zoeker zoekt naar stukjes ondertiteling van vijf à tien seconden, veel specifieker dus. Bovendien heb je voor DAAN een abonnement nodig.’

Meer tools

De 888zoeker is de eerste tool die ResearchAssistant uitbrengt, maar er moeten er meer volgen. Eén van de ideeën in de pijplijn is een tool die helpt bij het schrijven van wob-verzoeken. ‘Wobben wordt in Nederland heel erg tegengewerkt,’ zegt Oegema. ‘Bepaalde instanties veranderen om de paar maanden het precieze loket waar je een wob moet indienen. Het is lastig om wobben compleet te automatiseren, maar je kunt wel een generator maken die assistentie biedt bij het schrijven.’

ResearchAssistant deed in 2017 mee aan The Challenge van het Stimuleringsfonds voor de Journalistiek en won toen de aanmoedigingsprijs van 5.000 euro.

‘Dat is geen bedrag waar je heel lang mee doet. Op dit moment stoppen we er alledrie onbetaald een of twee dagen per week in. Begin volgend jaar gaan we op zoek naar nieuwe geldstromen: uit subsidie dan wel uit klanten. Als er behoefte aan blijkt zouden we betaalde aanvullende functies in de 888zoeker kunnen bouwen, of op maat gemaakte tools aanbieden aan redacties of media-opleidingen. Maar een donatiesysteem is ook een optie.’

De 888zoeker is hier te vinden.

Over Menno van den Bos

Menno van den Bos is freelance journalist en schrijft over media en maatschappij. Hij werkt voor Vrij Nederland, VICE en SVDJ.nl.