Een miljoen mensen tegelijk interviewen – en wat spraaktechnologie in de toekomst nog meer kan

toekomst van voice

De eerste interactieve, spraakgestuurde nieuwsbulletins worden al gemaakt. De eerste serieuze zorgen over voice worden besproken op journalistieke congressen. Maar stel dat we alle technische hiccups en ethische problemen zouden kunnen oplossen – wat is er dan allemaal mogelijk?

Mediabedrijven worstelen ermee dat ze voor korte audiobulletins hun nieuws in hyperkorte fragmentjes moeten verpakken, bleek uit het eerste deel van dit drieluik over voice en journalistiek. Om uit te vinden wat wel en niet goed werkt, worden de eerste interactieve verhalen en nieuwsupdates speciaal voor smart speakers nu getest. In dit laatste deel blikken we vooruit: hoe gaat de journalistiek veranderen als spraaktechnologie optimaal werkt? 

Op de GEN Summit in Athene afgelopen maand waren experts van onder andere Google News en AP het er in ieder geval over eens dat voice de volgende verandering wordt, sinds de shift van desktop naar mobiel. Voice wordt de belangrijkste nieuwe interface. Dit zijn vier voorspellingen over wat met voice in de nabije toekomst mogelijk wordt. 

1 Schaalbare diepte-interviews

Voor de meeste verhalen praat je als journalist met bron of drie, vier. ‘Maar om complexe verhalen echt goed te begrijpen, zou je eigenlijk veel meer mensen moeten spreken,’ vindt Krishna Bharat, een van de bedenkers van Google News. Dat is nu vaak niet haalbaar, want het kost extra tijd en dus geld.

Met spraakgestuurde technologie kun je een diepte-interview met heel veel mensen tegelijk doen. Als journalist maak je de outline voor het interview zoals je dat altijd doet, en voer je zelf het gesprek met de eerste bronnen. Vervolgens geef je de spraakassistent input over wat er allemaal besproken moet worden. De assistent houdt het ‘interview’ dan met alle andere mogelijke bronnen, vraagt telkens door en analyseert al die kwalitatieve info. 

Bovendien is het voor respondenten een prettigere ervaring dan een lange enquête invullen. Zo krijg je een écht representatieve basis voor je verhaal. ‘Kwalitatieve informatie krijgen van een miljoen mensen op een kosteneffectieve manier, kan in de komende tien jaar al mogelijk worden,’ zei Bharat in Athene. 

2 Een superslimme researcher in je oor tijdens interviews

Bharat ziet ook toepassingen van voice en AI voor op het moment dat je wel zelf iemand aan het interviewen bent. Namelijk via een ‘oortje’ dat meeluistert met een interview en gekoppeld is aan een slimme assistent, zoals in de film Her. ‘De assistent kan dan zoiets zeggen als: ‘Vijf jaar geleden zei deze persoon iets heel anders over dit onderwerp.’’

‘Je kan op basis van die info dan meteen een kritische vraag stellen,’ aldus Bharat. Ook heb je zo altijd cijfers en achtergrondinfo paraat, en kun je claims in een gesprek factchecken. ‘Je moet AI niet zien als een vijand die je baan komt stelen, maar als een buddy en bron van informatie die je helpt om nog beter te kunnen werken.’ 

3 Nieuws op maat voor elk moment en iedere voorkeur

Veel mediabedrijven proberen hun nieuwsaanbod al te personaliseren, zodat je als lezer artikelen krijgt die aansluiten bij jouw interesses, maar de meeste zijn nog niet erg succesvol. Als spraaktechnologie en AI perfect zouden werken voor dit doel, kunnen nieuwsbedrijven hun content zo aanbieden dat het precies past bij wat je op dat moment als gebruiker nodig hebt. Een slimme spraakassistent wordt de hele dag gevoed met informatie over wat je doet, wat je wel en niet interessant vindt, waar je behoefte aan hebt. Met die informatie gaat het algoritme vervolgens aan de slag. Het gaat dan niet per se over de inhoud zelf, maar bijvoorbeeld om vorm en stijl. 

Lisa Gibbs van The Associated Press werkt bijvoorbeeld aan een algoritme dat verschillende samenvattingen maakt van een nieuwsverhaal. ‘Een lange versie voor als je de tijd hebt in de auto, een korte versie voor als je snel bijgepraat wil worden voor je de deur uitgaat,’ vertelde ze in Athene. Maar je zou elk verhaal nog veel verder kunnen tweaken op basis van waar de luisteraar zich bevindt, welke toon, stijl of stem hij prettig vindt, etcetera. 

4 Nieuws in een post-screen-tijdperk

De opmars van smart speakers is pas het begin – spraaktechnologie wordt in de toekomst in bijna alle apparaten en overal in onze omgeving (in de kantoormuren, je auto, winkels) ingebouwd. Dat heeft grote gevolgen voor wat nieuwsmedia moeten gaan produceren. 

Volgens de berekeningen van futurist Amy Webb verloopt in 2021 de helft van de interacties met computers via spraak. ‘Alle grote techbedrijven hebben voice op hun road map staan. We moeten dus heel snel gaan focussen op VSO, Voice Search Optimization. Dat wordt het nieuwe SEO,’ vertelde ze tijdens haar keynote op de GEN Summit in Athene. 

Nu worden teksten geoptimaliseerd voor zoekmachines (SEO), zodat mensen bij jouw content uitkomen op basis van hun zoekopdrachten. Bij VSO zorg je ervoor dat je content ook goed vindbaar is als mensen met spraakopdrachten informatie zoeken.

Om VSO in te zetten moet je nadenken over wat voor soort vragen mensen kunnen stellen, en hoe jij daar met jouw content op in kunt haken. In technisch opzicht gaat het ook om het toevoegen van meer ‘conversationele’ woorden en zinnen aan de trefwoorden, omdat mensen nu eenmaal anders praten dan dat ze typen.

Toekomstvragen

Wat Amy Webb betreft moeten nieuwsmedia nu alvast goed nadenken over hoe de wereld er straks uit gaat zien: ‘Hoe gaat je publiek straks op zoek naar nieuws als hun smartphone een veel minder belangrijke rol gaat spelen? Hoe gaan ze – letterlijk – om nieuws en informatie vragen? En op welke manieren gaat jouw journalistieke content het antwoord op die vragen zijn?’

Foto: Robert Wetzlmayr

Over Jolien van de Griendt

Jolien is freelance journalist met een grote voorliefde voor innovatieve vormen van storytelling. Omdat je met een nieuwe vorm vaak een groter of ander publiek kunt bereiken. Ze is co-founder van journalistieke start-up Newschain en werkt aan toepassingen en formats voor Voice in de media.