Zo maak je de ideale spreadsheet

Wie af en toe gebruik maakt van data kan eigenlijk niet zonder Excel of Google Spreadsheets. In een drieluik gaat datajournalist Winny de Jong in op de geheimen van spreadsheetprogramma’s. In deel 1: hoe maak je de perfecte spreadsheet?

Als datajournalist interview je datasets. Zoals je een interview met een persoon kunt opnemen, zou je dat eigenlijk ook willen doen met de vragen die je aan datasets stelt. Je vragen ‘opnemen’ gaat niet, maar als je zorgt dat je de originele dataset bewaart en niet bewerkt, de data overzichtelijk houdt en bewerkingen bijhoudt kom je in de buurt. Datajournalist Adriana Homolova en ikzelf delen vijf tips voor het maken van de ideale spreadsheet.

* TL;DR? Onderaan deze blogpost staat een checklist voor het maken van ideale spreadsheets.

1. Bewaar het origineel

Voordat je begint met het bewerken van data, is het slim om de originele dataset op te slaan. Sla de oorspronkelijke data bijvoorbeeld op als een ‘alleen-lezen’-bestand, of beveilig de sheet met de originele data. Zo kun je altijd terug naar de oorspronkelijke spreadsheet, en is het per ongeluk bewerken van de bron onmogelijk. Ook voor datablunders geldt: voorkomen is beter dan genezen.

Vergeet niet het originele bestand een logische naam te geven. Voor het schrijven van deze blogpost downloadde ik tabel 24 (download xls-bestand) over scheidingen uit het demografisch jaarboek 2014 van de Verenigde Naties. Op mijn computer heet het bestand ‘Scheidingen Divorces 2010-2014 – UN Stats’ – naar het format ‘Onderwerp, Bereik – Bron’. Als ik over een half jaar op zoek ben naar deze dataset, dan heb ik ‘m zo gevonden.

2. Denk na over de indeling

De ideale spreadsheet is op elk moment voor iedereen te begrijpen. Maar je zult zien dat wanneer je data krijgt of verzamelt, de spreadsheet vaak onoverzichtelijk of zelfs rommelig is. Je moet er zelf voor zorgen dat jouw dataset inderdaad begrijpelijk is. Dat betekent vooruit denken en netjes werken. Geef daarom niet alleen het bestand een logische naam, maar ook elke sheet in het bestand. En geef elke tabel bij voorkeur een eigen sheet. Dan ziet de spreadsheet er al een stuk overzichtelijker uit.

Om ervoor te zorgen dat elke sheet of pagina in je Excelbestand slechts een tabel bevat, kun je eventuele metadata verplaatsen. Maak een nieuwe tab met een logische naam als ‘metadata’. Als er veel afkortingen of jargon in de dataset worden gebruikt, is het slim om goed na te gaan of je alles begrijpt. Als er iets niet duidelijk is, zoek dan uit hoe het zit. Bel indien nodig de maker of instantie achter de dataset. Vergeet niet de ingewonnen informatie toe te voegen aan de ‘metadata’-pagina. Verplaats eventueel ook de informatie over de bron van de data naar een aparte tab. Als de informatie uitgebreid is, kan het een tabel onoverzichtelijk maken. (Als ik de titel van mijn bestand heb gewijzigd, zie punt 1, dan voeg ik de originele titel toe aan de metadata.)

3. Maak tabellen overzichtelijk

Sommige tabellen hebben twee verschillende rijen met kolomhoofden, de titels van elke kolom. Dat maakt zo’n tabel minder overzichtelijk. Probeer daarom de kolomhoofden in 1 cel te zetten.

Zoals het goed is om elke sheet tot een tabel te beperken, is het ook slim om elke kolom een datapunt toe te kennen. In de dataset die ik downloadde voor deze blogpost is dat niet zo: de eerste kolom bevat een continent, landnamen in het Engels en Frans, en het type gebied urban/rural. Nu heb je er nog niet zoveel last van, maar het analyseren van data is gemakkelijker als elke kolom een serie datapunten bevat. Daarom is het slim om die informatie nu vast te splitsen: dat betekent een extra kolom voor de contintenten, franse landnamen, en het type gebied.

4. Wees zuinig met opmaak

Een gekleurde spreadsheet ziet er vaak heel vrolijk uit, maar is niet per se duidelijker. Wees daarom spaarzaam met opmaak: beperk je tot één lettertype, gebruik geen randen als het niet nodig is (en dat is het zelden) en zet kleuren functioneel in. Bijvoorbeeld met de formule ‘conditionele opmaak’, waarbij cellen in een tabel op basis van de inhoud wel of niet worden ingekleurd. (Meer hierover in een volgende blogpost.)

Als er samengevoegde cellen in je tabel zitten, haal die er dan uit. Het samenvoegen van cellen past vrijwel nooit in de structuur van je tabel. Het maakt je tabel rommelig. Bovendien is het niet nodig: je kunt de celgrootte gemakkelijk aanpassen aan de inhoud, of gebruik maken van de ‘tekst terugloop’-functie in Excel of de ‘text wrapping’-functie in Google Spreadsheets.

ClearOffTheTableMd

Overigens kan het, in tegenstelling tot wat bovenstaande afbeelding suggereert, slim zijn om herhalingen in de dataset te laten staan. Voor het analyseren van de data is ‘remove repetition’ niet zo handig: als je bepaalde rijen eruit filtert tijdens je analyse, verliest de dataset aan logica.

5. Scheid data en berekeningen

Het is een goede gewoonte om cijfers en berekeningen te scheiden. Dit zorgt ervoor dat jijzelf en anderen de logica van een spreadsheet makkelijker kunnen doorgronden. Bovendien kun je berekeningen gemakkelijker aanpassen als je geen cijfers in je formules gebruikt, maar een verwijzing naar de cel met het betreffende cijfer erin.

Neem bijvoorbeeld de dataset over scheidingen. Als ik wil weten hoeveel procent het aantal scheidingen in 2011 is toe- of afgenomen ten opzichte van 2010, dan zal ik dat zelf moeten uitrekenen. De berekening is als volgt: nieuw (2011) – oud (2010) : (oud) x 100 procent. In de Excelsheet ziet mijn formule er zo uit: =((F2-E2)/E2)*100, omdat cellen F2 en E2 de informatie bevatten die ik nodig heb.

Checklist voor de ideale dataset

  • Is er een onbewerkte kopie of back-up van de originele data?
  • Heeft het bestand een logische naam zonder jargon of afkortingen?
  • Heeft elke sheet in het bestand een logische naam?
  • Bevat elke sheet maximaal één tabel?
  • Zijn er geen dubbele kolomhoofden?
  • Is er een aparte sheet met metadata? Bevat deze sheet alle benodigde informatie? (Uitleg van afkortingen; mogelijke categorieen etc.)
  • Is er een aparte sheet met de bronnen van de data? (Voeg indien nodig de datum van raadplegen van de desbetreffende bronnen toe.)
  • Is de opmaak tot een minimum beperkt? (Zijn alle lijnhoogten gelijk? Zijn de gebruikte kleuren, lettertypes, en randen functioneel?)
  • Zijn er geen samengevoegde cellen?
  • Gebruik je formules waar mogelijk?
  • Hebben alle cijfers in je dataset het juiste formaat? (Excel kan cijfers weergeven als een bedrag in verschillende valuta, datum, percentage etc.)

Bovenstaande afbeeldingen zijn gemaakt met Excel, maar deze tips zijn ook van toepassing voor gebruikers van Open Office of Google Spreadsheets. Een overzichtelijke spreadsheet kan je veel tijd besparen en maakt samenwerken een stuk makkelijker.

Als je nog een tip hebt die niet in de lijst staat, deel je die dan in de comments? Veel succes!

* ‘TL;DR’ is internettaal voor ‘too long; didn’t read’ of ‘te lang; niet gelezen’, en wordt doorgaans gevolgd door een samenvatting van het desbetreffende artikel.

Over Winny De Jong

Winny de Jong is datajournalist bij OneWorld, blogt over haar vak op datajournalistiek.nl, en verstuurt wekelijks een Data Nieuwsbrief. Voor SVDJ.nl maakt ze een serie praktische handleidingen voor journalisten die ook aan de slag willen met data.

Reageer

1 comments

Geef een reactie

*