Pivotaal datamoment #1

Van VLOOKUP naar join

Het is 2015, een nog jonge ik is druk bezig met het verwerken van honderden enquêteformulieren in een Excel-bestand om daarna met SPSS te gaan werken. Voor mijn afstudeer thesis.

Het telefoontje dat het begon

Tijdens het opschonen belde ik een maat, Martijn. Mijn vraag was simpel: als tabel 1 en tabel 2 hetzelfde nummer bevatten, kan ik dan niet een veld uit de ene in de andere terugvinden?

Antwoord: ja. VLOOKUP. Of gewoon: VERT.ZOEKEN.

Dat moment liet me voor het eerst zien dat losse tabellen niet los hoeven te blijven. En wat ik toen nog niet wist: in het datadomein heet dit principe geen VLOOKUP, maar een join. En daar gaat dit verhaal over: de good old join!

Als je VLOOKUP snapt, snap je al veel van joins

Je hebt links een tabel, rechts een tabel. Je gebruikt een gedeeld veld om ze te verbinden, dat noemen we een sleutel. Tot zover is het eigenlijk gewoon VLOOKUP.

Maar als je echt gaat engineren met data, worden de vragen al snel groter:

Welke rijen wil ik behouden?
Wat doe ik met records zonder match?
Verwacht ik één match of meerdere?
En klopt mijn model eigenlijk wel?

Precies daar verschuift het van Excel-handigheid naar echte datamodellering. Voor al die vragen heb je verschillende joins. Klik er een aan, ze staan in volgorde van complexiteit:

Klik op een join hierboven om de uitleg te lezen.

Waarom dit méér is dan een trucje

Een join is technisch gezien niet het moeilijkste onderdeel van data.

Als je de bovenstaande variaties op verticaal zoeken begrijpt, ben je al op de helft. De syntax is ook niet zo lastig, zeker niet met deze pagina tot je beschikking.

Het enige wat dan nog overblijft is de vraag of je eigenlijk wel de juiste tabellen, sleutels en detailniveaus aan elkaar hangt. En precies daarom vind ik joins zo'n mooi onderwerp.

Ze lijken klein. Maar ze raken meteen aan hoe je data denkt, structureert en controleert.

Dat is ook de reden dat dit onderwerp logisch doorloopt richting mijn workshop modelleren: daar gaat het niet meer alleen over koppelen, maar over waarom een model wel of juist niet klopt.

Waarom dit voor mij een pivot moment was

Voor mij begon een belangrijk deel van mijn datareis dus niet bij Power BI, niet bij SQL, en ook niet bij een fancy dataplatform. Het begon bij een Excel-moment.

Bij het besef dat twee tabellen samen meer kunnen vertellen dan ieder voor zich. En eerlijk gezegd vind ik dat nog steeds één van de leukste dingen aan dit vak: verbanden leggen!

Dat is ook hoe ik dit soort onderwerpen aanpak op mijn site en in trainingen: rustig, logisch en zonder onnodige rookgordijnen. Meer daarover lees je in mijn werkwijze.

Heb je zo'n onderwerp waarvan je denkt: hier wil ik met mijn team of voor mezelf eens goed induiken? Dan kun je altijd even het contactformulier gebruiken.