Statistiek is een van die disciplines waar iedereen op zijn minst een beetje van af weet. Van het interpreteren van een percentiel tot het uitvoeren van een chi-kwadraattoets, de brede discipline van de statistiek kan op elk aspect van ons leven worden toegepast: politiek, romantiek, zaken en meer. Hoewel de evolutie van gegevensanalyse een lange geschiedenis heeft, zijn de basisprincipes gemakkelijk te begrijpen. Hier is alles wat je moet weten over statistiek!

Statistische Beginselen
Gegevensanalyse en statistische methoden domineren de krantenkoppen. De reden hiervoor is het steeds toenemende gebruik van gegevens in alle aspecten van ons leven, van de boodschappen die mensen kopen tot de dating-apps die ze gebruiken. Statistische gegevens werden al lang voor de uitvinding van de computer gebruikt, ook in domeinen zoals biostatistiek en bedrijfsanalyse.
De statistici van de oude wereld gebruikten zowel categorische als numerieke gegevens om bewegingen in de landbouw, het weer en de handel vast te leggen en te analyseren. Hoewel de Bayesiaanse statistiek een revolutie teweeg heeft gebracht in het werk van statistici en meer gesofisticeerde voorspellingsmethoden heeft omvat, heeft de statistiek in de moderne wereld de drie belangrijkste basisbeginselen behouden waarmee de discipline begon:
- Verzamelen van gegevens met een steekproefgrootte;
- Analyseren van de gegevens;
- Creatieve manieren gebruiken om de conclusies uit deze gegevens weer te geven of te verspreiden.
Statistiek in de Basis: Statistiek Rekenen
Hoewel de fijne kneepjes van statistische analyses te ingewikkeld lijken voor een leek, heeft zelfs de meest doorgewinterde statisticus of data wetenschapper af en toe een opfrisser nodig van alles wat met waarschijnlijkheid en statistiek te maken heeft. Het begrijpen van alle statistische technieken in een paar paragrafen kan onmogelijk lijken, vooral als je niet al te zeker bent van je capaciteiten in wiskundige statistiek.
Toch is statistische gegevensanalyse iets waar je dagelijks gebruik van maakt: van het opstellen van je maandelijkse begroting tot het maken van inzichtelijke gegevensvisualisaties op het werk.
Om de wereld van de statistische analyse te ontrafelen, moeten we eerst een belangrijk onderscheid maken tussen de twee belangrijkste takken van de statistiek: de inferentiële en de beschrijvende statistiek. Terwijl beschrijvende statistieken worden gebruikt om te beschrijven en meten wat er werkelijk in je ruwe gegevens zit, worden inferentiële statistieken gebruikt om nuttige voorspellingen te doen over de algemene populatie met behulp van je steekproefgegevens.
Inferentiële statistieken testen een hypothese. Een nulhypothese op steekproefgegevens wordt gebruikt om grootheden te schatten die we in het echte leven niet kunnen meten, zoals bijvoorbeeld het populatiegemiddelde. Met andere woorden, de inferentiële statistiek gebruikt een reeks gegevens om voorspellingen te doen over dingen buiten die gegevens.
Of het nu gaat om kwantitatieve of kwalitatieve gegevens, inferentiële statistiek is een van de belangrijkste instrumenten voor datawetenschappers over de hele wereld. Het maakt gebruik van concepten zoals waarschijnlijkheidstheorie en methoden zoals lineaire regressie om nuttige voorspellingen te doen over de wereld.

Beschrijvende Statistiek
Voordat we ingaan op de spannende wereld van centrale tendens en ordinale data regressie modellen, kijken we naar de meest voorkomende hulpmiddelen die worden gebruikt in verkennende analyse. In de statistiek kunnen gegevens worden geanalyseerd via univariate of multivariate methoden, wat ruwweg neerkomt op het analyseren van één variabele of meerdere.
Doorgaans zijn univariate analysemethoden zinvoller in een eerste verkennende analyse. Daarbij kan het bekijken en vergelijken van de metingen van specifieke variabelen dienen om belangrijke kenmerken uit je dataset te belichten. Hoewel dit absoluut geen uitputtende uitleg is van beschrijvende statistieken, zijn er enkele basiselementen die je in je onderzoeksopzet kunt toepassen om je afhankelijke of onafhankelijke variabele te begrijpen.
Maatstaven van centrale tendens, of hoe de gemiddelde gegevens eruit zien, zijn het steekproefgemiddelde, de effectgrootte, de mediaan en de modus. Metingen van variabiliteit, daarentegen, zijn bedoeld om te meten hoe ver gegevens van het gemiddelde afliggen en omvatten: varianties, covariantie en standaardafwijking.
Dit klinkt misschien heel elementair, maar veel industrieën die gebruik maken van statistiek hebben de complexere methoden van de inferentiële statistiek niet nodig. Zo kan het gebruik van gegevensvisualisaties van beschrijvende statistieken, zoals een histogram of een taartdiagram, een bedrijf helpen hun grootste kostenproblemen of de kenmerken van een gemiddelde klant te identificeren. Op deze manier kan exploratieve analyse uitgroeien tot een krachtig instrument voor zowel datavisualisatie als -analyse.

Inferentiële Statistiek
Dan nu de concepten waar zelfs de meest doorgewinterde wiskundige van huivert: de inferentiële statistiek. We gaan meer gedetailleerde uitleg geven over enkele van de meer complexe statistische onderwerpen die onder deze tak van de statistiek vallen, zoals lineaire regressieanalyse.
Aan de basis van alle inferentiële statistiek ligt de waarschijnlijkheidstheorie. Van het construeren van een betrouwbaarheidsinterval voor je schattingen tot het bereiken van de statistische significantie voor een afhankelijke variabele - vrijwel alle statistische methodologie berust op de waarschijnlijkheidstheorie. Dit gezegd zijnde, worden statistici op het gebied van inferentiële statistiek over het algemeen verdeeld in twee kampen: Frequentisten en Bayesianen.
De Frequentisten geloven dat waarschijnlijkheid de meting is van de frequentie van een uitkomst van een feitelijke proef, of experiment. De Bayesiaanse statisticus is van mening dat waarschijnlijkheid abstract is en het geloof in kennis of propositie meet. Als dit klinkt alsof iemand zojuist Arabisch tegen je heeft gesproken, kan het nuttig zijn te kijken naar hoe een normale kansverdeling wordt gebruikt in het meest elementaire statistische model: lineaire regressieanalyse.
Om een lineaire regressieanalyse uit te voeren, zoals bij vele andere soorten analyses zoals variantieanalyses (ANOVA) of tijdreeksanalyses, worden veronderstellingen gemaakt over de gegevens om de geldigheid van de analyse te verzekeren.
Een van de meest voorkomende veronderstellingen is dat de variabelen of de foutterm van de gegevens een normale verdeling volgen. Dit waarborgt de geldigheid van het model en is de basis van een correcte interpretatie van alles, van een alternatieve hypothese en correlatiecoëfficiënt tot betrouwbaarheidsintervallen.
De meeste statistische software, zoals R en SPSS, zal automatisch statistische modellen uitvoeren. Het is echter altijd belangrijk de meeste veronderstellingen van je gegevens te controleren voordat je lineaire regressie en andere soorten analyse kunt uitvoeren.
Om je een idee te geven van hoe sommige andere veronderstellingen eruit kunnen zien, kunnen we kijken naar het Gauss-Markov theorema. Als je lineair regressiemodel voldoet aan de eerste zes klassieke veronderstellingen van de gewone kleinste kwadratenmethode, dan is de regressie BLUE oftewel de Best Lineair Unbiased Estimator.
Het enige nadeel is echter dat aan deze veronderstellingen in het echte leven bijna nooit kan worden voldaan. Kijk maar eens en je zult waarschijnlijk zien waarom:
- Het model is lineair, zowel wat betreft de coëfficiënten als de foutterm;
- De verwachte waarde, of het gemiddelde, van de foutterm is nul;
- De onafhankelijke variabelen zijn niet gecorreleerd met de foutterm;
- Er is geen samenhang tussen verschillende waarnemingen van de foutterm;
- Geen heteroscedasticiteit in de foutterm, die ook kan worden gezien als constante variantie;
- Geen perfecte correlatie tussen de onafhankelijke variabelen.
Een van de meer gebruikelijke statistische modellen die je waarschijnlijk zult aantreffen in een experimenteel ontwerp is het Generalized Linear Model oftewel Algemeen Lineair Model. Dit model is, in zijn meest basale vorm, een eenvoudig lineair model en kan, in zijn meest complexe vorm, worden gebruikt in multivariate analysemethoden zoals factoranalyse, clusteranalyse en meer.
Verdiep je in inferentiële statistiek met privélessen. Een ervaren docent statistiek van Superprof staat klaar om je te helpen met bijles, gewoon bij jou in de buurt!

Zonder al te veel in detail te treden, maakt het gebruik van de GLM methode voor de analyse van zowel categorische als numerieke gegevens gebruik van belangrijke concepten, zoals de t-toets om te helpen bij het bepalen van het beste model voor de gegevens. De t-toets beoordeelt of de gemiddelden van twee groepen statistisch van elkaar verschillen en kan worden toegepast om conclusies te trekken over de vraag of het ene lineaire model beter is dan het andere.
Hulpmiddelen voor Statistici
Van de randomisatie van trials tot de analyse van parametrische modellen, het creëren van de perfecte methodologie, analyse en interpretatie in de statistiek kan lastig zijn. Gelukkig zijn er een aantal manieren waarop je online of via een professional hulp kunt krijgen bij statistiek. Of je nu in de war bent over de definitie van een willekeurige variabele of observationele gegevens, het internet kan je beste hulpmiddel zijn bij het vinden van statistische oplossingen. Kijk op Stack Exchange als je problemen hebt met een bepaald concept of probleem.
Waar Vind je Docenten Statistiek
Als je op zoek bent naar een-op-een bijles voor statistiek, kijk dan eens op de website van Superprof. Ze geven advies over alles wat met statistiek te maken heeft. Je kunt advies en begeleiding krijgen over de meest lastige concepten en functies van de statistiek voor de gemiddelde prijs van € 15,- euro per uur!









