Statistiek is een van die disciplines waar iedereen op zijn minst een beetje van af weet. Van het interpreteren van een percentiel tot het uitvoeren van een chi-kwadraattoets, de brede discipline van de statistiek kan op elk aspect van ons leven worden toegepast: politiek, romantiek, zaken en meer. Hoewel de evolutie van gegevensanalyse een lange geschiedenis heeft, zijn de basisprincipes gemakkelijk te begrijpen. Hier is alles wat je moet weten over statistiek!

Lancering van een raket
Bij raketlanceringen komt veel statistiek en berekening kijken
De beste leraren Statistiek beschikbaar
Tom
5
5 (9 reviews)
Tom
15€
/u
Gift icon
1e les gratis!
Sanne
5
5 (14 reviews)
Sanne
20€
/u
Gift icon
1e les gratis!
Peter
4,9
4,9 (10 reviews)
Peter
26€
/u
Gift icon
1e les gratis!
Rob
4,9
4,9 (14 reviews)
Rob
20€
/u
Gift icon
1e les gratis!
Mick
5
5 (11 reviews)
Mick
25€
/u
Gift icon
1e les gratis!
Amir
5
5 (8 reviews)
Amir
25€
/u
Gift icon
1e les gratis!
Huib
5
5 (7 reviews)
Huib
39€
/u
Gift icon
1e les gratis!
Marijn
4,8
4,8 (8 reviews)
Marijn
25€
/u
Gift icon
1e les gratis!
Tom
5
5 (9 reviews)
Tom
15€
/u
Gift icon
1e les gratis!
Sanne
5
5 (14 reviews)
Sanne
20€
/u
Gift icon
1e les gratis!
Peter
4,9
4,9 (10 reviews)
Peter
26€
/u
Gift icon
1e les gratis!
Rob
4,9
4,9 (14 reviews)
Rob
20€
/u
Gift icon
1e les gratis!
Mick
5
5 (11 reviews)
Mick
25€
/u
Gift icon
1e les gratis!
Amir
5
5 (8 reviews)
Amir
25€
/u
Gift icon
1e les gratis!
Huib
5
5 (7 reviews)
Huib
39€
/u
Gift icon
1e les gratis!
Marijn
4,8
4,8 (8 reviews)
Marijn
25€
/u
Gift icon
1e les gratis!
Let's go

De Basis van Statistiek

Gegevensanalyse en statistische methoden domineren de krantenkoppen. De reden hiervoor is het steeds toenemende gebruik van gegevens in alle aspecten van ons leven - van de boodschappen die mensen kopen tot de dating-apps die ze gebruiken. Statistische gegevens werden al lang voor de uitvinding van de computer gebruikt, ook in domeinen zoals biostatistiek en bedrijfsanalyse.

De statistici van de oude wereld gebruikten zowel categorische als numerieke gegevens om bewegingen in de landbouw, het weer en de handel vast te leggen en te analyseren. Hoewel de Bayesiaanse statistiek een revolutie teweeg heeft gebracht in het werk van statistici en meer gesofisticeerde voorspellingsmethoden heeft omvat, heeft de statistiek in de moderne wereld de drie belangrijkste basisbeginselen behouden waarmee de discipline begon:

  • Verzamelen van gegevens met een steekproefgrootte
  • Analyseren van de gegevens
  • Creatieve manieren gebruiken om de conclusies uit deze gegevens weer te geven of te verspreiden
Mannen werken aan een project
Je zult er ook veel mee moeten samenwerken! ǀ Bron: Unsplash

Statistisch Rekenen voor Beginners

Hoewel de fijne kneepjes van statistische analyses te ingewikkeld lijken voor een leek, heeft zelfs de meest doorgewinterde statisticus of data scientist af en toe een opfrisser nodig van alles wat met waarschijnlijkheid en statistiek te maken heeft. Het begrijpen van alle statistische technieken in een paar paragrafen kan onmogelijk lijken, vooral als je niet al te zeker bent van je capaciteiten in wiskundige statistiek. Toch is statistische gegevensanalyse iets waar je dagelijks gebruik van maakt: van het opstellen van je maandelijkse begroting tot het maken van inzichtelijke gegevensvisualisaties op het werk.

Om de wereld van de statistische analyse te ontrafelen, moeten we eerst een belangrijk onderscheid maken tussen de twee belangrijkste takken van de statistiek: de inferentiële en de beschrijvende statistiek. Terwijl beschrijvende statistieken worden gebruikt om te beschrijven en meten wat er werkelijk in je ruwe gegevens zit, worden inferentiële statistieken gebruikt om nuttige voorspellingen te doen over de algemene populatie met behulp van je steekproefgegevens.

Inferentiële statistieken testen een hypothese en een nulhypothese op steekproefgegevens om grootheden te schatten die we in het echte leven niet kunnen meten, zoals het ware, populatiegemiddelde. Met andere woorden, de inferentiële statistiek gebruikt een reeks gegevens om voorspellingen te doen over dingen buiten die gegevens. Of het nu gaat om kwantitatieve of kwalitatieve gegevens, inferentiële statistiek is een van de belangrijkste instrumenten voor datawetenschappers over de hele wereld. Het maakt gebruik van concepten zoals waarschijnlijkheidstheorie en methoden zoals lineaire regressie om nuttige voorspellingen te doen over de wereld.

Vind de beste data science cursus in Amsterdam.

 

De beste leraren Statistiek beschikbaar
Tom
5
5 (9 reviews)
Tom
15€
/u
Gift icon
1e les gratis!
Sanne
5
5 (14 reviews)
Sanne
20€
/u
Gift icon
1e les gratis!
Peter
4,9
4,9 (10 reviews)
Peter
26€
/u
Gift icon
1e les gratis!
Rob
4,9
4,9 (14 reviews)
Rob
20€
/u
Gift icon
1e les gratis!
Mick
5
5 (11 reviews)
Mick
25€
/u
Gift icon
1e les gratis!
Amir
5
5 (8 reviews)
Amir
25€
/u
Gift icon
1e les gratis!
Huib
5
5 (7 reviews)
Huib
39€
/u
Gift icon
1e les gratis!
Marijn
4,8
4,8 (8 reviews)
Marijn
25€
/u
Gift icon
1e les gratis!
Tom
5
5 (9 reviews)
Tom
15€
/u
Gift icon
1e les gratis!
Sanne
5
5 (14 reviews)
Sanne
20€
/u
Gift icon
1e les gratis!
Peter
4,9
4,9 (10 reviews)
Peter
26€
/u
Gift icon
1e les gratis!
Rob
4,9
4,9 (14 reviews)
Rob
20€
/u
Gift icon
1e les gratis!
Mick
5
5 (11 reviews)
Mick
25€
/u
Gift icon
1e les gratis!
Amir
5
5 (8 reviews)
Amir
25€
/u
Gift icon
1e les gratis!
Huib
5
5 (7 reviews)
Huib
39€
/u
Gift icon
1e les gratis!
Marijn
4,8
4,8 (8 reviews)
Marijn
25€
/u
Gift icon
1e les gratis!
Let's go

Beschrijvende Statistiek

Voordat we ingaan op de spannende wereld van centrale tendens en ordinale data regressie modellen, kijken we naar de meest voorkomende tools die worden gebruikt in verkennende analyse. In de statistiek kunnen gegevens worden geanalyseerd via univariate of multivariate methoden, wat ruwweg neerkomt op het analyseren van één variabele of meerdere.

Een proefje in een lab
In het lab wordt statistiek veel gebruikt ǀ Bron: Unsplash

Doorgaans zijn univariate analysemethoden zinvoller in een eerste verkennende analyse, waarbij het bekijken en vergelijken van de metingen van specifieke variabelen kan dienen om belangrijke kenmerken uit je dataset te belichten. Hoewel dit absoluut geen uitputtende uitleg is van beschrijvende statistieken, zijn er enkele basiselementen die je in je onderzoeksopzet kunt toepassen om je afhankelijke of onafhankelijke variabele te begrijpen.

Maatstaven van centrale tendens, of hoe de gemiddelde gegevens eruit zien, zijn het steekproefgemiddelde, de effectgrootte, de mediaan en de modus. Metingen van variabiliteit, daarentegen, zijn bedoeld om te meten hoe ver gegevens van het gemiddelde afliggen en omvatten: varianties, covariantie en standaardafwijking.

Dit klinkt misschien heel elementair, maar veel industrieën die gebruik maken van statistiek hebben de complexere methoden van de inferentiële statistiek niet nodig. Zo kan het gebruik van gegevensvisualisaties van beschrijvende statistieken, zoals een histogram of een taartdiagram, een bedrijf helpen hun grootste kostenproblemen of de kenmerken van een gemiddelde klant te identificeren. Op deze manier kan exploratieve analyse uitgroeien tot een krachtig instrument voor zowel datavisualisatie als -analyse.

Vind hier een cursus data science.

3D van statistiek
Wetenschap, wiskunde, statistiek en data: allemaal verbonden ǀ Bron: Unsplash

Inferentiële Statistiek

Dan nu de concepten waar zelfs de meest doorgewinterde wiskundige van huivert: de inferentiële statistiek. We gaan meer gedetailleerde uitleg geven over enkele van de meer complexe statistische onderwerpen die onder deze tak van de statistiek vallen, zoals regressieanalyse met categorische gegevens of binomiale verdelingen, maar de basisbegrippen zijn vrij gemakkelijk te begrijpen.

Aan de basis van alle inferentiële statistiek ligt de waarschijnlijkheidstheorie. Van het construeren van een betrouwbaarheidsinterval voor je schattingen tot het bereiken van de statistische significantie voor een afhankelijke variabele - vrijwel alle statistische methodologie berust op de waarschijnlijkheidstheorie. Dit gezegd zijnde, worden statistici op het gebied van inferentiële statistiek over het algemeen verdeeld in twee kampen: frequentisten en Bayesianen.

Terwijl frequentisten geloven dat waarschijnlijkheid de meting is van de frequentie van een uitkomst van een feitelijke proef, of experiment, is de Bayesiaanse statisticus van mening dat waarschijnlijkheid abstract is en het geloof in kennis of propositie meet. Als dit klinkt alsof iemand zojuist Arabisch tegen je heeft gepraat, kan het nuttig zijn te kijken naar hoe een normale kansverdeling wordt gebruikt in het meest elementaire statistische model: lineaire regressieanalyse.

Om een lineaire regressieanalyse uit te voeren, zoals bij vele andere soorten analyses zoals variantieanalyses (ANOVA) of tijdreeksanalyses, worden veronderstellingen gemaakt over de gegevens om de geldigheid van de analyse te verzekeren. Een van de meest voorkomende veronderstellingen is dat de variabelen of de foutterm van de gegevens een normale verdeling volgen. Dit waarborgt de geldigheid van het model en is de basis van een correcte interpretatie van alles, van een alternatieve hypothese en correlatiecoëfficiënt tot betrouwbaarheidsintervallen.

Hoewel de meeste statistische software, zoals R en SPSS, automatisch statistische modellen zal uitvoeren, is het altijd belangrijk de meeste veronderstellingen van je gegevens te controleren voordat je lineaire regressie en andere soorten analyse kunt uitvoeren. Om je een idee te geven van hoe sommige andere veronderstellingen eruit kunnen zien, kunnen we kijken naar het Gauss-Markov theorema: Als je lineair regressiemodel voldoet aan de eerste zes klassieke veronderstellingen van de gewone kleinste kwadratenmethode, dan is de regressie BLUE of de beste lineaire unbiased estimator.

Het enige nadeel is echter dat aan deze veronderstellingen in het echte leven bijna nooit kan worden voldaan. Kijk maar eens en je zult waarschijnlijk zien waarom:

  1. Het model is lineair, zowel wat betreft de coëfficiënten als de foutterm.
  2. De verwachte waarde, of het gemiddelde, van de foutterm is nul
  3. De onafhankelijke variabelen zijn niet gecorreleerd met de foutterm
  4. Er is geen correlatie tussen verschillende waarnemingen van de foutterm
  5. Geen heteroscedasticiteit in de foutterm, die ook kan worden gezien als constante variantie
  6. Geen perfecte correlatie tussen de onafhankelijke variabelen

Een van de meer gebruikelijke statistische modellen die je waarschijnlijk zult aantreffen in een experimenteel ontwerp is het Algemeen Lineair Model. Dit model is, in zijn meest basale vorm, een eenvoudig lineair model en kan, in zijn meest complexe vorm, worden gebruikt in multivariate analysemethoden zoals factoranalyse, clusteranalyse en meer. Zonder al te veel in detail te treden, maakt het gebruik van de GLM-methode voor de analyse van zowel categorische als numerieke gegevens gebruik van belangrijke concepten zoals de t-toets om te helpen bij het bepalen van het beste model voor de gegevens. De t-toets beoordeelt of de gemiddelden van twee groepen statistisch van elkaar verschillen en kan worden toegepast om conclusies te trekken over de vraag of het ene lineaire model beter is dan het andere.

Hulpmiddelen voor Statistici

Van de randomisatie van trials tot de analyse van parametrische modellen, het creëren van de perfecte methodologie, analyse en interpretatie in de statistiek kan lastig zijn. Gelukkig zijn er een aantal manieren waarop je online of via een professional hulp kunt krijgen bij statistiek. Of je nu in de war bent over de definitie van een willekeurige variabele of observationele gegevens, het internet kan je beste hulpmiddel zijn bij het vinden van statistische oplossingen. Kijk op Stack Exchange als je problemen hebt met een bepaald concept of probleem.

Waar Vind je Docenten Statistiek

Als je op zoek bent naar één-op-één bijles voor statistiek, blader dan eens door Superprof's gemeenschap van bijna 150.000 bijlesdocenten wiskunde in Nederland! Ze geven advies over alles wat met statistiek te maken heeft, en je kunt advies en begeleiding krijgen over de meest lastige concepten en functies van de statistiek voor de gemiddelde prijs van 15 euro per uur!

 

>

Het platform dat privé leraren en leerlingen met elkaar verbindt

1ste les gratis

Vond je dit artikel leuk? Laat een beoordeling achter!

5,00 (1 beoordeling(en))
Laden...

Boris

Schrijver, vertaler en journalist, woonachtig in Chili. Houdt van reizen, nieuwe culturen ontdekken en wetenschap. Werkzaam voor Superprof sinds 2017.