Of je nu studeert voor je tentamen Statistiek of gewoon wat extra hulp nodig hebt bij je huiswerk, oefenopgaven geven je de extra hulp die je nodig hebt. Hoewel statistische analysemethoden en statistische modellering vaak direct in verband worden gebracht met gegevensanalyse, is het belangrijk om eerst de rekenkunde te begrijpen die aan de basis ligt van deze analysemethoden.

Hoewel de meeste softwarepakketten, zoals SPSS en Stata, weinig tot geen rekenwerk van de statisticus vergen, is het belangrijk te weten hoe deze software werkt. Aan de basis van de meeste van je statistische analyses ligt een tak van de wiskunde die Bayesiaanse statistiek wordt genoemd. Het is niet waarschijnlijk dat je na je eerste inleidende cursus statistiek nog te maken krijgt met de stelling van Baye, maar het is wel belangrijk dat je de zogenaamde Bayesiaanse gevolgtrekking altijd in je achterhoofd houdt.

De theorie van Baye probeert de waarschijnlijkheid te beschrijven dat een gebeurtenis plaatsvindt, met eerdere informatie over diezelfde gebeurtenis, ook wel een prior genoemd. Als je bijvoorbeeld de waarschijnlijkheid wilt berekenen dat de ijscoman in je buurt op komt dagen, omdat het een zonnige dag is, dan kun je eerdere, empirische gegevens gebruiken om in te schatten hoe waarschijnlijk dat is.

De definitie van Bayesiaanse inferentie is dus het afleiden van de waarschijnlijkheid van een gebeurtenis op basis van een reeks gegevens. Dit is de basis van veel statistische problemen en tests die je zult tegenkomen, en het is belangrijk om het te onthouden omdat je het vaak niet expliciet zult zien. Deze gids biedt drie secties met voorbeelden die van deze theorie uitgaan.

Ontdek hier de statistiek bijles.

Grafiek en rekenmachine
Met statistiek kun je bijvoorbeeld werken in financiën | Bron: Pexels
De beste leraren Statistiek beschikbaar
Danel
5
5 (8 reviews)
Danel
17€
/u
Gift icon
1e les gratis!
Tom
5
5 (9 reviews)
Tom
15€
/u
Gift icon
1e les gratis!
Peter
4,9
4,9 (9 reviews)
Peter
18€
/u
Gift icon
1e les gratis!
Rob
4,9
4,9 (10 reviews)
Rob
20€
/u
Gift icon
1e les gratis!
Mick
5
5 (11 reviews)
Mick
25€
/u
Gift icon
1e les gratis!
Thivija
4,9
4,9 (12 reviews)
Thivija
20€
/u
Gift icon
1e les gratis!
Sanne
5
5 (10 reviews)
Sanne
19€
/u
Gift icon
1e les gratis!
Amir
5
5 (7 reviews)
Amir
17€
/u
Gift icon
1e les gratis!
Danel
5
5 (8 reviews)
Danel
17€
/u
Gift icon
1e les gratis!
Tom
5
5 (9 reviews)
Tom
15€
/u
Gift icon
1e les gratis!
Peter
4,9
4,9 (9 reviews)
Peter
18€
/u
Gift icon
1e les gratis!
Rob
4,9
4,9 (10 reviews)
Rob
20€
/u
Gift icon
1e les gratis!
Mick
5
5 (11 reviews)
Mick
25€
/u
Gift icon
1e les gratis!
Thivija
4,9
4,9 (12 reviews)
Thivija
20€
/u
Gift icon
1e les gratis!
Sanne
5
5 (10 reviews)
Sanne
19€
/u
Gift icon
1e les gratis!
Amir
5
5 (7 reviews)
Amir
17€
/u
Gift icon
1e les gratis!
Let's go

Statistische Basisberekeningen

Om de oefenopgaven in dit deel te kunnen maken, is het belangrijk dat je de elementaire statistiek begrijpt. Waarschijnlijk heb je een inleiding in kansberekening gevolgd en begrijp je het belang van voorwaardelijke kansberekening bij het maken van zelfs de meest eenvoudige exploratieve gegevensanalyse. Statistiek en kansberekening gaan hand in hand, en daarom is het belangrijk dat je ze begrijpt voordat je deze problemen gaat proberen op te lossen.

De definities en vaardigheden die je moet begrijpen om de problemen in dit deel op te lossen zijn onder andere:

  • Centrale Limiet Theorie
  • Centrale tendens
  • Standaard normale verdeling
  • Gemiddelde, mediaan en modus van de steekproef
Vrouw doet onderzoek
Als je het snapt, ga je het leuk vinden! | Bron: Pexels

Vraag 1: Construeer een Boxplot

Zowel de boxplot als de stam- en bladdiagrammen zijn verschillende manieren om de verdeling van een bepaalde variabele in je gegevens weer te geven. Het verschil is dat een boxplot weergeeft hoe je gegevens verdeeld zijn op basis van een normale verdeling. Om de boxplot te kunnen maken, is het belangrijk te begrijpen wat elk punt op de plot voorstelt.

De mediaan is het midden, waarbij 1, 2, 3 en 4 de vier verschillende kwartielen van je gegevens voorstellen. Dat wil zeggen, als we het eerste kwartiel nemen, betekent dit dat 25% van je gegevens in dit gebied liggen. Bij kwartiel 3 betekent dit dat 75% van je gegevens op dat punt en daaronder liggen. Kwartiel 0 staat voor het minimum en kwartiel 4 voor het maximum. Dit wordt dan vergeleken met een normale verdeling:

Als we naar het bovenstaande plaatje kijken, zien we dat ongeveer 50% van onze gegevens tussen Q1 en Q3 zal vallen. Onder Q1 of boven Q3, ligt slechts ongeveer 25% van onze gegevens. Voorbij het minimum en maximum worden deze gegevenspunten als uitbijters beschouwd. Een uitbijter is een gegevenspunt dat niet normaal is in verhouding tot de steekproefpopulatie.

De beste leraren Statistiek beschikbaar
Danel
5
5 (8 reviews)
Danel
17€
/u
Gift icon
1e les gratis!
Tom
5
5 (9 reviews)
Tom
15€
/u
Gift icon
1e les gratis!
Peter
4,9
4,9 (9 reviews)
Peter
18€
/u
Gift icon
1e les gratis!
Rob
4,9
4,9 (10 reviews)
Rob
20€
/u
Gift icon
1e les gratis!
Mick
5
5 (11 reviews)
Mick
25€
/u
Gift icon
1e les gratis!
Thivija
4,9
4,9 (12 reviews)
Thivija
20€
/u
Gift icon
1e les gratis!
Sanne
5
5 (10 reviews)
Sanne
19€
/u
Gift icon
1e les gratis!
Amir
5
5 (7 reviews)
Amir
17€
/u
Gift icon
1e les gratis!
Danel
5
5 (8 reviews)
Danel
17€
/u
Gift icon
1e les gratis!
Tom
5
5 (9 reviews)
Tom
15€
/u
Gift icon
1e les gratis!
Peter
4,9
4,9 (9 reviews)
Peter
18€
/u
Gift icon
1e les gratis!
Rob
4,9
4,9 (10 reviews)
Rob
20€
/u
Gift icon
1e les gratis!
Mick
5
5 (11 reviews)
Mick
25€
/u
Gift icon
1e les gratis!
Thivija
4,9
4,9 (12 reviews)
Thivija
20€
/u
Gift icon
1e les gratis!
Sanne
5
5 (10 reviews)
Sanne
19€
/u
Gift icon
1e les gratis!
Amir
5
5 (7 reviews)
Amir
17€
/u
Gift icon
1e les gratis!
Let's go

Vraag 2: Hoe Bereken en Interpreteer je de Correlatiecoëfficiënt?

Het is belangrijk om te begrijpen hoe bepaalde variabelen binnen je verzamelde gegevens zich tot elkaar verhouden. Dit is vooral nuttig omdat je, ongeacht de soorten gegevens die je zult tegenkomen, je dan hulpmiddelen kunt toepassen, ongeacht de soorten statistische concepten die je gebruikt. Een belangrijke tabel die je zult tegenkomen is een correlatie- en covariantietabel tussen de variabelen in je dataset.

Daar waar de definitie van correlatie het verband tussen twee variabelen inhoudt, verwijst de covariantie naar hoe deze twee variabelen samen variëren. Het doel van deze getallen is te kunnen meten hoe nauw elke variabele zich tot elkaar verhoudt.

Als je bijvoorbeeld een dataset hebt met betrekking tot gezonde kinderen op de middelbare school, zullen lengte en gewicht hoogstwaarschijnlijk een hoge correlatie hebben. Aan de andere kant zullen variabelen als lengte en favoriete kleur waarschijnlijk geen hoge correlatie hebben. Bij regressiemodellen is de berekening en interpretatie van de correlatiecoëfficiënt uiterst belangrijk.

De getallen in de tabel geven de correlatiecoëfficiënt weer, die aangeeft hoe sterk het verband is tussen de variabelen in de tabel. Om de correlatiecoëfficiënt te berekenen, heb je alleen de standaardafwijking van de steekproef en de covariantie van de steekproef nodig.

De standaardafwijking is de maatstaf voor de spreiding van je gegevens rond het gemiddelde, die aangeeft hoe ver je gegevens rond het gemiddelde liggen, niet gebaseerd op je steekproefgegevens maar op de werkelijke populatie.

De covariantie daarentegen is de maatstaf van hoe twee variabelen samen variëren, hetgeen sterk afhankelijk is van je steekproefgegevens. De covariantie moet niet worden verward met de variantie, die alleen meet hoe één variabele varieert binnen een gegevensreeks.

De interpretatie van de correlatiecoëfficiënt volgt drie basisregels. De eerste is dat de getallen langs de diagonaal altijd één moeten zijn. De diagonaal vertegenwoordigt de correlatie tussen de variabele en zichzelf, die altijd 1 moet zijn, of 100%. Bijvoorbeeld, wanneer de correlatie tussen de variabele favoriete kleur en dezelfde variabele 100% is.

De tweede regel is dat een correlatie van meer dan 50% moet worden beschouwd als een hoge correlatie, terwijl een correlatie van minder dan 50% moet worden beschouwd als een zwakke correlatie. In dit voorbeeld, terwijl favoriete kleur slechts 4% correlatie heeft met gewicht, hebben gewicht en lengte een sterke correlatie van bijna 90%.

De derde regel is, hoewel correlaties onder 50% normaal als zwak worden beschouwd, betekent dit niet dat ze niet interessant kunnen zijn. In dit voorbeeld heeft favoriete kleur een correlatie van 57% met geslacht. Hoewel dit geen al te sterke correlatie is ten opzichte van de tabel, wijst het wel in de richting van verschillen in geslacht die de moeite waard kunnen zijn om verder te onderzoeken.

Je kunt vandaag nog beginnen met een cursus data science.

Vrouw doet onderzoek
Het is niet makkelijk om te snappen | Bron: Pexels

Vraag 3: Hoe Interpreteer je Statistische Tests?

Statistiek is, zoals je misschien hebt gemerkt, sterk afhankelijk van de informatie die je al hebt geleerd. Daarom is het belangrijk dat je de grondbeginselen van de statistiek onder de knie hebt voordat je statistische tests kunt gaan begrijpen en oefenen.

De interpretatie van statistische tests zal verschillend zijn naargelang de test die je uitvoert. De twee meest voorkomende tests die je aan het begin van je statistiekcarrière zult leren zijn:

  • Chi Vierkant Test
  • T-Test

Bij beide toetsen gaat het om het toetsen van hypothesen, waarbij statistiek wordt gebruikt om te testen of variabelen binnen de gegevens al dan niet met elkaar in verband staan. Een t-toets vergelijkt de gemiddelden van twee variabelen en geeft je inzicht in hoe deze twee variabelen gerelateerd zijn. Bij een vergelijking tussen een nieuw geneesmiddel en een placebo bijvoorbeeld, kunnen de gezondheidsscores van twee groepen patiënten worden geanalyseerd met een t-toets.

Een chi-kwadraattoets daarentegen kan worden gebruikt om te bepalen of de verdeling van de steekproefgegevens overeenkomt met een populatie, of dat twee variabelen in een contingentietabel aan elkaar gerelateerd zijn.

De eerste test wordt een chi-kwadraat goodness of fit test genoemd, terwijl de andere een chi-kwadraat onafhankelijkheidstest wordt genoemd. Een voorbeeld van een chi-kwadraat toets voor onafhankelijkheid kan worden gevonden wanneer men probeert te zien of opleidingsniveau verband houdt met burgerlijke staat door ze te vergelijken binnen een contingentietabel.

Als je niet goed weet welke test je moet uitvoeren voor je gegevens, bekijk dan deze gids!

Vrouw doet onderzoek
Je kan spectaculaire banen dankzij statistiek krijgen! | Bron: Pexels

Extra Hulp voor Statistiek

Gelukkig zijn er veel bronnen die je nuttige tips en handleidingen kunnen geven als je worstelt met statistiek. Deze variëren van een grote verscheidenheid aan online platforms, zoals Superprof en Khan Academy, tot studieboeken en ander leesmateriaal. Een geweldige bron voor het krijgen van extra statistische hulp online is Wolfram Math en Statistics How To. Beide online platforms geven niet alleen de wiskundige componenten van statistische concepten weer, maar leggen ze ook in detail uit.

Als je meer uitleg nodig hebt, kan Youtube een redder in nood zijn. Als je op zoek bent naar nuttige video tutorials, is het vaak het beste om te zoeken op de trefwoorden van de statistiektermen waar je mee worstelt en te bladeren om te zien welke video het beste materiaal heeft. Als je liever hebt dat iemand het je persoonlijk uitlegt, is bijles een geweldige optie. De beste manier om hier gebruik van te maken is door je professor om wat extra hulp te vragen. Iedereen leert in een ander tempo en op een andere manier, dus het is belangrijk om dat in gedachten te houden als je verder gaat met het leren van statistiek.

>

Het platform dat privé leraren en leerlingen met elkaar verbindt

Vond je dit artikel leuk?

5,00/5 - 1 reviews
Laden...

Boris

Schrijver, vertaler en journalist, woonachtig in Chili. Houdt van reizen, nieuwe culturen ontdekken en wetenschap. Werkzaam voor Superprof sinds 2017.