Statistiek kan een complexe discipline zijn om te ontrafelen. Van het construeren van een betrouwbaarheidsinterval voor een puntvoorspeller tot het testen van hypothesen. Deze blog zal je helpen om het brede gebied van gegevensanalyse te begrijpen, door je door de basisprincipes van de oorsprong en samenstelling te leiden.
De Basis van Statistieke Vaardigheden
Om te beginnen moet je je afvragen wat de waarde is van gegevens. Het onderzoeken van de waarde van data is echter geen modern fenomeen. We kennen allemaal de beelden van data-analyse uit de jaren '90, de Matrix is een uitstekend voorbeeld.
Vandaag de dag zijn statistische gegevens en de statistische software om ze te analyseren beschikbaar voor iedereen met toegang tot internet. Denk aan de de algoritmen die je datingprofiel het best matchen met een ander profiel of de manier waarop winkels bepalen welke artikelen ze in de uitverkoop doen. Statistische analyse bestaat echter al eeuwen. Vroege statistici maakten optimaal gebruik van de statistische methoden die zij tot hun beschikking hadden om categorische en kwantitatieve gegevens te verzamelen, te sorteren en te registreren.
Hoewel de taak van de statisticus niet de inferentiële instrumenten van de Bayesiaanse statistiek omvatte, zijn de basisprincipes door de eeuwen heen dezelfde gebleven:
- Gegevens verzamelen;
- Gegevens analyseren;
- Gegevens interpreteren om beter geïnformeerde beslissingen te kunnen nemen.

Tegenwoordig houden we ons bezig met concepten in methodologie en analyse zoals steekproefgrootte, ruwe gegevens of effectgrootte. Het verzamelen van demografische en economische gegevens is door de geschiedenis heen vooral van belang geweest in het onderzoeken van de bewegingen van de economie, de bevolking en de landbouw. Hoewel er meer complete versies van de historische evolutie van de statistiek bestaan, kan de basis van de statistiek worden onderverdeeld in drie basisfasen.
- De eerste betrof het verzamelen van tellings- en waarnemingsgegevens om de gezondheid en economische omstandigheden te verbeteren;
- De tweede, die na de Tweede Wereldoorlog intensief werd toegepast, was het registreren van demografische en economische gegevens in databanken van de overheid;
- De derde strekt zich uit tot de dag van vandaag, omvat de revoluties in de statistische gevolgtrekkingen die door de technologische vooruitgang tot stand zijn gebracht.
Op gebieden als de biostatistiek heeft de verbetering van de methoden voor gegevensanalyse de levensstandaard over de hele wereld veranderd. Vandaag is de statistiek diep verweven met het gebied van de gegevenswetenschap.
Statistische modellen zijn uitgegroeid tot modellen die worden gebruikt in AI of machinaal leren, die vaak helpen om conclusies te trekken uit niet-numerieke gegevens. Taken zoals het voorspellen of automatische randomisering kunnen tegenwoordig veel sneller worden uitgevoerd dankzij de uitvinding van statistische en analytische software. Enkele van de meest voorkomende talen of programma's die je waarschijnlijk zult tegenkomen op het gebied van statistiek en data science zijn R, Stata, SPSS, Python, C, en SQL.
Wat Houdt Beschrijvende Statistiek In?
Of je nu een histogram hebt gemaakt voor een wetenschappelijk project of regelmatig data visualisatie hulpmiddelen gebruikt op het werk, je hebt gebruik gemaakt van de beschrijvende statistiek. Deze tak is opgesplitst in drie hoofdtakken en houdt zich bezig met gegevens na de gegevensverzameling. Deze methode streeft ernaar statistische technieken te gebruiken om de samenstelling van de gegevensverzameling te begrijpen.
Beschrijvende statistieken vormen vaak het eerste deel van elke studieopzet en geven vitale inzichten in de kwalitatieve of kwantitatieve gegevens die worden onderzocht. Of de gegevens nu ordinaal, categorisch of numeriek zijn, er zijn twee categorieën waartoe beschrijvende statistieken kunnen behoren: metingen van centrummaten of van spreidingsmaten.

Centrummaten (measures of central tendency)
Maatstaven van centrale tendens worden gebruikt wanneer iemand wil begrijpen hoe het gemiddelde eruitziet voor een of meer meeteenheden. Deze metingen omvatten aspecten zoals het steekproefgemiddelde, de mediaan en de modus. Deze drie lijken op elkaar, maar zijn in verschillende omstandigheden geschikt. Dit is afhankelijk van de vraag of de gegevens een groot aantal uitschieters bevat of niet. Zelfs de meest ervaren datawetenschappers zijn niet in staat iets te interpreteren over hun datasets, voordat ze voorlopige beschrijvende, statistische analyses hebben uitgevoerd.
Spreidingsmaten (measures of variability)
Maatstaven van variabiliteit daarentegen omvatten kenmerken zoals standaardafwijking, co-variantie of de varianties. Deze worden gebruikt wanneer iemand de spreiding van de gegevens wil kennen. Deze geven aan hoe ver de gegevens rond het centrum, of het gemiddelde, zijn verspreid. Dit kan uiterst nuttig zijn om te begrijpen welk percentage van je gegevens onder een bepaald bereik valt. Toegepast op financiële statistieken kan de standaardafwijking ook worden gezien als de volatiliteit van een bepaalde gegevensreeks.
Beschrijvende statistieken zijn meestal alleen bedoeld voor univariate analyse, dat wil zeggen het analyseren van één variabele. Hoewel dit een manier is om de samenstelling van zaken als inkomen of verkoop te begrijpen, kan het ook nuttig zijn bij het vergelijken van de samenstelling van meerdere variabelen.
Een klein bedrijf kan beschrijvende statistieken gebruiken om te bepalen welk percentage van zijn klanten ouder of jonger is dan een bepaalde leeftijd. Hiermee kan hij inspelen op de verkoopgegevens die het heeft voor een bepaald evenement, Beschrijvende statistieken vormen de overgrote meerderheid van de statistieken die door particulieren, bedrijven en overheden worden gebruikt.
Hoewel het voorspellen van toekomstige gebeurtenissen uiterst belangrijk is, hebben veel mensen alleen gegevens van centrale tendens en variabiliteit nodig, om zinvolle informatie voor hun besluitvorming te verkrijgen. Enkele van de krachtigste maatstaven en opgenomen in beschrijvende statistieken zijn:
- Correlatiecoëfficiënt;
- Eenvoudige visualisatie van gegevens;
- Verdelingen (binomiaal, normaal, Laplace, enzovoort)
Leer veel meer over statistiek met een ervaren privéleraar via Superprof. Klik hier voor het ontdekken van statistiek les met een enthousiaste leraar in jouw omgeving!

Wat zijn Inferentiële Statistieken ?
De volgende tak van de discipline combineert waarschijnlijkheid en statistiek .Dit om niet alleen te begrijpen wat er in de gegevens zit, maar om die gegevens ook te gebruiken om voorspellingen te doen.
Dit type statistische analyse wordt inferentiële statistiek genoemd. Het is typisch gebaseerd op de waarschijnlijkheidsrekening en een waarschijnlijkheidsverdeling om een meer variabele, analyse uit te voeren. De statistische theorie in deze tak wordt ook wel mathematische statistiek genoemd. Het kan ook belangrijke verbanden binnen de gegevens blootleggen zonder gebruik te maken van waarschijnlijkheidsverdelingen met niet-parametrische modellen.
De soorten modellen die bij de meeste inferentiële, statistische gegevensanalyse worden gebruikt, zijn meestal parametrische modellen zoals algemene lineaire regressiemodellen of variantieanalyses. Ongeacht of het om een parametrische of niet-parametrische test gaat, moet de wiskundige of statisticus echter aan twee criteria voldoen:
- Hij moet een reeks variabelen hebben die hij wil testen;
- Zijn gegevens moeten aan bepaalde veronderstellingen voldoen.
Het eerste criterium is eenvoudig en betreft een proces waarbij één of meer afhankelijke variabelen worden gekozen om te trachten één of meer onafhankelijke variabelen te voorspellen.
Met het tweede criterium hebben de meeste statistici problemen. De meeste gegevensreeksen voldoen niet strikt aan de meeste veronderstellingen die voor het gebruik van bepaalde modellen vereist zijn, zoals het volgen van een normale verdeling door de gegevens. De Gauss-Markov-aannames voor klassieke lineaire modellen zijn het meest bekend en zijn de sleutel tot het begrijpen van inferentiële statistiek.
Inferentiële statistiek onderscheidt zich ook van beschrijvende statistiek, omdat het gaat om het toetsen van een nulhypothese aan een alternatieve hypothese. Met behulp van de beschikbare modellen en statistische software zoals R of SPSS kun je schattingen en voorspellingen van het gemiddelde afleiden, samen met hun betrouwbaarheidsintervallen. Als je net begint met het leren van statistiek, zijn enkele van de meest voorkomende parametrische modellen:
- Algemene lineaire modellen
- Logistische regressie modellen
Aan de andere kant zijn er enkele van de meer gebruikelijke niet-parametrische modellen:
- Clusteranalyse;
- Factoranalyse;
- Discriminerende analyse.
Samen met deze modellen is variantieanalyse een gebruikelijke manier waarop statistici bepalen welk model nauwkeuriger kan zijn door de varianties van twee of meer modellen te vergelijken.

De Beste Middelen en Bronnen om Statistiek te Leren
Van het begrijpen van welke statistische methodologie je moet gebruiken bij categorische data-analyse tot het begrijpen hoe het concept van een willekeurige variabele de kleinste kwadraten en regressie-analyse beïnvloedt - hier zijn wat statistische tips en bronnen die je kunt volgen als je enige vorm van statistische hulp nodig hebt.
Academisch
Heb je hulp nodig bij het interpreteren van de statistische significantie van je afhankelijke variabele of wil je weten welke parametrische test je moet gebruiken voor je observationele gegevens? Een bezoek aan Stack Exchange, een statistiek forum, zal je waarschijnlijk het antwoord op je vraag geven. Als je graag bijles wilt krijgen in statistiek, kijk dan eens op Superprof naar wiskundeleraren in Nederland. Van chi-kwadraat tests tot het trekken van conclusies uit datasets, ze kunnen je wegwijs maken in het vak.
Programmeren
Stackoverflow is een ander geweldig online forum. Het kan je kan helpen met alles wat met coderen te maken heeft, van het opnemen van alleen bepaalde uitschieters in je experimentele opzet, tot het uitvoeren van een regressieanalyse.













