Meer Over Descriptieve Statistiek Leren

De beste beschikbare leraren Statistiek

De Oorsprong van Descriptieve Statistiek

Het gebruik van gegevensanalyse en statistische methoden om de wereld om ons heen te begrijpen lijkt misschien een uitvinding van de 21e eeuw. Hoewel de statistische onderzoeken die statistici tegenwoordig doen veel krachtiger zijn met statistische software en programma's, is het werk van de statisticus een van de oudste beroepen op aarde.

Hoewel de fijne kneepjes van de Bayesiaanse statistiek of het begrijpen van categorische gegevens een langere uitleg verdienen in de context van de evolutie van statistische gegevens en analyse, kun je de basis begrijpen door te kijken naar de oorsprong van de statistiek. Hoewel statistiek een veelheid van andere moderne disciplines doorkruisen, zoals biostatistiek of bedrijfsanalyse, begon het als een manier om de verschijnselen van de vroege mens te ordenen of te registreren.

Het registreren en analyseren van de bewegingen of landbouw, astrologie of handel om sanitaire, voedsel en economische omstandigheden te verbeteren waren allemaal manieren waarop onze voorouders gebruik maakten van inferentiële en beschrijvende statistiek.

Een volle collegezaal waar mensen leren over statistiek — Op veel universiteiten kun je je specialiseren ǀ Bron: Unsplash

Soorten Statistische Analyse

Een domein als de mathematische statistiek, waarvan de toepassingen veel worden gebruikt, is lastig te definiëren. Het jargon bij statistische theorie kan afschrikwekkend zijn: ordinale en categorische gegevens, steekproefgegevens, populatiegemiddelde, percentiel, Markovketen.

Achter de ingewikkelde terminologie gaan echter concepten schuil die in de basis eigenlijk heel eenvoudig zijn. Als je statistiek studeert, krijg je waarschijnlijk les in Bayesiaanse statistiek, waarbij een kansverdeling wordt gebruikt om een nulhypothese te toetsen aan een alternatieve hypothese. In lekentaal: de Bayesiaanse statistiek maakt veronderstellingen over ruwe gegevens om hypothesen op te stellen en toetst dan of die hypothesen al dan niet waarschijnlijk zijn voor die reeks gegevens.

Voordat we verder duiken in voorspellingsanalyse en veelgebruikte statistische technieken, kan het nuttig zijn om te beginnen met de veelgebruikte manieren waarop je datavisualisatie kunt gebruiken om kwalitatieve en kwantitatieve gegevens te analyseren.

Biologie en statistiek hangen nauw met elkaar samen — Statistiek is iets eeuwenouds! ǀ Bron: Unsplash

Wat is Beschrijvende Statistiek

Iedereen die wel eens een histogram, taart- of staafdiagram heeft moeten maken voor de klas of voor het werk - gefeliciteerd, je hebt deelgenomen aan een van de meest voorkomende manieren waarop datawetenschappers statistische analyses uitvoeren. Beschrijvende statistieken zijn metingen van centrale tendens en variantie, wat zich vertaalt in het meten van gegevens aan de hand van het gemiddelde en hoe ver bepaalde punten van dat gemiddelde verwijderd zijn. Maten van centrale tendens kunnen metrieken omvatten zoals:

Modus
Mediaan
Gemiddelde

Metingen van variabiliteit, of spreiding, omvatten zaken als:

Varianties
Covariantie
Standaardafwijking

Hoewel dit misschien klinkt als een overdreven vereenvoudigd proces, is het uitvoeren van verkennende analyses met beschrijvende statistieken een integraal onderdeel van elke studieopzet. Voordat de wiskundige of datawetenschapper zich bezighoudt met multivariate lineaire regressie of het construeren van een betrouwbaarheidsinterval, moet hij weten wat zijn gegevens bevatten.

Je kunt een statistische gegevensanalyse voltooien met alleen beschrijvende statistieken en hun visualisaties. Een van de mooiste voorbeelden hiervan dateert uit de jaren 1850, toen Florence Nightingale haar beruchte "coxcomb" taartdiagram maakte om belangrijke informatie te verkrijgen over de mortaliteit tijdens de Krimoorlog. In een tijd waarin vrouwen ondervertegenwoordigd waren in de wetenschap, maakte Nightingale de weg vrij voor innovatieve, ondervertegenwoordigde groepen in de statistiek.

Een ander belangrijk aspect van het genereren van beschrijvende statistieken is dat veel statistieken of regressiemodellen bepaalde aannames nodig hebben om geldig te zijn. Hoewel deze veronderstellingen van model tot model verschillen, is de meest voorkomende vereiste dat de gegevens normaal verdeeld zijn. Een normale verdeling is een waarschijnlijkheidskromme die de centrale limiettheorema volgt. De meeste gegevens volgen normaal gesproken geen normale verdeling, en daarom zie je veel statistici hun afhankelijke variabelen of onafhankelijke variabele transformeren.

Met behulp van software zoals SPSS, R of Excel kan iedereen gemakkelijk de centrale tendens en de spreiding uit de gegevens halen. Als de gegevens normaal verdeeld zijn, worden deze kengetallen bijzonder krachtig. In de financiële wereld worden bijvoorbeeld de verdeling van de gegevens en het percentiel waaronder bepaalde prijzen of aandelen vallen, gebruikt om de voordelen of risico's van potentiële handelsovereenkomsten te begrijpen.