Verschil tussen centrale tendentie en dispersie

Centrale tendens versus dispersie

In beschrijvende en inferentiële statistieken worden verschillende indices gebruikt om een dataset te beschrijven die overeenkomt met de centrale neiging, dispersie en skewness: de drie belangrijkste eigenschappen die de relatieve vorm van de distributie van een dataset bepalen.

Wat is centrale tendens?

Centrale tendens verwijst naar en lokaliseert het centrum van de verdeling van waarden. Gemiddelde, modus en mediaan zijn de meest gebruikte indices bij het beschrijven van de centrale tendens van een gegevensverzameling. Als een gegevensset symmetrisch is, vallen zowel de mediaan als het gemiddelde van de gegevensverzameling met elkaar samen.

Gegeven een gegevensset, wordt het gemiddelde berekend door de som van alle gegevenswaarden te nemen en deze vervolgens te delen door het aantal gegevens. De gewichten van 10 personen (in kilogram) worden bijvoorbeeld gemeten als 70, 62, 65, 72, 80, 70, 63, 72, 77 en 79. Dan kan het gemiddelde gewicht van de tien mensen (in kilogram) worden berekend berekend als volgt. Som van de gewichten is 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79 = 710. Gemiddelde = (som) / (aantal gegevens) = 710/10 = 71 (in kilogram). Het is duidelijk dat uitbijters (datapunten die afwijken van de normale trend) het gemiddelde beïnvloeden. Dus, in de aanwezigheid van uitbijters betekent alleen betekenen geen correct beeld van het midden van de gegevensverzameling.

De mediaan is het gegevenspunt dat precies in het midden van de gegevensverzameling wordt gevonden. Een manier om de mediaan te berekenen is om de gegevenspunten in stijgende volgorde te bestellen en vervolgens het gegevenspunt in het midden te zoeken. Als bijvoorbeeld eenmaal is besteld, ziet de vorige gegevensset eruit als 62, 63, 65, 70, 72, 72, 77, 79, 80. Daarom staat (70 + 72) / 2 = 71 in het midden. Hieruit blijkt dat mediaan niet in de dataset hoeft te zitten. Mediaan wordt niet beïnvloed door de aanwezigheid van uitschieters. De mediaan zal dus dienen als een betere maat voor de centrale neiging in de aanwezigheid van uitschieters.

De modus is de meest voorkomende waarde in de dataset. In het vorige voorbeeld komen de waarden 70 en 72 twee keer voor en dus zijn beide modi. Dit toont aan dat in sommige distributies er meer dan één modale waarde is. Als er slechts één modus is, wordt de gegevensset als unimodaal beschouwd, in dit geval is de gegevensset bimodaal.

Wat is spreiding?

Dispersie is de hoeveelheid spreiding van gegevens over het midden van de verdeling. Bereik en standaarddeviatie zijn de meest gebruikte maten voor dispersie.

Het bereik is eenvoudig de hoogste waarde minus de laagste waarde. In het vorige voorbeeld is de hoogste waarde 80 en de laagste waarde is 62, dus het bereik is 80-62 = 18. Maar bereik geeft onvoldoende beeld over de spreiding.

Om de standaardafwijking te berekenen, worden eerst de afwijkingen van gegevenswaarden van het gemiddelde berekend. Het wortelvierkant van afwijkingen wordt de standaarddeviatie genoemd. In het vorige voorbeeld zijn de respectieve afwijkingen van het gemiddelde (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) = 1, (80 - 71) = 9, (70 - 71) = -1, (63 - 71) = -8, (72 - 71) = 1, (77 - 71) = 6 en (79 - 71) = 8. De som van vierkanten van afwijking is (-1)² + (-9)² + (-6)² + 1² + 9² + (-1)² + (-8)² + 1² + 6² + 8² = 366. De standaarddeviatie is √ (366/10) = 6.05 (in kilogram). Tenzij de gegevensverzameling sterk scheef staat, kan hieruit worden geconcludeerd dat de meerderheid van de gegevens in het interval 71 ± 6,05 ligt, en het is inderdaad zo in dit specifieke voorbeeld.

Wat is het verschil tussen centrale tendens en dispersie?

• Centrale tendens verwijst naar en lokaliseert het centrum van de verdeling van waarden

• Dispersie is de hoeveelheid spreiding van gegevens over het midden van een gegevensverzameling.

Wiskunde