Standaarddeviatie vs. afwijking

Standaardafwijking en variantie zijn statistische metingen van dispersie van gegevens, d.w.z. zij vertegenwoordigen hoeveel variatie er is van het gemiddelde, of in welke mate de waarden typisch "afwijken" van het gemiddelde (gemiddelde). Een afwijking of standaardafwijking van nul geeft aan dat alle waarden identiek zijn.

Variantie is het gemiddelde van de vierkanten van de afwijkingen (d.w.z. verschil in waarden van het gemiddelde), en de standaarddeviatie is de vierkantswortel van die variantie. Standaardafwijking wordt gebruikt om uitschieters in de gegevens te identificeren.

Vergelijkingstabel

Standaardafwijking versus variantie vergelijkingsgrafiek
Standaardafwijkingvariance
Wiskundige formule Vierkantswortel van Variantie Gemiddelde van de vierkanten van afwijkingen van elke waarde van het gemiddelde in een steekproef.
Symbool Griekse letter sigma - σ Geen speciaal symbool; uitgedrukt in standaarddeviatie of andere waarden.
Waarden in relatie tot gegeven dataset Dezelfde schaal als waarden in de gegeven dataset; daarom uitgedrukt in dezelfde eenheden. Schaal groter dan de waarden in de gegeven dataset; niet uitgedrukt in dezelfde eenheid als de waarden zelf.
Zijn waarden negatief of positief? Altijd niet-negatief Altijd niet-negatief
Real World-toepassing Bevolking steekproeven; uitbijters identificeren Statistische formules, financiën.

Inhoud: standaarddeviatie vs. variantie

  • 1 Belangrijke concepten
  • 2 Symbolen
  • 3 formules
  • 4 Voorbeeld
    • 4.1 Waarom de afwijkingen verdichten?
  • 5 Echte wereldapplicaties
    • 5.1 Uitschieters vinden
  • 6 Voorbeeld standaarddeviatie
  • 7 Referenties

Belangrijke concepten

  • Gemiddelde: het gemiddelde van alle waarden in een gegevensverzameling (voeg alle waarden toe en deel hun som door het aantal waarden).
  • Afwijking: de afstand van elke waarde tot het gemiddelde. Als het gemiddelde 3 is, heeft een waarde van 5 een afwijking van 2 (trek het gemiddelde van de waarde af). Afwijking kan positief of negatief zijn.

Symbolen

De formule voor standaardafwijking en variantie wordt vaak uitgedrukt met behulp van:

  • x̅ = het gemiddelde of gemiddelde van alle gegevenspunten in het probleem
  • X = een individueel gegevenspunt
  • N = het aantal punten in de gegevensverzameling
  • Σ = de som van [de vierkanten van de afwijkingen]

formules

De variantie van een set n even waarschijnlijk kunnen waarden worden geschreven als:

De standaarddeviatie is de vierkantswortel van de variantie:

Formules met Griekse letters hebben een manier om er angstaanjagend uit te zien, maar dit is minder ingewikkeld dan het lijkt. Om het in eenvoudige stappen te zetten:

  1. zoek het gemiddelde van alle gegevenspunten
  2. ontdek hoe ver elk punt verwijderd is van het gemiddelde (dit is de afwijking)
  3. vierkant elke afwijking (d.w.z. het verschil van elke waarde van het gemiddelde)
  4. deel de som van de vierkanten door het aantal punten.

Dat geeft de afwijking. Neem de vierkantswortel van de variantie om de standaardafwijking te vinden.

Deze uitstekende video van Khan Academy verklaart de concepten van variantie en standaarddeviatie:

Voorbeeld

Stel dat een gegevensset de hoogte van zes paardebloemen bevat: 3 inch, 4 inch, 5 inch, 4 inch, 11 inches en 6 inches.

Zoek eerst het gemiddelde van de gegevenspunten: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5.5

Dus de gemiddelde hoogte is 5,5 inch. Nu hebben we de afwijkingen nodig, dus we vinden het verschil van elke plant van het gemiddelde: -2.5, -1.5, -.5, -1.5, 5.5, 1.5

Tel nu elke afwijking op en vind hun som: 6.25 + 2.25 + .25 + 2.25 + 30.25 + 2.25 = 43.5

Verdeel nu de som van de vierkanten door het aantal gegevenspunten, in dit geval planten: 43.5 / 6 = 7.25

Dus de variantie van deze dataset is 7.25, wat een redelijk willekeurig getal is. Om het in een echte meting om te zetten, neemt u de vierkantswortel van 7,25 om de standaardafwijking in inches te vinden.

De standaarddeviatie is ongeveer 2,69 inch. Dat betekent dat voor het monster elke paardebloem binnen 2,69 centimeter van het gemiddelde (5,5 inch) 'normaal' is.

Waarom de afwijkingen verdichten?

Afwijkingen worden gekwadrateerd om te voorkomen dat negatieve waarden (afwijkingen onder het gemiddelde) de positieve waarden annuleren. Dit werkt omdat een negatief getal in het kwadraat een positieve waarde wordt. Als u een eenvoudige gegevensset had met afwijkingen van het gemiddelde van +5, +2, -1 en -6, wordt de som van de afwijkingen nul als de waarden niet vierkant zijn (dwz 5 + 2 - 1) - 6 = 0).

Real World-toepassingen

Variantie wordt uitgedrukt als een wiskundige spreiding. Omdat het een willekeurig getal is ten opzichte van de oorspronkelijke metingen van de gegevensverzameling, is het moeilijk om het te visualiseren en in de praktijk toe te passen. Het vinden van de variantie is meestal slechts de laatste stap voordat de standaardafwijking wordt gevonden. Variantwaarden worden soms gebruikt in financiële en statistische formules.

Standaarddeviatie, die wordt uitgedrukt in de oorspronkelijke eenheden van de gegevensset, is veel intuïtiever en dichter bij de waarden van de oorspronkelijke gegevensverzameling. Het wordt meestal gebruikt om demografische gegevens of populatiestalen te analyseren om een ​​idee te krijgen van wat normaal is in de populatie.

Uitbijters vinden

Een normale verdeling (belcurve) met banden die overeenkomen met 1σ

In een normale verdeling valt ongeveer 68% van de populatie (of waarden) binnen 1 standaardafwijking (1σ) van het gemiddelde en ongeveer 94% valt binnen 2σ. Waarden die met 1,7σ of meer van het gemiddelde verschillen, worden meestal als uitbijters beschouwd.

In de praktijk proberen kwaliteitssystemen zoals Six Sigma de foutenmarge te verminderen, zodat fouten een uitbijter worden. De term 'six sigma-proces' komt van het idee dat als er zes standaardafwijkingen zijn tussen het procesgemiddelde en de dichtstbijzijnde specificatiegrens, praktisch geen items niet voldoen aan specificaties.[1]

Voorbeeld standaardafwijking

In praktijktoepassingen vertegenwoordigen de gebruikte gegevenssets meestal populatiemonsters in plaats van hele populaties. Een licht gewijzigde formule wordt gebruikt als uit een deelmonster bevolkingsomvattende conclusies getrokken moeten worden.

Een 'standaarddeviatie van het monster' wordt gebruikt als het enige dat u hebt een steekproef is, maar u wilt een verklaring afleggen over de standaardafwijking van de populatie waaruit het monster is getrokken

De enige manier waarop de standaarddeviatieformule verschilt van de standaardafwijkingsformule is de "-1" in de noemer.

Met behulp van het paardebloemvoorbeeld zou deze formule nodig zijn als we slechts 6 paardenbloemen zouden hebben geproefd, maar deze steekproef wilden gebruiken om de standaarddeviatie voor het gehele veld met honderden paardebloemen te vermelden.

De som van de vierkanten wordt nu gedeeld door 5 in plaats van 6 (n - 1), wat een afwijking van 8,7 (in plaats van 7,25) en een standaardafwijking van het monster van 2,95 inch oplevert in plaats van 2,69 inch voor de oorspronkelijke standaarddeviatie. Deze wijziging wordt gebruikt om een ​​foutmarge in een steekproef te vinden (in dit geval 9%).

Referenties

  • Eenvoudig voorbeeld van het berekenen van standaarddeviatie - AppSpot
  • Standaard deviatieformules - Math is leuk
  • Absolute deviatie en variantie - Laerd Statistieken
  • Standaarddeviatie en variantie - Math is leuk
  • Wikipedia: standaardafwijking
  • Wikipedia: Variantie # Eigenschappen
  • Bereik, variantie en standaardafwijking als dispersiemaat - Khan Academy
  • Modi, medianen en middelen: een verenigend perspectief