Standaardafwijking en variantie zijn statistische metingen van dispersie van gegevens, d.w.z. zij vertegenwoordigen hoeveel variatie er is van het gemiddelde, of in welke mate de waarden typisch "afwijken" van het gemiddelde (gemiddelde). Een afwijking of standaardafwijking van nul geeft aan dat alle waarden identiek zijn.
Variantie is het gemiddelde van de vierkanten van de afwijkingen (d.w.z. verschil in waarden van het gemiddelde), en de standaarddeviatie is de vierkantswortel van die variantie. Standaardafwijking wordt gebruikt om uitschieters in de gegevens te identificeren.
Standaardafwijking | variance | |
---|---|---|
Wiskundige formule | Vierkantswortel van Variantie | Gemiddelde van de vierkanten van afwijkingen van elke waarde van het gemiddelde in een steekproef. |
Symbool | Griekse letter sigma - σ | Geen speciaal symbool; uitgedrukt in standaarddeviatie of andere waarden. |
Waarden in relatie tot gegeven dataset | Dezelfde schaal als waarden in de gegeven dataset; daarom uitgedrukt in dezelfde eenheden. | Schaal groter dan de waarden in de gegeven dataset; niet uitgedrukt in dezelfde eenheid als de waarden zelf. |
Zijn waarden negatief of positief? | Altijd niet-negatief | Altijd niet-negatief |
Real World-toepassing | Bevolking steekproeven; uitbijters identificeren | Statistische formules, financiën. |
De formule voor standaardafwijking en variantie wordt vaak uitgedrukt met behulp van:
De variantie van een set n even waarschijnlijk kunnen waarden worden geschreven als:
De standaarddeviatie is de vierkantswortel van de variantie:
Formules met Griekse letters hebben een manier om er angstaanjagend uit te zien, maar dit is minder ingewikkeld dan het lijkt. Om het in eenvoudige stappen te zetten:
Dat geeft de afwijking. Neem de vierkantswortel van de variantie om de standaardafwijking te vinden.
Deze uitstekende video van Khan Academy verklaart de concepten van variantie en standaarddeviatie:
Stel dat een gegevensset de hoogte van zes paardebloemen bevat: 3 inch, 4 inch, 5 inch, 4 inch, 11 inches en 6 inches.
Zoek eerst het gemiddelde van de gegevenspunten: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5.5
Dus de gemiddelde hoogte is 5,5 inch. Nu hebben we de afwijkingen nodig, dus we vinden het verschil van elke plant van het gemiddelde: -2.5, -1.5, -.5, -1.5, 5.5, 1.5
Tel nu elke afwijking op en vind hun som: 6.25 + 2.25 + .25 + 2.25 + 30.25 + 2.25 = 43.5
Verdeel nu de som van de vierkanten door het aantal gegevenspunten, in dit geval planten: 43.5 / 6 = 7.25
Dus de variantie van deze dataset is 7.25, wat een redelijk willekeurig getal is. Om het in een echte meting om te zetten, neemt u de vierkantswortel van 7,25 om de standaardafwijking in inches te vinden.
De standaarddeviatie is ongeveer 2,69 inch. Dat betekent dat voor het monster elke paardebloem binnen 2,69 centimeter van het gemiddelde (5,5 inch) 'normaal' is.
Afwijkingen worden gekwadrateerd om te voorkomen dat negatieve waarden (afwijkingen onder het gemiddelde) de positieve waarden annuleren. Dit werkt omdat een negatief getal in het kwadraat een positieve waarde wordt. Als u een eenvoudige gegevensset had met afwijkingen van het gemiddelde van +5, +2, -1 en -6, wordt de som van de afwijkingen nul als de waarden niet vierkant zijn (dwz 5 + 2 - 1) - 6 = 0).
Variantie wordt uitgedrukt als een wiskundige spreiding. Omdat het een willekeurig getal is ten opzichte van de oorspronkelijke metingen van de gegevensverzameling, is het moeilijk om het te visualiseren en in de praktijk toe te passen. Het vinden van de variantie is meestal slechts de laatste stap voordat de standaardafwijking wordt gevonden. Variantwaarden worden soms gebruikt in financiële en statistische formules.
Standaarddeviatie, die wordt uitgedrukt in de oorspronkelijke eenheden van de gegevensset, is veel intuïtiever en dichter bij de waarden van de oorspronkelijke gegevensverzameling. Het wordt meestal gebruikt om demografische gegevens of populatiestalen te analyseren om een idee te krijgen van wat normaal is in de populatie.
In een normale verdeling valt ongeveer 68% van de populatie (of waarden) binnen 1 standaardafwijking (1σ) van het gemiddelde en ongeveer 94% valt binnen 2σ. Waarden die met 1,7σ of meer van het gemiddelde verschillen, worden meestal als uitbijters beschouwd.
In de praktijk proberen kwaliteitssystemen zoals Six Sigma de foutenmarge te verminderen, zodat fouten een uitbijter worden. De term 'six sigma-proces' komt van het idee dat als er zes standaardafwijkingen zijn tussen het procesgemiddelde en de dichtstbijzijnde specificatiegrens, praktisch geen items niet voldoen aan specificaties.[1]
In praktijktoepassingen vertegenwoordigen de gebruikte gegevenssets meestal populatiemonsters in plaats van hele populaties. Een licht gewijzigde formule wordt gebruikt als uit een deelmonster bevolkingsomvattende conclusies getrokken moeten worden.
Een 'standaarddeviatie van het monster' wordt gebruikt als het enige dat u hebt een steekproef is, maar u wilt een verklaring afleggen over de standaardafwijking van de populatie waaruit het monster is getrokken
De enige manier waarop de standaarddeviatieformule verschilt van de standaardafwijkingsformule is de "-1" in de noemer.
Met behulp van het paardebloemvoorbeeld zou deze formule nodig zijn als we slechts 6 paardenbloemen zouden hebben geproefd, maar deze steekproef wilden gebruiken om de standaarddeviatie voor het gehele veld met honderden paardebloemen te vermelden.
De som van de vierkanten wordt nu gedeeld door 5 in plaats van 6 (n - 1), wat een afwijking van 8,7 (in plaats van 7,25) en een standaardafwijking van het monster van 2,95 inch oplevert in plaats van 2,69 inch voor de oorspronkelijke standaarddeviatie. Deze wijziging wordt gebruikt om een foutmarge in een steekproef te vinden (in dit geval 9%).