Invoering
Standaard Deviation (SD) en Standard Error (SE) zijn schijnbaar soortgelijke terminologieën; ze zijn echter conceptueel zo gevarieerd dat ze bijna uitwisselbaar in de literatuur van de statistiek worden gebruikt. Beide termen worden meestal voorafgegaan door een plus-minus-symbool (+/-), wat een indicatie is van het feit dat ze een symmetrische waarde definiëren of een bereik van waarden vertegenwoordigen. Steevast lijken beide termen met een gemiddelde (gemiddelde) van een reeks gemeten waarden.
Interessant is dat een SE niets te maken heeft met normen, met fouten of met de communicatie van wetenschappelijke gegevens.
Een gedetailleerde blik op de oorsprong en de uitleg van SD en SE zal onthullen, waarom professionele statistici en degenen die het cursief gebruiken, beide de neiging hebben zich te vergissen.
Standaarddeviatie (SD)
Een SD is een beschrijvend statistiek die de verspreiding van een verdeling beschrijft. Als statistiek is het handig wanneer de gegevens normaal worden verspreid. Het is echter minder handig wanneer gegevens sterk scheef of bimodaal zijn omdat het de vorm van de distributie niet goed beschrijft. Meestal gebruiken we SD bij het rapporteren van de kenmerken van de steekproef, omdat we van plan zijn beschrijven hoeveel de gegevens variëren rond het gemiddelde. Andere bruikbare statistieken voor het beschrijven van de verspreiding van de gegevens zijn het interkwartielbereik, het 25e en 75e percentiel en het bereik van de gegevens.
Figuur 1. SD is een maat voor de verspreiding van de gegevens. Wanneer gegevens een steekproef zijn van een normaal verdeelde distributie, verwacht men dat tweederde van de gegevens binnen 1 standaardafwijking van het gemiddelde ligt.
Variantie is a beschrijvend statistiek ook, en het is gedefinieerd als het kwadraat van de standaardafwijking. Het wordt meestal niet gerapporteerd bij het beschrijven van resultaten, maar het is een meer wiskundig hanteerbare formule (ook de som van gekwadrateerde afwijkingen) en speelt een rol bij de berekening van statistieken..
Als we bijvoorbeeld twee statistieken hebben P & Q met bekende varianties var(P) & var(Q), dan de variantie van de som P + Q is gelijk aan de som van de varianties: var(P) +var(Q). Het is nu duidelijk waarom statistici graag praten over varianties.
Maar standaardafwijkingen hebben een belangrijke betekenis voor verspreiding, vooral wanneer de gegevens normaal worden verdeeld: het intervalgemiddelde +/ - 1 SD kan worden verwacht om 2/3 van het monster te vangen, en het intervalgemiddelde +- 2 SD kan naar verwachting 95% van het monster vangen.
SD geeft een indicatie van hoe ver de individuele antwoorden op een vraag variëren of "afwijken" van het gemiddelde. SD vertelt de onderzoeker hoe verspreid de reacties zijn - zijn ze geconcentreerd rond het gemiddelde, of verspreid en wijdverspreid? Hebben al uw respondenten uw product beoordeeld in het midden van uw schaal, of hebben sommige het goedgekeurd en sommigen keuren het af?
Overweeg een experiment waarbij respondenten wordt gevraagd een product te beoordelen op een reeks kenmerken op een 5-puntsschaal. Het gemiddelde voor een groep van tien respondenten ('A' tot en met 'J' hieronder) voor 'goede waarde voor het geld' was 3,2 met een SD van 0,4 en het gemiddelde voor 'productbetrouwbaarheid' was 3,4 met een SD van 2,1.
Op het eerste gezicht (alleen kijkend naar de middelen) lijkt het erop dat de betrouwbaarheid hoger was dan de waarde. Maar de hogere SD voor betrouwbaarheid zou kunnen aangeven (zoals weergegeven in de onderstaande distributie) dat de reacties erg gepolariseerd waren, waarbij de meeste respondenten geen betrouwbaarheidsproblemen hadden (beoordeelde het attribuut een "5"), maar een kleiner, maar belangrijk segment van de respondenten, had een betrouwbaarheidsprobleem en beoordeelde het attribuut "1". Kijken naar het gemiddelde alleen vertelt slechts een deel van het verhaal, maar vaker wel dan niet, dit is waar onderzoekers zich op richten. De verdeling van de reacties is belangrijk om te overwegen en de SD biedt een waardevolle beschrijvende maat hiervoor.
respondent | Goede waarde voor het geld | Productbetrouwbaarheid |
EEN | 3 | 1 |
B | 3 | 1 |
C | 3 | 1 |
D | 3 | 1 |
E | 4 | 5 |
F | 4 | 5 |
G | 3 | 5 |
H | 3 | 5 |
ik | 3 | 5 |
J | 3 | 5 |
Gemiddelde | 3.2 | 3.4 |
Soa. dev. | 0.4 | 2.1 |
Eerste enquête: respondenten beoordelen een product op een 5-puntsschaal
Twee zeer verschillende distributies van responsen op een 5-punts beoordelingsschaal kunnen hetzelfde gemiddelde opleveren. Overweeg het volgende voorbeeld met responswaarden voor twee verschillende beoordelingen.
In het eerste voorbeeld (classificatie "A") is SD nul omdat ALLE antwoorden exact de gemiddelde waarde waren. De individuele antwoorden wijken helemaal niet af van het gemiddelde.
In classificatie "B", hoewel het groepsgemiddelde gelijk is (3,0) als de eerste verdeling, is de standaarddeviatie hoger. De standaardafwijking van 1,15 laat zien dat de individuele antwoorden, gemiddeld *, iets meer dan 1 punt verwijderd waren van het gemiddelde.
respondent | Beoordeling "A" | Beoordeling "B" |
EEN | 3 | 1 |
B | 3 | 2 |
C | 3 | 2 |
D | 3 | 3 |
E | 3 | 3 |
F | 3 | 3 |
G | 3 | 3 |
H | 3 | 4 |
ik | 3 | 4 |
J | 3 | 5 |
Gemiddelde | 3.0 | 3.0 |
Soa. dev. | 0.00 | 1.15 |
Second Survey: respondenten beoordelen een product op een 5-puntsschaal
Een andere manier om naar SD te kijken, is door de verdeling uit te zetten als een histogram van antwoorden. Een verdeling met een lage SD zou worden weergegeven als een hoge smalle vorm, terwijl een grote SD zou worden aangegeven door een bredere vorm.
SD duidt in het algemeen niet op "goed of fout" of "beter of slechter" - een lagere SD is niet noodzakelijkerwijs wenselijker. Het wordt puur als een beschrijvende statistiek gebruikt. Het beschrijft de verdeling in relatie tot het gemiddelde.
Technische disclaimer met betrekking tot SD
Denken aan SD als een "gemiddelde afwijking" is een uitstekende manier om conceptueel de betekenis ervan te begrijpen. Het wordt echter niet berekend als een gemiddelde (als het ware, zouden we het de "gemiddelde afwijking" noemen). In plaats daarvan is het "gestandaardiseerd", een ietwat complexe methode voor het berekenen van de waarde met behulp van de som van de vierkanten.
Voor praktische doeleinden is de berekening niet belangrijk. De meeste tabulatieprogramma's, spreadsheets of andere hulpprogramma's voor gegevensbeheer berekenen de SD voor u. Belangrijker is om te begrijpen wat de statistieken overbrengen.
Standaardfout
Een standaardfout is een inferentiële statistiek die wordt gebruikt bij het vergelijken van steekproefgemiddelden (gemiddelden) tussen populaties. Het is een maat voor precisie van het steekproefgemiddelde. Het steekproefgemiddelde is een statistiek die is afgeleid van gegevens met een onderliggende verdeling. We kunnen het niet op dezelfde manier visualiseren als de gegevens, omdat we een enkel experiment hebben uitgevoerd en slechts één waarde hebben. De statistische theorie vertelt ons dat het steekproefgemiddelde (voor een groot "voldoende" monster en onder een paar regelmatigheidscondities) ongeveer normaal verdeeld is. De standaarddeviatie van deze normale verdeling is wat we de standaardfout noemen.
Figuur 2. De verdeling aan de onderkant reprede verdeling van de gegevens, terwijl de verdeling bovenaan de theoretische verdeling van het steekproefgemiddelde is. De SD van 20 is een maat voor de spreiding van de gegevens, terwijl de SE van 5 een maat is voor onzekerheid rond het steekproefgemiddelde.
Wanneer we de uitkomsten van een twee-steekproef-experiment van behandeling A versus behandeling B willen vergelijken, moeten we inschatten hoe nauwkeurig we de gemiddelden hebben gemeten..
Eigenlijk zijn we geïnteresseerd in hoe precies we het verschil tussen de twee gemiddelden hebben gemeten. We noemen deze maatregel de standaardfout van het verschil. Het zal je niet verbazen dat de standaardfout van het verschil in de steekproefgemiddelden een functie is van de standaardfouten van de gemiddelden:
Nu je hebt begrepen dat de standaardfout van het gemiddelde (SE) en de standaarddeviatie van de verdeling (SD) twee verschillende beesten zijn, vraag je je misschien af hoe ze in de war raakten. Hoewel ze conceptueel van elkaar verschillen, hebben ze wiskundig een eenvoudige relatie:
,waarbij n het aantal gegevenspunten is.
Merk op dat de standaardfout afhangt van twee componenten: de standaarddeviatie van het monster en de grootte van het monster n. Dit is intuïtief zinvol: hoe groter de standaardafwijking van het monster, hoe minder nauwkeurig we kunnen zijn over onze schatting van het ware gemiddelde..
Hoe groter de steekproefomvang, hoe meer informatie we hebben over de populatie en hoe preciezer we het ware gemiddelde kunnen schatten.
SE is een indicatie van de betrouwbaarheid van het gemiddelde. Een kleine SE is een indicatie dat het steekproefgemiddelde een meer accurate weerspiegeling is van het werkelijke populatiegemiddelde. Een grotere steekproefomvang zal normaal gesproken resulteren in een kleinere SE (terwijl SD niet direct wordt beïnvloed door de steekproefomvang).
Het meeste survey-onderzoek omvat het trekken van een steekproef uit een populatie. Vervolgens maken we conclusies over de populatie aan de hand van de resultaten die uit die steekproef zijn verkregen. Als een tweede monster werd getrokken, komen de resultaten waarschijnlijk niet exact overeen met het eerste monster. Als de gemiddelde waarde voor een beoordelingsattribuut 3,2 was voor één steekproef, kan dit 3,4 zijn voor een tweede monster van dezelfde grootte. Als we een oneindig aantal monsters (van gelijke grootte) zouden trekken uit onze populatie, zouden we de waargenomen gemiddelden kunnen weergeven als een verdeling. We zouden dan een gemiddelde van al onze steekproefgemiddelden kunnen berekenen. Dit gemiddelde zou gelijk zijn aan het ware populatiegemiddelde. We kunnen ook de SD van de verdeling van steekproefgemiddelden berekenen. De SD van deze verdeling van steekproefgemiddelden is de SE van elk afzonderlijk steekproefgemiddelde.
We hebben dus onze belangrijkste opmerking: SE is de SD van het populatiegemiddelde.
Monster | Gemiddelde |
1 | 3.2 |
2e | 3.4 |
3e | 3.3 |
4e | 3.2 |
5e | 3.1 |
... . | ... . |
... . | ... . |
... . | ... . |
... . | ... . |
... . | ... . |
Gemiddelde | 3.3 |
Soa. dev. | 0.13 |
Tabel die de relatie tussen SD en SE illustreert
Het is nu duidelijk dat als de SD van deze verdeling ons helpt te begrijpen hoe ver een steekproefgemiddelde is van het ware populatiegemiddelde, we dit kunnen gebruiken om te begrijpen hoe nauwkeurig elk individueel steekproefgemiddelde ten opzichte van het ware gemiddelde is. Dat is de essentie van SE.
In werkelijkheid hebben we slechts één steekproef uit onze populatie getrokken, maar we kunnen dit resultaat gebruiken om een schatting te geven van de betrouwbaarheid van ons waargenomen steekproefgemiddelde.
SE vertelt ons dat we er 95% zeker van kunnen zijn dat ons waargenomen steekproefgemiddelde plus of minus ongeveer 2 (eigenlijk 1,96) standaardfouten uit het populatiegemiddelde is.
De onderstaande tabel toont de verdeling van de antwoorden van onze eerste (en enige) steekproef die voor ons onderzoek werd gebruikt. De SE van 0,13, die relatief klein is, geeft ons een indicatie dat ons gemiddelde relatief dicht bij het ware gemiddelde van onze totale populatie ligt. De foutmarge (bij een betrouwbaarheidsinterval van 95%) voor ons gemiddelde is (ruwweg) tweemaal die waarde (+/- 0,26), wat ons vertelt dat het ware gemiddelde waarschijnlijk tussen 2,94 en 3,46 ligt.
respondent | Beoordeling |
EEN | 3 |
B | 3 |
C | 3 |
D | 3 |
E | 4 |
F | 4 |
G | 3 |
H | 3 |
ik | 3 |
J | 3 |
Gemiddelde | 3.2 |
Soa. dwalen | 0.13 |
Samenvatting
Veel onderzoekers begrijpen het onderscheid tussen standaarddeviatie en standaardfout niet, ook al zijn ze vaak onderdeel van gegevensanalyse. Hoewel de werkelijke berekeningen voor standaarddeviatie en standaardfout er erg op lijken, vertegenwoordigen ze twee zeer verschillende, maar aanvullende, maatregelen. SD vertelt ons over de vorm van onze distributie, hoe dicht de afzonderlijke gegevenswaarden van de gemiddelde waarde zijn. SE vertelt ons hoe dicht onze steekproef is voor het ware gemiddelde van de totale bevolking. Samen helpen ze om een completer beeld te geven dan het gemiddelde alleen ons kan vertellen.