- Velikost vzorku
- Případ 1: velikost populace není známa
- Úrovně spolehlivosti a jejich odpovídající hodnoty Z
- Případ 2: velikost populace je známa
- Příklady
- Průzkumy a dotazníky
- QA
- Výhoda
- Nevýhody
- Cvičení vyřešeno
- Řešení
- Reference
Náhodný výběr je, jak vybrat statisticky reprezentativního vzorku z dané populace. Část zásady, že každý prvek ve vzorku musí mít stejnou pravděpodobnost, že bude vybrán.
Remíza je příklad náhodného vzorkování, ve kterém je každému členu populace účastníků přiřazeno číslo. Pro výběr čísel odpovídajících cenám tomboly (vzorek) se používá nějaká náhodná technika, například extrahování čísel, která byla zapsána na identických kartách, z poštovní schránky.
Obrázek 1. Při náhodném výběru je vzorek náhodně odebrán z populace pomocí nějaké techniky, která zajišťuje, že všechny prvky mají stejnou pravděpodobnost, že budou vybrány. Zdroj: netquest.com.
Při náhodném odběru vzorků je nezbytné vhodně zvolit velikost vzorku, protože nereprezentativní vzorek populace může kvůli statistickým výkyvům vést k chybným závěrům.
Velikost vzorku
Existují vzorce pro stanovení správné velikosti vzorku. Nejdůležitějším faktorem, který je třeba zvážit, je, zda je známa velikost populace. Podívejme se na vzorce, abychom určili velikost vzorku:
Případ 1: velikost populace není známa
Pokud velikost populace N není známa, je možné vybrat vzorek odpovídající velikosti n, aby se určilo, zda je určitá hypotéza pravdivá nebo nepravdivá.
K tomu se používá následující vzorec:
Kde:
-p je pravděpodobnost, že hypotéza je pravdivá.
-q je pravděpodobnost, že tomu tak není, proto q = 1 - p.
-E je relativní rozpětí chyby, například chyba 5% má rozpětí E = 0,05.
-Z má co do činění s úrovní důvěryhodnosti, kterou studie vyžaduje.
V normalizovaném (nebo normalizovaném) normálním rozdělení má úroveň spolehlivosti 90% Z = 1645, protože pravděpodobnost, že výsledek je mezi -1 645σ a +1 645σ, je 90%, kde σ je standardní odchylka.
Úrovně spolehlivosti a jejich odpovídající hodnoty Z
1.- 50% úroveň spolehlivosti odpovídá Z = 0,675.
2.- 68,3% úroveň spolehlivosti odpovídá Z = 1.
Úroveň spolehlivosti 3,- 90% odpovídá Z = 1645.
4 - 95% úroveň spolehlivosti odpovídá Z = 1,96
5 - 95,5% úroveň spolehlivosti odpovídá Z = 2.
6 - 99,7% úroveň spolehlivosti je ekvivalentní Z = 3.
Příkladem, kde lze tento vzorec použít, je studie, která stanoví průměrnou hmotnost oblázků na pláži.
Je zřejmé, že není možné studovat a vážit všechny oblázky na pláži, takže je vhodné extrahovat vzorek co nejvíce náhodně as odpovídajícím počtem prvků.
Obrázek 2. Pro studium charakteristik oblázků na pláži je nutné vybrat náhodný vzorek s jejich reprezentativním počtem. (Zdroj: pixabay)
Případ 2: velikost populace je známa
Když je znám počet N prvků, které tvoří určitou populaci (nebo vesmír), pokud chcete jednoduchým náhodným vzorkováním vybrat statisticky významný vzorek velikosti n, jedná se o vzorec:
Kde:
-Z je koeficient spojený s úrovní spolehlivosti.
-p je pravděpodobnost úspěchu hypotézy.
-q je pravděpodobnost selhání v hypotéze, p + q = 1.
-N je velikost celkové populace.
-E je relativní chyba výsledku studie.
Příklady
Metodika extrakce vzorků hodně závisí na typu studie, kterou je třeba udělat. Proto má náhodný výběr nekonečný počet aplikací:
Průzkumy a dotazníky
Například v telefonických průzkumech jsou lidé, s nimiž se má konzultovat, vybíráni pomocí generátoru náhodných čísel, který se vztahuje na studovaný region.
Pokud chcete použít dotazník pro zaměstnance velké společnosti, můžete se uchýlit k výběru respondentů prostřednictvím jejich čísla zaměstnance nebo čísla občanského průkazu.
Toto číslo musí být také vybráno náhodně, například pomocí generátoru náhodných čísel.
Obrázek 3. Dotazník lze použít náhodným výběrem účastníků. Zdroj: Pixabay.
QA
V případě, že se studie týká částí vyrobených strojem, musí být díly vybrány náhodně, ale z šarží vyrobených v různých časech dne nebo v různých dnech nebo týdnech.
Výhoda
Jednoduchý náhodný výběr:
- Umožňuje snížit náklady na statistickou studii, protože není nutné studovat celou populaci, aby bylo možné získat statisticky spolehlivé výsledky, s požadovanými hladinami spolehlivosti a úrovní chyb požadovaných ve studii.
- Vyhněte se zaujatosti: jelikož výběr prvků, které mají být studovány, je zcela náhodný, studie věrně odráží charakteristiky populace, ačkoli byla studována pouze její část.
Nevýhody
- Metoda není vhodná v případech, kdy chcete znát preference v různých skupinách nebo vrstvách populace.
V tomto případě je výhodné předem určit skupiny nebo segmenty, na nichž má být studie provedena. Jakmile jsou vrstvy nebo skupiny definovány, je vhodné použít pro každou z nich náhodný výběr vzorků.
- Je vysoce nepravděpodobné, že budou získány informace o menšinových sektorech, o kterých je někdy nutné znát jejich charakteristiky.
Například, pokud jde o kampaň za drahý produkt, je třeba znát preference nejbohatších menšinových odvětví.
Cvičení vyřešeno
Chceme studovat preference populace pro určitý nápoj z coly, ale v této populaci neexistuje žádná předchozí studie, jejíž velikost není známa.
Na druhé straně musí být vzorek reprezentativní s minimální úrovní spolehlivosti 90% a závěry musí mít procentuální chybu 2%.
- Jak určit velikost n vzorku?
- Jaká by byla velikost vzorku, pokud by byla míra chyby flexibilnější na 5%?
Řešení
Protože velikost populace není známa, výše uvedený vzorec se používá ke stanovení velikosti vzorku:
n = (Z 2 p q) / (E 2)
Předpokládáme, že existuje stejná pravděpodobnost preference (p) pro naši značku nealkoholických nápojů jako u preference (q), takže p = q = 0,5.
Na druhou stranu, protože výsledek studie musí mít procentuální chybu menší než 2%, pak relativní chyba E bude 0,02.
Konečně hodnota Z = 1645 vytváří úroveň spolehlivosti 90%.
Souhrnně máme následující hodnoty:
Z = 1645
p = 0,5
q = 0,5
E = 0,02
S těmito údaji se vypočte minimální velikost vzorku:
n = (1,645 2 0,5 0,5) / (0,02 2) = 1691,3
To znamená, že studie s požadovaným rozpětím chyb a se zvolenou mírou důvěry musí mít vzorek respondentů z nejméně 1692 jedinců, vybraných jednoduchým náhodným výběrem.
Pokud přejdete z chyby 2% až 5%, pak je nová velikost vzorku:
n = (1,645 2 0,5 0,5) / (0,05 2) = 271
Což je výrazně nižší počet jednotlivců. Závěrem lze říci, že velikost vzorku je velmi citlivá na požadovanou míru chyby ve studii.
Reference
- Berenson, M. 1985. Statistika pro management a ekonomiku, koncepty a aplikace. Redakční Interamericana.
- Statistika. Náhodné vzorkování. Převzato z: encyclopediaeconomica.com.
- Statistika. Vzorkování. Obnoveno z: Estadistica.mat.uson.mx.
- Rozložitelný. Náhodné vzorkování. Obnoveno z: explorable.com.
- Moore, D. 2005. Aplikované základní statistiky. 2. Edice.
- Netquest. Náhodné vzorkování. Obnoveno z: netquest.com.
- Wikipedia. Statistické vzorkování. Obnoveno z: en.wikipedia.org