- Vzorce a rovnice
- Jak vypočítat chybu vzorkování
- Pro jistotu
- Příklady
- - Příklad 1
- Řešení
- - Příklad 2
- Řešení
- - Příklad 3
- Řešení
- - Příklad 4
- Řešení
- - Cvičení 5
- Řešení
- Reference
Vzorkování chyby nebo vzorkování chyba ve statistikách je rozdíl mezi průměrnou hodnotou vzorku a střední hodnota z celkové populace. Pro ilustraci této myšlenky si představme, že celková populace města je jeden milion lidí, z nichž chcete jeho průměrnou velikost boty, pro kterou je odebrán náhodný vzorek tisíc lidí.
Průměrná velikost, která vychází ze vzorku, se nemusí nutně shodovat s velikostí celé populace, i když není-li vzorek zkreslený, musí být hodnota blízká. Tento rozdíl mezi střední hodnotou vzorku a hodnotou celkové populace je chybou vzorkování.
Obrázek 1. Protože vzorek je podmnožinou celkové populace, průměr vzorku má meze chyby. Zdroj: F. Zapata.
Průměrná hodnota celkové populace je obecně neznámá, existují však techniky, jak tuto chybu redukovat, a vzorce pro odhad marže chyby vzorkování, která bude popsána v tomto článku.
Vzorce a rovnice
Řekněme, že chceme znát průměrnou hodnotu určité měřitelné charakteristiky x v populaci velikosti N, ale protože N je velké množství, není možné provést studii o celkové populaci, pak přistoupíme k náhodnému výběru vzorku velikost n <
Střední hodnota vzorku je označena
Předpokládejme, že m vzorky jsou odebrány z celkové populace N, všechny stejné velikosti n se středními hodnotami
Tyto střední hodnoty nebudou navzájem identické a budou se pohybovat kolem průměrné hodnoty μ μ. Rozpětí chyby vzorkování E označuje očekávané oddělení středních hodnot
Standardní chybová chyba ε vzorku velikosti n je:
ε = σ / √n
kde σ je standardní odchylka (druhá odmocnina rozptylu), která se vypočítá pomocí následujícího vzorce:
σ = √
Význam standardní chybové chyby ε je následující:
Průměrná hodnota
Jak vypočítat chybu vzorkování
V předchozí části byl uveden vzorec pro nalezení standardní chyby chyby vzorku velikosti n, kde slovo standard označuje, že se jedná o chybu chyby se spolehlivostí 68%.
To znamená, že pokud bylo odebráno mnoho vzorků stejné velikosti n, 68% z nich poskytne střední hodnoty
Existuje jednoduché pravidlo, nazývané pravidlo 68-95-99.7, které nám umožňuje snadno najít mezní odchylku vzorkování E pro úrovně spolehlivosti 68%, 95% a 99,7%, protože tento limit je 1⋅ ε, 2 ⋅ ε a 3⋅ ε.
Pro jistotu
Pokud úroveň spolehlivosti γ není jedna z výše uvedených, pak je vzorkovací chybou standardní odchylka σ násobená faktorem Zγ, který se získá následujícím postupem:
1.- Nejprve se stanoví hladina významnosti α, která se vypočítá z úrovně spolehlivosti γ pomocí následujícího vztahu: α = 1 - γ
2.- Pak musíme vypočítat hodnotu 1 - α / 2 = (1 + γ) / 2, která odpovídá nashromážděné normální frekvenci mezi -∞ a Zy, v normálním nebo gaussovském rozdělení typizovaném F (z), jehož definice je vidět na obrázku 2.
3.- Rovnice F (Zγ) = 1 - α / 2 je řešena pomocí tabulek normálního (kumulativního) rozdělení F, nebo pomocí počítačové aplikace, která má inverzní standardizovanou Gaussovu funkci F -1.
V druhém případě máme:
Zy = G- 1 (1 - a / 2).
4.- Nakonec se tento vzorec použije pro chybu vzorkování s úrovní spolehlivosti γ:
E = Zγ ⋅ (σ / √n)
Obrázek 2. Tabulka normálního rozdělení. Zdroj: Wikimedia Commons.
Příklady
- Příklad 1
Vypočítejte standardní chybový rozpětí ve střední hmotnosti vzorku 100 novorozenců. Výpočet průměrné hmotnosti byl
Řešení
Standardní odchylka chyby je ε = σ / √n = (1 500 kg) / 100 = 0,15 kg. To znamená, že na základě těchto údajů lze odvodit, že hmotnost 68% novorozenců je mezi 2 950 kg a 3,25 kg.
- Příklad 2
Stanovte rozpětí chyby vzorkování E a hmotnostního rozmezí 100 novorozenců s 95% hladinou spolehlivosti, pokud je průměrná hmotnost 3 100 kg se standardní odchylkou σ = 1 500 kg.
Řešení
Pokud se použije pravidlo 68; 95; 99,7 → 1⋅ ε; 2 ε; 3⋅ ε, máme:
E = 2⋅ε = 2⋅0,15 kg = 0,30 kg
Jinými slovy, 95% novorozenců bude mít hmotnost mezi 2 800 kg a 3 400 kg.
- Příklad 3
Stanovte rozsah hmotností novorozenců v příkladu 1 s 99,7% mírou spolehlivosti.
Řešení
Chyba vzorkování s 99,7% spolehlivostí je 3 σ / √n, což je v našem příkladu E = 3 * 0,15 kg = 0,45 kg. Odtud vyplývá, že 99,7% novorozenců bude mít hmotnost mezi 2 650 kg a 3 550 kg.
- Příklad 4
Určete faktor Zγ pro hladinu spolehlivosti 75%. Určete rozpětí chyby vzorkování s touto úrovní spolehlivosti pro případ uvedený v příkladu 1.
Řešení
Úroveň spolehlivosti je γ = 75% = 0,75, což souvisí s hladinou významnosti α prostřednictvím vztahu γ = (1 - α), takže hladina významnosti je α = 1 - 0,75 = 0, 25.
To znamená, že kumulativní normální pravděpodobnost mezi -∞ a Zγ je:
P (Z <Zy) = 1 - 0,125 = 0,875
Což odpovídá hodnotě Zy 1,1503, jak je znázorněno na obrázku 3.
Obrázek 3. Stanovení faktoru Zγ odpovídající úrovni spolehlivosti 75%. Zdroj: F. Zapata přes Geogebra.
Jinými slovy, chyba vzorkování je E = Zy ⋅ (σ / √n) = 1,15 ⋅ (σ / √n).
Při použití na data z příkladu 1 dává chybu:
E = 1,15 * 0,15 kg = 0,17 kg
S úrovní spolehlivosti 75%.
- Cvičení 5
Jaká je úroveň spolehlivosti, pokud Z α / 2 = 2,4?
Řešení
P (Z ≤ Z α / 2) = 1 - α / 2
P (Z ≤ 2,4) = 1 - α / 2 = 0,9918 → α / 2 = 1 - 0,9918 = 0,0082 → α = 0,0164
Úroveň významnosti je:
a = 0,0164 = 1,64%
A konečně úroveň spolehlivosti zůstává:
1- α = 1 - 0,0164 = 100% - 1,64% = 98,36%
Reference
- Canavos, G. 1988. Pravděpodobnost a statistika: Aplikace a metody. McGraw Hill.
- Devore, J. 2012. Pravděpodobnost a statistika pro inženýrství a vědu. 8. Edice. Cengage.
- Levin, R. 1988. Statistiky pro administrátory. 2. Edice. Prentice Hall.
- Sudman, S. 1982. Kladení otázek: Praktický průvodce návrhem dotazníku. San Francisco. Jossey Bass.
- Walpole, R. 2007. Pravděpodobnost a statistika pro inženýrství a vědy. Pearson.
- Wonnacott, TH a RJ Wonnacott. 1990. Úvodní statistika. 5. ed. Wiley
- Wikipedia. Chyba vzorkování. Obnoveno z: en.wikipedia.com
- Wikipedia. Rozpětí chyby. Obnoveno z: en.wikipedia.com