Pravidlo Sturges je kritérium pro stanovení počtu tříd nebo rozsahy, které jsou nezbytné pro vykreslení sadu statistických údajů. Toto pravidlo bylo vyhlášeno v roce 1926 německým matematikem Herbertem Sturgesem.
Sturges navrhl jednoduchou metodu založenou na počtu vzorků x, který by nám umožnil najít počet tříd a jejich šířku rozsahu. Sturgesovo pravidlo je široce používáno, zejména v oblasti statistiky, konkrétně pro konstrukci histogramů frekvence.
Vysvětlení
Sturgesovo pravidlo je empirická metoda široce používaná v popisné statistice k určení počtu tříd, které musí existovat ve frekvenčním histogramu, za účelem klasifikace souboru údajů, který představuje vzorek nebo populaci.
Toto pravidlo v zásadě určuje šířku grafických kontejnerů, histogramů frekvence.
Pro stanovení svého pravidla Herbert Sturges považoval ideální frekvenční diagram, skládající se z intervalů K, kde i-tý interval obsahuje určitý počet vzorků (i = 0,… k - 1), reprezentovaných jako:
Tento počet vzorků je dán počtem způsobů, jak lze extrahovat podmnožinu sady; to je, podle binomického koeficientu, vyjádřeno takto:
Pro zjednodušení výrazu aplikoval vlastnosti logaritmů na obě části rovnice:
Sturges tak zjistil, že optimální počet intervalů k je dán výrazem:
To může také být vyjádřeno jako:
V tomto výrazu:
- k je počet tříd.
- N je celkový počet pozorování ve vzorku.
- Log je běžný logaritmus základny 10.
Například pro konstrukci frekvenčního histogramu, který vyjadřuje náhodný vzorek výšky 142 dětí, počet intervalů nebo tříd, které bude mít distribuce, je:
k = 1 + 3,322 * log 10 (N)
k = 1 + 3 322 * log (142)
k = 1 + 3,322 * 2,1523
k = 8,14 ≈ 8
Rozdělení bude tedy v 8 intervalech.
Počet intervalů musí být vždy reprezentován celými čísly. V případech, kdy je hodnota desetinná, je třeba provést sbližování s nejbližším celkovým číslem.
Aplikace
Sturgesovo pravidlo se používá hlavně ve statistice, protože umožňuje rozdělení frekvence pomocí výpočtu počtu tříd (k) a délky každé z nich, známé také jako amplituda.
Amplituda je rozdíl horní a dolní meze třídy dělený počtem tříd a vyjadřuje se:
Existuje mnoho pravidel, která umožňují rozdělení frekvence. Sturgesovo pravidlo se však běžně používá, protože se přibližuje počtu tříd, které se obecně pohybují od 5 do 15.
Proto zvažuje hodnotu, která adekvátně reprezentuje vzorek nebo populaci; to znamená, že aproximace nepředstavuje extrémní seskupení, ani nepracuje s příliš velkým počtem tříd, které neumožňují shrnutí vzorku.
Příklad
Frekvenční histogram musí být vytvořen podle daných údajů, které odpovídají věku získanému při průzkumu mužů, kteří cvičí v místní tělocvičně.
Pro stanovení intervalů je třeba znát velikost vzorku nebo počet pozorování; v tomto případě je jich 30.
Pak platí Sturgesovo pravidlo:
k = 1 + 3,322 * log 10 (N)
k = 1 + 3 322 * log (30)
k = 1 + 3,322 * 1,4771
k = 5,90 ≈ 6 intervalů.
Z počtu intervalů lze vypočítat amplitudu, kterou budou mít; to znamená šířka každého sloupce znázorněného v histogramu frekvence:
Dolní limit je považován za nejmenší hodnotu dat a horní limit je největší hodnota. Rozdíl mezi horní a dolní mezí se nazývá rozsah nebo rozsah proměnné (R).
Z tabulky máme, že horní limit je 46 a dolní limit je 13; amplituda každé třídy tedy bude:
Intervaly budou tvořeny horní a dolní mezí. Pro stanovení těchto intervalů začneme počítáním od spodního limitu a k tomu přidáme amplitudu stanovenou pravidlem (6) následujícím způsobem:
Poté se vypočte absolutní frekvence pro stanovení počtu mužů odpovídajících každému intervalu; v tomto případě je to:
- Interval 1: 13 - 18 = 9
- Interval 2: 19 - 24 = 9
- Interval 3: 25 - 30 = 5
- Interval 4: 31 - 36 = 2
- Interval 5: 37 - 42 = 2
- Interval 6: 43 - 48 = 3
Při přidávání absolutní frekvence každé třídy se musí toto číslo rovnat celkovému počtu vzorku; v tomto případě 30.
Následně se vypočte relativní frekvence každého intervalu, dělí se jeho absolutní frekvence celkovým počtem pozorování:
- Interval 1: fi = 9 ÷ 30 = 0,30
- Interval 2: fi = 9 ÷ 30 = 0,30
- Interval 3: fi = 5 × 30 = 0,1666
- Interval 4: fi = 2 ÷ 30 = 0,0666
- Interval 5: fi = 2 ÷ 30 = 0,0666
- Interval 4: fi = 3 ÷ 30 = 0,10
Pak můžete vytvořit tabulku, která odráží data, a také diagram z relativní frekvence ve vztahu k získaným intervalům, jak je vidět na následujících obrázcích:
Tímto způsobem pravidlo Sturges umožňuje určit počet tříd nebo intervalů, do kterých lze vzorek rozdělit, aby bylo možné shrnout vzorek údajů prostřednictvím zpracování tabulek a grafů.
Reference
- Alfonso Urquía, MV (2013). Modelování a simulace diskrétních událostí. UNED,.
- Altman Naomi, MK (2015). "Jednoduchá lineární regrese." Přírodní metody.
- Antúnez, RJ (2014). Statistika ve vzdělávání. Digitální JEDNOTKA.
- Fox, J. (1997). Aplikovaná regresní analýza, lineární modely a související metody. Publikace SAGE.
- Humberto Llinás Solano, ČR (2005). Popisné statistiky a rozdělení pravděpodobnosti. Severní univerzita.
- Panteleeva, OV (2005). Základy pravděpodobnosti a statistiky.
- O. Kuehl, MO (2001). Návrh experimentů: Statistické principy návrhu a analýzy výzkumu. Redakce Thomson.