Značka třídy, známá také jako střed, je hodnota ve středu třídy, která představuje všechny hodnoty v této kategorii. Značka třídy se v zásadě používá k výpočtu určitých parametrů, jako je aritmetický průměr nebo směrodatná odchylka.
Značka třídy je tedy středem jakéhokoli intervalu. Tato hodnota je také velmi užitečná pro nalezení rozptylu sady dat již seskupených do tříd, což nám zase umožňuje pochopit, jak daleko od centra jsou tato konkrétní data umístěna.
Frekvenční distribuce
K pochopení toho, co je známka třídy, je nutný koncept rozdělení frekvence. Při dané sadě dat je rozdělení frekvence tabulkou, která data rozděluje do několika kategorií nazývaných třídy.
Tato tabulka ukazuje počet prvků, které patří do každé třídy; ten je známý jako frekvence.
Tato tabulka obětuje část informací, které získáváme z dat, protože namísto individuální hodnoty každého prvku víme jen to, že patří do této třídy.
Na druhé straně získáváme lepší porozumění datové sadě, protože tímto způsobem je snazší ocenit zavedené vzorce, což usnadňuje manipulaci s uvedenými daty.
Kolik tříd zvážit?
Chcete-li provést distribuci frekvence, musíme nejprve určit počet tříd, které chceme vzít, a zvolit jejich limity třídy.
Výběr toho, kolik tříd je třeba vzít, by měl být pohodlný, s přihlédnutím k tomu, že malý počet tříd může skrýt informace o údajích, které chceme studovat, a velmi velký může vygenerovat příliš mnoho podrobností, které nemusí být nutně užitečné.
Faktory, které musíme vzít v úvahu při výběru toho, kolik tříd je třeba vzít, je několik, ale mezi těmito dvěma vyniknout: první je vzít v úvahu, kolik dat musíme vzít v úvahu; druhým je vědět, jak velký je rozsah distribuce (tj. rozdíl mezi největším a nejmenším pozorováním).
Po definování tříd již počítáme, kolik dat v každé třídě existuje. Toto číslo se nazývá frekvence tříd a označuje se fi.
Jak jsme již dříve řekli, máme, že rozdělení frekvence ztratí informace, které přicházejí jednotlivě z každého data nebo pozorování. Z tohoto důvodu je hledána hodnota, která představuje celou třídu, do které patří; tato hodnota je značka třídy.
Jak se získá?
Značka třídy je základní hodnota, kterou třída představuje. Získává se sečtením mezí intervalu a vydělením této hodnoty dvěma. To bychom mohli matematicky vyjádřit takto:
x i = (Dolní limit + Horní limit) / 2.
V tomto výrazu x i označuje značku ith třídy.
Příklad
Vzhledem k následující sadě dat uveďte reprezentativní rozdělení frekvence a získejte odpovídající známku třídy.
Protože data s nejvyšší numerickou hodnotou je 391 a nejnižší je 221, máme rozsah, který je 391 -221 = 170.
Vybereme 5 tříd, všechny se stejnou velikostí. Jeden způsob, jak vybrat třídy, je následující:
Všimněte si, že všechna data jsou ve třídě, jsou nespojitá a mají stejnou hodnotu. Dalším způsobem, jak vybrat třídy, je považovat data za součást spojité proměnné, která by mohla dosáhnout jakékoli skutečné hodnoty. V tomto případě můžeme zvážit třídy formuláře:
205-245, 245-285, 285-325, 325-365, 365-405
Tento způsob seskupování dat však může představovat určité nejasnosti s hranicemi. Například v případě 245 vyvstává otázka: do které třídy patří, první nebo druhá?
Aby nedocházelo k této záměně, je prováděna konvence koncového bodu. Tímto způsobem bude první třídou interval (205,245], druhá (245,285) atd.
Jakmile jsou třídy definovány, přistoupíme k výpočtu frekvence a máme následující tabulku:
Po získání frekvenčního rozložení dat přistoupíme k nalezení známek třídy každého intervalu. Ve skutečnosti musíme:
x 1 = (205+ 245) / 2 = 225
x 2 = (245+ 285) / 2 = 265
x 3 = (285+ 325) / 2 = 305
x 4 = (325+ 365) / 2 = 345
x 5 = (365+ 405) / 2 = 385
Můžeme to znázornit pomocí následujícího grafu:
K čemu to je?
Jak bylo uvedeno výše, značka třídy je velmi funkční pro nalezení aritmetického průměru a rozptylu skupiny dat, která již byla seskupena do různých tříd.
Aritmetický průměr můžeme definovat jako součet pozorování získaných mezi velikostí vzorku. Z fyzikálního hlediska je jeho interpretace jako rovnovážný bod datové sady.
Identifikace celého souboru dat jediným číslem může být riskantní, je tedy třeba vzít v úvahu také rozdíl mezi tímto bodem zlomu a skutečnými daty. Tyto hodnoty jsou známé jako odchylka od aritmetického průměru a pomocí nich se snažíme určit, do jaké míry se mění aritmetický průměr dat.
Nejběžnějším způsobem, jak zjistit tuto hodnotu, je rozptyl, což je průměr druhých mocnin odchylek od aritmetického průměru.
Pro výpočet aritmetického průměru a rozptylu sady dat seskupených do třídy používáme následující vzorce:
V těchto výrazech x i je značka i-té třídy, f i představuje odpovídající frekvenci a k počet tříd, ve kterých byla data seskupena.
Příklad
S využitím dat uvedených v předchozím příkladu můžeme data v tabulce distribuce frekvence trochu rozšířit. Získáte následující:
Poté, když nahradíme data ve vzorci, nám zůstane aritmetický průměr jako:
Jeho rozptyl a směrodatná odchylka jsou:
Z toho můžeme vyvodit, že původní data mají aritmetický průměr 306,6 a směrodatnou odchylku 39,56.
Reference
- Fernandez F. Santiago, Cordoba L. Alejandro, Cordero S. Jose M. Popisná statistika. Esic Editorial.
- Jhonson Richard A. Miller a Freund pravděpodobnost a státníci pro inženýry.
- Miller I & Freund J. Pravděpodobnost a státníci pro inženýry. REVERT.
- Sarabia A. Jose Maria, Pascual Marta. Základní kurz statistiky pro firmy
- Llinás S. Humberto, Rojas A. Carlos Popisné statistiky a rozdělení pravděpodobnosti, Universidad del Norte Editorial