- Příklady
- Klasifikace kategorických proměnných
- Jmenovité kategorie
- Pořadí kategorické
- Binární kategorie
- Statistiky s kategorickými proměnnými
- Grafické znázornění kategorických proměnných
- Řešená cvičení
- Cvičení 1
- Příklad 2
- Příklad 3
- Reference
Kategorické proměnné je ten, použitý ve statistice přiřadit non-numerické nebo kvalitativní charakteristiku nebo vlastnost nějakého objektu, individuální, subjektu, stavu nebo postup. Je možné definovat všechny druhy kategorických proměnných podle každé potřeby.
Příklady kategorických proměnných jsou: barva, pohlaví, krevní skupina, rodinný stav, druh materiálu, způsob platby nebo typ bankovního účtu a používají se denně.
Obrázek 1: Barva je kategorická proměnná. Zdroj: pixabay
Výše uvedené jsou proměnné, ale jejich možné hodnoty jsou kvalitativní, tj. Jakostní nebo charakteristické a nikoliv numerického měření. Například možné hodnoty pro variabilní pohlaví jsou: samec, h embra.
Když je tato proměnná uložena v počítačovém programu, může být deklarována jako textová proměnná a jedinými akceptovanými hodnotami budou ty, které již byly pojmenovány: Muž, Žena.
Stejné proměnné pohlaví však může být deklarováno a uloženo jako celé číslo, pokud je muži přiřazeno 1 a ženě je přiřazena hodnota 2. Z tohoto důvodu jsou kategoriální proměnné někdy označovány jako výčtový typ.
Hlavní charakteristikou kategorických proměnných je to, že na rozdíl od jiných proměnných, jako jsou spojité a diskrétní proměnné, není možné s nimi dělat aritmetiku. Jak je však vidět později, lze s nimi provádět statistiky.
Příklady
Všimněte si následujících příkladů kategorických proměnných a jejich možných hodnot:
- Group_Sanguíneo, Rozsah hodnot: A, B, AB, O
- Civil_Status, kategoriální hodnoty: svobodný (A), ženatý (B), ovdovělý (C), rozvedený (D).
- Tipo_de_Material, kategorie nebo hodnoty: 1 = dřevo, 2 = kov, 3 = plast
-Form_of_Platba, cenné papíry nebo kategorie: (1) hotovost, (2) debet, (3) převod, (4) kredit
V předchozích příkladech bylo ke každé kategorii přiřazeno číslo zcela libovolným způsobem.
To by pak mohlo být si myslel, že toto libovolné numerické spojení dělá to ekvivalentní k diskrétní kvantitativní proměnné, ale to není, protože aritmetické operace nemohou být dělány s těmito čísly.
Pro ilustraci myšlenky v proměnné Form_of_Payment operace sumace nedává smysl:
(1) Hotovost + (2) Debet se nikdy nebude rovnat (3) Převod
Klasifikace kategorických proměnných
Hodnocení je založeno na tom, zda mají implicitní hierarchii, nebo zda počet možných výsledků je více než dva nebo dva.
Kategorická proměnná s pouze jedním možným výsledkem není proměnná, je to kategorická konstanta.
Jmenovité kategorie
Pokud je nelze reprezentovat číslem nebo mít nějaký příkaz. Například proměnná: Type_of_Material, má nominální hodnoty (dřevo, kov, plast), nemají hierarchii ani pořadí, i když je každé odpovědi nebo kategorii přiřazeno libovolné číslo.
Pořadí kategorické
Proměnná: Academic_performance
Nominální hodnoty: vysoká, střední, nízká
Ačkoli hodnoty této proměnné nejsou číselné, mají implicitní pořadí nebo hierarchii.
Binární kategorie
Jedná se o nominální proměnné se dvěma možnými odpověďmi, například:
-Variable: Response
-Nominální hodnoty: Pravda, Falešná
Mějte na paměti, že proměnná Response nemá implicitní hierarchii a má pouze dva možné výstupy, takže se jedná o binární kategoriální proměnnou.
Někteří autoři nazývají tento typ binární proměnnou a nepovažují ji za součást kategorických proměnných, které jsou omezeny na ty s více než třemi možnými kategoriemi.
Statistiky s kategorickými proměnnými
Statistiky lze provádět pomocí kategoriálních proměnných, i když nejde o numerické nebo kvantitativní proměnné. Například k poznání trendu nebo nejpravděpodobnější hodnoty kategorické proměnné se použije režim.
Režim je v tomto případě nejopakovanějším výsledkem nebo hodnotou kategorické proměnné. U kategorických proměnných není možné vypočítat průměr ani medián.
Průměr nelze vypočítat, protože nelze provádět aritmetiku s kategorickými proměnnými. Medián není ani proto, že kvantitativní nebo kategorické proměnné nemají řád ani hierarchii, takže není možné určit centrální hodnotu.
Grafické znázornění kategorických proměnných
Vzhledem k určité kategoriální proměnné lze nalézt frekvenci nebo počet opakování výsledku této proměnné. Pokud je to provedeno pro každý výsledek, lze vytvořit graf četnosti proti každé kategorii nebo výsledku.
Zde je několik příkladů grafického znázornění kategoriálních proměnných.
Řešená cvičení
Cvičení 1
Společnost má záznamy o údajích 170 zaměstnanců. Jedna z proměnných v těchto záznamech je: Estado_Civil. Tato proměnná má čtyři kategorie nebo možné hodnoty:
Svobodný (A), Ženatý (B), ovdovělý (C), Rozvedený (D).
Ačkoli se jedná o nečíselnou proměnnou, je možné vědět, kolik z celkových záznamů je v určité kategorii a může být reprezentováno ve formě sloupcového grafu, jak ukazuje následující obrázek:
Obrázek 2. Reprezentace výsledků kategorické proměnné. Zdroj: vlastní výroba
Příklad 2
Obchod s obuví sleduje jeho prodej. Mezi proměnné, které spravují jejich záznamy, patří barva bot pro každý model. Proměnná:
Color_Shoe_Model_AW3
Je kategorického typu a má pět kategorií nebo možných hodnot. Pro každou kategorii této proměnné se počet prodejů sčítá a stanoví se jejich procentuální podíl. Výsledky jsou uvedeny v grafu na následujícím obrázku:
Obrázek 3. Kategorická proměnná Color _Shoe. V této proměnné je režim bílý. Zdroj: vlastní výroba.
Dá se tedy říci, že model obuvi AW3, který je v módě, se nejčastěji prodává, je bílý, následovaný černě.
Lze také říci, že s pravděpodobností 70% bude další botou, která se bude prodávat u tohoto modelu, bílá nebo černá.
Tyto informace mohou být užitečné pro obchod při zadávání nových objednávek, nebo dokonce mohou uplatnit slevy na nejméně prodané barvy z důvodu nadměrné zásoby.
Příklad 3
U určité populace dárců krve chcete reprezentovat počet lidí, kteří patří do určité krevní skupiny. Grafický způsob, jak vizualizovat výsledky, je pomocí piktogramu, který je ve spodní části tabulky.
První sloupec představuje proměnnou group_sanguíneo a její možné výsledky nebo kategorie. Druhý sloupec představuje v ikonické nebo obrazové podobě počet lidí v každé kategorii. V našem příkladu je jako ikona použita červená kapička, z nichž každá představuje 10 lidí.
Obrázek 4. Piktogram. Zdroj: vlastní výroba
Reference
- Khan Academy. Analýza kategorických dat. Obnoveno z: khanacademy.org
- Vesmírné vzorce. Kvalitativní proměnná. Obnoveno z: univesoformulas.com
- Minitab. Které jsou kategorické, diskrétní a spojité proměnné. Obnoveno z: support.minitab.com
- Výukový program Excel. Charakterizace proměnných. Obnoveno z: help.xlslat.com.
- Wikipedia. Statistická proměnná. Obnoveno z wikipedia.com
- Wikipedia. Kategorická proměnná. Obnoveno z wikipedia.com
- Wikipedia. Kategorická proměnná. Obnoveno z wikipedia.com