- Jak vypočítat korelační koeficient?
- Covariance a rozptyl
- Ilustrativní případ
- Covariance Sxy
- Standardní odchylka Sx
- Standardní odchylka Sy
- Korelační koeficient r
- Výklad
- Lineární regrese
- Příklad
- Reference
Korelační koeficient ve statistikách je indikátorem toho, že opatření tendence dvou kvantitativních proměnných X a Y mají lineární nebo proporcionální vztah mezi nimi.
Obecně platí, že páry proměnných X a Y jsou dvě charakteristiky stejné populace. Například, X může být výška osoby a Y jeho hmotnost.
Obrázek 1. Korelační koeficient pro čtyři datové páry (X, Y). Zdroj: F. Zapata.
V tomto případě by korelační koeficient naznačoval, zda existuje trend k přiměřenému vztahu mezi výškou a hmotností v dané populaci.
Pearsonův lineární korelační koeficient je označen malým písmenem r a jeho minimální a maximální hodnoty jsou -1 a +1.
Hodnota r = +1 by znamenala, že množina párů (X, Y) je dokonale zarovnána a že když X roste, Y poroste ve stejném poměru. Na druhou stranu, pokud by se stalo, že r = -1, sada párů by také byla dokonale zarovnána, ale v tomto případě, když se X zvýší, Y klesne ve stejném poměru.
Obrázek 2. Různé hodnoty koeficientu lineární korelace. Zdroj: Wikimedia Commons.
Na druhé straně, hodnota r = 0 by znamenala, že neexistuje žádná lineární korelace mezi proměnnými X a Y. Zatímco hodnota r = +0,8 by naznačovala, že páry (X, Y) mají sklon se shlukovat na jedné straně a další z určité linie.
Vzorec pro výpočet korelačního koeficientu r je následující:
Jak vypočítat korelační koeficient?
Koeficient lineární korelace je statistická veličina, která je zabudována do vědeckých kalkulaček, většiny tabulek a statistických programů.
Je však vhodné vědět, jak se používá vzorec, který jej definuje, a pro tento účel se zobrazí podrobný výpočet, provedený na malém souboru dat.
A jak je uvedeno v předchozí části, korelačním koeficientem je kovariance Sxy dělená součinem směrodatné odchylky Sx pro proměnné X a Sy pro proměnnou Y.
Covariance a rozptyl
Kovbojská Sxy je:
Sxy = / (N-1)
Pokud součet jde od 1 do N párů dat (Xi, Yi).
Jako směrodatná odchylka pro proměnnou X je druhá odmocnina rozptylu datové sady Xi s i od 1 do N:
Sx = √
Podobně je standardní odchylkou pro proměnnou Y druhá odmocnina rozptylu datové sady Yi, s i od 1 do N:
Sy = √
Ilustrativní případ
Abychom podrobně ukázali, jak vypočítat korelační koeficient, vezmeme následující sadu čtyř párů dat
(X, Y): {(1, 1); (2,3); (3, 6) a (4, 7)}.
Nejprve vypočítáme aritmetický průměr pro X a Y takto:
Poté se vypočítají zbývající parametry:
Covariance Sxy
Sxy = / (4-1)
Sxy = / (3) = 10,5 / 3 = 3,5
Standardní odchylka Sx
Sx = √ = √ = 1,29
Standardní odchylka Sy
Sx = √ =
√ = 2,75
Korelační koeficient r
r = 3,5 / (1,29 x 2,75) = 0,98
Výklad
V souboru dat v předchozím případě je pozorována silná lineární korelace mezi proměnnými X a Y, což se projevuje jak v rozptylovém grafu (na obrázku 1), tak v korelačním koeficientu, který poskytl hodnota docela blízko k jednotě.
Pokud je korelační koeficient blíže 1 nebo -1, tím větší smysl má přizpůsobit data linii, což je výsledek lineární regrese.
Lineární regrese
Lineární regresní linie je získána metodou nejmenších čtverců. ve kterém jsou parametry regresní linie získány z minimalizace součtu druhé mocniny rozdílu mezi odhadovanou hodnotou Y a Yi N dat.
Na druhé straně parametry aab b regresní přímky y = a + bx, získané metodou nejmenších čtverců, jsou:
* b = Sxy / (Sx 2) pro svah
* a =
Připomeňme, že Sxy je výše definovaná kovariance a Sx 2 je rozptyl nebo čtverec standardní odchylky definované výše.
Příklad
Korelační koeficient se používá k určení, zda existuje lineární korelace mezi dvěma proměnnými. Je použitelné, pokud jsou sledované proměnné kvantitativní, a navíc se předpokládá, že sledují normální distribuci typů.
Ilustrativní příklad je uveden níže: měřítkem stupně obezity je index tělesné hmotnosti, který se získá dělením hmotnosti osoby v kilogramech na její druhou mocninu v jednotkách metrů čtverečních.
Chcete vědět, zda existuje silná korelace mezi indexem tělesné hmotnosti a koncentrací HDL cholesterolu v krvi, měřeno v milimolech na litr. Za tímto účelem byla provedena studie s 533 lidmi, což je shrnuto v následujícím grafu, ve kterém každý bod představuje údaje jedné osoby.
Obrázek 3. Studie BMI a HDL cholesterolu u 533 pacientů. Zdroj: Aragonský institut zdravotních věd (IACS).
Pečlivé pozorování grafu ukazuje, že mezi koncentrací HDL cholesterolu a indexem tělesné hmotnosti existuje určitý lineární trend (není příliš výrazný). Kvantitativní mírou tohoto trendu je korelační koeficient, který se v tomto případě ukázal jako r = -0,276.
Reference
- González C. Obecné statistiky. Obnoveno z: tarwi.lamolina.edu.pe
- IACS. Aragonský institut zdravotních věd. Obnoveno z: ics-aragon.com
- Salazar C. a Castillo S. Základní principy statistiky. (2018). Obnoveno z: dspace.uce.edu.ec
- Superprof. Korelační koeficient. Obnoveno z: superprof.es
- USAC. Popisný statistický manuál. (2011). Obnoveno z: statistics.ingenieria.usac.edu.gt
- Wikipedia. Pearsonův korelační koeficient. Obnoveno z: es.wikipedia.com.