- Jak vypočítat koeficient stanovení?
- Ilustrativní případ
- Výklad
- Příklady
- - Příklad 1
- Řešení
- - Příklad 2
- Řešení
- - Příklad 3
- Řešení
- Přizpůsobit srovnání
- Závěry
- Reference
Koeficient stanovení je číslo mezi 0 a 1, která představuje zlomek bodů (x, y), které následují regresní linii záchvatu souboru dat se dvěma proměnnými.
To je také známé jako dobré shody a je označován R 2. Pro jeho výpočet se vezme kvocient mezi rozptylem dat estimatedi odhadovaným regresním modelem a rozptylem dat Yi odpovídajících každému Xi dat.
R 2 = Sy / Sy
Obrázek 1. Korelační koeficient pro čtyři páry dat. Zdroj: F. Zapata.
Pokud je 100% dat na řádku regresní funkce, pak bude koeficient určení 1.
Naopak, je-li pro soubor dat a určité funkce nastavovacího koeficient R 2 ukáže, že je rovno 0,5, pak lze říci, že je nastavení 50% uspokojivé nebo dobré.
Podobně, když regresní model výtěžky R 2 hodnoty nižší než 0,5, znamená to, že vybraná funkce nastavení nepřizpůsobuje uspokojivě na údaje, a proto je nutné hledat další funkce nastavení.
A když kovarianční nebo korelační koeficient k nule, pak proměnné X a Y v datech jsou nezávislé, a proto R 2 také tendenci k nule.
Jak vypočítat koeficient stanovení?
V předchozí části bylo řečeno, že koeficient určení se vypočítá na základě zjištění kvocientu mezi odchylkami:
- Odhadováno regresní funkcí proměnné Y
-Tato z proměnné Yi odpovídající každé z proměnné Xi N datových párů.
Matematicky to vypadá takto:
R 2 = Sy / Sy
Z této rovnice vyplývá, že R 2 představuje podíl rozptylu vysvětleno regresního modelu. Alternativně, R 2 je možno vypočítat podle následujícího vzorce, plně odpovídá předchozí:
R 2 = 1 - (Sε / Sy)
Kde Sε představuje rozptyl zbytků εi = Ŷi - Yi, zatímco Sy je rozptyl sady hodnot Yi dat. Pro určení Ŷi je použita regresní funkce, což znamená, že Ŷi = f (Xi).
Rozptyl datové sady Yi s i od 1 do N se vypočítá tímto způsobem:
Sy =
A pak pokračujte podobným způsobem pro Sŷ nebo Sε.
Ilustrativní případ
Abychom ukázali podrobnosti o tom, jak se provádí výpočet koeficientu stanovení, vezmeme následující sadu čtyř párů dat:
(X, Y): {(1, 1); (2,3); (3, 6) a (4, 7)}.
Pro tento soubor dat, který se získá metodou nejmenších čtverců, se navrhuje lineární regresní přizpůsobení:
f (x) = 2,1 x -1
Použitím této seřizovací funkce se získají točivé momenty:
(X, Ŷ): {(1, 1,1); (2, 3,2); (3, 5,3) a (4, 7,4)}.
Pak vypočítáme aritmetický průměr pro X a Y:
Variance Sy
Sy = / (4-1) =
= = 7,583
Varianta Sŷ
Sŷ = / (4-1) =
= = 7,35
Koeficient determinace R 2
R 2 = sy / Sy = 7,35 / 7,58 = 0,97
Výklad
Koeficient stanovení pro ilustrativní případ uvažovaný v předchozím segmentu se ukázal být 0,98. Jinými slovy, lineární nastavení funkcí:
f (x) = 2,1 x -1
Je to 98% spolehlivé při vysvětlování dat, s nimiž byly získány metodou nejmenších čtverců.
Kromě určovacího koeficientu existuje také lineární korelační koeficient nebo také známý jako Pearsonův koeficient. Tento koeficient, označený jako r, se vypočítá podle následujícího vztahu:
r = Sxy / (Sx Sy)
Čitatel zde představuje kovarianci mezi proměnnými X a Y, zatímco jmenovatel je součinem standardní odchylky pro proměnnou X a standardní odchylky pro proměnnou Y.
Pearsonův koeficient může nabývat hodnot mezi -1 a +1. Když tento koeficient inklinuje k +1, existuje přímá lineární korelace mezi X a Y. Pokud má sklon k -1 místo toho, existuje lineární korelace, ale když X roste, Y klesá. Konečně je blízko 0, neexistuje žádná korelace mezi oběma proměnnými.
Je třeba poznamenat, že koeficient určení se shoduje s druhou mocninou Pearsonova koeficientu, pouze pokud byl první vypočítán na základě lineárního přizpůsobení, ale tato rovnost neplatí pro ostatní nelineární přizpůsobení.
Příklady
- Příklad 1
Skupina studentů středních škol se rozhodla stanovit empirický zákon pro období kyvadla jako funkci jeho délky. K dosažení tohoto cíle provádějí řadu měření, při nichž měří dobu kyvadla kyvadla pro různé délky a získají následující hodnoty:
Délka (m) | Období |
---|---|
0,1 | 0,6 |
0,4 | 1.31 |
0,7 | 1,78 |
jeden | 1,93 |
1.3 | 2.19 |
1.6 | 2,66 |
1.9 | 2,77 |
3 | 3,62 |
Je požadováno provést rozptyl dat a provést lineární přizpůsobení pomocí regrese. Také ukažte regresní rovnici a její koeficient určení.
Řešení
Obrázek 2. Graf řešení cvičení 1. Zdroj: F. Zapata.
Lze pozorovat poměrně vysoký koeficient determinace (95%), takže lze předpokládat, že lineární přizpůsobení je optimální. Pokud se však body dívají společně, mají tendenci se zakřivovat směrem dolů. Tento detail není uvažován v lineárním modelu.
- Příklad 2
Pro stejná data jako v příkladu 1 vytvořte rozptyl dat. Při této příležitosti, na rozdíl od příkladu 1, je vyžadována regresní úprava pomocí potenciální funkce.
Obrázek 3. Graf řešení cvičení 2. Zdroj: F. Zapata.
Také ukazují fit funkci a jeho koeficient determinace R 2.
Řešení
Potenciální funkce má tvar f (x) = Ax B, kde A a B jsou konstanty, které jsou určeny metodou nejmenších čtverců.
Předchozí obrázek ukazuje potenciální funkci a její parametry, jakož i koeficient stanovení s velmi vysokou hodnotou 99%. Všimněte si, že data sledují zakřivení trendové linie.
- Příklad 3
Použitím stejných dat z příkladu 1 a příkladu 2 proveďte polynomiální přizpůsobení druhého stupně. Zobrazit graf, fit polynom, a odpovídající koeficient determinace R 2.
Řešení
Obrázek 4. Graf řešení pro cvičení 3. Zdroj: F. Zapata.
S přizpůsobením polynomu druhého stupně můžete vidět linii trendu, která dobře zapadá do zakřivení dat. Koeficient stanovení je také nad lineárním přizpůsobením a pod potenciálním přizpůsobením.
Přizpůsobit srovnání
Ze tří zobrazených záchytů je ten, který má nejvyšší koeficient určení, potenciální přizpůsobení (příklad 2).
Potenciální přizpůsobení se shoduje s fyzikální teorií kyvadla, které, jak je známo, stanoví, že periody kyvadla jsou úměrné druhé odmocnině jeho délky, přičemž konstanta proporcionality je 2π / √g, kde g je gravitační zrychlení.
Tento typ potenciálního přizpůsobení má nejen nejvyšší koeficient determinace, ale exponent a konstanta proporcionality odpovídají fyzickému modelu.
Závěry
- Regresní úprava určuje parametry funkce, jejímž cílem je vysvětlit data pomocí metody nejmenších čtverců. Tato metoda spočívá v minimalizaci součtu druhé mocniny rozdílu mezi hodnotou Y úpravy a hodnotou Yi dat pro hodnoty Xi dat. To určuje parametry ladicí funkce.
- Jak jsme viděli, nejběžnější nastavovací funkcí je čára, ale není to jediná, protože úpravy mohou být také polynomiální, potenciální, exponenciální, logaritmické a další.
- Koeficient stanovení v každém případě závisí na údajích a typu seřízení a je známkou správnosti použitého seřízení.
- Konečně koeficient stanovení udává procento celkové variability mezi hodnotou Y dat vzhledem k hodnotě Ŷ úpravy pro dané X.
Reference
- González C. Obecné statistiky. Obnoveno z: tarwi.lamolina.edu.pe
- IACS. Aragonský institut zdravotních věd. Obnoveno z: ics-aragon.com
- Salazar C. a Castillo S. Základní principy statistiky. (2018). Obnoveno z: dspace.uce.edu.ec
- Superprof. Koeficient stanovení. Obnoveno z: superprof.es
- USAC. Popisný statistický manuál. (2011). Obnoveno z: statistics.ingenieria.usac.edu.gt.
- Wikipedia. Koeficient stanovení. Obnoveno z: es.wikipedia.com.