- Význam homoscedasticity
- Homoscedasticita versus heteroscedasticita
- Testy homoscedasticity
- Standardizované proměnné
- Negrafické testy homoscedasticity
- Reference
K homoscedasticitě v prediktivním statistickém modelu dochází, pokud všechny datové skupiny jednoho nebo více pozorování, rozptyl (nebo nezávislý) obrazec vzhledem k vysvětlujícím proměnným zůstávají konstantní.
Regresní model může být homoscedastic nebo ne, v takovém případě mluvíme o heteroscedasticitě.
Obrázek 1. Pět sad dat a regresní přizpůsobení sady. Rozptyl vzhledem k předpokládané hodnotě je v každé skupině stejný. (upav-biblioteca.org)
Statistický regresní model několika nezávislých proměnných se nazývá homoscedastický, pouze pokud rozptyl chyby predikované proměnné (nebo standardní odchylky závislé proměnné) zůstává jednotný pro různé skupiny hodnot vysvětlujících nebo nezávislých proměnných.
V pěti skupinách údajů na obrázku 1 byla rozptyl v každé skupině vypočítán s ohledem na hodnotu odhadovanou regresí, což vedlo k tomu, že v každé skupině bylo stejné. Dále se předpokládá, že data sledují normální distribuci.
Na grafické úrovni to znamená, že body jsou rovnoměrně rozptýleny nebo rozptýleny kolem hodnoty předpovídané regresním přizpůsobením a že regresní model má stejnou chybu a platnost pro rozsah vysvětlující proměnné.
Význam homoscedasticity
Pro ilustraci důležitosti homoscedasticity v prediktivních statistikách je nutné kontrastovat s opačným fenoménem, heteroscedasticity.
Homoscedasticita versus heteroscedasticita
V případě obrázku 1, kde je homoscedasticita, je pravda, že:
Var ((y1-Y1); X1) ≈ Var ((y2-Y2); X2) ≈ …… Var ((y4-Y4); X4)
Kde Var ((yi-Yi); Xi) představuje rozptyl, dvojice (xi, yi) představuje data ze skupiny i, zatímco Yi je hodnota predikovaná regresí pro střední hodnotu Xi skupiny. Rozptyl n dat ze skupiny i se vypočítá takto:
Var ((yi-Yi); Xi) = ∑j (yij - Yi) ^ 2 / n
Naopak, když dojde k heteroscedasticitě, nemusí být regresní model platný pro celou oblast, ve které byl vypočítán. Obrázek 2 ukazuje příklad této situace.
Obrázek 2. Skupina dat vykazujících heteroscedasticitu. (Vlastní zpracování)
Obrázek 2 představuje tři skupiny dat a přizpůsobení sady pomocí lineární regrese. Je třeba poznamenat, že údaje ve druhé a třetí skupině jsou více rozptýleny než v první skupině. Graf na obrázku 2 také ukazuje střední hodnotu každé skupiny a její sloupec chyby ± σ, se standardní směrodatnou odchylkou pro každou skupinu dat. Je třeba si uvědomit, že směrodatná odchylka σ je druhou odmocninou rozptylu.
Je zřejmé, že v případě heteroskedasticity se chyba odhadu regrese mění v rozsahu hodnot vysvětlující nebo nezávislé proměnné a v intervalech, kde je tato chyba velmi velká, je regresní predikce nespolehlivá nebo nepoužije se.
V regresním modelu musí být chyby nebo zbytky (a -Y) rozloženy se stejnou odchylkou (σ ^ 2) v intervalu hodnot nezávislé proměnné. Z tohoto důvodu musí dobrý regresní model (lineární nebo nelineární) projít testem homoscedasticity.
Testy homoscedasticity
Body znázorněné na obrázku 3 odpovídají údajům studie, která hledá vztah mezi cenami domů (v dolarech) domů v závislosti na velikosti nebo ploše v metrech čtverečních.
Prvním testovaným modelem je lineární regrese. Nejprve je třeba poznamenat, že koeficient určování R2 ^ přizpůsobení je poměrně vysoký (91%), takže lze předpokládat, že přizpůsobení je uspokojivé.
Od grafu úprav však lze jasně odlišit dvě oblasti. Jeden z nich, ten napravo uzavřený v oválu, splňuje homoscedasticitu, zatímco oblast nalevo nemá homoscedasticitu.
To znamená, že predikce regresního modelu je přiměřená a spolehlivá v rozsahu od 1800 m2 do 4800 m2, ale mimo tuto oblast je velmi nedostatečná. V heteroscedastické zóně je chyba nejen velmi velká, ale také se zdá, že data sledují jiný trend, než jaký navrhuje lineární regresní model.
Obrázek 3. Ceny bydlení vs. oblast a prediktivní model podle lineární regrese, ukazující homoscedasticitu a heteroscedasticitu. (Vlastní zpracování)
Rozptylový graf dat je nejjednodušší a nej vizuální test jejich homoscedasticity, avšak v případech, kdy to není tak zřejmé, jako v příkladu znázorněném na obrázku 3, je nutné uchýlit se k grafům s pomocnými proměnnými.
Standardizované proměnné
Za účelem oddělení oblastí, kde je splněna homoscedasticita a kde tomu tak není, jsou zavedeny standardizované proměnné ZRes a ZPred:
ZRes = Abs (y - Y) / σ
ZPred = Y / σ
Je třeba poznamenat, že tyto proměnné závisí na použitém regresním modelu, protože Y je hodnota predikce regrese. Níže je uveden bodový graf ZRes vs ZPred pro stejný příklad:
Obrázek 4. Je třeba poznamenat, že v zóně homoscedasticity zůstávají ZRes jednotné a malé v predikční oblasti (vlastní zpracování).
V grafu na obrázku 4 se standardizovanými proměnnými je oblast, kde je zbytková chyba malá a jednotná, jasně oddělena od oblasti, kde není. V první zóně je splněna homoscedasticita, zatímco v oblasti, kde je zbytková chyba vysoce variabilní a velká, je splněna heteroscedasticita.
Regresní úprava je aplikována na stejnou skupinu dat na obrázku 3, v tomto případě je úprava nelineární, protože použitý model zahrnuje potenciální funkci. Výsledek je znázorněn na následujícím obrázku:
Obrázek 5. Nové zóny homoscedasticity a heteroscedasticity v datech vybavených nelineárním regresním modelem. (Vlastní zpracování).
V grafu na obrázku 5 by měly být jasně zaznamenány homoscedastické a heteroscedastické oblasti. Je třeba také poznamenat, že tyto zóny byly zaměněny s ohledem na zóny vytvořené v modelu lineárního přizpůsobení.
Z grafu na obr. 5 je zřejmé, že i když existuje poměrně vysoký koeficient určení přizpůsobení (93,5%), model není vhodný pro celý interval vysvětlující proměnné, protože data pro hodnoty větší než 2000 m2 představuje heteroscedasticitu.
Negrafické testy homoscedasticity
Jedním z nejgrafických testů, které se nejčastěji používají k ověření, zda je homoscedasticita splněna či nikoli, je test Breusch-Pagan.
Ne všechny podrobnosti tohoto testu budou uvedeny v tomto článku, ale jeho základní charakteristiky a kroky téhož jsou hrubě nastíněny:
- Regresní model je aplikován na n data a jejich rozptyl je počítán s ohledem na hodnotu odhadovanou modelem σ ^ 2 = ∑j (yj - Y) ^ 2 / n.
- Je definována nová proměnná ε = ((yj - Y) ^ 2) / (σ ^ 2)
- Stejný regresní model se použije na novou proměnnou a vypočítají se její nové regresní parametry.
- Stanoví se kritická hodnota Chi square (χ ^ 2), což je polovina součtu nových zbytků čtverců v proměnné ε.
- Rozdělovací tabulka Chi square se používá s ohledem na úroveň významnosti (obvykle 5%) a počet stupňů volnosti (# regresních proměnných mínus jednotka) na ose x tabulky, aby se získala hodnota deska.
- Kritická hodnota získaná v kroku 3 je porovnána s hodnotou uvedenou v tabulce (x ^ 2).
- Pokud je kritická hodnota pod hodnotou v tabulce, máme nulovou hypotézu: existuje homoscedasticita
- Pokud je kritická hodnota nad hodnotou v tabulce, máme alternativní hypotézu: neexistuje homoscedasticita.
Většina statistických softwarových balíčků, jako jsou: SPSS, MiniTab, R, Python Pandas, SAS, StatGraphic a několik dalších, zahrnuje test homoscedasticity Breusch-Pagan. Dalším testem pro ověření rovnoměrnosti rozptylu je Levenův test.
Reference
- Box, Hunter a Hunter. (1988) Statistika pro vědce. Obrátil jsem se k editorům.
- Johnston, J. (1989). Ekonometrické metody, Vicens - editory Vives.
- Murillo a González (2000). Příručka ekonometrie. Univerzita v Las Palmas de Gran Canaria. Obnoveno z: ulpgc.es.
- Wikipedia. Homoscedasticita. Obnoveno z: es.wikipedia.com
- Wikipedia. Homoscedasticita. Obnoveno z: en.wikipedia.com