Recenze

John, H. Aldrich, Forrest. D. Nelson: Linear probability, logit and probit models. Sage university papers "Quantitativ Applications in Social Sciences" No. 45. Newbury Park, London, New Delhi. Sage. 1990.

Recenzovaná práce je reprezentantem řady metodologických a statistických publikací určených nakladatelstvím Sage sociálním vědám a drží se základních charakteristik, kterými je cel_1 série určena. Oba autoři patří k autoritám na tomto poli (Aldrich je profesorem politické vědy na Minnesotské univerzitě, kde se kromě statických aplikací v politické sociologii věnuje právě formálnímu modelování, Nelson je profesorem ekonomie na univerzitě v Iowě- v rámci ekonometrie se věnuje modelování s kvalitativními daty a daty při omezených závislých proměnných, oba publikovali v posledních desetiletích nepřebernou řadu článků, kde se tématem zabývají jak teoreticky, tak pravděpodobností modely aplikují při analýzách; známá je předvším Aldrichova kniha Change and Continuity in the 1980 elections, kde modely volebního rozhodování byly ze značné části položeny právě na popisovaných metodách). Dále je publikace zařazena v celé sérii na logicky jí příslušející místo (tj. až po úvodu do regrese a jejímu mnohorozměrnému rozvinutí) a autoři si tak mohou dovolit postavit svůj výklad na tom, co by teoreticky už kždý mohl a měl znát, protože, jak sami říkají, pravděpodobnostní varianty modelování patří spíše do kapitoly pokročilé statistiky. Další vlastností knihy je standardní pedagogický postup: formální matematické vymezení, jeho překlad do "plain english" a následují příklady korektních i nekorektních aplikací, které jsou zpravidla kontrastovány na jednom skutečném příkladu tak, aby rozdíly skutečně vynikly.

Vnitřní schéma knihy je jasné a logicky nenapadnutelné (směřuje od jednoduššího a předpokládaně známého k obtížnějšímu, tzn. že pasáže, které nás přímo nezajímajŕ můžeme vynechávat, jako například modely s polytomní závislou proměnnou):

1) Lineární pravděpodobnostní modely: přehled lineární regrese, lineární regrese s dichotomickou závislou proměnnou, model lineární pravděpodobnosti s dichotomickou závislou proměnnou, příklad replikovaných dat, polytomní závislá proměnná, předpoklad linearity u závisle proměnné, efekt nekorektní aplikace předpokladu linearity u u závisle proměnné.

2) Specifikace nonlineárních pravděpodobnostních modelů: alternativní nonlineární funkce pro případ dichotomické proměnné, nonlineární model v behaviorálních modelech, pravděpodobností specifikace pro polytomní proměnné

3) odhady logitových a probitových modelů pro dichotomickou závislou proměnnou: metoda maximální věrohodnosti (MLE)

4) Minimální chí kvadrátové odhady pro polytomní data.

Protože původním úmyslem této recenze nebylo představit knihu jako takovou, ale spíše metodu logistické regrese, budeme postupovat podle logiky knihy, nicméně vybereme pouze pasáže relevantní k etodě.

Model lineární pravděpodobnosti (LPM)

"Regresní analýza se stala standardním statistickým nástrojem v sociálních vědách" (str. 9), takto celý výklad začíná. Právě pro svou popularitu, explanační sílu (v mnohorozměrné aplikaci), robustnost a dostupnost (je součástí snad všech statistických výpočetních balíků) se ale zároveň stala zřejmě i metodou nejčastěji nekorektně aplikovanou. Zatímco nízké nároky na nezávisle proměnné jí dodávají onu zmíněnou robustnost, z hlediska nároků kladených na závisle proměnnou se jedná o metodu snadno zranitelnou a vystavenou možnosti nekorektního použití. V případě, že některé nutné předpoklady nejsou dodrženy, je interpretace výsledků a koeficientů regresí získaných velmi zavádějící.

Příkladem, kdy klasická lineární regrese selhává jsou její použití v behaviorálních vědách, kde se závisle proměnno často má stát kvalitativní (nominální) znak: v politické vědě např. volební preference, v ekonomii individuální volby a preference, s sgii řada rozhodnutí osobního charakteru (svatba, rozvod, rozhodnutí mít či nemít děti, postoje a životní preference). A právě na kontrastu těchto příkladů a lineární regresí a hledání možných alternativ jejich interpretací a předpokladů je text položen.

Řekněme že obecná mnohorozměrná lineární regrese má tvar:

(1)

kde Yi a Xi jsou pozorovanými proměnnými a bk jsou parametry, které odhadujeme. Z (1) potom můžeme chybu měření vyjádřit jako:

(2)

z čehož obvykle vychází metoda normálních nejmenších čtverců, která minimalizuje sumy druhých mocnin těchto chyb:

(3)

přičemž musí pro odhadovanou rovnici platit N>=K.

Požadavky, které jsou v případě lineární regrese kladeny jsou:

1. Zahrnuje všechna relevantní Xi (a nezahrnuje irelevantní).

1. R ( ei , Xi)= 0

3. průměrná hodnota ei= 0: z toho plyne, že při daných Xi je očekávaná hodnota Yi = 0

4. chyba má konstantní rozptyl (homoscedastita)

5. R (ei, ei)= 0 (sériová nezávislost)

Pokud jsou dodrženy předpoklady 3,4,5 (tzv. Gauss Markovův teorém), potom platí, že OLS odhady jsou nejlepší (mají nejmenší výběrový rozptyl)

6. chyba je normálně rozložená

Platí, že v regresi nejsou žádné speciální požadavky na exogenní proměnné (pouze se nesmí jednat o jejich vzájemn_9 lineární kombinace). Pokud ale chybí restrikce na bk, Xi, ei, musí mít Yi možnost pohybovat se v intervalu od záporného po kladné nekonečno. Vevýběrových souborech, které používáme v sociálních vědách tomu tak samozřejmě není, a zpravidla jsou hodnoty závislé proměnné distribuovány v mnohem užším intervalu. Pokud ale omezíme závislou proměnnou pouze na dvě hodnoty, říkají Aldrich s Nelsonem, jedná se o tak evidentní porušení tohoto předpokladu, že si takový příklad zasluhuje zvláštní pozornost (str. 12).

Dichotomická závislá proměnná

Předpokládejme že Yi nebývá hodnot 0,1. Potom očekávaná hodnota

E (Yi)= 1*P(Yi=1)+0*P(Yi=0) = P(Yi=1)

můžeme potom napsat

E(Yi)= P(Yi=1)= S bi Xik

pravá strana rovnice tedy musí být interpretovatelná jako pravděpodobnost a musí tedy dosahovat hodnot mezi nulou a jedničkou.

Potom i chyba může, při daném Xi nabývat jen dvou hodnot,

jestliže je Yi=1 potom ui= 1 -S bk+Xik

jestliže Yi= 0 potom ui= -S bk+Xik.

Na základě toho potom můžeme ukázat, že základní předpoklad kladený na chybu, tj. že její očekávána hodnota je nula, je dodržen.

E(ui)=P(Yi=0)*(-S bkXik)+P(Yi=1)*(1 -bk+Xik)= -(1- P(Yi=0))*P(Yi=1)+P(Yi=1)*(1-P(Yi=1))= 0

Další z předpokladů, totiž že ui má konstantní varianci ale nemůže být dodržen, "ve skutečnosti chyba variuje s hodnotou Yi" (str. 13). Z toho auto

f8i dovozují, že OLS odhady budou sice nevychýlené, ale ne nejlepší, čili nebudou mít nejmenší výběrový rozptyl. Další kapitolu proto věnují metoda, jak získat tyto nejlepší odhady v podobě vážených nejmenších čtverců (WLS, kde váhy jsou počítány z klasické regrese OLS pro každé pozorování potom mají podobu: w=1/(P*(1-P)) a platí tedy, že váhy jsou většŕ, pokud se P blíží extrémním hodnotám 0,1). Tuto kapitolu, stejně jako další, které se věnují speciálním příkladů s replikovanými daty a případu pravděpodobnostního modelu se závislou proměnnou, která nabývá více hodnot (polytomní proměnná) se v našem výkladu nebudeme podrobněji věnovat.

Podstatné ovšem je, že v tomto místě autoři poprvé naráží na podstatnou odchylku od modelu "klasické" mnohorozměrné lineární regrese: "metoda OLS vede k maximalizaci R2 a my na základě teoretických předpokladů víme (v WLS metodě- pozn. MK), že je lepší preferovat model s nižším R2." (str. 15) Proto a kvůli inherentní heteroscedastitě Y i, autoři uzavírají, je v modelech s kvalitativní závislou proměnnou lepší se koeficientu determinace raději vyhýbat (v praxi je při dvouhodnotové závislé proměnné rpakticky nemožné dos_1hnout perfektního fitu, který by odpovídal hodnotě R2 =1).

Předpoklad linearity

1. Klade inherentní omezení na efekt exogenních proměnných ve vztahu k endogenní (ještě předtím, že se pustíme do odhadů jsou efekty omezeny intervalově: str. 25).

2. Předpokládá, že vliv je konstantní (my ale víme, že v behaviorálních vědách je růst vnímán odlišně například v závislosti na původní hodnotě- viz zákon klesajícího margin'e1lního užitku).

Efekt nekorektního předpokladu linearity

Tato subkapitola je pro pochopení našeho výběru logistické regrese jako jedno z příkladů modelů s dichotomickou závislou proměnnou klíčová.

Připomeňme základní předpoklad:

E(Y/E)= S bkXki

Na jeho základě můžeme tvrdit, že odhady jsou nevychýlené a jejich variance bude odhadována korektně (str. 27). Pokud neplatí, je konstrukce intervalů spolehlivosti a testování hypotéz neopráněné.

Za druhé: odhady založené na OLS nebo WLS regresi budou v nejlepším případě vhodné pro určitý interval v datech (graf 27) a právě proto budou velmi citlivé na vymezení rozsahu dat, v některých pđípadech může dokonce dojít k tomu, že odhady budou mimo definovaný interval (0,1) pro závislou proměnnou a toto vychýlení není náhodné. Mimo to má regrese s dichotomickou závislou proměnnou tu, vlastnost, že pro ní neplatí klasické pravidlo: s růstem pozorování roste přesnost odhadů.

Specifikace nelineárních modelů

Dostáváme se tedy k druhé části knihy, která se zabývá tím, jak efektivně zacházet s případy, kdy není dodržen předpoklad linearity závislé proměnné, a jak s nimi pracovat.

Alternativní nonlineární funkce pro dichotomický případ

Horní i dolní limit kladený původně na Pi lze odstranit aplikací následující transformace.

Namísto Pi uvažujme log (Pi/(1-Pi)), které, jak můžeme předpokládat rovné S bkXik.

Přijměme pro další rovnice substituci:

Zi=S bkXik.

Lze napsat:

Pi= exp (Zi)/(1+ exp (Zi))

což je výraz, který nazýváme "logistickou funkcí". jedná se o kontinuální proměnnou, která nabývá pouze hodnot v intervalu (0,1). Pokud je Zi blízké záporn

e9mu nekonečnu, potom se blíží nule, jestliže je Zi blízké kladnému nekonečnu, potom logistická funkce jde k 1; je zároveň symetrická okolo bodu Zi=0 (str. 32).

Na rozdíl o lineární specifikace, splňuje tato fce požadavek 0,1 omezení Pi, aniž by přitom omezovala hodnoty Zi.

Proč ale vybrat z množství nabízejících se možných transformací závislé proměnné právě tuto, když se nabízí řada jiných?

Možné alternativy (pouze známější případy):

1. Omezený model lineární pravděpodobnosti (jedná se vlastně o upravený model lineární pravděpodobnosti omezený tak, že pokud je Pi<0 je položeno Pi=0, a pokud je Pi