Zajęcia 3

Estymator MNK w KMRL

 

Podsumowanie zajęć poprzednich

 

Z wykładu z zeszłego tygodnia powinni Państwo znać statystyczne własności estymatora MNK (Twierdzenie Gaussa i Markowa). Na wykładzie w bieżącym tygodniu Profesor poda/podał dowód twierdzenia Gaussa i Markowa o estymatorze MNK. Z tego wykładu powinni Państwo wynieść lepsze rozumienie założeń KMRL – wyszło „w praniu” dlaczego są one właśnie takie, w którym miejscu i jak w dowodzie korzysta się z którego założenia. Proszę znać definicję nieobciążoności estymatora i dowód nieobciążoności estymatora MNK w KMRL oraz definicję (ścisłą) optymalności („najlepszości”) estymatora w danej klasie oraz co najmniej schemat dowodu optymalności estymatora MNK w klasie estymatorów liniowych i nieobciążonych.

 

 

Zajęcia 3

 

Celem zajęć jest pogłębienie Państwa rozumienia estymatora MNK w KMRL i wyrobienie sprawności w posługiwaniu się nim.

 

Najpierw zastanawiać będziemy się nieco głębiej czym jest estymator MNK. Następnie przejdziemy do dalszego rozważania rozmaitych jego własności i będziemy analizować jego przykładowe zastosowanie.

 

przypomnijmy WHO IS WHO w KMRL – y jest funkcją e, który jest zmienną losową, więc sam y jest też zmienną losową. X jest znany nielosowy na mocy założeń KMRL. Z kolei estymator MNK b^ (beta z daszkiem) jest funkcją X i y (bo b^=(X’X)-1X’y), więc jest funkcją zmiennej losowej [y] i wobec tego jest sam zmienną losową. Więc być może ma wartość oczekiwaną, macierz kowariancji etc. Mając konkretne wartości (realizacje) obserwacji, możemy wyliczyć REALIZACJĘ ESTYMATORA czyli OCENĘ lub OSZACOWANIE.

 

Kiedy piszemy b^ = (0,65    -1,12     2,61)’ [co czytamy „oceny MNK wektora parametrów b wynoszą:”], to b^ oznacza realizację estymatora w posiadanej próbie (czyli na podstawie zaobserwowanych realizacji zmiennej objaśnianej y). Kiedy natomiast wyprowadzamy postać E(b^) i V(b^) – czyli wartości oczekiwanej i macierzy kowariancji estymatora MNK – mamy na myśli b^ jako zmienną losową której charakterystyki możemy badać (bo wiemy, że istnieje). Badając ogólne własności statystyczne estymatora MNK np. w dowodzie twierdzenia Gaussa i Markowa – badamy zmienną losową b^, a nie jakąś jej realizację. Jej wartość oczekiwana  (cały czas oczywiście przy założeniach KMRL – to jest domyślne założenie w całych tych zajęciach) wynosi b, (b^ jest nieobciążony) natomiast macierz kowariancji dana jest wzorem:

           V(b^) = s2(X’X)-1

Tej macierzy nie znamy, bo nie znamy s2 – jest ono nieznane podobnie jak b – Ale mamy jej estymator -

V^(b^) = s2(X’X)-1

(tu jest ta sama historia co z estymatorem MNK – nie rozróżniamy V^(b^) jako zmiennej losowej [estymatora macierzy kowariancji b^] od jej realizacji - [1,1   0,3  itd. cała macierz kwadratowa]– czyli ocen macierzy kowariancji b^ w posiadanej próbie.)

 

Wariancja resztowa (Patrz Twierdzenie o wariancji resztowej – wykład) dana jest wzorem

 

s2 = 1/(T-k) e^’ e^  =1/(T-k) (y - y^)’ (y - y^) =1/(T-k) (y - Xb^)’ (y - Xb^).

 

T to liczba wierszy macierzy X – czyli liczba obserwacji, k to liczba kolumn w macierzy X – czyli liczba zmiennych w regresji i tym samym liczba nieznanych parametrów regresji - elementów nieznanego wektora b.

 

V^(b^) = s2(X’X)-1 to nieobciążony estymator V(b^) , bo s2 to nieobciążony estymator s2 :

 

E[V^(b^)] = E[s2(X’X)-1] = E[s2](X’X)-1 = s2(X’X)-1

 

Zauważmy, że oceny parametrów b^ możemy wyliczyć dla liczby obserwacji równej liczbie parametrów (T=k). Jednak aby policzyć s2 musimy mieć przynajmniej jedną obserwację więcej (T>k) bo byłoby dzielenie przez zero.

Tu taka uwaga – kiedy mówimy o „nieznanych parametrach” mamy na myśli zwykle b – pomijamy s2. Parametry b to tzw. parametry strukturalne – są zasadniczymi elementami modelowanego przez nas procesu, to o nich szczególnie chcemy wnioskować. s2  to parametr struktury stochastycznej , tzw. parametr zakłócający – sam przez się nic nas nie obchodzi, zajmujemy się nim tylko po to, żeby dobrać się jakoś do ocen parametrów b.

 

OCENY PUNKTOWE, PRZYBLIŻONY OPIS NIEPEWNOŚCI O PARAMETRACH

 

Ocena macierzy kowariancji estymatora MNK jest nam potrzebna choćby po to, żeby otrzymać błędy średnie szacunku parametrów. Błąd średni szacunku i-tego parametru to pierwiastek kwadratowy (czyli potęga 0,5: ^0,5 i tak będziemy kodować) z i-tego elementu na głównej przekątnej oszacowanej macierzy kowariancji V^(b^). Błąd średni bi oznaczamy D(bi^); jest on wyrażony w tych samych jednostkach co parametr, wielkość D(bi^) informuje nas, o ile mniej więcej mylimy się przyjmując za nieznany parametr bi jego oszacowanie bi^. Jeżeli błąd średni szacunku jest duży (tzn. np. wartości różniące się od uzyskanej oceny bi^ o +- 2*D(bi^) prowadzą do drastycznie innych wniosków w sensie wartości y) to oznacza, że nasze wnioskowanie o wpływie danej zmiennej objaśniającej na zmienną objaśnianą jest obciążone dużą niepewnością i musimy je uważać za bardzo przybliżone. Jeżeli natomiast nawet po uwzględnieniu błędu wpływ zmiennej objaśniającej xi na y jest podobny, to możemy nasze wnioskowanie uważać za raczej trafne, chociaż to jest wciąż „mniej więcej”. W zajęciach 2 zajmowaliśmy się wyłącznie tzw. estymacją punktową. To znaczy, że za oceny nieznanych parametrów przyjmujemy po prostu konkretne wartości. Teraz rozszerzamy to podejście i bierzemy co prawda pod uwagę wartość błędu średniego szacunku, ale robimy to nieformalnie, w sposób przybliżony. Wyobraźmy sobie, że badamy wpływ średniej ze studiów na roczne zarobki w 10 roku po ukończeniu studiów. Ocena punktowa parametru wychodzi nam np. 1000 – czyli wzrost średniej o 1 spowoduje wzrost zarobków o 1000 PLN. Ale jeśli błąd średni szacunku tego parametru wyniesie 2000, to znaczy, że parametr ten może być równie dobrze ujemny lub wynieść ok. 3000. Taki przykład pokazuje, że sama estymacja punktowa jest bardzo nieprecyzyjnym narzędziem wnioskowania o badanym zjawisku. Rozważanie +- dwóch błędów średnich szacunku to pewna ad hoc zasada postępowania bez głębokiego uzasadnienia teoretycznego, która jednak pomaga nam JAKOŚ uwzględnić błąd szacunku parametrów. Oczywiście powinniśmy w bardziej formalny i ustrukturalizowany sposób uwzględnić niepewność dotyczącą naszych oszacowań – ale w KMRL to nie jest możliwe. Tym problemem zajmiemy się na następnych zajęciach.

 

ZAPIS OSZACOWANEGO RÓWNANIA REGRESJI

 

Równanie regresji przed oszacowaniem zapisujemy w postaci y - Xb + e, dla całego wektora y lub dla pojedynczego elementu, np.:

ln zt = a0 + a1ln ht + a2gt + et

jednak nie możemy tego zapisu wykorzystać wprost dla równania oszacowanego, bo nie występuje w nim b^.

Aby zapisać równanie po oszacowaniu, korzystamy z postaci:

 y^ = Xb^

lub

 y = Xb^ + e^.

Za b^ możemy podstawić ogólnie estymator parametru np. a2^ lub jego realizację, czyli ocenę, np. 0,75. Zapis danego wyżej równania z uwzględnieniem estymatorów parametrów może mieć postać:

 

Wykorzystując zapis y^ = Xb^:                   ln zt ^ = a0^ + a1^  ln ht + a2^ gt   lub            ln zt ^ = 1,15 +  0,75 ln ht – 0,5 gt ;

Wykorzystując zapis y = Xb^ + e^:             ln zt  = a0^ + a1^  ln ht + a2^ gt + e^  lub       ln zt  = 1,15 +  0,75 ln ht – 0,5 gt + e^

 

Inne rozmieszczenie „daszków” będzie nieprawidłowe – równość nie będzie zachodzić. Rozważmy następujące zapisy:

yt = a0 + a1xt1 + a2xt2 + ... + akxtk + et

yt = a0^+ a1^xt1 + a2^xt2 + ... + ak^xtk + et^

yt^ = a0^+ a1^xt1 + a2^xt2 + ... + ak^xtk

oraz:

yt^ = a0^+ a1^xt1 + a2^xt2 + ... + ak^xtk+et

yt^ = a0^+ a1^xt1 + a2^xt2 + ... + ak^xtk+et^

yt = a0^+ a1^xt1 + a2^xt2 + ... + ak^xtk+et

Trzy pierwsze równości są prawdziwe, trzy pozostałe nie są prawdziwe i taki zapis jest nieprawidłowy!!

Pod oceną parametru w nawiasie zapisuje się czasem jej błąd średni szacunku.

 

INTERPRETACJA OCEN PARAMETRÓW

 

Ogólnie – jak już podkreślaliśmy w zaj. 2 – w modelu liniowym zasadniczą rolę odgrywa suma iloczynów typu + bixti +. Rozumienie takiego iloczynu ma zasadniczy charakter. Musi być on wyrażony w jednostkach y, więc wymiar parametru bi to musi być [jednostka y / jednostka xi]. Wartość iloczynu to wpływ konkretnej wartości xi na y. Gdy za xi wstawimy 1, to iloczyn ten przybiera wartość bi. Więc gdy xi wzrośnie się o jednostkę, to y zmieni się o bi. Na tej podstawie interpretujemy parametry – a zwłaszcza ich oceny:

Przypuśćmy, że ocena bi wynosi 0,5 [bi^=0,5]. Interpretujemy: jeśli wartość zmiennej objaśniającej xi [w interpretacji podajemy nazwę tej zmiennej, czyli np. wielkość produkcji] wzrośnie (nie zmieni się, tylko „wzrośnie” bo ważny jest znak) o jednostkę, to zmienna objaśniana [tu podajemy nazwę, np. zysk brutto] wzrośnie [lub spadnie jeśli bi^ jest ujemne] o 0,5 jednostki PRZY NIEZMIENIONYCH WARTOŚCIACH POZOSTAŁYCH ZMIENNYCH OBJAŚNIAJĄCYCH [tu trzeba wpisać jakich]. Ten ostatni człon jest bardzo ważny, bo bez niego to zdanie nie jest prawdziwe.

 

Ale to jest interpretacja typu standard i ma bardzo krótkie nogi – z pewnych względów trzeba ją przystosowywać każdorazowo do problemu.

BO:

Przypominam rozróżnienie między zmiennymi w regresji a wielkościami ekonomicznymi. Nas interesują właśnie wielkości ekonomiczne – to w ich kategoriach chcemy mieć interpretację. Zmienne w regresji często same w sobie nas nie obchodzą. Poza tym czasem musimy rezygnować z tej interpretacji, bo nie jest prawdziwy któryś z jej elementów:

 

Przykłady:

 

Jak interpretować wyraz wolny? Zmienną w regresji przy nim jest jedynka i jej wartość nie może wzrosnąć. Ale zastanawiamy się czym jest wyraz wolny i piszemy: Jeśli wszystkie zmienne objaśniające (wymieniamy jakie) przyjmują wartość zero, to zmienna objaśniana (tu nazwa zmiennej) przeciętnie przyjmuje wartość około (i tu podajemy ocenę wyrazu wolnego). Jeśli chcemy być bliżej wielkości ekonomicznych w interpretacji, to jeśli zmienną objaśniającą jest ln vt, to zamiast „gdy wartość ... ln vt ... wyniesie 0..” piszemy – „...gdy ...wartość vt wyniesie 1..”.

Ale musimy tu zachować ostrożność i zdrowy rozsądek. Kiedy np. zmienną objaśnianą jest cena mieszkania, a zmiennymi objaśniającymi np. metraż, odległość od centrum, numer piętra, liczba pokojów, to wyraz wolny w takiej regresji nie będzie miał sensownej interpretacji. Bo nie ma sensu rozważanie „przeciętnej ceny mieszkania o zerowym metrażu nie posiadającego pokojów...”.

 

Jak interpretować zmienną zero-jedynkową? Może być w regresji taka zmienna – badamy np. osobiste wydatki na benzynę, i mamy zmienną przyjmującą wartości: zamężna/żonaty (1) i nieprawda że zamężna/żonaty (0) – wtedy w macierzy X mamy kolumnę w której są zera i jedynki. Ocenę parametru przy takiej zmiennej interpretujemy przykładowo: wielkość wydatków na benzynę osób zamężnych/żonatych różni się przeciętnie mniej więcej o (i tu ocena parametru, uwzględniamy znak! „jest większa/mniejsza o około”) w porównaniu z niezamężnymi/nieżonatymi przy takich samych wartościach pozostałych zmiennych (napisać jakich).

Jeżeli w modelu jest więcej zmiennych zero-jedynkowych, to w interpretacji za każdym razem przyrównujemy się do sytuacji odpowiadającej zerowaniu wszystkich tych zmiennych.

 

W równaniu może występować zmienna czasowa t – numer okresu (dla szeregów czasowych) – wtedy parametr przy t możemy interpretować jako – z okresu na okres (tu wstawiamy np. z miesiąca na miesiąc) wartość zmiennej objaśnianej (jakiej...) wzrasta – spada o (ocena parametru przy t) przy ustalonych wartościach pozostałych zmiennych.

 

Kiedy mówimy: gdy wartości innych zmiennych wynoszą zero – to lepiej powiedzieć co to znaczy w kontekście tych zmiennych – jeśli np. jest to zmienna zero-jedynkowa jak w przykładzie to piszemy – dla nieżonatych/niezamężnych. Jeśli zmienna w regresji to logarytm wielkości ekonomicznej, to piszemy „kiedy [wielkość ekonomiczna] przyjmie wartość 1 itd.

Kiedy mówimy: przy niezmienionych wartościach pozostałych zmiennych również dobrze interpretować w kategoriach wielkości ekonomicznych: raczej przy niezmienionej wartości nakładu pracy niż przy niezmienionej wartości logarytmu nakładu pracy, - jeśli jest taka zmienna w regresji - bo to na jedno wychodzi, a jesteśmy w interpretacji bliżej wielkości ekonomicznych.

 

Jeżeli w równaniu regresji zmienną objaśniającą jest logarytm naturalny pewnej wielkości ekonomicznej (np. xi to ln Vt), a zmienną objaśnianą jest logarytm innej wielkości ekonomicznej (czyli np. yt to ln Zt), to ocenę parametru bi możemy interpretować stosując procenty w odniesieniu bezpośrednio do wielkości ekonomicznych – czyli zamiast „... jeśli ln Vt wzrośnie o jednostkę... to ln Zt wzrośnie o bi^ jednostek....” piszemy: „... jeśli Vt wzrośnie o 1%... to Zt wzrośnie o bi^ %....”. To wynika z zastosowania pochodnej logarytmicznej – pochodna logarytmu funkcji po logarytmie zmiennej jest tożsama z definicją elastyczności.

(ocenę parametru 0,07 interpretujemy jako ..”o 0,07%”)

 ln y /  ln xi =  ( y / xi ) * xi/y

(gdyby logarytm był np. dziesiętny zamiast naturalnego to i tak zachodzi taka sama zależność)

więc ocenę parametru, którą normalnie interpretujemy analogicznie do pochodnej, możemy odczytać jak elastyczność w odniesieniu do oryginalnych wielkości ekonomicznych (tych pod logarytmem).

przykład: jeśli zmienną objaśnianą jest logarytm wielkości wydatków konsumpcyjnych na żywność w okresie t, (ln Et), a wśród zmiennych objaśniających występuje ln Yt – logarytm wielkości dochodu - (w równaniu regresji jest składnik ....+ a ln Yt + ... ), i otrzymamy ocenę a równą 0,5 to możemy interpretować: wzrost wielkości dochodu o 1%, [przy niezmienionych wartościach ...], spowoduje wzrost wydatków na żywność o około 0,5% (NIE 50%).

 

Jeżeli w równaniu regresji zmienną objaśniającą jest pewna wielkość ekonomiczna (bez logarytmu)  (np. xi to Vt), a zmienną objaśnianą jest logarytm innej wielkości ekonomicznej  (czyli np. yt to ln Zt),

Moglibyśmy się tu posłużyć interpretacją: „... jeśli Vt wzrośnie o jednostkę... to ln Zt wzrośnie o bi^ jednostek....”, ale taka interpretacja jest mało użyteczna – nie odnosi się bezpośrednio do wielkości ekonomicznych. Aby przejść na bardziej przydatną interpretację, musimy sobie uświadomić, co oznacza „wzrost logarytmu o jednostkę”. Jeżeli logarytm naturalny wielkości ekonomicznej wzrośnie o x jednostek, jest to równoważne wzrostowi samej wielkości razy ex (co zapisujemy też exp(X))

ln(Z*ex) = ln Z + x

czyli mielibyśmy taką interpretację:

„... jeśli Vt wzrośnie o jednostkę... to Zt wzrośnie exp(bi^) razy....”

jeżeli chcemy mieć interpretację w procentach, to musimy wziąć pod uwagę fakt, że wzrost 1,25 razy to wzrost o 25% (czyli o (1,25 – 1)*100% ). Ostatecznie więc możemy interpretować to tak:

„... jeśli Vt wzrośnie o jednostkę... to Zt wzrośnie o (1-exp(bi^))*100%”

 

przykład: jeśli zmienną objaśnianą jest logarytm wielkości wydatków na telefony i internet w okresie t, (ln Et), a wśród zmiennych objaśniających występuje Yt – wielkość dochodu [w tys. PLN] - (w równaniu regresji jest składnik ....+ a Yt + ... ), i otrzymamy ocenę a równą 0,5 to możemy interpretować: wzrost wielkości dochodu o 1 tys. PLN, [przy niezmienionych wartościach ...], spowoduje wzrost wydatków na telefony i internet o około 65% (bo exp(0,5) to około 1,65, więc (1.65-1)*100% to mniej więcej 65%.

Taka interpretacja jest o tyle niedogodna, że trudno pamiętać jak zachowuje się funkcja exp(). Na szczęście istnieje pewien prostszy przypadek szczególny:

 
Jeżeli ocena parametru jest bliska zeru (powiedzmy poniżej 0,15 co do wartości bezwzględnej) to ocenę parametru bi możemy w przybliżeniu interpretować stosując procenty w odniesieniu bezpośrednio do objaśnianej wielkości ekonomicznej, ale ocenę parametru wciąż mnożymy razy 100% : piszemy: „... jeśli Vt wzrośnie o jednostkę... to Zt wzrośnie o bi^ * 100 %....”. To wynika z zastosowania aproksymacji [(1 – ex) = x dla x bliskiego  zeru] , więc dochodzi nam dodatkowe „około”.

( ocenę parametru równą 0,07 interpretujemy jako ..o około 7%)

przykład: jeśli zmienną objaśnianą jest logarytm wielkości wydatków zbrojeniowych w okresie t, (ln Mt) – powiedzmy, że dane mają charakter szeregu czasowego – a wśród zmiennych objaśniających występuje t – numer okresu (w równaniu regresji jest składnik  ....+at + ... ), i otrzymamy ocenę a równą -0,05, to możemy interpretować: z okresu na okres, [przy niezmienionych wartościach ...], wielkość wydatków zbrojeniowych spada o około 5%. (NIE 0,05%)

 

Jeżeli w równaniu regresji zmienną objaśnianą jest pewna wielkość ekonomiczna (bez logarytmu)  (np. yt to Vt), a zmienną objaśniającą jest logarytm innej wielkości ekonomicznej  (czyli np. xi to ln Zt), to stosujemy interpretację daną powyżej tylko odwrotnie. Ponieważ tym razem to „wzrost logarytmu o jednostkę spowoduje ...”, a wiemy już, że odpowiada to wzrostowi exp(1) czyli e razy (to około 2,72 razy – lub o 172%).

W równaniu:

Vt= a0 + a1ln Zt + a2Gt + a3 (Ct)2 + et

Ocenę parametru a1 (wynoszącą powiedzmy 1,1) moglibyśmy w przybliżeniu interpretować tak:

Wzrost wielkości zmiennej Zt o około 172% przy niezmienionych wartościach zmiennych Gt oraz Ct spowodowałby wzrost wielkości zmiennej Vt o około 1,1 jednostki.

 

Czasem zmienna może być tak zdefiniowana, że nie ma sensu „wzrost wartości o 172%” – wtedy trzeba sobie przyjąć jakąś sensowną wielkość wzrostu i wyliczyć jej skutek przy pomocy kalkulatora.

 

 

 

Poza tym możemy mieć na przykład takie równanie regresji:

ln zt= a0 + a1ln ht + a2gt + a3 (ht)2 + et

w tym równaniu wartość drugiej zmiennej objaśniającej nie może wzrosnąć o 1 przy pozostałych niezmienionych – bo czwarta zmienna w regresji jest funkcją drugiej i jej wartość też się zmieni. Więc musimy wykombinować inną interpretację. Tym problemem – jego źródłem i rozwiązaniem zajmiemy się na następnych zajęciach.

 

Po co nam to potrzebne? Żeby potrafili Państwo spoglądając na oszacowane równanie regresji wyrobić sobie zdanie, co te wyniki znaczą. Czasem trzeba ocenić rezultaty osiągnięte przez kogoś innego, czasem ocenić swoje własne osiągnięcia, ale zawsze spoglądamy na uzyskane oceny parametrów i staramy się wymyślić CO ONE ZNACZĄ,  i CZY SĄ SENSOWNE.

 

Poza tym:

Proszę pamiętać o rozróżnieniu między zmienną w regresji a wielkością ekonomiczną, i budować interpretacje tak, by były one ścisłe, prawdziwe ale UŻYTECZNE i SENSOWNE – czyli jak najbliższe rzeczywistego problemu, wielkości które nas naprawdę interesują. Wyklepanie formułki to żadna zasługa. Proszę interpretować inteligentnie – proszę sobie wyobrazić, że piszą Państwo raport dla głupiego i upierdliwego szefa, którego nie obchodzą szczegóły techniczne ani jak Państwo do tego doszli, obchodzą go wnioski – ścisłe, prawdziwe ale podane tak, aby zrozumiał i aby do czegoś mu się to przydało.

Jeszcze jedna uwaga: ja czasem mówiąc szybko mogę czegoś zapomnieć – proszę mnie łapać za słowa; często mówię „zmienna wzrośnie” choć powinno być „wartość zmiennej wzrośnie” (nie „produkcja wzrośnie” tylko „wielkość produkcji wzrośnie”). Ale na stronie staram się – przynajmniej kiedy specjalnie o tym piszę – podawać dobre interpretacje. Na kartkówkach obowiązują Państwa interpretacje „dopieszczone” w pełni poprawne.

 

KONSEKWENCJE LINIOWEJ POSTACI ZALEŻNOŚCI W KMRL

 

Teraz zajmiemy się operacyjnymi własnościami b^=(X’X)-1X’y – niektóre były przedmiotem zadania domowego. Poprzez przykład liczony „ręcznie” lub szybciej Excelu (lub lepiej przez ścisłe rozważania analityczne) można pokazać że:

 

  1. zmiana kolejności kolumn w X odpowiada zmianie kolejności wyrazów w b^ (zmianie kolejności ocen parametrów).
  2. zmiana kolejności wierszy w y i X (w ten sam sposób) nie wpływa na oceny MNK, co oznacza, że w KMRL porządek obserwacji nie ma żadnego znaczenia. Jeżeli badacz przywiązuje do niego wagę, trzeba to dodatkowo „sztucznie” modelować poprzez np. wprowadzenie dodatkowych zmiennych objaśniających (np. numer okresu itp.)
  3. przeskalowanie (p razy) wartości wybranej zmiennej objaśniającej w X odpowiada odwrotnemu (razy 1/p) przeskalowaniu oceny odpowiedniego parametru (pozostałe oceny bez zmian)
  4. przeskalowanie (p razy) wartości zmiennej objaśnianej y odpowiada przeskalowaniu (p razy) wszystkich ocen parametrów.

 

Dla zbudowania intuicji stojących za 3 i 4 wykorzystano następujący przykład: Wyobraźmy sobie, że zbudowano i oszacowano regresję, gdzie zmienną objaśnianą jest przeciętna długość życia [w latach] oznaczona y, natomiast jedną ze zmiennych objaśniających jest waga ciała w dniu 30 urodzin [w kilogramach] oznaczona x3. Wobec tego: yt = .......+ b3xt3 + .........

Skupmy się na iloczynie b3xt3 . Jego wartość musi być wyrażona w tych samych jednostkach, co wartość y [lata] (aby zachodziła równość i sumowanie). Jednostka x to [kg], wobec czego jednostka b3 to [lata/kg]. Cały ten iloczyn, to ta składowa (ujemna lub dodania) całkowitej wartości yt, która wynika z wpływu zmiennej x3. Wobec tego skalowanie zmiennej x3 , co odpowiada po prostu zmianie jednostki (np. z kg na g), nie może zmieniać całego iloczynu – zmiana długości życia pod wpływem konkretnej wagi nie może zależeć od jednostki w jakiej wyrażono wagę. Aby wartość iloczynu była stała, musi zachodzić punkt 3. Gdy z kolei zmienimy jednostkę y, wartość tego iloczynu musi się zmienić. Dlaczego? Wyobraźmy sobie, że zamiast wyrażać długość życia w latach, wyrazimy ją w miesiącach (skalowanie y razy 12). Jednak cały iloczyn b3xt3 wyraża wpływ wagi na długość życia, więc przy takiej samej wadze nie może być nominalnie taki sam gdy przejdziemy z lat na miesiące (2 lata i 2 miesiące to nie to samo). Stąd wynika punkt 4.

 

Zauważmy, że w modelu liniowym wpływ i-tej zmiennej objaśniającej na zmienną objaśnianą jest NIEZALEŻNY OD POZIOMU zmiennej objaśniającej. Czyli nie da się wprost odwzorować sytuacji, gdy wzrost o jednostkę pewnej zmiennej w regresji z poziomu bliskiego zeru wywiera duży wpływ a przy coraz wyższym poziomie – coraz mniejszy wpływ. Taki rodzaj oddziaływania jest intuicyjnie zrozumiały – jeśli badamy wpływ doświadczenia zawodowego  na możliwość uzyskania pracy, to spodziewamy się, że wzrost zmiennej [liczba przepracowanych lat] z poziomu 0 na 1 będzie miał wpływ znaczny, zaś z poziomu 20 na 21 – mniejszy.

Jednak można skorzystać z pewnej modyfikacji modelu – wykorzystującej rozróżnienie między wielkościami ekonomicznymi a zmiennymi w regresji. Jeśli wprowadzimy do modelu różne nieliniowe funkcje tej samej wielkości ekonomicznej, np.:

zt= a0 + a1ht + a2 (ht2)+ et

to możemy odwzorować wpływ ht na zt zależny od poziomu ht (cały czas rozważając wielkości ekonomiczne). Jednak w takim przypadku tracimy standardową interpretację parametrów (jak już zaznaczono), bo założenie „pozostałych niezmienionych” jest nie do utrzymania. W takim przypadku interesuje nas jednak nie wpływ zmiennych w regresji, lecz wpływ wielkości ekonomicznych, który będzie opisany nie bezpośrednio przez parametry, lecz przez pewne ich funkcje.

Podsumowując – w KMRL linowa zależność zachodzi między zmiennymi w regresji, lecz niekoniecznie pomiędzy wielkościami ekonomicznymi które badamy. Pozwala to odwzorować bardziej złożone zależności wielkości ekonomicznych, ale wymaga innej interpretacji parametrów. Do tego rozumowania będziemy wracać.

 

TEORETYCZNE WARTOŚCI ZMIENNEJ OBJAŚNIANEJ

 

y^ czyli „igrek teoretyczny” wyliczamy jak opisano wyżej podstawiając do prawej strony równania regresji za parametry b ich oceny MNK b^, a za składnik losowy e jego wartość oczekiwaną czyli zero. y^ jest oczywiście zmienną losową (jako funkcja b^), jego wartości (realizacje) interpretujemy tak: przy takich i takich wartościach zmiennych objaśniających (napisać jakich zmiennych) „wielkość/wartość (tu nazwa zmiennej objaśnianej) przewidywana przez rozważany model wyniesie (lub wyniosłaby) w przybliżeniu (i tu wartość y^)”. Wartości y^ i tak trzeba wyliczyć choćby do s2, natomiast interpretuje się w zadaniu na wyraźną prośbę pojedynczą wartość y^. Oczywiście y^ można rozważać dla dowolnych (potencjalnych) wartości zmiennych objaśniających, nie tylko dla wartości zaobserwowanych. Oznacza to, że możemy w ten sposób rozważać hipotetyczną wartość teoretyczną zmiennej objaśnianej przy dowolnej interesującej nas kombinacji wartości zmiennych objaśniających.

Zauważmy, że:

 E(y^) = E(Xb^) = X E(b^) = Xb = Xb + 0 = Xb + E(e) = E(Xb + e) = E(y)

 

 

RESZTY MNK, REGRESJA Z WYRAZEM WOLNYM, MIARY DOPASOWANIA

 

Jak wskazywaliśmy w poprzednich zajęciach, składnik losowy jest pewną konstrukcją teoretyczną która umożliwia nam sensowne postawienie problemu estymacji wektora nieznanych parametrów b. Ale e jest nieobserwowalny, my zakładamy jego istnienie ale nie mamy obserwacji na epsilonie. Mamy co prawda e^, ale to są RESZTY MNK – czyli e^ = y - y^ = y - Xb^ - w pierwszej równości jest „igrek minus igrek teoretyczny” – igrek teoretyczny to wartość prawej strony równania regresji przy podstawieniu zera za epsilon i ocen MNK b^ za nieznane parametry b. Więc to nie są obserwacje na epsilonie, tylko różnice pomiędzy zrealizowaną (rzeczywiście zaobserwowaną) wartością y a wartością teoretyczną y^ wynikającą z podstawienia za b konkretnej realizacji b^ (będącej funkcją konkretnej realizacji y). Czyli mamy obserwacje tylko na y, e^ jest pewną funkcją tych obserwacji, natomiast nie jest niezależnie obserwowanym składnikiem losowym.

 

GDY W REGRESJI JEST WYRAZ WOLNY (w X KOLUMNA JEDYNEK):

 

>Suma reszt MNK [czyli suma (a więc i średnia) elementów wektora e^ ] wynosi dokładnie zero na mocy konstrukcji. Kiedy nie ma wyrazu wolnego, średnia reszt MNK może być różna od zera. Gdy jest wyraz wolny można to wykorzystać do sprawdzenia obliczeń: jeśli suma e^ jest znacząco różna od zera to gdzieś jest błąd!]

>Gdy w równaniu regresji jest wyłącznie wyraz wolny, ocena MNK wyrazu wolnego to średnia z y – łatwo to zobaczyć podstawiając do wzoru na estymator MNK za całą macierz X kolumnę jedynek.

>Średnia y^ jest taka sama jak średnia y

 

Wynika z tego pokazana przez Profesora na wykładzie dekompozycja reszt i związane z nią mierniki dopasowania.

Obserwowaną zmienność y (związaną z wariancją z próby) można reprezentować poprzez sumę kwadratów odchyleń y od średniej y.

Tą sumę kwadratów możemy dekomponować na sumę kwadratów odchyleń y od y^ oraz sumę kwadratów odchyleń y^ od średniej y. Pierwszy składnik to suma kwadratów reszt, drugi to „wyjaśniana przez model zmienność y” (ponieważ jest to zmienność y^, wartości teoretycznych). Ogólnie całkowitą (obserwowaną, z próby) zmienność y rozkładamy na część niewyjaśnianą przez model i wyjaśnianą przez model. UWAGA- ta dekompozycja ma sens tylko gdy w regresji jest wyraz wolny i średnia y = średnia y^.

 

Zmienność wyjaśniana będzie zawsze mniejsza od całkowitej. By stwierdzić, jaką część obserwowanej zmienności y udało się nam „objaśnić”, rozważamy współczynnik determinacji R2:

 

R2 = wyjaśniana zmienność y / całkowita zmienność y

Aby obliczyć R2 korzystamy ze wzoru:

R2 = 1 – suma kwadratów reszt MNK / całkowita zmienność y = 1 – (suma kwadratów odchyleń y^ od y)/(suma kwadratów odchyleń y od średniej y)

Ponieważ sumę kwadratów reszt i tak wyliczamy do s2, potrzebna jest tylko suma kwadratów odchyleń y od średniej.

 

Interpretacja R2 jest taka: [R2*100]% obserowanej zmienności [zmiennej objaśnianej – napisać, jakiej] daje się objaśnić poprzez liniowy wpływ [następujących zmiennych objaśniających – napisać jakich].

Czyli im R2 wyższy (bliższy 1) tym model jest lepiej dopasowany.

 

Żeby sensownie porównać R2 w dwóch modelach, muszą one mieć tę samą zmienną objaśniajną!!! Czasem jest tak, że dwa modele opisują to samo zjawisko w ten sam (lub bardzo podobny) sposób, ale różnią się wykorzystaną transformacją zmiennej objaśnianej – w jednym np. objaśniana jest wielkość Z, a w drugim ln Z. Wtedy stwierdzenie że np. model 1 jest lepiej dopasowany niż model 2 (bo ma wyższą wartość R2) nie ma sensu, bo dotyczy różnych zmiennych objaśnianych.

 

Składnik, który we wzorze powyżej odejmujemy od jedynki to współczynnik F2 – który mierzy jaka część obserwowanej zmienności y NIE JEST wyjaśniana w ramach naszego modelu (czyli przez liniowy wpływ wybranych zmiennych objaśniających). 

F2 oraz R2 sumują się do jedności, więc wystarczy nam jeden z nich.

UWAGA 1. kiedy w równaniu nie ma wyrazu wolnego, R2 nie ma interpretacji procentowej – bo nie musi być z zakresu (0, 1) – możemy sobie wyliczyć wartość współczynnika, ale nie ma on interpretacji – więc niekoniecznie jest po co liczyć.

UWAGA 2. R2 nie jest w żadnym razie miarą sensowności modelu. Wysoka wartość współczynnika determinacji SAMA W SOBIE nie przemawia na korzyść modelu. Możemy ją wziąć pod uwagę, kiedy model uznamy za sensowny i dobry na podstawie INNYCH kryteriów. Proszę nie brać R2 zbyt poważnie jako kryterium oceny modelu. Jedynym plusem tego współczynnika jest łatwość wyliczenia.

UWAGA 3. R2 nie „mierzy” wpływu w ogóle, tylko wpływ liniowy – jeśli między zmiennymi w regresji zachodzi idealna zależność kwadratowa, to R2 wynosi zero.

 

ROLA ZAŁOŻENIA O RZĘDZIE MACIERZY X, IDENTYFIKOWALNOŚĆ PARAMETRÓW

(nieco bardziej subtelny temat dla zainteresowanych)

 

Pamiętamy, że estymator MNK jest zdefiniowany poprzez minimum sumy kwadratów reszt. Możemy to potwierdzić – za pomocą Excela – używając modułu Solver. Analityczna minimalizacja sumy kwadratów reszt jest zarysowana w Zajęciach 2. Występuje tam warunek zerowania pierwszych pochodnych równoważny spełnieniu równości X’Xb=X’y. Po lewostronnym pomnożeniu przez (X’X)-1 otrzymujemy formułę obliczeniową na estymator MNK.

Jaka jest tu rola założenia 3 o rzędzie macierzy X? Jeśli rz(X) nie wynosi k, (X’X)-1 nie istnieje. W takim przypadku X’Xb=X’y ma nieskończenie wiele rozwiązań ze względu na b. Podobnie warunek rz(X)=k występował w omawianym warunku (określoności macierzy 2-ch pochodnych) na istnienie globalnego optimum funkcji. Widzimy, że gdy nie jest spełnione 3 założenie, estymator MNK nie jest JEDNOZNACZNIE określony – istnieje nieskończenie wiele kombinacji wartości parametrów które tak samo spełniają kryterium estymacji.

W jakim praktycznym przypadku może wystąpić taki problem? Rozważmy następujący model: PKB w całej gospodarce jest objaśniany jako suma inwestycji i konsumpcji:

 

PKB=INWESTYCJE + KONSUMPCJA.

 

Załóżmy, że chcemy taki model szacować w KMRL. Może się zdarzyć, że na gruncie pewnej teorii ekonomicznej zarówno inwestycja jak i konsumpcja są linowymi funkcjami (z wyrazem wolnym) pewnych zmiennych:

INWESTYCJE = i0+i1V

KONSUMPCJA = c0+c1Z (gdzie V oraz Z to pewne obserwowane wielkości ekonomiczne). Zatem łącznie (na podstawie przyjętej teorii ekonomicznej):

PKBt = i0+i1Vt+ c0+c1Zt + et

Zakładamy spełnienie założeń KMRL (poza zał. 3). Macierz X miałaby typowy wiersz postaci xt = [1    Vt      1     Zt]. Widzimy, że dwie kolumny X są identyczne, więc liniowo zależne i założenie 3 nie zachodzi.

Przyjrzyjmy się dokładnie szacowanemu równaniu regresji. Zauważmy, że występują w nim dwa wyrazy wolne. Związany jest z tym następujący problem – pary różnych ale mających tę samą sumę wartości i0  i c0 prowadzą do takich samych obserwowanych wartości y (tu: PKB). Nasza struktura modelowa dopuszcza sytuację, gdy różne wartości i0  i c0 , np. i0 = 3 i c0 = –2 lub i0 = 0 i c0 = 1 itd. odpowiadają mechanizmom generującym identyczne (nierozróżnialne) obserwacje – bo obserwowane wartości y tu zależą od SUMY wyrazów wolnych, a jej  dekompozycja pomiędzy i0  i c0 może być dowolna.

Czyli mogą istnieć różne, ale nierozróżnialne obserwacyjnie wartości nieznanych parametrów. Kiedy różne struktury teoretyczne prowadzą do identycznych obserwowalnych konsekwencji (czyli są obserwacyjnie równoważne – observationally equivalent ) nie możemy pomiędzy nimi wybrać na podstawie obserwacji. W takim przypadku musimy a priori wybrać jedną z nich.

Obserwacyjna równoważność w ekonometrii prowadzi do problemu identyfikowalności. W naszym przykładzie parametry  i0 i c0 są nieidentyfikowalne, jest identyfikowalna tylko ich suma. Nieidentyfikowalność ma miejsce, kiedy obserwacje nie wystarczą nam do jednoznacznego wyznaczenia oszacowań. Musimy w takim przypadku nałożyć (mniej lub bardziej arbitralne) restrykcje. Można np. założyć  i0 = c0 , lub  i0 = 0 itd.

Podsumowanie: założenie 3 zapewnia w KMRL identyfikowalność parametrów – co jest związane ze spełnieniem kryterium estymacji przez jeden tylko wektor czyli jednoznacznym wyznaczeniem ocen parametrów.

Zauważmy, że w KMRL zakładamy zerową wartość oczekiwaną składników losowych. Gdyby ta wartość oczekiwana była stała, ale niezerowa i nieznana – równa m, do modelu wszedłby dodatkowy parametr na tej samej zasadzie co wyraz wolny. Mielibyśmy do czynienia z sytuacją analogiczną jak powyżej. W pewnym sensie 4 założenie to także restrykcja identyfikowalności, bo gdyby nie zachodziło, nie dałoby się „obserwacyjnie rozróżnić” wpływu wyrazu wolnego od wpływu m. Wniosek: jeśli w modelu jest wyraz wolny, to tym samym „dopuszczamy” niezerową wartość oczekiwaną składników losowych, tylko nie jesteśmy w stanie jej oszacować. To tym bardziej przemawia za włączaniem do modelu wyrazu wolnego – trzeba mieć raczej powód żeby go nie włączać.

Problem nieidentyfikowalności nie zachodzi gdy spełnione są założenia KMRL. Jest on tu tylko nieformalnie zasygnalizowany – bo to ważne zagadnienie ekonometrii. Proszę kojarzyć nieidentyfikowalność z obserwacyjną równoważnością różnych struktur i niemożnością jednoznacznego wyznaczenia ocen parametrów.

 

 

Podstawowe umiejętności konieczne do rozwiązywania zadań:

 

  1. Interpretowanie ocen MNK parametrów równania regresji czyli b^.
  2. Wyliczanie wartości y^ (y teoretyczny).
  3. Wyliczanie i interpretowanie błędów średnich szacunku parametrów.
  4. Obliczenie i interpretacja współczynnika R2

 

Co najczęściej nie wychodzi w zadaniach?

Często zdarza się zapomnieć, że z oceny macierzy kowariancji estymatora MNK V^(b^) trzeba wziąć PIERWIASTKI elementów przekątniowych żeby dostać błędy średnie szacunku.

Ponadto trzeba uważać, aby nie pomnożyć dwa razy przez s2 – jak to się czasem zdarza, gdy korzysta się ze wzoru D(bi^) =

(s2 aii)^0,5 – trzeba pamiętać, że aii to element (X’X)-1 a nie V^(b^).

Macierz X’X proszę odwracać raczej metodą dopełnień algebraicznych.

Gdy wylicza się y^ i wychodzi on rzędu dziesiątek czy setek a y jest rzędu jedności, lub gdy s2 wychodzi rzędu setek/tysięcy i więcej to jest sygnał, że coś jest mocno nie tak. y^ powinien być bardzo zbliżony do y. Wtedy najpierw trzeba sprawdzić, czy oceny MNK są dobrze wyliczone – Błędu trzeba szukać najpierw w mnożeniu (X’X)-1 przez X’y – tu się często zdarzają błędy, potem w macierzy X’X i jej odwracaniu – trzeba przemnożyć X’X przez odwrotność i sprawdzić, czy wychodzi macierz jednostkowa.

Macierz X lub wektor y bywają źle wyspecyfikowane.

Sporo najrozmaitszych błędów bywa w interpretacjach – trudno je nawet wymienić. Nie można zapominać o dodaniu odpowiednika stwierdzenia „przy niezmienionych wartościach pozostałych zmiennych”. Nie należy pisać „zmieni się” lecz „wzrośnie” lub „spadnie” itd. Po prostu trzeba podać interpretację według wskazówek podanych powyżej.

 

Dla wyćwiczenia umiejętności sprawnego przeprowadzania obliczeń zamieszczam przykładowe zadania wraz z arkuszami MS Excel – trzeba wyliczyć wszystko parę razy na piechotę, a potem sprawdzić w Excelu, czy jest dobrze. I poćwiczyć – bo na kartkówkach czasu będzie mało, a wprawa w rozwiązywaniu zadań jest w tym kursie BARDZO POTRZEBNA.

 

 

 

Problem do przemyślenia na następne zajęcia:

 

(nieczynne z powodu choroby)