Zajęcia 2

Klasyczny Model Regresji Liniowej (KMRL)

 

(nieco poprawione dnia 29.X.2004)

 

Podsumowanie zajęć poprzednich

 

Po zajęciach 1 i przerobieniu związanych z nimi prac domowych powinni Państwo:

W części ćwiczeniowej:

-posługiwać się względnie swobodnie zapisem macierzowym, tj. umieć go sprawnie odczytać; przełożyć z zapisu macierzowego na standardowy oraz sigmowy i z powrotem.

-znać i potrafić przeprowadzić podstawowe działania na macierzach (sumowanie, mnożenie, transpozycja, odwracanie)

-znać własności rzędu macierzy, wyznacznika macierzy, śladu macierzy, macierzy odwrotnej, itd.

-znać zapis, definicje i interpretacje podstawowych charakterystyk wielowymiarowej zmiennej losowej (wektora losowego) – [to wektor wartości oczekiwanej i macierz kowariancji].

Przydatne przypomnienia zawiera strona o algebrze macierzowej

 

 

Na wykładzie Profesor podał Państwu założenia KMRL w zapisie macierzowym oraz tezę i dowód Twierdzenia Gaussa i Markowa o estymatorze Metody Najmniejszych Kwadratów oraz twierdzenie o wariancji resztowej. Założenia KMRL i twierdzenia obowiązują Państwa bezwzględnie na pamięć. KMRL jest podstawowym modelem do którego będziemy się wielokrotnie odwoływać. Jego założenia będą modyfikowane w różnych kierunkach i trzeba je znać by taką modyfikację zauważyć! Proszę wiedzieć, co to znaczy, że estymator jest nieobciążony (ma wartość oczekiwaną równą wektorowi wartości nieznanych parametrów b) oraz najlepszy w danej klasie (ma najmniejszą wariancję, czyli macierz kowariancji dowolnego INNEGO liniowego nieobciążonego estymatora to V(b^) [macierz kowariancji est. MNK] plus pewna macierz nieujemnie określona)

 

 

Zajęcia 2

 

Celem zajęć jest wyrobienie u Państwa podstawowego rozumienia modelu KMRL – jego konstrukcji tj. założeń, twierdzenia Gaussa i Markowa i twierdzenia o wariancji resztowej. Ważne jest także oswojenie się z podejściem, podstawowymi pojęciami i notacją.

 

Twierdzenie G-M mówi o własnościach podstawowego estymatora (MNK) w podstawowym modelu (KMRL). W tym twierdzeniu możemy wyróżnić cztery elementy.

 

  1. Założenia – czyli model KMRL.
  2. Kryterium definiujące estymator – metoda najmniejszych kwadratów (MNK)
  3. Sposób realizacji estymatora – wzór analityczny  b^ = (X’X)-1X’y
  4. Własności tak uzyskanego estymatora (przy prawdziwości założeń) – nieobciążoność i optymalność w klasie estymatorów liniowych nieobciążonych, a ponadto jego macierz kowariancji V(b^) = s2(X’X)-1

 

Wymienionymi wyżej elementami zajmiemy się w tych zajęciach (w nieco innej kolejności)

 

ZAŁOŻENIA KMRL

 

Założenia KMRL w skrócie:

  1. y = Xb + e
  2. X jest macierzą nielosową (T ´ k)
  3. rz(X) = k
  4. E(e) =0
  5. V(e) = s2I

 

Proszę zwrócić uwagę na fakt, że założenia KMRL wymagają, by składnik losowy miał rozkład w którym ISTNIEJE wartość oczekiwana i wariancja – 4,5 założenie – np. w rozkładzie Cauchy’ego momenty 1,2 rzędu nie istnieją więc składnik losowy o tym rozkładzie nie spełnia założeń KMRL.

 

Żeby zrozumieć założenia KMRL dobrze jest zacząć od wzoru y = Xb + e, a następnie na każdy element modelu spojrzeć stosując trzy różne kryteria. Każdy element warto „rozpracować” pod kątem:

a)     interpretacji (jakie jest jego znaczenie)

b)     własności algebraicznych (czy to macierz czy wektor, jaki ma wymiar ew. rząd)

c)     własności statystycznych (czy to stała czy zmienna losowa, jeśli stała to znana czy nieznana, jeśli zmienna losowa to o jakim wymiarze, wartości oczekiwanej i macierzy kowariancji)

 

e grupuje nieobserwowalne składniki losowe (zakłócenia), to wektor (T ´ 1) i na mocy 4,5 założenia to T-wymiarowa zmienna losowa o wartości oczekiwanej będącej wektorem zerowym i macierzy kowariancji równej s2I. Równoważnie możemy powiedzieć, że składniki losowe każdej obserwacji et to zmienne losowe (jednowymiarowe) o zerowej wartości oczekiwanej, stałej wariancji wynoszącej s2 oraz nieskorelowane pomiędzy różnymi obserwacjami – czyli kowariancje (więc i korelacje) pomiędzy składnikami różnych obserwacji - np. e3 i e5 -wynoszą zawsze zero. Zapisy 5-go założenia:

V(e) = s2I

oraz

var(et) = s2 i cov(et,es) = 0 dla t,s = 1,2,...,T oraz tąs

są równoważne, tylko raz mamy zapis dla całego wektora e a raz dla poszczególnych jego elementów.

 

y grupuje obserwacje na zmiennej objaśnianej, to wektor (T ´ 1), a dokładniej wektor losowy (bo jest funkcją e). y to „wektor obserwacji”. Obserwacje modelujemy w ekonometrii jako zmienne losowe (obserwacje potencjalne – kiedy ogólnie rozważamy własności modelu) lub realizacje zmiennych losowych (obserwacje zarejestrowane, konkretne wartości). X nie nazywamy obserwacjami.

 

X grupuje wartości zmiennych objaśniających, to macierz (T ´ k) rzędu k, nielosowa (zawiera pewne znane stałe). Skoro jej rząd wynosi k, to Tłk. Ale zwróćmy też uwagę, że k nie może być zerem, więc X nie może zawierać samych zer.

 

b to grupuje nieznane parametry strukturalne modelu, to wektor (k ´ 1) zawierający nieznane stałe.

 

s2 to także nieznany parametr – wariancja składników losowych, to nieujemny skalar, pewna nieznana stała.

 

Interesuje nas, jak powstają wartości zmiennej objaśnianej oznaczanej y. Zakładamy, że możliwe wartości zmiennej objaśnianej powstają jako suma dwóch składników: składnika „deterministycznego” (systematycznego) i losowego. Składnik deterministyczny opisuje podstawowy mechanizm kształtowania się wartości y – pokazuje, że wartość y jest liniową funkcją wartości pewnych zmiennych „objaśniających”, oznaczanych tu ogólnie jako xi. Każdej zmiennej objaśniającej xi odpowiada stały lecz nieznany parametr bi tak, że składnik deterministyczny to suma iloczynów: ...+ bi xi +... . Jednak model dopuszcza, aby obserwowane wartości y nieco odbiegały od wartości teoretycznych (czyli deterministycznych). W tym celu do modelu wprowadza się jeszcze składnik losowy e („epsilon”), który ma odzwierciedlać oddziaływanie przypadkowych zakłóceń; e to pewna zmienna losowa o określonych własnościach. Ostatecznie obserwacje na zmiennej objaśnianej y powstają jako:

y = b1x1 + b2 x2 + … + bk xk +e.

Mamy więc w modelu k zmiennych objaśniających i wobec tego k parametrów b. Zakładamy, że mamy pewną ilość obserwacji na y (oraz odpowiadających im wartości wszystkich zmiennych objaśnianych x) – zakładamy, że mamy T obserwacji, które numerujemy od 1 do T oraz każda z tych obserwacji powstała w ten sam sposób:

 

y1 = b1x11 + b2 x12 + … + bk x1k +e1          (pierwsza obserwacja)

y2 = b1x21 + b2 x22 + … + bk x2k +e2

                     ....

yt = b1xt1 + b2 xt2 + … + bk xtk +et             (to typowa obserwacja o numerze t)

                     .....

yT = b1xT1 + b2 xT2 + … + bk xTk +eT+            (ostatnia obserwacja)

 

Zauważmy, że dla każdej obserwacji (jedna obserwacja to pojedyncza wartość [realizacja] zmiennej objaśnianej y ) różne są odpowiednie wartości zmiennych objaśniających ( xt1, xt2 ... xtk), ale parametry b są takie same – one się nie zmieniają. To samo można krócej zapisać korzystając z notacji macierzowej – dla każdej obserwacji osobno:

           yt = xtb +et

podając typową obserwację i pisząc dodatkowo (t = 1,...,T) – wtedy wiemy, że dla kolejnych obserwacji za t trzeba podstawić liczby od 1 do T. Oczywiście w takim zapisie b to wektor - kolumna (k ´ 1) parametrów bi , xt to wektor – wiersz (1 ´ k) wartości zmiennych objaśniających x1, x2 ... xk dla obserwacji o numerze t.

Można też zapisać wszystkie obserwacje razem:

           y = Xb +e

wtedy y oraz e to wektory kolumnowe (T ´ 1), b to wciąż wektor - kolumna (k ´ 1), a X to macierz (T ´ k) grupująca jeden pod drugim T wektorów xt z poprzedniego zapisu. W tym najogólniejszym zapisie w wektorze y np. w 5 wierszu jest wartość piątej obserwacji na zmiennej objaśnianej, w macierzy X w 5 wierszu i 3 kolumnie jest wartość trzeciej zmiennej objaśniającej (x3) odpowiadająca piątej obserwacji; trzeci element wektora b to b3, czyli parametr stojący zawsze przy trzeciej zmiennej objaśniającej (x3). Odpowiednio e5 to wartość składnika losowego w piątej obserwacji, jednak pamiętajmy, że składnik losowy jest nieobserwowalny – nie znamy jego wartości.

 

Proszę zwrócić uwagę na ogólną strukturę: Założenia opisują, jak wygląda PRAWDZIWY tzw. proces generujący dane – czyli jak powstają obserwacje. Zakładamy tu, że włączyliśmy do modelu WSZYSTKIE istotne zmienne, i że ich wpływ jest naprawdę LINIOWY. Oznacza to, że nie ma w modelu BŁĘDU SPECYFIKACJI – pominiętych zmiennych objaśniających lub nieliniowego oddziaływania – ewentualnie błąd specyfikacji jest taki, że daje się odwzorować składnikiem losowym o założonych własnościach.

 

Jak można rozumieć taki model i o co w tym chodzi? Zakładamy, że znamy zmienne które wpływają na y oraz postać zależności (liniową). Zauważmy, że mamy obserwacje na y (zmiennej objaśnianej), mamy wartości x – zmiennych objaśniających – więc czego szukamy? Szukamy nieznanych wartości parametrów bi zgrupowanych w wektorze b. Wartość każdego z tych parametrów odzwierciedla wpływ i-tej zmiennej objaśniającej na zmienną y. Wiemy (bo zakładamy), że zachodzi tu zależność liniowa, czyli wartość y składa się z sum : + bi xi + itd.

Skoro tak, to możemy wziąć tyle obserwacji, ile jest nieznanych parametrów bi  (czyli k) i mamy układ równań z k niewiadomymi: znamy wartości y, x więc można rozwiązać go ze względu na b.Jednak w praktyce mielibyśmy problem – powiedzmy, że mamy 50 obserwacji i 5 zmiennych objaśniających (x1, x2, x3, x4, x5). Kiedy weźmiemy obserwacje od 5 do 10 to wartości b wychodzą nam inne, niż kiedy weźmiemy obserwacje od 30 do 35. A kiedy weźmiemy więcej obserwacji niż 5 (np. wszystkie 50) to układ równań wychodzi sprzeczny. Dlaczego? Bo obserwowana wartość y nie jest dokładnie równa Xb , mamy jeszcze zakłócenia przypadkowe – a w układzie równań nawet niewielki błąd powoduje sprzeczność. Więc zakładamy, że y to liniowa funkcja X „mniej więcej”, w przybliżeniu – czyli wprowadzamy składnik losowy. Po co? Żeby sensownie postawić problem: jakie są wartości b? Tych wartości nie znamy, chcemy je poznać i to jest nasz problem:

Problem estymacji wektora b.

 

Jak sugeruje powyższe rozumowanie heurystyczne, składnik losowy e wprowadziliśmy, żeby móc sensownie rozważać estymację wektora nieznanych parametrów regresji b. Nasze możliwości poradzenia sobie z tym problemem będą zależeć w dużym stopniu od tego, co założymy o składniku losowym. Dlatego założenia o e są takie ważne i trzeba je dokładnie znać.

 

Twierdzenie Gaussa i Markowa o estymatorze Metody Najmniejszych Kwadratów (MNK):

Jeżeli założenia Klasycznego Modelu Regresji Liniowej (u nas ponumerowane od 1 do 5) są spełnione, to najlepszym (w klasie liniowych i nieobciążonych) estymatorem wektora nieznanych parametrów b jest estymator Metody Najmniejszych Kwadratów dany w tym akurat problemie wzorem: b^=(X’X)-1X’y [o macierzy kowariancji s2(X’X)-1]

 

Na co tu należy zwrócić uwagę? Mamy pewien układ założeń, i jeżeli te założenia są spełnione, to mamy pewien estymator który ma określone POŻĄDANE własności: nieobciążoność i optymalność w pewnej klasie. To jest bardzo ważne, bo moglibyśmy zastosować inny estymator, ale jest pytanie: jakie miałby własności? W ramach kursu ekonometrii większość czasu spędzimy na analizowaniu kolejnych układów założeń i zastanawianiu się, jak jest zdefiniowany estymator, jak go faktycznie uzyskać i jakie są jego własności.

Zauważmy, że mamy tu dany sposób uzyskania estymatora (Metoda Najmniejszych Kwadratów) oraz wynik zastosowania tej metody, czyli pewien wzór. Wykażemy poniżej, że taki wzór istotnie wynika z zastosowania MNK.

POŻĄDANE WŁASNOŚCI estymatora odkrywamy badając estymator przede wszystkim jako zmienną losową. Estymator jest funkcją obserwacji (czyli y) i jako taki jest zmienną losową.

 

WŁASNOŚCI ESTYMATORA MNK w KMRL:

 

NIEOBCIĄŻONOŚĆ: wartość oczekiwana estymatora jest równa szacowanemu parametrowi: E[b^] = b.

OPTYMALNOŚĆ/EFEKTYWNOŚĆ/NAJLEPSZOŚĆ W KLASIE: Rozważany estymator ma najmniejszą wariancję ze wszystkich estymatorów należących do danej klasy, a ściślej: macierz kowariancji dowolnego estymatora z tej klasy to macierz kowariancji estymatora optymalnego + pewna macierz określona nieujemnie:

V(b~) = V(b^) + FF’

Gdzie: b~ to dowolny estymator z rozważanej klasy, b^ to estymator optymalny (tu: MNK), zaś FF’ to macierz nieujemnie określona na mocy konstrukcji.

Wobec tego elementy na przekątnej V(b~) są co najmniej takie jak na przekątnej V(b^) – czyli wariancja b~ ł wariancji b^.

 

Ponadto:

Estymator MNK jest LINIOWY – czyli jest liniową funkcją obserwacji, tj. y. Oznacza to, że daje się zapisać w postaci b^=Ay +b. Liniowość może nam ułatwiać czasem życie, ale sama w sobie nie jest pozytywną cechą – jest neutralna.

 

Zauważmy, że z wymienionych własności nieobciążoność odnosi się od wartości oczekiwanej estymatora MNK, a optymalność w klasie do jego macierzy kowariancji. Czyli do interesujących nas spraw dochodzimy badając ROZKŁAD estymatora MNK (charakterystyki tego rozkładu). Ponieważ wartością oczekiwaną E(b^)  zajmie się Profesor na wykładzie, rzućmy okiem na V(b^):

 

Ogólnie:

Jeżeli pewna m-wymiarowa zmienna losowa z ma macierz kowariancji S, to n-wymiarowa zmienna w, będąca liniową transformacją z, tj:

Jeśli V(z) = S oraz w = Az +b, gdzie A, b są znane i A to macierz (n ´ m), to w ma macierz kowariancji daną wzorem: V(w) = ASA’

 

Więc: skoro na mocy pierwszego założenia y jest liniową funkcją e [y = Xb + e], to po podstawieniu A=I, b = Xb, otrzymujemy V(y) = I s2I I’ = s2I

Ponieważ b^=(X’X)-1X’y, czyli b^=Ay, gdzie A=(X’X)-1X’ i b = 0 – co oznacza, że estymator MNK jest liniowy – bo jest liniową funkcją obserwacji, czyli y. Możemy teraz analogicznie wyprowadzić wzór na V(b^) = (X’X)-1X’ (s2I) [(X’X)-1X’]’

(ale z własności transpozycji iloczynu (AB)’ = B’A’ mamy:[(X’X)-1X’]’=X(X’X)-1, gdzie ostatniego (X’X)-1 nie trzeba transponować, bo jest to macierz symetryczna tj. o własności B’ = B. Ostatecznie:

V(b^) = (X’X)-1X’ (s2I) [(X’X)-1X’]’= (X’X)-1X’ (s2I) X(X’X)-1 = s2 (X’X)-1X’I X(X’X)-1 = s2 (X’X)-1X’X(X’X)-1= s2(X’X)-1

Czyli dostajemy to co w twierdzeniu Gaussa-Markowa

 

PODKREŚLMY JEDNO WAŻNE ROZRÓŻNIENIE:

(nieznana wielkość a jej estymator)

 

W modelu mamy NIEZNANE STAŁE - które chcemy szacować, rozważamy w tym celu odpowiednie ESTYMATORY. W używanym tu podejściu nieznane wielkości podlegające estymacji są NIELOSOWE (na mocy założeń), natomiast ich estymatory to ZMIENNE LOSOWE – bo sensowne estymatory muszą być funkcją obserwacji, czyli zmiennych losowych. Żeby znaleźć pożądane własności estymatorów przede wszystkim badamy ich rozkład – jak wyżej pokazano.

Ważne rozróżnienie o którym tu mowa to rozróżnienie NIEZNANEJ WIELKOŚCI od JEJ ESTYMATORA.

Na mocy twierdzenia Gaussa i Markowa:

Mamy parametry regresji b (nieznane stałe) i ich estymator b^ [zmienna losowa: E(b^) = b, oraz V(b^) = s2(X’X)-1 ]

Na mocy twierdzenia o wariancji resztowej:

Mamy parametr struktury stochastycznej s2 (nieznana stała nieujemna) i jego estymator s2 [zmienna losowa: E(s2) = s2, bo estymator jest nieobciążony]

Z jednego i drugiego:

Mamy macierz kowariancji estymatora MNK (nieznana stała)  V(b^) = s2(X’X)-1  i jej estymator V^(b^) = s2(X’X)-1 [to zmienna losowa, E[V^(b^)] = s2(X’X)-1 ].

Podkreślamy tu to rozróżnienie – nie tylko dlatego, że estymator jest zmienną losową a szacowana wielkość nie. Także dlatego, że takie rozróżnienie jest konieczne dla jasności myślenia – musimy dokładnie wiedzieć co szacujemy, bo czasem np. szacowana wielkość może nie istnieć - wtedy oczywiście estymator można sobie policzyć ale nie ma on żadnego sensu.

 

PODKREŚLMY DRUGIE WAŻNE ROZRÓŻNIENIE:

(zmienna losowa a jej realizacja)

 

Dla zmiennych losowych szczególnie ważne jest rozróżnienie pomiędzy zmienną a jej realizacją. Jest to tym ważniejsze, że w zapisie nie rozróżniamy zmiennej od jej realizacji. Rozumienie tego rozróżnienia powinni Państwo wynieść ze statystyki, ja mam dla Państwa pewną prościutką i trywializującą heurystyczną intuicję:

 

procedura rzutu kostką to zmienna losowa – można badać jej własności (zmienna ma rozkład dyskretny 6-cio punktowy; można badać ile wychodzi przeciętnie – czyli badać wartość oczekiwaną (3,5), ogólnie rozważamy co się przeciętnie dzieje, co zazwyczaj bądź średnio wychodzi, czyli co mogłoby się stać.

4 oczka – to realizacja zmiennej losowej – to jest wynik konkretnego rzutu kostką. Tu już nie ma miejsca na to co mogłoby być, bo jest i koniec. Ale możemy się zastanawiać „skąd się wzięło” czyli jakiej zmiennej to realizacja. Ale całe „gdybanie” czyli „inne potencjalne możliwości” które są obecne w zmiennej losowej tu już zostały odrzucone na korzyść tej jednej konkretnej która się zrealizowała.

 

Różnica jest taka jak między funkcją a wartością funkcji. Możemy rozważać własności funkcji y = x2 – jej pochodne, monotoniczność itd. Ale kiedy mamy y = 4 to nie ma co się zastanawiać czy 4 jest rosnące czy malejące.

 

Dla nas zmienne losowe to np. y – obserwacje. Potencjalne, możliwe do zaobserwowania (na poziomie specyfikacji modelu). Tak traktujemy y np. w dowodzie twierdzenia Gaussa i Markowa. Kiedy jednak mamy konkretny problem empiryczny i konkretne obserwacje – pewne liczby – to są dla nas realizacje zmiennej losowej. I pytanie jak ona mogła się zrealizować inaczej (przynajmniej na gruncie ekonomii) ma ograniczony sens. Tu zajmujemy się w szczególności estymatorami – ogólnie dla badania własności estymatora traktujemy go jako zmienną losową. Przy zastosowaniu mając konkretne wartości obserwacji (realizacje y) – wyliczamy REALIZACJĘ ESTYMATORA czyli OCENĘ lub OSZACOWANIE – pewną konkretną liczbę/liczby.

 

KRYTERIUM DEFINIUJĄCE ESTYMATOR i JEGO REALIZACJA

 

Jak pokazać, że wzór macierzowy na estymator MNK czyli b^=(X’X)-1X’y rzeczywiście wynika z zastosowania Metody Najmniejszych Kwadratów? (i na czym właściwie ona polega?)

Czyli: jak pokazać, że kryterium definiujące estymator (MNK) daje się rzeczywiście zrealizować takim wzorem analitycznym

 

Jakie są własności analityczne (abstrahując od statystycznych) wzoru (X’X)-1X’y? Wyjdźmy od zapisu y = Xb + e; gdzie y i X są dane, ustalone, natomiast wartość wektora b należy znaleźć (wtedy wartość e jest także ustalona). Z powyższej równości wynika, że e = y – Xb. e to „reszty”, czyli ta część wartości zmiennej objaśnianej której nie udało się „objaśnić” za pomocą liniowej kombinacji zm. objaśniających Xb. Ten  „wektor reszt” odpowiada czynnikom nieznanym, przypadkowym, itd. – ogólnie nie uwzględnionym przez naszą teorię odzwierciedloną w systematycznej części Xb. Chcemy tak dobrać wartość b, by wektor reszt był jak najmniejszy. Co to znaczy jak najmniejszy w odniesieniu do wektora? Mamy pojęcie normy (długości) wektora ||e|| = (e12+e22+....+ek2)^0.5 = (e’e)^0,5. Minimalizacja normy e jest tożsama z minimalizacją e’e (bo pierwiastek kwadratowy ^0.5 jest funkcją monotoniczną, nie zmienia lokalizacji minimum). Oznaczamy przez S(b) = e’e = (y-Xb)’(y-Xb) tak zwaną „sumę kwadratów reszt”. Traktujemy ją jako funkcję b przy ustalonych wartościach X oraz y. Dla znalezienia wartości parametrów b które minimalizują rozważaną funkcję zastosujemy standardowe narzędzia analityczne stosowane do badania ekstremum funkcji wielu zmiennych.

S(b) = e’e = (y-Xb)’(y-Xb) = y’y - y’ Xb – (Xb)’y + (Xb)’ Xb = y’y – y’ Xb – b’X’y +  b’X’Xb = y’y – 2y’ Xb  +  b’X’Xb

 

[korzystamy tu z własności (Xb)’= b’X’ oraz z tego, że y’ Xb oraz b’X’y to skalary, i jeden jest transpozycją drugiego {[ b’X’y ]’ = y’Xb}, a ponieważ skalar transponowany to on sam, otrzymujemy  – y’ Xb – b’X’y = – 2y’ Xb]

 

Po wymnożeniu S(b) = y’y – 2y’Xb+b’X’Xb. Korzystamy ze wzorów na pochodne 1-go i 2-go rzędu funkcji f(x;a,B)=a’x+x’Bx [gdzie B=B’].

 

 

Oczywiście x-owi (czyli zmiennym) odpowiada u nas b, natomiast a i B to wektor i macierz ustalonych parametrów – u nas funkcje X i y. Aby zminimalizować S(b), znajdujemy wartość b* dla której zeruje się wektor pierwszych pochodnych S(b) oraz sprawdzamy, czy w tym punkcie macierz 2-gich pochodnych S(b) jest dodatnio określona. [takie są kryteria minimalizacji dla funkcji wielu zmiennych] Zerowanie pierwszych pochodnych odpowiada spełnieniu przez wektor b układu równań liniowych: X’X b = X’y [ten moment jest ważny!!] co zachodzi dla b* = (X’X)-1 X’y. (zakładając, że X’X da się odwrócić, czyli że rz(X)=k – zał. 3). Macierz 2-gich pochodnych S(b) to 2X’X; a że X’X (a więc i 2X’X) jest dodatnio określona i nie zależy od b, z czego wynika że spełnione są warunku globalnej optymalizacji wobec czego b* to GLOBALNE MINIMUM SUMY KWADRATÓW RESZT (dla y=Xb+e). Tak pokazaliśmy, że stosowanie wzoru o postaci estymatora MNK = (X;X)-1X’y jest operacyjnie tożsame z procedurą MINIMALIZACJI SUMY KWADRATÓW RESZT

[co zapisujemy b^=(X’X )-1X’y = arg min S(b)].

Z kolei minimalizacja sumy kwadratów reszt jest równoważna minimalizacji długości wektora reszt.

 

(szczegóły wyprowadzenia – dla chętnych – na stronie o algebrze macierzowej)

 

Mamy tu przejście od kryterium definiującego estymator (czyli MNK) do jego realizacji (poprzez wzór analityczny). Możemy więc pokazać skąd w twierdzeniu G-M wziął się taki akurat wzór. Później poznamy modele dla których nie są znane ogólne analityczne metody spełnienia kryterium definiującego estymator i dla jego realizacji trzeba się odwoływać do metod numerycznych.

 

STOSOWANIE estymatora MNK w KMRL – wstęp, postać zależności między zmiennymi

 

Aby swobodnie posługiwać się takim narzędziem jak estymator MNK muszą Państwo

1)     rozumieć dobrze zapis

2)     umieć przyrównać konkretny problem do założeń KMRL

 

Pierwszy punkt wymaga ćwiczenia notacji macierzowej, przechodzenia między różnymi rodzajami zapisu (jak powyżej dla y) oraz nauczenia się na pamięć założeń KMRL.

Drugi punkt wymaga rozumienia, co to jest y, X i jak się je konstruuje. W szczególności ważne jest, by umieć na podstawie problemu i danych z zadania prawidłowo zapisać macierze i wektory y, X oraz b, czyli żeby umieć konkretny model zależności między zmiennymi sprowadzić do y = Xb +e. Zauważmy, że w równaniu regresji wszystko musimy zaliczyć do jednej z tych kategorii – czyli nie może nam zostać nic, co nie jest ani y, X ani b (zwykle w zadaniu w formułowaniu zależności jest jasne co jest epsilonem)

 

JUŻ OSTATNIE W TYCH ZAJĘCIACH WAŻNE ROZRÓŻNIENIE:

(zmienna w regresji a wielkość ekonomiczna)

 

Można tu wprowadzić rozróżnienie pomiędzy „wielkością ekonomiczną” a „zmienną w regresji”. Rozróżnienie to zostanie rozwinięte w zajęciach 3, ale tu je zarysujmy:

-wielkości ekonomiczne to pewne zmienne mające interpretację ekonomiczną – wielkości niemierzalne są poza zasięgiem ekonometrii. To np. wielkość PKB, stopa inflacji, średnia stopa procentowa w danym roku, nakłady pracy w danym przedsiębiorstwie w chwili t, obserwowane wydatki na żywność itd.

-zmienne w regresji (objaśniające/objaśniane) – to odpowiednie kolumny w macierzy X lub wektorze y.

 

Dlaczego to rozróżnienie jest ważne? Bo zmienną w regresji może być np. logarytm wielkości ekonomicznej, iloraz 2 wielkości, itd. ogólnie dowolna ich funkcja. Z niewielu wielkości ekonomicznych można stworzyć wiele zmiennych w regresji (lub odwrotnie).  Model dla tych samych wielkości ekonomicznych można specyfikować stosując różne zmienne w regresji – damy na to przykłady w kolejnych zajęciach. Wszelkie interpretacje, techniki wnioskowania itd. dotyczą bezpośrednio zmiennych w regresji, zaś przedmiotem zainteresowania badacza są zwykle wielkości ekonomiczne, i całe wnioskowanie będziemy chcieli sprowadzić jak najbliżej wielkości ekonomicznych.

 

Ważną umiejętnością jest przekształcanie konkretnego równania regresji do postaci y = Xb +e - jeśli się to zrobi źle, jest to tak podstawowy błąd, że za całe zadanie będzie 0 punktów na kartkówce.

Zabieramy się do tego następująco: Po pierwsze zastanawiamy się, co jest zmienną a co parametrem: czego wartości znamy a czego nie. Jeśli w równaniu występują znane stałe liczbowe, to zwykle „wciągamy” je do zmiennych. Kiedy już wiemy, co jest nieznanym parametrem, musimy sprawdzić, czy równanie ma postać liniową, czyli składnik losowy jest dodawany (występuje ..+et) oraz, czy równanie jest liniowe względem nieznanych parametrów: czyli czy występują w równaniu składniki sumy + bi xi + czyli „+ wielkość nieznana * wielkość znana +”. Identyfikujemy zmienną objaśnianą (zwykle zapisywana po lewej stronie równości, ale to konwencja, bo co jest zmienną objaśnianą to wynika z treści zadania) – uwaga: wtedy wszystko co jest po lewej stronie traktujemy jako zmienną, więc jeśli mamy tam np. ln Z gdzie Z to pewna wielkość ekonomiczna, to zmienną objaśnianą jest ln Z a nie Z – nawet jeśli po lewej stronie jest ln y, to mimo, że w zapisie założeń KMRL (tylko na mocy umownej konwencji) oznaczamy przez y zmienną objaśnianą, nie można dać się zwieść – tutaj można by napisać y = ln y gdyby to nie była sprzeczność oznaczeń. Podobnie ze zmiennymi objaśniającymi: w każdym składniku [+ bi xi + czyli „+ wielkość nieznana * wielkość znana +”] musimy zidentyfikować nieznany parametr [bi] i cała reszta jest wtedy [xi].

Z pary + bi xi + wielkość [bi] musimy wstawić na j-tym miejscu do wektora b, natomiast wartości zmiennej xi muszą tworzyć j-tą kolumnę macierzy X – nie jest ważne, która to będzie kolumna czy miejsce w wektorze, ważne jest, żeby była ta sama – jeśli parametr umieszczamy np. na 3 pozycji w wektorze b, to wartości odpowiadającej mu zmiennej objaśniającej MUSZĄ być umieszczone w 3 kolumnie macierzy X.

 

Jeśli mamy na przykład w równaniu po prawej stronie +a1gt + i z opisu wynika, że g to pewna wielkość ekonomiczna która może pełnić rolę zmiennej objaśniającej, wtedy a1 jest elementem wektora b, a wartości g wchodzą do macierzy X. Można też zauważyć przy g indeks obserwacji t : [gt] – oznacza to, że wartości g są inne dla każdej obserwacji, więc nie może być to parametr, bo parametry są stałe; a skoro nie może być to parametr, to musi „wchodzić” do zmiennej objaśniającej w regresji.

Jeśli w równaniu występuje +a0+.... i z kontekstu wynika, że wartość a0 jest nieznana, to rozumiemy to jako [1*a0], więc nieznanym parametrem (elementem wektora b) jest a0, a zmienną objaśniającą xi jest jedynka.

Jeśli w równaniu występuje np. +2b3 ln Lt+, to parametrem jest b3, a zmienną objaśniającą w regresji [2*ln Lt]. Podobnie, jeśli w równaniu mamy +2l(lnZt*lnVt)+, to parametrem jest l a zmienną (objaśniającą) w regresji [2lnZtlnVt] [ln to logarytm naturalny]. W tym ostatnim wypadku zmienna w regresji jest funkcją dwóch wielkości ekonomicznych Zt i Vt – w tym przykładzie widać, że równanie jest liniowe ze względu na parametr l natomiast może być nieliniowe ze względu na wielkości ekonomiczne (zamiast funkcji liniowej mamy iloczyn logarytmów).

Przykład:

Model ma postać:

ln zt= a0 + a1ln ht + a2gt + 3 q (vt^St) + et.. (tu daszek oznacza potęgę)

w tym wypadku mamy w modelu wielkości ekonomiczne zt, ht, gt, vt, St (zakładam, że są one po prostu odpowiednio zdefiniowane, to wynika każdorazowo z problemu jaki badamy {lub z opisu w zadaniu}); jednakże zmienne w regresji są następujące:

zmienna objaśniana [ln zt]

zmienne objaśniające: (podaję postać wektora x t według zapisu powyżej):  [1    ln ht    gt     3(vt^St)]

postać wektora b = [a0    a1    a2    q]' (na końcu jest transpozycja, bo beta to wektor-kolumna).

W równaniu może występować zmienna „czasowa” t – numer okresu (jeśli dane mają charakter szeregu czasowego) – wtedy w macierzy X mamy po prostu kolumnę kolejnych wartości t – zwykle naturalnych 1  2  3  4  itd. – jaki będzie wyraz początkowy i jaka różnica między kolejnymi wyrazami to w zasadzie nie ma znaczenia, ale dla interpretacji zwykle przyjmujemy krok 1 – wtedy interpretacja „wzrostu t o 1” brzmi:  „z okresu na okres”

 

Zwróćmy uwagę na rolę 2-go założenia: skoro X jest macierzą nielosową, to nie mogą w niej występować elementy y, który jest losowy. Rozważmy równanie w którym wielkość sprzedaży w okresie t (ozn. zt ) jest objaśniana przez cenę pt oraz wielkość sprzedaży w okresie poprzedzającym (ozn. zt-1 ):

zt = a0 + a1 pt + a2zt-1 +  et.

taka specyfikacja wydaje się interesująca z ekonomicznego punktu widzenia, ale NIE SPEŁNIA ZAŁOŻEŃ KMRL, bo opóźniona wartość zmiennej objaśnianej występuje po prawej stronie jako zmienna objaśniająca – co sprawia, że w macierzy X pojawiają się zmienne losowe. Oczywiście opóźnienia „zwykłych” zmiennych objaśniających – uznanych za nielosowe – mogą występować po prawej stronie równania regresji i w macierzy X.

 

Proszę zwrócić także uwagę na rząd macierzy X! Na mocy założenia 3 musi być to „pełen rząd kolumnowy” – więc kolumny X muszą być liniowo niezależne – żadna nie może być liniową funkcją innych (ale nieliniową tak). Więc jedna zmienna objaśniająca w regresji nie może być liniową funkcją innej.

Gdyby równanie regresji miało postać:

ln zt= a0 + a1ln ht + a2gt + 2a3ln ht + et

wtedy konstrukcja wektora xt o postaci: [1    ln ht    gt     2ln ht] byłaby w sprzeczności z założeniem KMRL wymagającym, by rząd macierzy X wynosił k – w tym wypadku kolumny 2 i 4 są liniowo zależne więc rząd macierzy X’X nie wynosi k=4 tylko 3.

Ale uwaga, równanie:

ln zt= a0 + a1ln ht + a2gt + a3 ht^2 + et

jest OK., bo tu druga zmienna w regresji (objaśniająca) jest funkcyjnie zależna od czwartej, ale to nie jest zależność liniowa i macierz X może mieć pełen rząd kolumnowy.

Kiedy mamy konkretne liczbowe wartości macierzy X i chcemy sprawdzić, czy spełniają one założenie o rzędzie macierzy, najłatwiej zrobić to wyliczając macierz X'X (która jest kwadratowa) i sprawdzić, czy jest ona rzędu k (czyli policzyć jej wyznacznik, jeśli wyjdzie zero – X'X nie jest rzędu k więc X nie jest rzędu k) – patrz strona o algebrze macierzowej.

 

Podsumowanie

 

W niniejszych zajęciach zajmujemy się modelem KMRL, jego założeniami i podstawowym twierdzeniem (Gaussa-Markowa). Powinni Państwo potrafić dość dokładnie omówić 4 elementy tego twierdzenia wskazane na początku. W szczególności badaliśmy:

-        własności statystyczne estymatora MNK (wartość oczekiwaną, macierz kowariancji i wynikające stąd nieobciążoność i optymalność w klasie linowych i nieobciążonych).

-        własności algebraiczne estymatora MNK – czyli fakt, że odpowiedni wzór wynika z minimalizacji sumy kwadratów reszt.

Proszę także znać twierdzenie o wariancji resztowej.

Omówiliśmy także pewne praktyczne aspekty stosowania estymatora MNK w konkretnym zadaniu – jak rozpoznać co jest zmienną a co parametrem, jak zapisać równianie regresji, sprawdzić czy spełnia ono założenia KMRL, jak stworzyć macierz X itd. Przy okazji powinni Państwo zapoznać się z typowym sposobem stawiania zagadnień i ze stosowaną notacją.

 

Podstawowe umiejętności konieczne do rozwiązywania zadań:

 

  1. Poprawne rozpoznanie co jest zmienną objaśnianą, co jest zmienną objaśniającą a co parametrem, zapisanie na podstawie danych i równania regresji wektorów y, b oraz macierzy X – umiejętność zasadnicza, bo inaczej całe zadanie będzie źle. Przypominam, że parametr nie może mieć indeksu t, a wszystkie elementy znane (np. stałe) umieszczamy w zmiennych objaśniających. Sprowadza się to do zapisania równania regresji i zidentyfikowania jego elementów. Czasem postać równania regresji nie jest dana wprost, trzeba ją odczytać z treści zadania.
  2. Sprawdzenie, czy założenia KMRL są spełnione. W odniesieniu do równania regresji należy w szczególności upewnić się, że:

a)      Składnik losowy jest addytywny, czyli w równaniu występuje ...+et, a nie np. ...*eet lub ...*et.

b)     Równanie jest liniowe względem parametrów (czyli gdy wyliczymy pochodną po każdym parametrze po kolei to ŻADEN parametr się w tej pochodnej nie pojawi – zostaną tylko kolejne zmienne objaśniające). Przykładowo wyrażenie + a0a1gt + jest nieliniowe ze względu na parametry (założenia KMRL NIE spełnione), natomiast wyrażenie + a0htgt+ jest nieliniowe ze względu na wielkości ekonomiczne ht i gt (tu założenia KMRL SĄ spełnione, tylko że htgt jest traktowane jako pojedyncza zmienna w regresji).

c)     Postać równania nie wyklucza spełnienia założenia o rzędzie macierzy – żadna zmienna objaśniająca (zmienna w regresji) nie jest liniową funkcją innych zmiennych objaśniających (nieliniową może być).

Jeżeli stwierdzimy, że założenia KMRL NIE są spełnione, pomyślmy, czy poprzez pewną transformację (np. zlogarytmowanie) nie da się równania sprowadzić do postaci zgodnej z KMRL.

 

  1. Wyliczenie (punktowych) ocen MNK nieznanych parametrów, czyli zastosowanie wzoru: b^=(X’X)-1X’y. Analitycznie powinni Państwo być w stanie zrobić to dla macierzy X z max 3 kolumnami. Proszę korzystać z symetrii X’X i nie wyliczać 2 razy tego samego, proszę używać pamięci w kalkulatorze, proszę szczególnie uważać przy ostatnim kroku, tj. (X’X)-1 razy X’y.

 

  1. To samo co powyżej tylko Excelem i bez ograniczenia wymiaru macierzy X. Proszę sprawnie posługiwać się nazwami, odpowiednimi funkcjami oraz magiczną kombinacją klawiszy F2  SHIFT+CTRL+ENTER.

 

Problem do przemyślenia na następne zajęcia:

 

 Proszę samodzielnie sprawdzić, dokonując odpowiednich podstawień i obliczeń w przykładowej regresji w arkuszu:

 

  1. ile wynosi średnia RESZT MNK, czyli (y - Xb^ )
  2. czy się zmienia, jeśli z regresji usuniemy wyraz wolny (i kolumnę jedynek z X)
  3. ile wynosi iloczyn (y - Xb^ )’(Xb^) – (czyli reszt MNK oraz y teoretycznego).
  4. co się stanie z ocenami parametrów, jeśli wartości jednej zmiennej objaśniającej (kolumnę X) przeskalujemy (pomnożymy przez stałą równą c)
  5. co się stanie z ocenami, jeśli przeskalujemy wartości zmiennej objaśnianej.
  6. co się stanie z ocenami parametrów, jeśli zmienimy kolejność obserwacji (czyli kolejność wierszy w X i y!!)? (proszę je odpowiednio przesortować rosnąco/malejąco według dowolnej kolumny X nie licząc jedynek (Narzędzia->dane->sortuj)
  7. co się stanie, jeśli zmienimy kolejność kolumn w macierzy X.
  8. co by się stało, gdyby równanie regresji miało postać:

 

lnQt = a0+a1 lnLt + a2 ln Lt + a3 ln Kt  + et

 

We wszystkich przypadkach proszę pomyśleć i spróbować uzasadnić dlaczego tak jest?