Zajęcia 5

Wnioskowanie w KMNRL II

 

Podsumowanie zajęć poprzednich / Wprowadzenie

 

Na ćwiczeniach i laboratoriach oswajaliśmy wnioskowanie o pojedynczym parametrze regresji w KMNRL. Rozważaliśmy test typu t oraz konstrukcję przedziału ufności. Test t ma być dla Państwa przypomnieniem ogólnych własności i procedur testowania istotności – na tym podstawowym przykładzie mieli Państwo nabrać wprawy. W tle przedstawiliśmy również problemy które próbujemy rozwiązywać stosując omawiane testy – problem badania istotności wpływu zmiennej czy doboru zmiennych do modelu. Na wykładzie Profesor przedstawił dalsze możliwości i techniki wnioskowania w KMNRL – łączne wnioskowanie o wielu parametrach regresji – co będzie przedmiotem tych zajęć.

 

Zajęcia 5

 

Celem zajęć jest przedstawienie i przećwiczenie technik wnioskowania o łącznej istotności wielu parametrów regresji w KMNRL

 

W poprzednich zajęciach zwróciliśmy uwagę na fakt, że testowanie hipotez sprowadza się do porównywa modeli. W zapisie hipotez stosowanym przy przedstawianiu testu istotności pojedynczego parametru regresji:

H0: bi=bi*

H1: bi¹bi*

milcząco zakładamy, że „cała reszta” modelu w H0 i H1 jest taka sama, że hipotezy powyższe specyfikują jedyną różnicę między dwoma rozważanymi modelami. Podkreślaliśmy też, że wynik testu zależy oczywiście od tego, jaka jest ta „pozostała struktura modelu”.

Rozważmy przykładowe równanie regresji:             (oczywiście wszędzie w tych Zajęciach zakładamy, że et ~ iiN(0, s2) )

ht = a0 + a1 zt+a2 gt+a3 ln vt+ et ;

przypuśćmy, że chcemy zbadać istotność parametru a2 – w tym wypadku testowane hipotezy:

H0: a2=0

H1: a2¹0

można zapisać równoważnie jako:

H0: ht = a0 + a1 zt+ a3 ln vt+ et ;

H1: ht = a0 + a1 zt+a2 gt+a3 ln vt+ et ;

Przy czym drugi zapis explicite ujawnia całą strukturę modelową: gdyby była ona inna, test miałby inny wynik.

W poprzednich zajęciach zawarta była sugestia, że tego typu test mógłby się wiązać z badaniem istotności wpływu zmiennej gt na zmienną ht lub z rozważaniem usunięcia zmiennej gt z modelu. Podnoszone było zastrzeżenie, że wyniku testu „nie ma podstaw do odrzucenia H0” nie można bezpośrednio i automatycznie przekładać na decyzję o przyjęciu H0.

 

Na podstawie wyniku takiego testu oraz własnych reguł decyzyjnych pewien badacz mógłby podjąć decyzję, czy usunąć zmienną gt z modelu czy nie. Zauważmy jednak, że powyższy test zakłada, że „pozostała” struktura modelu nie podlega weryfikacji – czyli znamy status wszystkich innych zmiennych i rozważamy tylko tę jedną. Tymczasem w praktyce zwykle nasze wątpliwości co do zmiennych są bardziej równomiernie rozłożone.

Dotykamy tu problemu

 

DOBORU ZMIENNYCH DO MODELU

 

Rozważany w niniejszych zajęciach test łącznej istotności kilku współczynników regresji jest podstawowym narzędziem wnioskowania statystycznego stosowanym do zmierzenia się z tym problemem. Zastanawiając się jakie zmienne włączyć do modelu, zwykle na podstawie doświadczenia, literatury itd. jesteśmy w stanie wyspecyfikować pewną grupę zmiennych kandydackich, których wykorzystanie należałoby rozpatrzyć. Możemy następnie rozważać modele liniowe z różnymi kombinacjami tych zmiennych i porównywać je. W tym celu musimy dysponować narzędziem, które pozwoli nam formalnie zadać pytanie o istotność całej grupy parametrów (zmiennych).

Powracając do powyższego przykładu przypuśćmy, że model:

ht = a0 + a1 zt+a2 gt+a3 ln vt+ et ;

zawiera wszystkie zmienne kandydackie jakie wzięliśmy pod uwagę. Jak jednak sprawdzić, czy dla prowadzonych badań nie wystarczyłby model prostszy o postaci:

ht = a0 + a3 ln vt+ et .

Porównywanie takich modeli wymagałoby testowania hipotezy zerowej o postaci:

H0: a1=0 ORAZ a2=0 ,

jej zaprzeczeniem byłoby:

H1: a1¹0 LUB a2¹0

(to wynika z logiki: zaprzeczenie koniunkcji to alternatywa zaprzeczeń)

Widać, że omawiany wcześniej test typu t nie daje się tu zastosować – rozważamy ŁĄCZNE zerowanie KILKU współczynników regresji. Do tego typu hipotez stosować będziemy omówiony dokładniej poniżej test F.

Pytanie: „czy model bardziej ogólny daje się ograniczyć do modelu prostszego?” nazywamy zagadnieniem redukcji modelu – model prostszy (tzw. zredukowany) jest tu pewnym szczególnym przypadkiem modelu ogólnego – sytuację taką nazywamy też ZAGNIEŻDŻENIEM modeli.

 

Wracając do problemu doboru zmiennych – wyobraźmy sobie, że mamy grupę zmiennych kandydackich i rozważamy RÓŻNE kombinacje tych zmiennych. Za pomocą testu F możemy porównywać ze sobą modele ZAGNIEŻDŻONE tzn. takie, że testowana hipoteza zerowa o postaci jak powyżej sprowadza jeden model do drugiego – jak w powyższym przykładzie – możemy zatem rozważać REDUKCJĘ modelu. Gdybyśmy jednak mieli modele o postaci:

A)    ht = a0 + a1 zt+a2 gt+a3 ln vt+ et ;

B)     ht = a0 + a1 xt+ a3 ln vt+ et ;

to ich bezpośrednie porównanie w ten sposób nie byłoby możliwe – model A zawiera zmienną zt której nie ma w modelu B, natomiast model B zawiera zmienną xt której nie ma w modelu A – żaden z modeli nie jest szczególnym przypadkiem drugiego, nie zachodzi tu zagnieżdżanie, nie da się wprost testować redukcji. Jak można postąpić w takim przypadku? Modele zwykle można sztucznie zagnieździć. Możemy rozważyć trzeci model, C taki, że zarówno A jak i B będą jego szczególnymi przypadkami. Tu miałby on postać:

C)    ht = a0 + a1 xt+a2 gt+a3 ln vt+ a4 zt+et .

W takim przypadku redukcji C do A odpowiadałaby hipoteza:

H0: a1= 0,

Natomiast redukcji C do B:

H0: a2=0 ORAZ a4=0,

Mając grupę zmiennych kandydackich moglibyśmy rozważyć model najbardziej ogólny (ze wszystkimi zmiennymi) a następnie na różne sposoby go redukować. Ostatecznie można by było np. wybrać taką redukcję która będzie NAJMNIEJ odrzucana (najsłabsze odrzucanie to najwyższe p-value w teście redukcji - nie powinno to być jedyne kryterium). Taki sposób postępowania nie zawsze jest praktyczny, nie zawsze też da się sztucznie zagnieździć modele. Jednak testowanie łącznego zerowania kilku współczynników regresji stanowi podstawowe narzędzie wnioskowania o doborze zmiennych do modelu.

Po tych wstępnych uwagach przedstawmy dokładniej procedurę testową:

 

TEST F: BADANIE ŁĄCZNEJ ISTOTNOŚCI KILKU WSPÓŁCZYNNIKÓW REGRESJI

 

zapis hipotez

 

Postać hipotez jest taka jak to omówiono powyżej, czyli w hipotezie zerowej zakładamy równoczesne zerowanie kilku parametrów, hipoteza alternatywna mówi, że przynajmniej jeden z nich się nie zeruje. W ogólnym zapisie można podzielić wektor b na bloki (pod-wektory) b(1) i b(2) grupując wszystkie k2 testowane parametry w bloku b(2) (k1 parametrów w b(1) się nie zeruje, analogicznie dzielimy macierz X – X(2) to wybrane k2 kolumny odpowiadające zmiennym których istotność testujemy, X(1) to k1 kolumn odpowiadających zmiennym wspólnym modelowi ogólnemu i zredukowanemu) Wtedy:

H0: b(2)=0 ,

H1: b(2)¹0

Co można inaczej zapisać jako:

H0: y = X(1)b(1) + e ,

H1: y = X(1)b(1) + X(2)b(2) + e

 

W redukcji modelu C do B z przykładu powyżej:

k1 = 3 (są 3 zmienne wspólne, czyli tyle parametrów się nie zeruje, czyli tyle jest zmiennych w modelu zredukowanym B)

k2 = 2 (testujemy zerowanie 2 parametrów)

k = k1 + k2 = 5 (tyle jest zmiennych w modelu ogólnym C)

typowy wiersz X(1) ma postać: [1     xt      ln vt]

typowy wiersz X(2) ma postać: [gt     zt]

b(1)= [a0    a1     a3]’

b(2)= [a2    a4]’

Hipotezy:

H0: a2=0 ORAZ a4=0

H1: a2¹0 LUB a4¹0

Lub równoważnie

H0: ht = a0 + a1 xt+ a3 ln vt+ et

H1: ht = a0 + a1 xt+a2 gt+a3 ln vt+ a4 zt+et

 

postać statystyki testowej

 

Zastanówmy się, do czego może odwoływać się sprawdzian testu typu F. Rozważamy usunięcie kilku zmiennych z modelu wyjściowego i zastanawiamy się, czy jest ono uzasadnione czy nie. Rozumując intuicyjnie, można byłoby zapytać, czy z tego powodu model „znacznie” czy „nieznacznie” się pogorszył. Można powiedzieć np. że wartości teoretyczne zmiennej objaśnianej (y^) „bardziej odbiegają” od wartości obserwowanych (y). Jak jednak sprowadzić to do jednego prostego kryterium? Pamiętamy z zajęć 2, że procedura MNK czyli minimalizacja sumy kwadratów reszt jest równoznaczna z minimalizacją standardowo zdefiniowanej długości (normy) wektora reszt (czyli odległości pomiędzy y a y^). Skoro więc badanie sumy kwadratów reszt jest dogodnym kryterium dopasowania (prowadzącym ponadto do pożądanych własności statystycznych – por. tw. Gaussa i Markowa) – można rozważać, jak bardzo suma kwadratów reszt się pogorszy (czyli zwiększy) na skutek usunięcia wybranych zmiennych z modelu. Sugeruje to, że sprawdzian testu może się odwoływać do różnicy pomiędzy sumą kwadratów reszt w modelu zredukowanym i modelu ogólnym.

Rozważmy raz jeszcze własności sumy kwadratów reszt MNK. Dodanie do modelu dowolnej zmiennej NIE MOŻE zwiększyć sumy kwadratów reszt. Może ją tylko mniej lub bardziej zmniejszyć, lub pozostawić bez zmian w bardzo skrajnym i „zdegenerowanym” przypadku. Skoro dodanie nawet zupełnie merytorycznie niezwiązanej zmiennej może nieco obniżyć sumę kwadratów reszt, musimy rozważyć, jaka zmiana sumy kwadratów reszt jest „znacząca”. Do tego służy właśnie test F: sprawdzamy, czy „dopasowanie modelu” (czyli bliskość y i y^) znacząco się pogorszy na skutek usunięcia wybranych zmiennych.

 

Statystyka testowa ma tu postać:

F emp = [(SSE0 – SSE1)/k2)] / [SSE1 / (T - k) ]

SSE0 to suma kwadratów reszt MNK w modelu odpowiadającym prawdziwości hipotezy zerowej (czyli zredukowanym), SSE1 to suma kwadratów reszt MNK w modelu ogólnym. Zgodnie z tym co powiedziano wyżej (dodanie zmiennych NIE MOŻE zwiększyć sumy kwadratów reszt) SSE0 >= SSE1 bo w modelu zredukowanym musi zostać więcej „nieobjaśnionego” czyli więcej reszt (przy czym równość zachodzi „prawie nigdy”) więc różnica w liczniku F emp musi być nieujemna (to rozumowanie pozwala zapamiętać w jakiej kolejności jest różnica: w takiej, żeby była dodatnia). k2 to liczba restrykcji czyli liczba zmiennych których łączną istotność się testuje; k to liczba parametrów (zmiennych) w modelu ogólniejszym; tak więc w mianowniku F emp [SSE1 / (T - k) ] jest po prostu s2 w modelu ogólnym.

UWAGA! Aby znać wartość F emp należy OSOBNO oszacować MNK model ogólny i wyliczyć SSE1, a następnie użyć zredukowanej macierzy X (czyli X(1) ) i osobno uzyskać oszacowania parametrów w modelu zredukowanym, i wyliczyć SSE0. Czyli szacować MNK parametry trzeba dwa razy!! Błędem byłoby po prostu wstawienie zer za wartości testowanych parametrów w modelu ogólnym i wyliczenie SSE0 w oparciu o pozostałe wartości. W modelu zredukowanym oszacowania parametrów przy tych samych zmiennych co w modelu ogólnym będą INNE!.

 

Rozkład statystyki testowej przy prawdziwości H0

 

Przy prawdziwości H0 statystyka F emp dana wzorem jak wyżej ma rozkład F o [k2,T-k] stopniach swobody. Rozkład F przypisuje niezerowe prawdopodobieństwo wartościom dodatnim (jak komuś wyjdzie ujemne F emp to jest źle liczone). W rozkładzie F specyfikujemy pierwsze i drugie stopnie swobody i są one takie, jak liczby przez które dzielimy licznik i mianownik F emp : Pierwsze stopnie swobody to liczba restrykcji (czyli liczba znaków równości potrzebnych do zapisania hipotezy zerowej ale uwaga! nie w zapisie wektorowym!), drugie stopnie swobody to zawsze T-k w modelu ogólnym. W rozkładzie F obszar krytyczny jest w prawym ogonie, czyli nie używamy wartości bezwzględnej, nie ma problemu z odczytywaniem wartości krytycznej z tablic – bierzemy tylko dobrze stopnie swobody, odczytujemy na zadanym poziomie istotności wartość krytyczną, i jeżeli uzyskana z danych realizacja F emp będzie:

-większa od wartości krytycznej => na poziomie istotności alfa odrzucamy H0

-mniejsza od wartości krytycznej => na poziomie istotności alfa nie ma podstaw do odrzucania H0.

 

p-value w teście typu F wyliczamy analogicznie: jest to taka wartość alfa, że wartość krytyczna Falfa przy odpowiednich stopniach swobody jest dokładnie równa uzyskanej realizacji F emp. Analogicznie jak w teście t wysokie wartości p-value świadczą na korzyść hipotezy zerowej.

 

Szczególne przypadki testu F zerowania kilku parametrów regresji

 

Test łącznej istotności wszystkich współczynników regresji z wyjątkiem wyrazu wolnego

 

Podstawowy i wstępny test diagnostyczny sensowności rozważanego modelu liniowego jest taki: czy wybrane zmienne objaśniające mają łącznie jakikolwiek wpływ na zmienną objaśnianą? Czy usunięcie ich wszystkich i pozostawienie tylko wyrazu wolnego znacząco pogorszy dopasowanie? (zakładamy oczywiście że w modelu jest wyraz wolny)

Taki test odpowiada przyjęciu w hipotezie zerowej modelu:

H0: yt = a0 + et

W takim modelu ocena parametru a0 to średnia z y (co łatwo sobie policzyć ze wzoru na estymator MNK) więc suma kwadratów reszt to suma kwadratów odchyleń y od średniej y. To nam przypomina wzór na R2. Pamiętając, że Fi2 to tutaj SSE1/SSE0 a R2 to 1-Fi2 można pokazać, że wychodząc od danego wyżej wzoru na F emp można go przekształcić do postaci:

F emp = [R2/(k - 1)] / [(1 - R2) / (T - k)]

W liczniku jest k-1 restrykcji bo zerowanie tylu parametrów testujemy. Dalej postępuje się standardowo. Pamiętać należy, że taka szczególna postać statystyki testowej odnosi się wyłącznie do testowania łącznej istotności wszystkich parametrów z wyjątkiem wyrazu wolnego; używa się jej, ponieważ zwykle standardowo w regresji wyliczamy wartość R2 więc łatwo jest wyliczyć wartość statystyki. Równie dobrze można byłoby oczywiście posłużyć się bardziej ogólnym wzorem z poprzednich akapitów.

 

Przeprowadzenie testu t dla wszystkich parametrów niezależnie (badanie istotności każdej zmiennej osobno) oraz testu F dla wszystkich współczynników z wyjątkiem wyrazu wolnego (badanie łącznej istotności wszystkich zmiennych) to zupełnie podstawowe kroki w weryfikacji modelu. Przeprowadzenie wyłącznie sekwencji testów t nie jest wystarczającą podstawą decyzji o zmianie konstrukcji modelu. Częsta jest sytuacja, gdy zmienne w modelu każda osobno wychodzą nieistotne (czyli nie ma podstaw do odrzucenia hipotezy że odpowiedni parametr się zeruje) lecz łącznie są istotne. Wynika to z faktu, że zmienne objaśniające często nie są „niezależne” między sobą – np. mają podobne trendy [wykazują tzw. współliniowość] – po usunięciu jednej zmiennej inne – „podobne” także odwzorowują ten wpływ.

Możliwa jest także sytuacja przeciwna – niezależnie od siebie zmienne są „istotne” lecz łącznie wychodzą „nieistotne”.

 

Test F dla pojedynczego parametru a test t

 

Zerowanie pojedynczego parametru regresji można badać testem F – jest on wtedy tożsamy z testem t. Statystyka testowa F jest wtedy kwadratem statystyki typu t dla zerowania parametru (t-ratio) (wyprowadzenie jest dłuższe ale jest), podobnie rozkład kwadratu zmiennej t-studenta o T-k stopniach swobody jest rozkładem F [1, T-k] (patrz rozkłady związane z normalnym.) – test t jest dwustronny, w oryginalnym teście t bierzemy pod uwagę wartość bezwzględną statystyki, co po podniesieniu jej do kwadratu jest równoznaczne z jednostronnym testem F.

 

Podsumowanie: „logika” testu F (łącznej istotności kilku restrykcji równościowych)

 

Rozpatrywaliśmy powyżej test F dla łącznego zerowania kilku parametrów regresji. Jest to szczególny przypadek testu pozwalającego badać łączne zachodzenie kilku równości w których może występować kombinacja liniowa parametrów regresji i pewne stałe. My rozważaliśmy przypadek kiedy kombinacja liniowa jest prosta: współczynnik przy jednym parametrze wynosi 1, przy pozostałych 0, stała po prawej stronie ma wartość 0. Pamiętamy też, że test t jest szczególnym przypadkiem testu F.

Jak ustaliliśmy powyżej, test tego typu sprowadza się do porównania dwóch modeli: modelu ogólnego (tzn. bez restrykcji: odpowiadającego hipotezie alternatywnej H1) oraz modelu z restrykcjami (odpowiadającego hipotezie zerowej H0). Jak test F „porównuje” te dwa modele? Zauważmy, że statystyka testowa odwołuje się do różnicy sum kwadratów reszt. Jeśli ta różnica jest duża, Femp ma większą wartość („bardziej w stronę obszaru krytycznego” czyli „bliżej H1”). Jeśli różnica jest mała, Femp jest bliższe zeru, więc w obszarze odpowiadającym konkluzji „nie ma podstaw do odrzucenia H0”). Suma kwadratów reszt w modelu jest pewnym miernikiem dopasowania (wartości y teoretycznych do obserwowanych) – więc test typu F odwołuje się do UTRATY DOPASOWANIA WYNIKAJĄCEJ Z NARZUCENIA TESTOWANYCH RESTRYKCJI.

Pamiętamy, że suma kwadratów reszt odgrywa zasadniczą rolę w definiowaniu estymatora MNK – szukamy jej minimum. Jeśli narzucenie rozważanych restrykcji podnosi sumę kwadratów reszt „nieznacznie” – można stwierdzić, że są one „nieistotne”. Jeśli suma kwadratów reszt wzrasta „istotnie” – oznacza to, że testowane restrykcje są istotne w tym sensie, że posiadane dane tym restrykcjom się „sprzeciwiają” – model z restrykcjami jest istotnie gorszy. Do rozstrzygnięcia jaka różnica dopasowania mierzonego sumą kwadratów reszt jest znaczna, a jaka nieznaczna – służy właśnie test F.

 

PROBLEM DOBORU ZMIENNYCH cd. ROLA TEORII EKONOMICZNEJ

 

Poznaliśmy podstawowe narzędzie wnioskowania statystycznego którym posługujemy się w procesie weryfikacji modelu [z zastrzeżeniem, że brak podstaw do odrzucenia H0 nie jest równoznaczny z jej przyjęciem], powstaje więc pytanie czym ostatecznie powinniśmy kierować się w doborze zmiennych? Rozważane tu testy redukcji modelu są ważne, bo pozwalają uprościć model – gdy się nie preferuje modelu prostszego, można wpaść w pułapkę tzw. overfitting – dopasowania modelu do czynników czysto przypadkowych: gdy wprowadzimy zbyt wiele parametrów i uzyskamy dobre lecz pozbawione interpretacji dopasowanie.

Poznany test F odwołuje się do porównania dopasowania (mierzonego sumą kwadratów reszt) w modelu z restrykcjami (H0) i bez restrykcji (H1). Pamiętamy jednak o tym, że dodanie dowolnej (nawet merytorycznie bezsensownej) zmiennej zwykle obniża sumę kwadratów reszt (przykład regresji pozornych).

 

Wszystko to sprawia, że wynik testu nie może być wyłącznym kryterium doboru zmiennych – trzeba np. jakoś wybrać zmienne kandydackie.

 

Dotykamy tu drugiego (obok formalnych technik wnioskowania czyli m.in. testów) niezbędnego elementu procesu decyzyjnego konstrukcji modelu: teorii ekonomicznej.

Obydwa te elementy są niezbędne; a badacz musi je harmonijnie połączyć. (stosując właściwe środki dojść do właściwych rezultatów JJJ)

 

Teoria ekonomiczna zwykle pozwala nam wykluczyć ogromną ilość zmiennych których w ogóle nie bierzemy pod uwagę (nie możemy za każdym razem testować w modelu testem F zmiennych ze wszystkich roczników statystycznych świata).

Teoria podpowiada nam czasem formę zależności pomiędzy zmiennymi (lub przynajmniej pewne jej własności).

Uzyskane wyniki interpretujemy w kontekście teorii ekonomicznej – to ona wskazuje O CZYM chcemy wnioskować; dobrze jest także gdy uzyskane oszacowania są zgodne z podstawową ekonomiczną intuicją.

 

Zbyt mało teorii może sprawić, że pogrążymy się w badaniu zależności mających charakter przypadkowy, bezsensowny – między losowo wybranymi zmiennymi jakaś „empiryczna” zależność zawsze się znajdzie, tylko czy potrafimy ją sensownie interpretować?

Ponadto w pełni swobodne, ateoretyczne modelowanie nie jest możliwe – aby być w stanie wykorzystać opisywane techniki MUSIMY narzucić pewne ograniczenia. Prowadzone rozumowanie zawsze ma pewne implikacje teoretyczne – pytanie tylko, czy są one jawne czy niejawne. Jeśli „wyciągniemy je na światło dzienne” możemy badać, czy w stosowanych teoriach nie ma sprzeczności, porównywać je itd. Nad założeniami niejawnymi (nieuświadamianymi) nie mamy kontroli.. Skoro więc COŚ i tak musimy założyć, to posłużmy się założeniami ugruntowanymi w dobrej teorii ekonomicznej.

Wychwycenie pewnych efektów (których interpretacja ma charakter teoretyczny) wymaga narzucenia pewnej struktury teoretycznej – np. gdy chcemy rozważać nieefektywność, musimy zbudować model który ją dopuszcza, w którym „nieefektywność” jest jakoś zdefiniowana. .

 

Z kolei narzędzia wnioskowania „pozwalają danym przemówić” – jest to podstawowa zasada badania empirycznego. Dzięki nim możemy „zadawać danym (czyli rzeczywistości) pytania”. Oczywiście pytania te uwarunkowane są wszystkimi przyjętymi (jawnie i niejawnie) założeniami teoretycznymi.

Często mamy kilka konkurencyjnych (potencjalnie równoprawnych) teorii ekonomicznych lub kilka konkurencyjnych modeli zgodnych z daną teorią. Wybór pomiędzy nimi powinien odbywać się na podstawie formalnego wnioskowania statystycznego – czyli odwołania się do badania empirycznego, do rzeczywistych danych.

 

Zbyt dużo teorii ekonomicznej sprawia, że struktura modelowa jest zbyt sztywna i „dane mają niewiele do powiedzenia” – zostają „przyduszone” – nie mówią o rzeczywistości. Ryzykujemy też, że narzucamy fałszywą teorię i przez to uzyskujemy potencjalnie bezwartościowe wyniki.

 

Co z tego wszystkiego?

Skoro i tak nie możemy się uwolnić ani od teorii statystycznej która stoi za narzędziami wnioskowania (bo chcąc wnioskować o wielkościach nieznanych odwołujemy się do statystyki) ani od teorii ekonomicznej, która stoi za interpretacją, musimy je kontrolować (na ile się da). Trzeba „wyciągać na powierzchnię” i rozumieć wszelkie ukryte i jawne założenia modelu i dążyć do tego, by rozmaite zastosowane teorie nie były sprzeczne. Decyzja, ile i jakiej teorii ekonomicznej wprowadzić do modelu, ostatecznie zależeć będzie także od naszych subiektywnych sądów, ale tam, gdzie się da powinniśmy się posłużyć narzędziami wnioskowania. Musimy też pamiętać PO CO budujemy model – na jakie pytanie chcemy znaleźć odpowiedź.

 

Do roli teorii ekonomicznej będziemy wracać, bo to sprawa dość podstawowa w ekonometrii.

 

Podstawowe umiejętności konieczne do rozwiązywania zadań:

 

  1. Weryfikowanie hipotez o łącznym zerowaniu kilku parametrów regresji (test F z SSEi).
  2. Weryfikowanie hipotezy łącznym zerowaniu wszystkich parametrów regresji z wyjątkiem wyrazu wolnego (postać z R2).
  3. Wyliczanie i interpretacja p-value w teście F.
  4. Przeprowadzenie podstawowej weryfikacji modelu: badanie istotności wszystkich parametrów niezależnie i łącznie, interpretacja wyników.

 

Co najczęściej myli się w zadaniach?

Nie wiedzieć czemu test F okazuje się trudniejszy od testu t – najczęściej mylą się stopnie swobody; lepiej pamiętać że F emp nie może być ujemne; często myli się kolejność różnicy SSE (to łatwo zapamiętać, patrz wyżej) lub licznik i mianownik w postaci z R2 (to też łatwo zapamiętać przez wyprowadzenie).

Źle bywają zapisane hipotezy : np.

H0: yt = a0 + et

H1: yt ¹ a0 + et

Tu hipoteza alternatywna jest ŹLE zapisana!!! Przecież test zależy właśnie od tego co DOKŁADNIE jest w hipotezie alternatywnej.

Czasem zdarza się złe rozumienie obszaru krytycznego: kiedy F emp > Fkryt to ODRZUCAMY H0.

W zadaniach trzeba pamiętać, że test F wymaga reestymacji modelu (czyli oszacowania osobno ogólnego i zredukowanego)

Czasem wymyślam zakręcone zadania z testem F takie, że trzeba się pogłowić „skąd wziąć potrzebne wielkości?” Trzeba tu pamiętać np. co to jest s2, R2 jaki jest związek między testem t a F.

 

Zadanie Laboratoryjne

 

(Under Construction)

 

na przykładzie z poprzednich zajęć testowanie kilku różnych redukcji; test t a test F dla pojedynczego parametru: wyliczenie wartości statystyki oraz p-value na dwa sposoby. Redukcja z R2;

 

Może narysować rozkład F?

Sprawdzić przykład z maddali 123-124 na to, że każda zmienna osobno jest istotna ale łącznie są nieistotne (patologiczna?).

Opisać sytuację gdy każda zmienna osobno jest nieistotna lecz łącznie są istotne (częsta)

 

Ćwiczenia tablicowe:

(zarys)

przepytanie ze wszystkich wzorów, powtórka z budowy i interpretacji przedziałów ufności i związku testu z przedziałem; problem redukcji modelu – dokładny zapis hipotez, zapis statystyki testowej; testowanie; model tylko z wyrazem wolnym: własności; przejście z zapisu z R2 na zapis SSE w szczególnym przypadku; przykładowe zadanie z weryfikacją modelu: oszacowany model, reszty, X’X-1 i ew. R2.

 

Problem do przemyślenia na następne zajęcia:

 

Proszę przemyśleć następujący problem: chcemy w regresji objaśnić wydajność pracy pracownika. Sądzimy, że jedną z wielkości które mają na to wpływ jest jego staż pracy Jednakże z jednej strony chcemy odwzorować fakt, że młodzi ludzie są zwykle niedoświadczeni i pracują mało wydajnie, z drugiej strony mamy świadomość, że z wiekiem możliwości elastycznego myślenia zwykle spadają i obniża to sprawność. W regresji wpływ jednej zmiennej objaśniającej nie może być jednocześnie ujemny i dodatni, a chcemy uwzględnić obydwa te efekty. Co zrobić?

Proszę się ogólnie (w świetle Zajęć 2 oraz Zajęć 3) zastanowić nad ograniczeniami liniowej postaci modelu.