1 Regresja
2 Termin regresja oznacza badanie wpływu jednej lub kilku zmiennych tzw. objaśniających na zmienną, której kształtowanie się najbardziej nas interesuje, a więc na zmienną objaśnianą. Metody regresji używane są zazwyczaj do opisu kształtowania się poziomu pewnego zjawiska w czasie, jak i na podstawie pobieranych z populacji generalnej prób losowych. Mówiąc o występowaniu zależności pomiędzy wieloma zmiennymi, regresję tego rodzaju nazywamy; wieloraką lub wielowymiarową.
3 Ogólnym celem regresji wielorakiej (termin ten został po raz pierwszy użyty przez Pearsona w 1908 roku) jest ilościowe ujęcie związków pomiędzy wieloma zmiennymi niezależnymi (objaśniającymi) a zmienną zależną (objaśnianą). Analiza regresji polega na estymacji parametrów równania teoretycznego, które w sposób jak najbardziej dokładny odwzorowuje zależność, czego ilustracją jest wykreślenie wykresu wartości rzeczywistych i teoretycznych zmiennej objaśnianej. Podstawowe modele regresji zakładają występowanie zależności liniowych istniejących pomiędzy zmienną objaśnianą, a zmiennymi ją objaśniającymi.
4 W modelu regresji wielorakiej wyróżniamy zmienne: objaśniające (zwane też opisującymi lub niezależnymi) - zmienne te nie są wyjaśniane przez model, objaśniane (zwane opisywanymi lub zależnymi) - zmienne te są wyjaśniane przez model. W liniowym modelu regresji wielorakiej zmienne objaśniające powinny odznaczać się następującymi właściwościami: 1. powinny być silnie skorelowane ze zmienną objaśnianą, 2. powinny być słabo skorelowane między sobą, 3. powinny wykazywać odpowiednio dużą zmienność.
5 Proces doboru zmiennych można przedstawić w kilku etapach: 1.Na podstawie wiedzy merytorycznej ustala się listę potencjalnych zmiennych objaśniających. Na tym etapie lepiej jest zgromadzić wiele zmiennych, które będzie można eliminować w toku dalszej analizy. 2.Zbiera się dane statystyczne, będące realizacjami zmiennej objaśnianej i zmiennych objaśniających. 3.Eliminuje się zmienne objaśniające o zbyt niskim poziomie zmienności. 4.Oblicza się współczynniki korelacji między zmiennymi. 5.Przeprowadza się redukcję zbioru zmiennych za pomocą wybranej metody
6 Metoda Najmniejszych Kwadratów (MNK) Rozpatrując postać modelu regresji wielorakiej należy przyjąć, iż relacje pomiędzy zmiennymi mają charakter liniowy, a ich rozkłady mają kształt zbliżony do normalnego. Aby jednak mówić o dobrze skonstruowanym modelu regresji wielorakiej musi zostać spełnionych kilka ważnych warunków. Warunki te stawiane są zarówno zmiennym objaśniającym, jak i zmiennej objaśnianej. Najważniejszymi, wstępnymi warunkami poprawnej konstrukcji równania modelu są:
7 Zmienne objaśniające muszą wykazywać związek ze zmienną, którą będą objaśniały. Zmienne objaśniające powinny cechować się odpowiednim wskaźnikiem własnej zmienności. Zmienne objaśniające nie mogą być współzależne. Znaczy to tyle, że ich wzajemne wskaźniki korelacji muszą wykazywać wartości mniejsze niż korelacji ze zmienną objaśnioną. Ilość szacowanych parametrów (k + 1) równania nie może przekroczyć liczby okresów (T). Czyli zmiennych w modelu winno być mniej (lub taka sama ilość), co okresów, jakie uwzględniają - jeśli chodzi o modelowanie na podstawie szeregów czasowych.
8 Ogólna postać liniowego modelu regresji wielorakiej:
9 Na podstawie zebranych danych tworzymy następującą realizację
10 W postaci macierzowej : y – wektor zaobserwowanch wartości zmiennej objaśnianej X – macierz zaobserwowanych wartości zmiennych objaśniających, pierwsza kolumna dotyczy wyrazu wolnego β – wektor parametrów modelu e – składnik losowy
11 Oceny parametrów strukturalnych wyznacza się Metodą Najmniejszych Kwadratów (MNK), co polega na wyznaczeniu takich wartości parametrów strukturalnych, zwanych dalej estymatorami, dla których funkcja straty osiąga minimum. Postać estymatora MNK:
12 Podstawowym założeniem w MNK jest założenie o normalnym rozkładzie szeregu reszt. Reszta jest to różnica między rzeczywistą wartością zmiennej objaśnianej a jej wartością teoretyczną, oszacowaną na podstawie modelu. Reszta jest więc realizacją nieobserwowalnego składnika losowego e. Reszty obliczane są zgodnie ze wzorem: - wartości wyliczone na podstawie modelu
13 S YNTETYCZNE MIARY DOPASOWANIA Bardzo ważną częścią analizy regresji, po oszacowaniu ocen numerycznych parametrów modelu jest ocena zmienności zmiennej objaśnianej Y spowodowanej zmiennością zmiennych objaśniających X. Do oceny takiej służą syntetyczne miary dopasowania: wariancja resztowa, współczynnik zmienności losowej, nieskorygowane i skorygowane współczynniki determinacji i indeterminacji, współczynnik korelacji wielorakiej.
14 Wariancja resztowa obliczana jest zgodnie ze wzorem: średni błąd resztowy (odchylenie standardowe składnika resztowego):
15 Wariancja resztowa wykorzystywana jest do obliczania średnich błędów szacunku parametrów strukturalnych. Obliczane są one jako pierwiastki kwadratowe elementów znajdujących się na głównej przekątnej macierzy wariancji i kowariancji parametrów strukturalnych. Ma ona postać:
16 Nieskorygowany współczynnik determinacji określa jaka część rzeczywistej zmienności zmiennej objaśnianej jest wyjaśniona przez oszacowany model.
17 Nieskorygowany współczynnik indeterminacji określa jaka część rzeczywistej zmienności zmiennej objaśnianej nie jest wyjaśniona przez oszacowany model. Jeżeli w modelu występuje wyraz wolny wówczas oba współczynniki należą do przedziału [0, 1] a ponadto zachodzi:
18 Współczynnik korelacji wielorakiej:
19 BADANIE ISTOTNOŚCI PARAMETRÓW STRUKTURALNYCH Aby móc w sposób możliwie najbardziej wiarygodny wnioskować z oszacowanego równania modelu należy sprawdzić istotność statystyczną parametrów tego równania. Najbardziej popularne sprawdzanie wiarygodności statystycznej parametrów regresji liniowej, a mianowicie za pomocą statystyki t - Studenta opartej na rozkładzie t - Studenta.
20 Test t-Studenta Obliczamy statystykę następnie porównujemy otrzymaną wartość statystyki z wartością krytyczną odczytaną z rozkładu t-Studenta dla (T-k-1) stopni swobody i ustalonego poziomu istotności α.