1 STATYSTYKA – kurs podstawowy wykład 10 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii
2 Wnioskowanie o współzależności cech statystycznych sprowadza się do: 1.Wnioskowania o zależności typu stochastycznego i estymacji jego siły 2.Estymacji siły związku korelacyjnego i wnioskowania o jego istotności statystycznej (sprawdzenie, czy związek korelacyjny występuje również w całej populacji) 3.Wnioskowania o regresji cech statystycznych
3 Odrzucenie hipotezy o niezależności stochastycznej cech statystycznych skłania do szukania odpowiedzi na pytanie: czy stwierdzona zależność może przybierać bardziej konkretne formy (np. związek korelacyjny) i czy można ją modelować (regresja). SIŁA ZWIĄZKU STOCHASTYCZNEGO Modelowanie związku między cechami statystycznymi ma sens wtedy, kiedy występuje między nimi związek (stochastyczny lub korelacyjny)
4 Korelacja cech statystycznych polega na przyporządkowaniu wartościom jednej cechy średnich wartości cechy drugiej. Średnie te są charakterystykami kolejnych rozkładów warunkowych cechy uznanej za zależną ZWIĄZEK KORELACYJNY Czas dotarcia (y 0i - y 1i > Liczba rodzeństwa razem 0123 0-10 23117 10-20 02103 20-30 02103 30-40 02103 40-50 32005 50-60 12003 razem 6134124 Sprawdźmy, jak czas dotarcia zależy od liczby rodzeństwa Czas dotarcia – zmienna zależna Liczba rodzeństwa – zmienna niezależna
5 Rozkłady czasu dotarcia na uczelnię w zależności od liczby rodzeństwa ZWIĄZEK KORELACYJNY (y 0i - y 1i >Liczba rodzeństwa suma 0123 0-10 23117 10-20 02103 20-30 02103 30-40 02103 40-50 32005 50-60 12003 razem 6134124 Korelacja czasu dotarcia względem liczby rodzeństwa Empiryczna krzywa regresji cechy Y względem cechy X – czasu dotarcia względem liczby rodzeństwa Krzywa regresji I rodzaju – funkcja przypisująca wartościom zmiennej losowej niezależnej X średnie warunkowe zmiennej losowej zależnej Y
6 KLASYCZNY MODEL REGRESJI LINIOWEJ Empiryczna krzywa regresji wyznaczana na podstawie dwuwymiarowego rozkładu empirycznego (z próby) jest przybliżeniem nieznanej krzywej regresji I rodzaju Pozwala wyrobić sobie pogląd co do przybliżonego kształtu funkcji regresji I rodzaju, ale nie pozwala na określenie analitycznej postaci tej zależności oraz wartości jej parametrów Celem analizy regresji jest predykcja, czyli przewidywanie, jaką wartość przyjmie zmienna zależna przy ustalonych wartościach zmiennych uznanych za niezależne Ze względu na brak postaci funkcyjnej empiryczna krzywa regresji nie może być wykorzystywana do predykcji
7 KLASYCZNY MODEL REGRESJI LINIOWEJ Potrzebujemy znać formę analityczną krzywej regresji – przybliżenie za pomocą funkcji matematycznej związku występującego między cechami statystycznymi, określane jest mianem REGRESJI II RODZAJU Model regresji: gdzie: Y – zmienna (cecha) zależna, opisywana przez model - regresja II rodzaju ε – zmienna losowa opisująca odchylenia wartości zmiennej zależnej od jej regresji II rodzaju
8 KLASYCZNY MODEL REGRESJI LINIOWEJ Jak zatem skonstruować model regresji, czyli w sposób analityczny określić, jak kształtują się wartości zmiennej losowej pod wpływem innej lub innych zmiennych? Główny składnik to funkcja regresji Potrzebujemy zatem określić funkcję matematyczną dla - jej postać określana jest zwykle na podstawie wyników z próby - jej parametry estymuje się również na podstawie wyników z próby Inny sposób zapisu modelu regresji: Wyraża wpływ, jaki na zmienną zależną Y wywiera zmienna niezależna X Składnik losowy – reprezentuje losowe odchylenia wartości Y od, w których wyraża się łączny wpływ wszystkich innych (poza X) czynników oddziałujących na zmienną Y
9 KLASYCZNY MODEL REGRESJI LINIOWEJ Klasyczny model regresji liniowej (przypadek dwuwymiarowy) - gdy dla każdej ustalonej wartości jednej zmiennej losowej (zmienna X) druga zmienna losowa (zmienna losowa Y) ma warunkowy rozkład z wartością oczekiwaną E(Y|X = x) = αx + β oraz wariancją D 2 (Y|X = x) = σ 2 Funkcja regresji I rodzaju Y względem X jest liniowa Wariancja zmiennej losowej Y w jej warunkowych rozkładach jest stała – nie zależy od wartości x Współczynnik regresji Stała regresji, wyraz wolny Składnik losowy
10 KLASYCZNY MODEL REGRESJI LINIOWEJ Znajomość równania regresji pozwala przewidywać wartości cechy statystycznej uznanej za zależną (u nas Y) Przewidywanie to nosi nazwę predykcji Dokładność tych predykcji zależy: 1.Od tego, jak „blisko” regresji I rodzaju jest regresja rodzaju II – czyli jaki jest zakres determinacji związku cech przez ustaloną regułę matematyczną 2.Od tego, w jakim stopniu składnik losowy ε wyraża oddziaływanie czynników przypadkowych nie uwzględnionych w modelu – czyli takie właściwości składnika losowego, które gwarantują jego losowość
11 KLASYCZNY MODEL REGRESJI LINIOWEJ Własności składnika losowego ε : 1.E(ε) = 0 – przeciętnie rzecz ujmując, nie występuje systematyczny wpływ składnika losowego ε na zmienną zależną Y 2. D 2 (ε) = σ 2 – wariacja składnika losowego jest stała, co oznacza, że zakres zmienności składnika losowego ε jest niezależny od zmiennej niezależnej X 3.Cov(ε i, ε j ) = 0 dla i ≠ j – co oznacza, że czynniki, które kształtują zmienną ε, nie są ze sobą powiązane w sposób sugerujący jakąś prawidłowość
12 KLASYCZNY MODEL REGRESJI LINIOWEJ Modelowanie związku między cechami statystycznymi polega na przyjęciu założeń: 1.o postaci zależności (my zajmujemy się na tym wykładzie wyłącznie zależnościami o charakterze liniowym) 2.o warunkach, jakie powinny spełniać cechy, by modelowanie było wiarygodne i mogło służyć predykcji Ad. 1 - zależność liniowa Ad. 2 - założenia dotyczące własności składnika losowego
13 KLASYCZNY MODEL REGRESJI LINIOWEJ Jak zatem skonstruować model regresji, czyli w sposób analityczny określić, jak kształtują się wartości cechy statystycznej pod wpływem innej lub innych cech? Potrzebujemy zatem określić funkcję matematyczną dla czyli: Jak znaleźć wartości liczbowe dla parametrów α i β funkcji regresji? Zastosować metodę estymacji zwaną Metodą Najmniejszych Kwadratów (MNK) Liniowa funkcja regresji, wyznaczana z próby losowej
14 KLASYCZNY MODEL REGRESJI LINIOWEJ Jeśli na mamy na płaszczyźnie zbiór punktów (x i, y i ), to MNK polega na wyznaczeniu prostej, która leży „najbliżej” tych punktów Wykres rozrzutu punktów empirycznych – jego budowa należy do rutynowych czynności poprzedzających estymację parametrów modelu regresji; pozwala wybrać odpowiedni analityczny typ funkcji (np. funkcja liniowa, kwadratowa, logarytmiczna itd.)
15 KLASYCZNY MODEL REGRESJI LINIOWEJ Warunek prawidłowego położenia prostej można zapisać jako minimum sumy kwadratów długości „pionowych” odcinków łączących punkty empiryczne z prostą (x i, y i ) Wartości teoretyczne zmiennej zależnej Y
16 KLASYCZNY MODEL REGRESJI LINIOWEJ Powyższe wyrażenie jest funkcją niewiadomych α i β W celu wyznaczenia α i β przyrównujemy pochodne cząstkowe względem tych wielkości do 0.
17 KLASYCZNY MODEL REGRESJI LINIOWEJ Estymatory MNK parametrów funkcji regresji Estymatory te są nieobciążone i najefektywniejsze. Pozwalają szacować parametry α i β klasycznego modelu regresji bez błędów systematycznych Pozwalają szacować parametry α i β klasycznego modelu regresji z najmniejszym losowym błędem standardowym
18 KLASYCZNY MODEL REGRESJI LINIOWEJ Miarą błędów szacunku wartości parametrów α oraz β dokonanych za pomocą estymatorów oraz są standardowe błędy estymatorów (odchylenia standardowe estymatorów) Ale nie znamy wartości σ 2, czyli wariancji składników losowych
19 KLASYCZNY MODEL REGRESJI LINIOWEJ Podstawą estymacji wariancji składników losowych są reszty e i wyznaczone na podstawie formuły: MNK gwarantuje, że: 1. 2.
20 KLASYCZNY MODEL REGRESJI LINIOWEJ Estymatory standardowych błędów szacunku Zastępujemy wartości σ 2, przez S 2 (e)
21 PRZYKŁAD Dane na temat liczby odwiedzających punkt sprzedaży oraz realizowanych w tym punkcie dziennych obrotów zestawiono w tabeli. Należy wyznaczyć równanie regresji wielkości dziennych obrotów względem liczby odwiedzających oraz zinterpretować parametry (strukturalne i stochastyczne) równania regresji. Liczba odwiedzających Wielkość obrotów (tys. zł) 202,5 253,1 324,5 215,3 356,4 367,8 428,9 399,5 3810,3 4111,5 5112,1 Liczba odwiedzających – X (zmienna niezależna) Wielkość obrotów – Y (zmienna zależna)
22 PRZYKŁAD n = 11 xixi yiyi 202,5 253,1 324,5 215,3 356,4 367,8 428,9 399,5 3810,3 4111,5 5112,1 50 77,5 144 111,3 224 280,8 373,8 370,5 391,4 471,5 617,1 400 625 1024 441 1225 1296 1764 1521 1444 1681 2601 20 * 2,5 = 50 20 2 = 400
23 PRZYKŁAD Liczba odwiedzających Wielkość obrotów (tys. zł) 202,5 253,1 324,5 215,3 356,4 367,8 428,9 399,5 3810,3 4111,5 5112,1 Równanie regresji Model regresji 0,316 – wraz ze wzrostem liczby odwiedzających o 1 osobę obroty wzrastają średnio o 0,316 tys. zł -3,467 - nie interpretuje się
24 PRZYKŁAD n = 11 xixi yiyi 202,5 253,1 324,5 215,3 356,4 367,8 428,9 399,5 3810,3 4111,5 5112,1 50 77,5 144 111,3 224 280,8 373,8 370,5 391,4 471,5 617,1 400 625 1024 441 1225 1296 1764 1521 1444 1681 2601 2,851 4,430 6,641 3,167 7,589 7,905 9,800 8,853 8,537 9,484 12,643 -0,351 -1,330 -2,141 2,133 -1,189 -0,105 -0,900 0,647 1,763 2,016 -0,543 0,123 1,770 4,586 4,551 1,414 0,011 0,810 0,419 3,109 4,063 0,295 0,316*20 – 3,467 = 2,8512,5 - 2,851 = -0,351
25 PRZYKŁAD n = 11 xixi yiyi 202,5 253,1 324,5 215,3 356,4 367,8 428,9 399,5 3810,3 4111,5 5112,1 50 77,5 144 111,3 224 280,8 373,8 370,5 391,4 471,5 617,1 400 625 1024 441 1225 1296 1764 1521 1444 1681 2601 2,851 4,430 6,641 3,167 7,589 7,905 9,800 8,853 8,537 9,484 12,643 -0,351 -1,330 -2,141 2,133 -1,189 -0,105 -0,900 0,647 1,763 2,016 -0,543 0,123 1,770 4,586 4,551 1,414 0,011 0,810 0,419 3,109 4,063 0,295 Teoretyczna wielkość obrotów różni się od obserwowanej w próbie wielkości obrotów o średnio 1,533 tys. zł.
26 PRZYKŁAD n = 11 xixi yiyi 202,5 253,1 324,5 215,3 356,4 367,8 428,9 399,5 3810,3 4111,5 5112,1 Przyjmując, że wraz ze wzrostem liczby odwiedzających o 1 osobę obroty wzrastają średnio o 0,316 tys. zł, mylimy się przeciętnie o 0,051 tys. zł.
27 PRZYKŁAD n = 11 xixi yiyi 202,5 253,1 324,5 215,3 356,4 367,8 428,9 399,5 3810,3 4111,5 5112,1 Przyjmując, że wraz mylimy się przeciętnie o 1,83
28 PRZYKŁAD Liczba odwiedzających Wielkość obrotów (tys. zł) 202,5 253,1 324,5 215,3 356,4 367,8 428,9 399,5 3810,3 4111,5 5112,1 Równanie regresji Model regresji [0,051] [1,83] [0,051] [1,83] [1,533] Parametry strukturalne Parametry stochastyczne
29 KLASYCZNY MODEL REGRESJI LINIOWEJ Wnioskowanie w klasycznym modelu regresji – badanie istotności ocen parametrów funkcji regresji liniowej ISTOTNOŚĆ WSPÓŁCZYNNIKA REGRESJI Hipoteza zerowa: H 0 : α = 0 – współczynnik regresji liniowej jest nieistotny statystycznie (w populacji nie różni się istotnie od 0) Hipoteza alternatywna: H 1 : α ≠ 0 – współczynnik regresji liniowej jest istotny statystycznie (w populacji różni się istotnie od 0) H 1 : α > 0 – współczynnik regresji liniowej jest istotnie dodatni (w populacji jest istotnie większy od 0) H 1 : α < 0 – współczynnik regresji liniowej jest istotnie ujemny (w populacji jest istotnie mniejszy od 0)
30 Statystyka testująca: rozkład t – Studenta v = n – 2 Obszar odrzucenia wyznacza wartość t α,v odczytania z tablic wartości krytycznych rozkładu t – Studenta Kształt obszaru odrzucenia zależy od sposobu sformułowania hipotezy alternatywnej: może to być obszar dwustronny lub jednostronny
31 KLASYCZNY MODEL REGRESJI LINIOWEJ Wnioskowanie w klasycznym modelu regresji – badanie istotności ocen parametrów funkcji regresji liniowej ISTOTNOŚĆ WYRAZU WOLNEGO Hipoteza zerowa: H 0 : β = 0 – wyraz wolny jest nieistotny statystycznie (w populacji nie różni się istotnie od 0) Hipoteza alternatywna: H 1 : β ≠ 0 – wyraz wolny jest istotny statystycznie (w populacji różni się istotnie od 0) H 1 : β > 0 – wyraz wolny jest istotnie dodatni (w populacji jest istotnie większy od 0) H 1 : β < 0 – wyraz wolny jest istotnie ujemny (w populacji jest istotnie mniejszy od 0)
32 Statystyka testująca: rozkład t – Studenta v = n – 2 Obszar odrzucenia wyznacza wartość t α,v odczytania z tablic wartości krytycznych rozkładu t – Studenta Kształt obszaru odrzucenia zależy od sposobu sformułowania hipotezy alternatywnej: może to być obszar dwustronny lub jednostronny
33 PRZYKŁAD Model regresji [0,051] [1,83] [1,533] Istotność współczynnika regresji H 0 : α = 0 – współczynnik regresji liniowej jest nieistotny statystycznie (w populacji nie różni się istotnie od 0) H 1 : α ≠ 0 – współczynnik regresji liniowej jest istotny statystycznie (w populacji różni się istotnie od 0) 2,262 < t obl na poziomie istotności 0,05 odrzucamy hipotezę zerową na rzecz hipotezy alternatywnej; współczynnik regresji liniowej jest istotny statystycznie; Z prawdopodobieństwem 0,05 możemy popełnić błąd I rodzaju, czyli odrzucić hipotezę zerową, mimo że jest ona prawdziwa
34 PRZYKŁAD Model regresji [0,051] [1,83] [1,533] Istotność wyrazu wolnego regresji H 0 : β = 0 – wyraz wolny jest nieistotny statystycznie (w populacji nie różni się istotnie od 0) H 1 : β ≠ 0 – wyraz wolny jest istotny statystycznie (w populacji różni się istotnie od 0) -2,262 < t obl < 2,262 na poziomie istotności 0,05 brak jest podstaw do odrzucenia hipotezy zerowej, czyli wyraz wolny jest nieistotny statystycznie ;