1 STATYSTYKA – kurs podstawowy wykład 6 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii
2 WNIOSKOWANIE STATYSTYCZNE cd
3 Metody wnioskowania statystycznego ESTYMACJA Szacowanie na podstawie informacji z próby wartości charakteryzujących rozkład badanej cechy statystycznej, czyli szacowanie wartości parametrów WERYFIKACJA HIPOTEZ STATYSTYCZNYCH Sprawdzenie słuszności przypuszczeń dotyczących: 1.rozkładu cechy statystycznej, a dokładniej jego dystrybuanty – hipotezy nieparametryczne 2.parametrów rozkładu cechy – hipotezy parametryczne Hipotezy zawierają przypuszczenia dotyczące populacji
4 Przypuszczenie dotyczące rozkładu cechy statystycznej formułuje się w postaci pary hipotez: 1.Hipotezy zerowej (H 0 ) – zawiera stwierdzenie, że rozkład cechy jest określonej postaci co do dystrybuanty (hipoteza nieparametryczna) lub co do wartości parametrów (hipoteza parametryczna); hipoteza zerowa występuje zawsze w postaci równości H 0 : p 1 = p 2, H 0 : m 1 = m 2, H 0 : p = 54%, H 0 : m = 176 2.Hipotezy alternatywnej (H 1 ) – zawiera inną propozycję co do wartości rozkładu lub też jest zaprzeczeniem hipotezy zerowej Przykłady hipotez parametrycznych
5 Weryfikacja hipotez statystycznych ocena treści hipotezy zerowej względem treści hipotezy alternatywnej Narzędzie test statystyczny przeprowadzany na wynikach z próby
6 Test statystyczny ocena, w jakim stopniu wyniki próby losowej odbiegają od naszych poglądów dotyczących populacji sformułowanych w hipotezie zerowej Jeśli założymy, że hipoteza zerowa H 0 jest prawdziwa, zaś próba spełnia kryterium losowości (czyli dobrze odzwierciedla populację), to nasza wiedza o populacji kształtowana na podstawie próby nie powinna różnić się od wysuniętych przypuszczeń z hipotezy zerowej H 0. Próba powinna potwierdzać hipotezę zerową
7 Zakładamy, że hipoteza zerowa jest prawdziwa Jeśli natomiast pojawiać się będą znaczne rozbieżności między wiedzą o populacji uzyskaną z próby i wiedzą zakładaną w hipotezie zerowej H 0, to występować powinny rzadko, czyli z małym prawdopodobieństwem. Te znaczne rozbieżności, świadczyć będą przeciwko prawdziwej hipotezie zerowej H 0 : - Będą sugerować, że jest ona fałszywa, gdyż jej treść odbiega znacząco od tego co stwierdzono empirycznie na podstawie próby; - Będą powodować będą błędną ocenę hipotezy zerowej H 0. Prawdopodobieństwo ich występowania to ryzyko popełnienia błędu I rodzaju, czyli odrzucenia hipotezy zerowej H 0,chociaż jest ona prawdziwa. Prawdopodobieństwo to jest rzędu α i nazywamy je poziomem istotności.
8 Spójrzmy inaczej na problem: Jeśli założymy, że hipoteza zerowa H 0 jest fałszywa oraz będzie zachowana losowość próby, to nasza wiedza o populacji kształtowana na podstawie próby powinna znacznie odbiegać od wysuwanych przypuszczeń (sformułowanych w hipotezie zerowej H 0 ). Tym samym wynik z próby nie powinien potwierdzić hipotezy zerowej. W takiej sytuacji małe rozbieżności między wiedzą o populacji stwierdzoną empirycznie i wiedzą hipotetyczną (z hipotezy zerowej H 0 ) powinny występować bardzo rzadko = z bardzo małym prawdopodobieństwem.
9 Występujące małe rozbieżności – przy założeniu fałszywości hipotezy zerowej – sugerują, że hipoteza zerowa jest prawdziwa, a zatem skłaniają do jej przyjęcia, mimo że jest to postępowanie błędne. Błąd popełniany w takiej sytuacji nosi nazwę błędu II rodzaju i polega na przyjęciu hipotezy zerowej, chociaż jest ona fałszywa. Ryzyko związane z jego popełnieniem jest rzędu β.
10 Najkorzystniej jest, aby zarówno błąd I rodzaju α jak i błąd II rodzaju β były jak najmniejsze. Nie jest jednak możliwe minimalizowanie prawdopodobieństwa obu rodzajów błędów jednocześnie, ponieważ gdy jeden z nich maleje, drugi zawsze rośnie.
11 Teoria statystyki oferuje kilka metod rozwiązania tego problemu: 1.stosowanie testów najmocniejszych 2.stosowania testów istotności
12 Testy najmocniejsze Ustala się poziomu błędu I rodzaju α na stałym poziomie i szuka takich reguł decyzyjnych, aby ryzyko błędu II rodzaju β było jak najmniejsze. Prawdopodobieństwo 1 – β (częstość podejmowania prawidłowej decyzji) określane jest mianem mocy testu.
13 Testy istotności Rozważa się jedynie jedną z dwóch decyzji: 1.decyzję o ewentualnym odrzuceniu hipotezy zerowej H 0, gdy test wskazuje, że jest ona fałszywa lub 2.decyzję o braku podstaw do jej odrzucenia, gdy test nie wskazuje, że jest ona fałszywa Taki sposób postępowania sprawia, że nie można podjąć decyzji polegającej na przyjęciu hipotezy zerowej. Nie istnieje zatem problem popełnienia błędu II rodzaju. Można natomiast popełnić błąd I rodzaju, czyli odrzucić hipotezę zerową H 0, chociaż jest ona prawdziwa. Prawdopodobieństwo popełnienia błędu I rodzaju to poziom istotności α.
14 Testy istotności - procedura Określenie rozbieżności między wynikiem z próby i wysuniętym przypuszczeniem test statystyczny. Sformułowanie hipotezy zerowej oraz hipotezy alternatywnej. Hipoteza alternatywna jest zaprzeczeniem hipotezy zerowej. Zakładamy, że prawdziwa jest hipoteza zerowa i to przypuszczenie weryfikujemy. Wyznaczenie z próby losowej wartości najlepszego estymatora parametru co do którego wysunięto przypuszczenie.
15 Testy istotności - procedura Określenie wartości „granicznej” rozdzielającej znaczące i nieznaczące rozbieżności między wiedzą empiryczną (z próby) i wiedzą hipotetyczną (z populacji). Określenie rozbieżności między wynikiem z próby i wysuniętym przypuszczeniem test statystyczny. Wybór wartości „granicznej” jest subiektywny i zależy od wiedzy badacza oraz od jego skłonności do ryzyka. Jest on związany z ryzykiem popełnienia błędu I rodzaju, czyli odrzucenia hipotezy zerowej, chociaż w rzeczywistości jest ona prawdziwa (α)
16 W testach parametrycznych postać hipotezy alternatywnej odgrywa ważną rolę określa, jaki rodzaj rozbieżności między wiedzą empiryczną a hipotetyczną jest możliwy Jeśli zaprzeczeniem hipotezy zerowej H 0 : Θ = Θ 0 jest hipoteza alternatywna postaci: 1.H 1 : Θ ≠ Θ 0, oznacza to, że możliwe są wszelkie rozbieżności zarówno „ w górę” (dodatnie), jak i „w dół” (ujemne) między wynikiem z próby, a przyjętym w hipotezie zerowej H 0 założeniem 2.H 1 : Θ > Θ 0, oznacza to, że możliwe są jedynie rozbieżności dodatnie; czyli w grę wchodzi jedynie zaniżenie parametru w hipotezie zerowej H 0 3.H 1 : Θ < Θ 0, oznacza to, że możliwe są jedynie rozbieżności ujemne; czyli w grę wchodzi jedynie zawyżenie parametru w hipotezie zerowej H 0 Postać hipotezy alternatywnej H 1
17 Tym samym postać hipotezy alternatywnej w testach parametrycznych decyduje o kształcie obszaru odrzucenia (obszaru krytycznego), czyli o przedziale liczbowym określającym znaczące rozbieżności między wynikiem próby a przypuszczeniem zawartym w hipotezie zerowej H 0 Obszar odrzucenia
18 Obszar odrzucenia przy wnioskowaniu o średniej i frakcji HIPOTEZA ZEROWA H 0 : m = m 0 ; H 0 : p = p 0 ; H 0 : m 1 = m 2 ; H 0 : p 1 = p 2 ; O kształcie obszaru odrzucenia rozstrzyga hipoteza alternatywna Wariant I H 1 : m ≠ m 0 ; H 1 : p ≠ p 0 ; H 1 : m 1 ≠ m 2 ; H 1 :p 1 ≠ p 2 ; dwustronny obszar odrzucenia
19 Obszar odrzucenia przy wnioskowaniu o średniej i frakcji HIPOTEZA ZEROWA H 0 : m = m 0 ; H 0 : p = p 0 ; H 0 : m 1 = m 2 ; H 0 : p 1 = p 2 ; Wariant II H 1 : m > m 0 ; H 1 : p > p 0 ; H 1 : m 1 > m 2 ; H 1 : p 1 > p 2 ; prawostronny obszar odrzucenia α u 2α t 2α,v utut f(u) f(t)
20 Obszar odrzucenia przy wnioskowaniu o średniej i frakcji HIPOTEZA ZEROWA H 0 : m = m 0 ; H 0 : p = p 0 ; H 0 : m 1 = m 2 ; H 0 : p 1 = p 2 ; Wariant III H 1 : m < m 0 ; H 1 : p < p 0 ; H 1 : m 1 < m 2 ; H 1 : p 1 < p 2 ; lewostronny obszar odrzucenia α - u 2α - t 2α,v utut f(u) f(t)
21 Obowiązujące testy istotności: 1. Testy parametryczne Test dla średniej Test dla równości dwóch średnich Test dla średniej różnicy par wartości (porównanie średnich dla prób zależnych) Test dla frakcji elementów wyróżnionych Test dla równości dwóch frakcji Test dla hipotezy o równości wielu średnich (analiza wariancji) 2. Testy nieparametryczne Test zgodności chi-kwadrat
22 Obowiązujące testy istotności: 1.Testy parametryczne Dotyczą sprawdzania przypuszczeń na temat wartości parametrów (średniej m, frakcji p, etc) 2. Testy nieparametryczne Dotyczą sprawdzania przypuszczeń na temat kształtu rozkładu cechy = na temat postaci dystrybuanty); pozwalają sprawdzić, czy: analizowany rozkład cechy jest podobny do (zgodny z) jednego ze znanych rozkładów prawdopodobieństwa (np. rozkładu normalnego) Dwa analizowane rozkłady są do siebie podobne
23 PRZYKŁADY
24 Przykład 1 W Serwisie Informacyjnym podano, że dla 40% Polaków ulubionym daniem wigilijnym jest karp. Czy można tak twierdzić, skoro podane informacje pochodziły od 200 losowo wybranych respondentów, z których 77 przyznało, że karp jest ich ulubionym daniem wigilijnym? (α=0,05) Przypuszczenie: dla 40% Polaków ulubionym daniem wigilijnym jest karp; czy można tak twierdzić? H 0 : p = 40% (odsetek Polaków, których ulubionym daniem wigilijnym jest karp, jest równy 40%) H 1 : p ≠ 40% (odsetek Polaków, których ulubionym daniem wigilijnym jest karp, nie jest równy 40%) statystyka testująca U~N(0,1) Test dla frakcji elementów wyróżnionych
25 Przykład 1 W Serwisie Informacyjnym podano, że dla 40% Polaków ulubionym daniem wigilijnym jest karp. Czy można tak twierdzić, skoro podane informacje pochodziły od 200 losowo wybranych respondentów, z których 77 przyznało, że karp jest ich ulubionym daniem wigilijnym? (α=0,05) Dane: N =200 H 0 : p = 40% H 1 : p ≠ 40% Ale czy to jest dużo, czy mało? Czy różnica między wiedzą empiryczną a hipotetyczną jest znaczna?
26 Obszar odrzucenia przy wnioskowaniu o średniej i frakcji HIPOTEZA ZEROWA H 0 : m = m 0 ; H 0 : p = p 0 ; H 0 : m 1 = m 2 ; H 0 : p 1 = p 2 ; O kształcie obszaru odrzucenia rozstrzyga hipoteza alternatywna Wariant I H 1 : m ≠ m 0 ; H 1 : p ≠ p 0 ; H 1 : m 1 ≠ m 2 ; H 1 :p 1 ≠ p 2 ; dwustronny obszar odrzucenia
27 Przykład 1 W Serwisie Informacyjnym podano, że dla 40% Polaków ulubionym daniem wigilijnym jest karp. Czy można tak twierdzić, skoro podane informacje pochodziły od 200 losowo wybranych respondentów, z których 77 przyznało, że karp jest ich ulubionym daniem wigilijnym? (α=0,05) H 0 : p = 40% H 1 : p ≠ 40% u f(u) α/2 = =0,05/2 = 0,025 -u 0,05 = -1,96u 0,05 = 1,96 Duże rozbieżności Małe rozbieżności U obl < |u 0,05 | -1,96
28 Przykład 2 W 100 gospodarstwach domowych 4-osobowych zbadano kwartalne zużycie energii elektrycznej (kWh) i otrzymano następujące wyniki: Przeciętne zużycie energii w tej grupie wyniosło 540kWh z odchyleniem standardowym s = 150. Na poziomie istotności 0,05 zweryfikować hipotezę, że średnie kwartalne zużycie energii w gospodarstwach 4-osobowych jest niższe niż 600 kWh. Przypuszczenie/hipoteza: średnie kwartalne zużycie energii w gospodarstwach 4-osobowych jest niższe niż 600 kWh. H 0 : m = 600 średnie kwartalne zużycie energii w gospodarstwach 4-osobowych wynosi 600 kWh H 1 : m < 600 średnie kwartalne zużycie energii w gospodarstwach 4-osobowych jest niższe niż 600 kWh Dane: X – kwartalne zużycie energii w gospodarstwach domowych 4-osobowych n = 100 S(x) = 150 α = 0,05 Brak informacji o rozkładzie X Duża próba
29 Przykład 2 H 0 : m = 600 (średnie kwartalne zużycie energii w gospodarstwach 4-osobowych wynosi 600 kWh H 1 : m < 600 (średnie kwartalne zużycie energii w gospodarstwach 4-osobowych jest niższe niż 600 kWh Dane: X – kwartalne zużycie energii w gospodarstwach domowych 4-osobowych n = 100 S(x) = 150 α = 0,05 Brak informacji o rozkładzie X Duża próba Test dla średniej m przy dowolnym rozkładzie X (n duże)
30 Obszar odrzucenia przy wnioskowaniu o średniej i frakcji HIPOTEZA ZEROWA H 0 : m = m 0 ; H 0 : p = p 0 ; H 0 : m 1 = m 2 ; H 0 : p 1 = p 2 ; Wariant III H 1 : m < m 0 ; H 1 : p < p 0 ; H 1 : m 1 < m 2 ; H 1 : p 1 < p 2 ; lewostronny obszar odrzucenia α -u 2α -t 2α,v utut f(u) f(t)
31 Przykład 2 H 0 : m = 600 (średnie kwartalne zużycie energii w gospodarstwach 4-osobowych wynosi 600 kWh H 1 : m < 600 (średnie kwartalne zużycie energii w gospodarstwach 4-osobowych jest niższe niż 600 kWh α = 0,05 -u 2α = -u 0,1 = -1,64 Duże rozbieżności Małe rozbieżności U obl < u 1,64 -4 < - 1,64 Na poziomie istotności 0,05 odrzucamy hipotezę zerową na rzecz hipotezy alternatywnej = przyjmujemy za prawdziwą hipotezę alternatywną H 1. Musimy liczyć się z ryzykiem podjęcia błędnej decyzji, czyli odrzucenia hipotezy zerowej mimo że jest ona prawdziwa (błąd I rodzaju). Ryzyko to wynosi α = 0,05. u f(u)
32 Przykład 3 Zbadano 1000 osób w mieście oraz 500 osób na wsi. W mieście 350 osób wyraziło swoje poparcie dla partii ALFA, na wsi zaś 150. Czy prawdziwe jest stwierdzenie, że partia ALFA cieszy się większym poparciem w mieście niż na wsi? Przyjąć poziom istotności 0,01 Przypuszczenie: partia ALFA cieszy się większym poparciem w mieście (1) niż na wsi (2) H 0 : p 1 = p 2 (poparcie dla partii ALFA jest takie samo w mieście i na wsi) H 1 : p 1 > p 2 (poparcie dla partii ALFA jest większe w mieście niż na wsi) Test dla hipotezy o równości dwóch frakcji gdzie
33 Przykład 3 Zbadano 1000 osób w mieście oraz 500 osób na wsi. W mieście 350 osób wyraziło swoje poparcie dla partii ALFA, na wsi zaś 150. Czy prawdziwe jest stwierdzenie, że partia ALFA cieszy się większym poparciem w mieście niż na wsi? H 0 : p 1 = p 2 (poparcie dla partii ALFA jest takie samo w mieście i na wsi) H 1 : p 1 > p 2 (poparcie dla partii ALFA jest większe w mieście niż na wsi) Dane: n 1 = 1000 n 2 = 500X 1 = 350X 2 =150α=0,01
34 Obszar odrzucenia przy wnioskowaniu o średniej i frakcji HIPOTEZA ZEROWA H 0 : m = m 0 ; H 0 : p = p 0 ; H 0 : m 1 = m 2 ; H 0 : p 1 = p 2 ; O kształcie obszaru odrzucenia rozstrzyga hipoteza alternatywna Wariant II H 1 : m > m 0 ; H 1 : p > p 0 ; H 1 : m 1 > m 2 ; H 1 : p 1 > p 2 ; prawostronny obszar odrzucenia α u 2α t 2α,v utut f(u) f(t)
35 Przykład 3 H 0 : p 1 = p 2 (poparcie dla partii ALFA jest takie samo w mieście i na wsi) H 1 : p 1 > p 2 (poparcie dla partii ALFA jest większe w mieście niż na wsi) f(u) u α=0,01 u 2α = u 0,02 = 2,33 Duże rozbieżności Małe rozbieżności U obl < |u 0,02 | 1,936 < 2,33 Na poziomie istotności 0,01 nie ma podstaw do odrzucenia hipotezy zerowej. Nie ma podstaw, aby wątpić, że poparcie dla partii ALFA jest takie samo w mieście i na wsi
36 Przykład 3.1 Dla jakich wartości poziomu istotności α prawdziwe jest stwierdzenie, iż partia ALFA cieszy się większym poparciem w mieście niż na wsi? Czyli dla jakich wartości poziomu istotności α odrzucalibyśmy hipotezę zerową i przyjmowali hipotezę alternatywną? H 0 : p 1 = p 2 H 1 : p 1 > p 2 f(u) u α U obl = 1,936 u2αu2α
37 Obszar odrzucenia przy wnioskowaniu o średniej i frakcji HIPOTEZA ZEROWA H 0 : m = m 0 ; H 0 : p = p 0 ; H 0 : m 1 = m 2 ; H 0 : p 1 = p 2 ; O kształcie obszaru odrzucenia rozstrzyga hipoteza alternatywna Wariant II H 1 : m > m 0 ; H 1 : p > p 0 ; H 1 : m 1 > m 2 ; H 1 : p 1 > p 2 ; prawostronny obszar odrzucenia α u 2α t 2α,v utut f(u) f(t) 1 – α
38 Przykład 3.1 Dla jakich wartości poziomu istotności α prawdziwe jest stwierdzenie, iż partia ALFA cieszy się większym poparciem w mieście niż na wsi? Czyli dla jakich wartości poziomu istotności α odrzucalibyśmy hipotezę zerową i przyjmowali hipotezę alternatywną? H 0 : p 1 = p 2 H 1 : p 1 > p 2 α* - krytyczny poziom istotności, czyli poziom istotności przy którym następuje zmiana decyzji na przeciwną Odp. Hipotezę zerową H 0 należałoby odrzucić przy poziomie istotności większym bądź równym α*, czyli f(u) u α U obl = 1,936