STATYSTYKA – kurs podstawowy wykład 7 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.

1 STATYSTYKA – kurs podstawowy wykład 7 dr Dorota Węziak-...
Author: Antonina Jakubowska
0 downloads 2 Views

1 STATYSTYKA – kurs podstawowy wykład 7 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii

2 WNIOSKOWANIE STATYSTYCZNE cd

3 Metody wnioskowania statystycznego ESTYMACJAWERYFIKACJA HIPOTEZ STATYSTYCZNYCH Sprawdzenie słuszności przypuszczeń dotyczących: 1.rozkładu cechy statystycznej, a dokładniej jego dystrybuanty – hipotezy nieparametryczne 2.parametrów rozkładu cechy – hipotezy parametryczne Hipotezy zawierają przypuszczenia dotyczące populacji

4 Obowiązujące testy istotności: 1. Testy parametryczne Test dla średniej Test dla hipotezy o równości średnich Test dla średniej różnicy par wartości (porównanie średnich dla prób zależnych) Test dla frakcji elementów wyróżnionych Test dla równości dwóch frakcji Test dla hipotezy o równości wielu średnich (analiza wariancji) 2. Testy nieparametryczne Test zgodności chi-kwadrat

5 TEST DLA ŚREDNIEJ RÓŻNICY PAR WARTOŚCI (PRÓBY ZALEŻNE)

6 Metoda rozstrzygania o istnieniu różnic między średnimi w jednej populacji poddanej dwóm pomiarom (np. w dwóch momentach czasu lub oceniającej dwa różne produkty) -pomiar początkowy -pomiar końcowy ale przeprowadzone na jednej i tej samej próbie Hipoteza zerowa: H 0 : m 1 = m 2 (m 1 - m 2 = 0) – średnie w obu pomiarach są identyczne Hipoteza alternatywna: H 1 : m 1 ≠ m 2 (m 1 - m 2 ≠ 0) – średnie w obu pomiarach różnią się

7 Statystyka testująca: rozkład t – Studenta v = n – 1 gdzie: Różnica między wynikami pomiaru początkowego i końcowego dla i-tej jednostki obserwacji Średnia z różnic między wynikami pomiaru początkowego i końcowego dla i-tej jednostki obserwacji Odchylenie standardowe z różnic między wynikami pomiaru początkowego i końcowego dla i-tej jednostki obserwacji

8 Obszar odrzucenia wyznacza wartość t α,v odczytania z tablic wartości krytycznych rozkładu t – Studenta Kształt obszaru odrzucenia zależy od sposobu sformułowania hipotezy alternatywnej: może to być obszar dwustronny lub jednostronny

9 Przykład (na podstawie Metody ilościowe w badaniach marketingowych, M. Rószkiewicz, PWN, Warszawa 2002) W teście mającym na celu porównanie walorów smakowych jogurtu przedstawiono 5 losowo wybranym konsumentom ofertę dwóch marek. Respondenci wyrażali swoje poglądy na skali od 0 do 100. Wyniki zestawiono w tabeli: dwie próby zależne n = 5 Czy na podstawie uzyskanych wyników można uznać, że walory smakowe marki A są lepiej oceniane niż walory smakowe marki B ? RespondentMarka AMarka B 17368 28579 36460 49084 56965 Test dla średniej różnicy par wartości

10 Przykład (na podstawie Metody ilościowe w badaniach marketingowych, M. Rószkiewicz, PWN, Warszawa 2002) H 0 : m A = m B (m A - m B = 0) – średnia ocena walorów smakowych jogurtu marki A jest taka sama jak średnia ocena walorów smakowych jogurtu marki B H 1 : m A > m B (m A - m B > 0) – średnia ocena walorów smakowych jogurtu marki A jest wyższa niż średnia ocena walorów smakowych jogurtu marki B RespondentMarka AMarka B Różnica ocen 173685 285796 364604 490846 569654

11 Przykład (na podstawie Metody ilościowe w badaniach marketingowych, M. Rószkiewicz, PWN, Warszawa 2002) RespondentMarka AMarka B Różnica ocen 173685 285796 364604 490846 569654

12 Przykład (na podstawie Metody ilościowe w badaniach marketingowych, M. Rószkiewicz, PWN, Warszawa 2002) H 0 : m A = m B (m A - m B = 0) – średnia ocena walorów smakowych jogurtu marki A jest taka sama jak średnia ocena walorów smakowych jogurtu marki B H 1 : m A > m B (m A - m B > 0) – średnia ocena walorów smakowych jogurtu marki A jest wyższa niż średnia ocena walorów smakowych jogurtu marki B

13 Obszar odrzucenia przy wnioskowaniu o średniej i frakcji HIPOTEZA ZEROWA H 0 : m = m 0 ; H 0 : p = p 0 ; H 0 : m 1 = m 2 ; H 0 : p 1 = p 2 ; Wariant II H 1 : m > m 0 ; H 1 : p > p 0 ; H 1 : m 1 > m 2 ; H 1 : p 1 > p 2 ; prawostronny obszar odrzucenia α u 2α t 2α,v utut f(u) f(t)

14 Przykład (na podstawie Metody ilościowe w badaniach marketingowych, M. Rószkiewicz, PWN, Warszawa 2002) H 0 : m A = m B (m A - m B = 0) – średnia ocena walorów smakowych jogurtu marki A jest taka sama jak średnia ocena walorów smakowych jogurtu marki B H 1 : m A > m B (m A - m B > 0) – średnia ocena walorów smakowych jogurtu marki A jest wyższa niż średnia ocena walorów smakowych jogurtu marki B f(t) t α=0,01 t 2α,v = t 0,02;4 = 3,747 Małe rozbieżności Duże rozbieżności

15 Na poziomie istotności 0,01 odrzucamy hipotezę zerową na rzecz hipotezy alternatywnej = przyjmujemy za prawdziwą hipotezę alternatywną H 1. Oznacza to, że średnia ocena walorów smakowych jogurtu marki A jest wyższa niż średnia ocena walorów smakowych jogurtu B. Musimy liczyć się z ryzykiem podjęcia błędnej decyzji, czyli odrzucenia hipotezy zerowej,mimo że jest ona prawdziwa (błąd I rodzaju). Ryzyko to wynosi α = 0,05.

16 TEST DLA HIPOTEZY O RÓWNOŚCI WIELU ŚREDNICH (ANALIZA WARIANCJI = ANOVA)

17 Metoda rozstrzygania o istnieniu różnic między średnimi w kilku populacjach Hipoteza zerowa: H 0 : m 1 = m 2 = … = m r – średnie we wszystkich wyodrębnionych populacjach są identyczne Hipoteza alternatywna: H 1 : m i ≠ m j, dla co najmniej jednej pary wskaźników i, j (i ≠ j) (H 1 : nieprawda, że m 1 = m 2 = … = m r ) – średnie w co najmniej dwóch wyodrębnionych populacjach różnią się

18 TEST DLA HIPOTEZY O RÓWNOŚCI WIELU ŚREDNICH (ANALIZA WARIANCJI = ANOVA) Metoda rozstrzygania o istnieniu wpływu kontrolowanej cechy (czynnika) na rozkład innych cech Hipoteza zerowa: H 0 : m 1 = m 2 = … = m r – badany czynnik nie ma wpływu na rozkład analizowanej cechy Hipoteza alternatywna: H 1 : m i ≠ m j, badany czynnik ma wpływ na rozkład analizowanej cechy, ponieważ dla co najmniej jednej pary wskaźników i, j (i ≠ j) średnie (H 1 : nieprawda, że m 1 = m 2 = … = m r ) – średnie w co najmniej dwóch wyodrębnionych populacjach różnią się

19 TEST DLA HIPOTEZY O RÓWNOŚCI WIELU ŚREDNICH (ANALIZA WARIANCJI = ANOVA) Założenia: 1.Próby zostały pobrane niezależnie od siebie z każdej z r populacji 2.W każdej z analizowanych populacji cecha ma rozkład normalny o tej samej wariancji σ 2 σ 1 2 = σ 2 2 = … = σ r 2 = σ 2

20 TEST DLA HIPOTEZY O RÓWNOŚCI WIELU ŚREDNICH (ANALIZA WARIANCJI = ANOVA) Statystyka testująca: v 1 = r – 1 v 2 =n – r Obszar odrzucenia wyznacza wartość odczytania z tablic wartości krytycznych rozkładu F Obszar odrzucenia jest zawsze prawostronny:

21 ROZKŁAD F-Snedecora Jeśli zmienna losowa ciągła F ma funkcję gęstości postaci: dla F < 0 dla F ≤ 0 to zmienna losowa F ma rozkład F-Snedecora (lub krótko rozkład F) W tym rozkładzie jedynymi parametrami (stałymi) są „liczby stopni swobody” v 1 i v 2. Oznacza to, że kształt wykresu funkcji f(F) zależy tylko od wartości v 1 i v 2 v 1 = 3, v 2 = 3

22 ROZKŁAD F-Snedecora Parametry w tym rozkładzie: 1.Wartość oczekiwana 2.Wariancja Wartości prawdopodobieństw w rozkładzie F zostały policzone i zawierają je tablice statystyczne (wartości krytyczne rozkładu F). Są to wartości obliczone dla warunku α 1-α

23 Dla v 1 = 10 i v 2 = 15

24 TEST DLA HIPOTEZY O RÓWNOŚCI WIELU ŚREDNICH (ANALIZA WARIANCJI = ANOVA) Statystyka testująca: r – liczba badanych populacji n – łączna liczba jednostek we wszystkich próbach n i – liczba jednostek w i-tej próbie Średnia w i-tej próbie Średnia w całej badanej grupie

25 TEST DLA HIPOTEZY O RÓWNOŚCI WIELU ŚREDNICH (ANALIZA WARIANCJI = ANOVA) Statystyka testująca: r – liczba badanych populacji n – łączna liczba jednostek we wszystkich próbach n i – liczba jednostek w i-tej próbie Suma kwadratów odchyleń międzygrupowych Suma kwadratów odchyleń wewnątrzgrupowych

26 TEST DLA HIPOTEZY O RÓWNOŚCI WIELU ŚREDNICH (ANALIZA WARIANCJI = ANOVA) TABLICA ANALIZY WARIANCJI RÓWNOŚĆ WARIANCYJNASST = SSB + SSE Źródło zmienności Suma kwadratów odchyleń Stopnie swobody Średni kwadrat odchyleń Zróżnicowanie międzygrupowe SSBr – 1MSB Zróżnicowanie wewnątrzgrupowe SSEn – rMSE Zróżnicowanie całkowite SST r – 1 + n – r = n – 1 -

27 Przykład (na podstawie Metody ilościowe w badaniach marketingowych, M. Rószkiewicz, PWN, Warszawa 2002) W firmie oferującej soki owocowe na rynki lokalne w celu zwiększenia wielkości sprzedaży podjęto próbę ustalenia, czy kolor opakowania soku ma wpływ na wielkość sprzedaży. W ustalonym dniu w wybranych losowo 21 punktach sprzedaży zorganizowano eksperyment polegający na sprzedaży soku w opakowaniu ustalonego koloru: w 7 punktach sprzedawano soki tylko w opakowaniach niebieskich, w 7 punktach sprzedawano soki tylko w opakowaniach zielonych, w 7 punktach sprzedawano soki tylko w opakowaniach białych. Zaobserwowano następujące ilości sprzedaży Kolor opakowania Wielkość sprzedaży w poszczególnych punktach Zielony1822 23222319 Niebieski2018192120 18 Biały10111211 10

28 Przykład (na podstawie Metody ilościowe w badaniach marketingowych, M. Rószkiewicz, PWN, Warszawa 2002) r = 3, n z = n n = n b = 7, n = 21 Kolor opakowania Wielkość sprzedaży w poszczególnych punktach Zielony1822 23222319 Niebieski2018192120 18 Biały10111211 10 Czy te średnie różnią się na tyle znacząco, aby uznać, że przeciętne ilości sprzedanych soków we wszystkich punktach sprzedaży (cała populacja) różnią się w zależności od koloru opakowania? Czy te średnie różnią się na tyle znacząco, aby uznać, że kolor opakowania ma wpływ na ilość sprzedawanych opakowań?

29 Przykład (na podstawie Metody ilościowe w badaniach marketingowych, M. Rószkiewicz, PWN, Warszawa 2002) r = 3, n z = n n = n b = 7, n = 21 Kolor opakowania Wielkość sprzedaży w poszczególnych punktach Zielony1822 23222319 Niebieski2018192120 18 Biały10111211 10 Hipoteza zerowa: H 0 : m 1 = m 2 = m 3 – kolor opakowania soku nie ma wpływu na wielkość sprzedaży; średnie wielkości sprzedaży nie różnią się ze względu na testowane kolory opakowania; Hipoteza alternatywna: H 1 : m i ≠ m j, kolor opakowania soku ma wpływ na wielkość sprzedaży (H 1 : nieprawda, że m 1 = m 2 = … = m r ) – średnie wielkości sprzedaży ze względu na co najmniej dwa testowane kolory opakowania różnią się

30 Statystyka testująca: r – liczba badanych populacji n – łączna liczba jednostek we wszystkich próbach n i – liczba jednostek w i-tej próbie r = 3, n z = n n = n b = 7 Średnia w i-tej próbie Średnia w całej badanej grupie

31 Przykład (na podstawie Metody ilościowe w badaniach marketingowych, M. Rószkiewicz, PWN, Warszawa 2002) r = 3, n z = n n = n b = 7 Kolor opakowania Wielkość sprzedaży w poszczególnych punktach Zielony1822 23222319 Niebieski2018192120 18 Biały10111211 10

32 Przykład (na podstawie Metody ilościowe w badaniach marketingowych, M. Rószkiewicz, PWN, Warszawa 2002) r = 3, n z = n n = n b = 7 Kolor opakowania Wielkość sprzedaży w poszczególnych punktach Zielony1822 23222319 Niebieski2018192120 18 Biały10111211 10 Obszar odrzucenia wyznacza wartość odczytania z tablic wartości krytycznych rozkładu F Obszar odrzucenia jest zawsze prawostronny:

33 Na poziomie istotności 0,05 odrzucamy hipotezę zerową na rzecz hipotezy alternatywnej = przyjmujemy za prawdziwą hipotezę alternatywną H 1. Oznacza to, że kolor opakowań ma wpływ na wielkość sprzedaży; Podejmując taką decyzję, musimy liczyć się z ryzykiem, że jest ona błędna, czyli że odrzucamy hipotezę zerową mimo że jest ona prawdziwa (błąd I rodzaju). Ryzyko to wynosi α = 0,05.

34 TABLICA ANALIZY WARIANCJI RÓWNOŚĆ WARIANCYJNASST = SSB + SSE Źródło zmienności Suma kwadratów odchyleń Stopnie swobody Średni kwadrat odchyleń Zróżnicowanie międzygrupowe SSB = 432,7r – 1 =2MSB = 216,35 Zróżnicowanie wewnątrzgrupowe SSE = 34n – r = 18MSE = 1,89 Zróżnicowanie całkowite SST = 464,7 r – 1 + n – r = n – 1 = 20 -

35 TEST ZGODNOŚCI Z ROZKŁADEM NORMALNYM CHI – KWADRAT (χ 2 )

36 Hipoteza zerowa: H 0 : F(x) = F 0 (x) – populacja generalna ma rozkład określony dystrybuantą rozkładu normalnego o parametrach m i σ Hipoteza alternatywna: H 1 : F(x) ≠ F 0 (x) – populacja generalna nie ma rozkładu określonego dystrybuantą rozkładu normalnego o parametrach m i σ W hipotezach mogą zostać podane konkretne wartości liczbowe parametrów m i σ, ale nie muszą

37 TEST ZGODNOŚCI Z ROZKŁADEM NORMALNYM CHI – KWADRAT (χ 2 ) Do weryfikacji hipotezy zerowej potrzebna jest duża próba Wyniki grupujemy w rozkład empiryczny z r rozłącznymi klasami (przedziałami) Rozkład należy określić w ten sposób, aby liczebności teoretyczne ( = n * p i ) w poszczególnych klasach były nie mniejsze niż 5 Tylko wtedy rozkład chi-kwadrat jest dobrym przybliżeniem rozkładu statystyki testującej przy założeniu hipotezy zerowej

38 TEST ZGODNOŚCI Z ROZKŁADEM NORMALNYM CHI – KWADRAT (χ 2 ) 1.Formujemy przypuszczenie co do kształtu rozkładu analizowanej cechy – wyrażamy je w postaci hipotezy zerowej i alternatywnej 2.Obliczamy częstości występowania pewnych zdarzeń, których się spodziewamy, zakładając, że hipoteza zerowa jest prawdziwa (częstości oczekiwane, częstości teoretyczne) 3.Porównujemy różnice między częstościami zaobserwowanymi w próbie oraz tymi oczekiwanymi

39 TEST ZGODNOŚCI Z ROZKŁADEM NORMALNYM CHI – KWADRAT (χ 2 ) 1.Formujemy przypuszczenie co do kształtu rozkładu analizowanej cechy – wyrażamy je w postaci hipotezy zerowej i alternatywnej 2.Obliczamy częstości występowania pewnych zdarzeń, których spodziewamy się zakładając, że hipoteza zerowa jest prawdziwa (częstości oczekiwane) 3.Porównujemy różnice między częstościami zaobserwowanymi w próbie oraz tymi oczekiwanymi PRZYKŁAD Na pisemny egzamin ze statystyki przeznaczonych jest 120 min. Wylosowano 240 studentów i zmierzono im czas rozwiązywania zadań testowych. Czy czas rozwiązywania zadań jest zgodny z rozkładem normalnym? (x 0i -x 1i >50-6060-7070-8080-9090-100100-110110-120 nini 11194682502012 H 0 : F(x) = F 0 (x) – czas pisania egzaminu ze statystyki ma rozkład normalny o parametrach m i σ H 1 : F(x) ≠ F 0 (x) – czas pisania egzaminu ze statystyki nie ma rozkładu normalnego o parametrach m i σ

40 TEST ZGODNOŚCI Z ROZKŁADEM NORMALNYM CHI – KWADRAT (χ 2 ) 1.Formujemy przypuszczenie co do kształtu rozkładu analizowanej cechy – wyrażamy je w postaci hipotezy zerowej i alternatywnej 2.Obliczamy częstości występowania pewnych zdarzeń, których spodziewamy się, zakładając, że hipoteza zerowa jest prawdziwa (częstości oczekiwane) 3.Porównujemy różnice między częstościami zaobserwowanymi w próbie oraz tymi oczekiwanymi (x 0i -x 1i >50-6060-7070-8080-9090-100100-110110-120 nini 11194682502012

41 TEST ZGODNOŚCI Z ROZKŁADEM NORMALNYM CHI – KWADRAT (χ 2 ) Statystyka testująca: Obszar odrzucenia wyznacza wartość odczytania z tablic wartości krytycznych rozkładu Obszar odrzucenia jest zawsze prawostronny:

42 ROZKŁAD chi-kwadrat Jeśli zmienna losowa ciągła χ 2 ma funkcję gęstości postaci: dla to zmienna losowa χ 2 ma rozkład chi-kwadrat W tym rozkładzie jedynym parametrem (jedyną stałą) jest „liczba stopni swobody” v Oznacza to, że kształt wykresu funkcji f(χ 2 ) zależy tylko od wartości v Tak samo jak w przypadku rozkładu t-Studenta v = 5v = 10v = 15 Wraz ze wzrostem liczby stopni swobody v rozkład chi-kwadrat, choć z natury asymetryczny, zatraca swoją skośność. Rozkładem granicznym dla rozkładu chi-kwadrat jest rozkład normalny.

43 ROZKŁAD chi-kwadrat Parametry w tym rozkładzie: 1.Wartość oczekiwana E(χ 2 ) = v 2.Wariancja D 2 (χ 2 ) = 2v Wartości prawdopodobieństw w rozkładzie chi-kwadrat zostały policzone i zawierają je tablice statystyczne (wartości krytyczne rozkładu chi-kwadrat) Są to wartości obliczone dla warunku α 1-α

44 Dla v = 10