1 Analiza wariancji (ANOVA) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie dr Marta Marszałek e-mail: [email protected]
2 Analiza wariancji (Analysis of variance = ANOVA) jest statystyczną metodą rozstrzygania o: - istnieniu różnic między średnimi w kilku grupach (subpopulacjach), (lub inaczej o:) - istnieniu wpływu wyodrębnionego czynnika na rozkład cechy w grupach. Przedmiotem badania jest r grup (subpopulacji) wyodrębnionych w związku z działaniem pewnego czynnika (treatment).
3 ANOVA Wpływ każdego czynnika rozpatrywany jest: o d r ę b n i e modele jednoczynnikowe (jednoczynnikowa analiza wariancji) łącznie modele wieloczynnikowe (wieloczynnikowa analiza wariancji)
4 Analiza wariancji - przykłady Czy średnie plony na czterech poletkach doświadczalnych są istotnie zróżnicowane w wyniku zasilania pól różnymi nawozami? Czy wykształcenie kobiet jest czynnikiem istotnie różnicującym przeciętną liczbę dzieci w gospodarstwie domowym? Czy lojalność klientów wobec konkretnej stacji paliw (X,Y,Z) i tankowanie tylko na jednej z nich wpływa na przeciętne zużycie paliwa przez samochód?
5 Analiza wariancji - hipotezy Założenie: Zmienne Y i (i=1…r) mają rozkład N o średniej m i oraz jednakowej we wszystkich populacjach wariancji σ 2. H 0 : m 1 = m 2 =…. = m r (wyodrębniony czynnik nie ma wpływu na rozkład badanej cechy) H 1 : m i ≠ m j dla co najmniej jednej pary i, j (wyodrębniony czynnik ma wpływ na rozkład badanej cechy, gdyż średnie w co najmniej dwóch populacjach różnią się)
6 Analiza wariancji - założenia cd. 1. Próby pobrane zostały w sposób niezależny z każdej z r populacji, 2. Badana cecha w każdej z populacji ma rozkład N o jednakowej wariancji σ 2. Populacje o rozkładzie normalnym z różnymi średnimi, ale o tej samej wariancji
7 Z każdej grupy pobieramy niezależną próbę losową o liczebności n i i rozpatrujemy zmienne objaśniane Y i. Nr obserwacji (k) Numer grupy ( i ) 12…….r 123...ni123...ni [y ki ] Liczebność grupyn1n1 n2n2 …….nrnr Średnie grupoweȳ 1 ȳ 2 …….ȳ r Czy te średnie różnią się na tyle znacząco, żeby uznać za istotny wpływ badanego czynnika?
8 Równość wariancyjna Całkowita suma kwadratów odchyleń od średniej ogólnej SST = SSE + SSB SSE (sum of squares for error) Zmienność wewnątrzgrupowa (zmienność niewyjaśniona) SSB (sum of squares between groups) Zmienność międzygrupowa (zmienność wyjaśniona)
9 Zróżnicowanie całkowite SST (Sum of Squares Total)
10 Zróżnicowanie międzygrupowe (suma kwadratów odchyleń międzygrupowych)
11 Zróżnicowanie wewnątrzgrupowe (suma kwadr. odchyleń wewnątrzgrupowych) SSE (Sum of Squares for Error) wynika z różnic występujących wewnątrz każdej grupy średnia dla i-tej grupy
12 Podział odchylenia całkowitego danej obserwacji y ki od średniej ogólnej ȳ jako suma odchylenia wyjaśnionego i błędu losowego
13 Analiza wariancji Źródło zmiennościSuma kwadratów odchyleń Stopnie swobodyŚredni kwadrat odchyleń Zróżnicowanie międzygrupowe – czynnik SSBr-1MSB Zróżnicowanie wewnątrzgrupowe – błąd losowy SSEn-rMSE Zróżnicowanie całkowite SSTn-1- +=+=
14
15
16
17 Krok po kroku - decyzja ANOVA Brak podstaw do odrzucenia H0 StopOdrzucenie H0 Dalsza analiza
18 Porównania wielokrotne. Porównywanie średnich w populacji parami Metoda najmniejszej istotnej różnicy Fishera (LSD - least significant difference) polega na porównaniu różnic między parami średnich z próby z pewną wielkością zwaną najmniejszą istotną różnicą (LSD) t α - wartość z rozkładu t-Studenta dla n-r stopni swobody. Jeśli dla dwóch średnich zachodzi: to różnica między tymi średnimi jest statystycznie istotna
19 Dziękuję dr Marta Marszałek e-mail: [email protected]