1 Statystyka w doświadczalnictwieWydział Technologii Drewna SGGW Studia II stopnia
2 Metody nieparametryczneDo tej pory omawialiśmy metody odpowiednie do opracowywania danych ilościowych, mierzalnych W każdym przypadku zakładaliśmy m.in. normalność rozkładów zmiennej Nie zawsze jednak rzeczywistość jest taka łaskawa
3 Metody nieparametryczneCo zrobić, jeżeli: mamy do czynienia z danymi niemierzalnymi, jakościowymi? analizowany zbiór danych jest niejednorodny i cecha nie ma rozkładu normalnego? próba jest mała i nie można zweryfikować założenia o rozkładzie? Zastosować metody (testy) nieparametryczne
4 Skale pomiarowe Zmienne jakościowe Zmienne ilościoweNominalna (nazwa, relacja różności) Porządkowa (rangowa; relacja porządku) Zmienne ilościowe Przedziałowa (interwałowa; stała jednostka, umowne zero, nie dzielić) Ilorazowa (stosunkowa; zero absolutne, wartości można dzielić)
5 Metody nieparametryczneStosować wtedy, gdy nie możemy posłużyć się metodą parametryczną / testem parametrycznym Co prawda gdy założenia testów parametrycznych (zwłaszcza o normalności rozkładu) nie są spełnione, będą one dalej działać, ale w wielu wypadkach wyniki nie będą wiarygodne
6 Testy nieparametryczneNiedotrzymanie założenia o normalności cechy = zmniejszenie błędu I rodzaju (alfa), ale... .. wówczas siła (moc) testów nieparametrycznych jest mniejsza, niż parametrycznych moc testu = zdolność do unikania błędu II rodzaju
7 Testy nieparametryczneTesty nieparametryczne nie wymagają założenia o normalności rozkładu cech(y) (ang. ditribution free tests) Mimo mniejszej mocy (ogółem) dają lepsze wyniki (większą moc) gdy rozkład cechy jest silnie asymetryczny
8 Testy nieparametryczneTesty te nazywają się nieparametrycznymi gdyż w zasadzie nie badają hipotez dotyczących parametrów (mimo, że na pierwszy rzut oka tak się nam wydaje)
9 Testy nieparametryczneZalety można stosować do różnych populacji łatwiejsze do zastosowania Wady mniejsza moc bardziej chaotyczne trudniejsze do zastosowania do bardziej skomplikowanych hipotez / modeli
10 Testy nieparametryczneNajłatwiej będzie prześledzić podstawowe testy nieparametryczne przez ich porównanie do metod parametrycznych w różnych sytuacjach
11
12 Pojedyncza próba
13 Pojedyncza próba Test serii Walda-WolfowitzaStosowany do badania losowości zjawisk Test bierze pod uwagę zarówno różnice od średniej, jak i rozkład próby
14 Pojedyncza próba Np. testujemy termin kiełkowania nasion dwóch podgatunków modrzewia (E i P) Notujemy czas kiełkowania każdego nasienia W efekcie uzyskać możemy następujące przykładowe rozkłady terminu kiełkowania
15 Pojedyncza próba E P E P E P E P E P E P E P E P E P E PE E E E E E E E E E P P P P P P P P P P E E E E E E P E E P E E P P P P P P P P E E P P E P E P P E E E P P E P E E P P E E E E E P P P P P P P P P P E E E E E
16 Próby niezależne
17 Próby niezależne Zastosowanie mediany
18 Miary położenia
19 Miary położenia
20 Miąższości [m3]: 0.45, 0.39, 0.35, 0.51, 0.41, 0.38, 0.42, 0.4, 0.3, 0.6 Średnia miąższość [m3]: 0.421 Miąższości [m3]: 0.45, 0.39, 0.35, 0.51, 0.41, 0.38, 0.42, 0.4, 0.3, 7.1 Średnia miąższość [m3]: 1.07 Mediana [m3]: 0.3, 0.35, 0.38, 0.39, 0.4, 0.41, 0.42, 0.45, 0.51, 7.1
21 Próby niezależne Zastosowanie mediany Test medianHo: mediany w badanych populacjach są takie same H1: mediany w badanych populacjach są różne
22 Próby niezależne Np. badamy dwie metody ścinki pod kątem uszkodzeń drzew
23 Próby niezależne Np. badamy dwie metody ścinki pod kątem uszkodzeń drzew
24 Próby niezależne Np. badamy dwie metody ścinki pod kątem uszkodzeń drzew Czy metoda A jest lepsza?
25 Próby niezależne Np. badamy dwie metody ścinki pod kątem uszkodzeń drzew Czy metoda A jest lepsza? Liczymy ogólną medianę (Me=16)
26 Próby niezależne Metoda A: 5 wartości < mediany, czyli PA=5/12Metoda B: 5 wartości < mediany, czyli PB=5/9 Ho: nie ma różnicy między PA i PB (PA-PB=0) Obliczamy
27 Próby niezależne Test sumy rang Manna-WhitneyaStosowany zamiast testu t w sytuacji, gdy rozkłady cechy nie są normalne
28 Próby niezależne Test sumy rang Manna-WhitneyaStosowany zamiast testu t w sytuacji, gdy rozkłady cechy nie są normalne Łączymy próby ze sobą, sortujemy i przydzielamy rangi (gdy wartości takie same – używamy rang wiązanych)
29 Próby niezależne Obliczamy sumę rang dla każdej z prób przed połączeniem Jeżeli populacje mają takie same rozkłady badanej cechy, sumy rang powinny być takie same (lub przynajmniej do siebie zbliżone)
30 Próby niezależne Np. analizujemy termin kiełkowania nasion dwóch podgatunków modrzewia (E i P)
31 Próby niezależne Np. analizujemy termin kiełkowania nasion dwóch podgatunków modrzewia (E i P)
32 Próby niezależne Np. analizujemy termin kiełkowania nasion dwóch podgatunków modrzewia (E i P) Czy jest różnica w terminach kiełkowania tych podgatunków?
33 Próby niezależne Analizujemy rangi dla E i PE: 2, 7, 8, 9, 11 (suma = 37) P: 1, 3, 4, 5, 6, 10 (suma = 29)
34 Próby niezależne Analizujemy rangi dla E i P Testujemy hipotezyE: 2, 7, 8, 9, 11 (suma = 37) P: 1, 3, 4, 5, 6, 10 (suma = 29) Testujemy hipotezy Ho: nie ma różnicy w terminie kiełkowania nasion E i P H1: jest różnica w terminie kiełkowania nasion E i P
35 Próby zależne
36 Próby zależne Podobnie, jak w przypadku testów parametrycznych, test dotyczy nie wartości cechy w populacjach, ale różnicy cech dla par spostrzeżeń Ho: mediana różnic między wartościami sparowanymi = 0 Statystyka testowa: liczba różnic + Jeżeli Ho jest prawdziwa, liczba różnic na + i – powinna być równa
37 Próby zależne Test znaków dla prób zależnychNp. Badamy liczbę nasion w strąkach robinii. Interesuje nas, czy liczba zdrowych nasion w strąkach z górnej części korony jest inna, niż w dolnej części korony. Badaniu podlegają straki pobrane z 10 drzew
38 Próby zależne Na podstawie tych danych obliczamy statystykę testu (z) i porównujemy ją z wartością krytyczną dla rozkładu normalnego
39 Próby zależne Test WilcoxonaTestowi również podlega mediana różnic między parami obserwacji Ale do testu wykorzystuje się rangi okreslone na podstawie wartości absolutnych różnic między parami obserwacji
40 Próby zależne Suma R+ = 47 Suma R- = 8Statystyka testu = min(R+, R-) = 8 Porównanie z wartością krytyczną i decyzja (tu 8 < 10)
41 Próby zależne Test Wilcoxona jest podobny do testu znaków dla prób zależnych Można je stosować w tych samych sytuacjach Test Wilcoxona uwzględnia więcej informacji (znak i wielkość różnic), dlatego jest lepszy
42 Rozkłady
43 Rozkłady W tej grupie testów omówimy test chi-kwadrat test Kołmogorowatest Kołmogorowa-Smirnova test Shapiro-Wilka
44 Rozkłady – 1 próba Testowana jest zgodność rozkładu empirycznego z rozkładem teoretycznym test chi-kwadrat test Kołmogorowa test Shapiro-Wilka
45 Rozkłady – 1 próba Test chi-kwadrat testuje różnice między częstościami klas w rozkładzie teoretycznym i empirycznym Czuły na liczbę i liczebność klas Przeznaczony do testowania hipotez dotyczących rozkładów zmiennych skokowych (dla zmiennych ciągłych statystyka daje tylko przybliżenie)
46 Rozkłady – 1 próba Test Kołmogorowa testuje różnice między skumulowanymi liczebnościami klas (dystrybuantami) rozkładu teoretycznego i empirycznego Przeznaczony do testowania hipotez dotyczących rozkładów zmiennych ciągłych Modyfikacja: normalizacja statystyki wielkością próby
47 Rozkłady – 1 próba Test Shapiro-Wilka testuje hipotezę, że rozkład empirycznyc jest zgodny z rozkładem normalnym
48 Rozkłady – 2 próby Test Kołmogorowa-Smirnova testuje hipotezę, że dwie próby zostały pobrane z tej samej populacji lub z populacji o takich samych rozkładach Wykorzystuje (standaryzowaną) różnicę między skumulowanymi liczebnościami (dystrybuantami) rozkładów
49 ANOVA
50 ANOVA? Ze względu na założenia nie zawsze możemy wykonać analizę wariancji Nieparametryczny odpowiednik ANOVA - test Kruskala-Wallisa Zamiast średnich testowane są mediany Rozwinięcie testu Wilcoxona dla prób niezależnych (wykorzystuje rangi)
51 Test Kruskala-WallisaKażdej obserwacji przypisuje się rangę (dla całości doświadczenia) Warianty doświadczenia / poziomy czynnika Oblicza się statystykę testową
52 Test Kruskala-WallisaNp. Czy branża, w której absolwent wyższej uczelni znajduje pierwszą pracę, decyduje o wielkości wynagrodzenia?
53 Test Kruskala-WallisaHo: początkowe wynagrodzenia w poszczególnych branżach są takie same
54 Test Kruskala-WallisaHobl = 4,13 Krytyczna wartość chi2 = 7,81 Brak podstaw do odrzucenia Ho o równości wynagrodzeń
55 Siła związku
56 Siła związku Współczynnik korelacji rang Spearmana (1904)Wykorzystuje rangi do badania siły związku między cechami Można również wykorzystać do testowania hipotezy, że nie ma związku między badanymi populacjami
57 Dziekuje za uwagę!