1 Statystyka medyczna Piotr Kozłowski e-mail: [email protected]@amu.edu.pl www: www.amu.edu.pl/~kozlwww.amu.edu.pl/~kozl 1
2 Zaliczenie: obecność na ćwiczeniach – możliwe są 2 nieobecności praktyczne kolokwium typu otwarta książka 2 Materiały: Strona www: www.amu.edu.pl/~kozlwww.amu.edu.pl/~kozl
3 3 Statystyka Opis Statystyka opisowa: metody gromadzenia, opisu i prezentacji danych Estymacja Statystyka matematyczna (indukcyjna): -teoria estymacji -weryfikacja hipotez
4 4 Populacja Próbka reprezentatywna
5 5 Prawdopodobieństwo w statystyce Wynik pomiaru wykonanego na losowo wybranej próbce traktujemy jak zmienną losową – przyjmuje wartości z pewnym prawdopodobieństwem. Ponieważ populacja jest praktycznie nieosiągalna, więc celem nie jest pomiar wszystkich wartości dla populacji, ale znalezienie rozkładu prawdopodobieństwa danej zmiennej w populacji. W statystyce stosuje się często częstotliwościową def. prawdopodobieństwa: prawdopodobieństwo to stosunek ilości wystąpień danego zdarzenia do ilości wszystkich wystąpień.
6 6 Estymator – wielkość obliczona dla próby (v’), która stanowi oszacowanie wielkości obliczonej dla populacji (v). Np. średnia z próbki jest dobrym estymatorem średniej z populacji. Cechy optymalnego estymatora: Nieobciążony E(v’)=v Zgodny (lim N→∞ P(|v'-v|>ε)=0) Efektywny – minimalna wariancja Estymator nieobciążony Estymator obciążony Wartość dla populacji
7 7 nominalna - wynikiem pomiaru jest rozłączna kategoria, np.: kolor oczu, płeć, grupa krwi, porządkowa - podobnie jak nominalna, tylko że wyniki można jednoznacznie uporządkować, np.: stopień znajomości języka: podstawowy, średnio zaawansowany, zaawansowany, biegły, lub masa ciała: niedowaga, norma, nadwaga, otyłość. Skala ta może być wyrażana przy pomocy cyfr, np. skala Apgar (0-10) przedziałowa (interwałowa, równomierna) - tak jak porządkowa, tylko że można obliczyć odległość między wynikami, większość pomiarów należy do tej skali, np.: ciśnienie krwi, masa ciała, temperatura ilorazowa - to samo co skala przedziałowa z tym że iloraz ma sens (istnieje bezwzględne zero), np. wiek, Skale pomiarowe
8 8 Sposoby przedstawiania surowych danych Histogram (skala ilorazowa i przedziałowa – zmienne ciągłe)
9 9 Sposoby przedstawiania surowych danych Histogram skumulowany (skala ilorazowa i przedziałowa – zmienne ciągłe)
10 10 wykresy słupkowe - zmienne dyskretne
11 11 wykresy kołowe - wszystkie skale nominalna porządkowa ilorazowa
12 12 Diagram łodyga liście
13 13 Wykres rozrzutu
14 14 Statystyka opisowa Miary położenia Średnia arytmetyczna Mediana – wartość środkowa Moda – wartość najczęściej występująca Kwartyle (Q 1 – dolny kwartyl i Q 3 – górny kwartyl, percentyle (centyle))
15 15 Miary rozrzutu Wariancja Odchylenie standardowe Odchylenie ćwiartkowe Współczynnik zmienności
16 16 Miary rozrzutu - przykład MężczyźniKobiety Wzrost [cm]175 S=15165 S=14 Masa [kg]75 S=1055 S=9 MężczyźniKobiety Wzrost [cm]175 V=0.0857165 V=0.0848 Masa [kg]75 V=0.1355 V=0.16
17 17 Miary symetrii kurtoza K>0 - bardziej smukła niż normalny (rozkład leptokurtyczny), K
18 18 skośność (współczynnik symetrii) As>0 - mediana i moda na lewo od średniej (symetria prawostronna - Mo Me> średnia
19 19 Graficzna prezentacja statystyk – wykres ramka-wąsy
20 20 Zdarzenia i ich prawdopodobieństwo Prawdopodobieństwo zdarzenia A w przypadku, gdy wszystkie zdarzenia elementarne są równoprawodpodobne: N(A) – ilość zdarzeń elementarnych sprzyjających zdarzeniu A N(Ω) – ilość wszystkich zdarzeń elementarnych Zdarzenia A i B są niezależne Prawdopodobieństwo sumy zdarzeń
21 21 Rozkład prawdopodobieństwa Zmienne dyskretne prawdopodobieństwo wystąpienia każdej wartości P(x i ), lub dystrybuanta F(x i ) Zmienne ciągłe gęstość prawdopodobieństwa g(x) lub dystrybuanta F(x) Histogram można uważać za przybliżenie gęstości prawdopodobieństwa.
22 22 Rodzaje rozkładów prawdopodobieństwa: 1.Symetryczny 2.Asymetryczny 3.o kształcie J 4.multimodalny
23 23
24 24 Centralne twierdzenie graniczne - błąd standardowy
25 25 Przedział ufności średniej z populacji (rozkład normalny)
26 26 Przedział ufności średniej z populacji (rozkład t-Studenta) k=n-1
27 27 Dwa sformułowania: 1.W przedziale ufności z prawdopodobieństwem 1-α znajduje się średnia z populacji. 2.W (1-α)*100% przedziałów ufności utworzonych dla losowo wybranych próbek znajduje się średnia z populacji.
28 28 Testowanie hipotez H 0 : hipoteza zerowa – wyjściowa H 1 : hipoteza alternatywna – to co chcemy wykazać H 0 prawdziwaH 1 prawdziwa nie odrzucamy H 0 ok 1-αbłąd 2 rodzaju β akceptujemy H 1 błąd 1 rodzaju αok 1-β 1-β – moc testu
29 29 Rodzaje hipotez hipotezy dwustronne: H 0 : μ=μ 0 H 1 : μ≠μ 0 hipotezy jednostronne: H 0 : μ≥μ 0 H 1 : μμ 0
30 30 Test t-Studenta dla jednej próbki porównanie średniej z populacji z wartością tablicową
31 31
32 32 1.Zdefiniuj hipotezę zerową i alternatywną, oraz poziom istotności 2.Zbierz odpowiednie dane 3.Oblicz wartość statystyki 4.Porównaj wartość statystyki z wartościami krytycznymi odpowiedniego rozkładu. ↕ 5.Zinterpretuj wartość P.
33 33 Test t-Studenta dla dwóch próbek zależnych (związanych) porównanie średnich z dwóch populacji
34 34 Test t-Studenta dla dwóch prób niezależnych (niezwiązanych) porównanie średnich z dwóch populacji
35 35 Test Shapiro-Wilka Sprawdzanie normalności rozkładu 1.Hipotezy: H 0 : rozkład w populacji jest rozkładem normalnym H 1 : w populacji nie ma rozkładu normalnego 2.wartość P - Jeśli P>α → nie odrzucamy H 0, jeśli P
36 36 Test Levene’a Sprawdzanie jednorodności wariancji 1.Hipotezy: H 0 : σ 1 =σ 2 wariancje są jednorodne H 1 : σ 1 ≠σ 2 wariancje nie są jednorodne 2.wartość P - Jeśli P>α → nie odrzucamy H 0, jeśli P
37 37 Test znaków dla dwóch prób zależnych (związanych) porównanie median z dwóch populacji 1.Założenia: zmienna co najmniej w skali porządkowej, próbki zależne, błąd 1 rodzaju α 2.Hipotezy: H 0 : φ 1 = φ 2 H 1 : φ 1 ≠ φ 2 3.Tworzymy pary wyników x i i y i 4.Statystyka W to liczba par w których x i > y i, podlega rozkładowi binomialnemu 5.wartość P - Jeśli P>α → nie odrzucamy H 0, jeśli P
38 38 Test Wilcoxona dla dwóch prób zależnych (związanych) porównanie median z dwóch populacji 1.Założenia: zmienna co najmniej w skali interwałowej, próbki zależne, błąd 1 rodzaju α 2.Hipotezy: H 0 : φ 1 = φ 2 H 1 : φ 1 ≠ φ 2 3.Tworzymy pary wyników x i i y i. Następnie szeregujemy z i =x i - y i wg bezwzględnej wartości od najmniejszej do największej. Odrzucamy z i =0. Przypisujemy kolejne rangi, tak że 1 jest przypisana najmniejszej bezwzględnej wartości, itd.. Gdy mamy kilka takich samych wartości to przypisujemy im rangę równą średniej rozpinanych rang. 4.Statystyka 5.wartość P - Jeśli P>α → nie odrzucamy H 0, jeśli P
39 39 Test Manna-Whitneya dla dwóch prób niezależnych (niezwiązanych) porównanie median z dwóch populacji 1.Założenia: zmienna co najmniej w skali porządkowej, próbki niezależne, błąd 1 rodzaju α 2.Hipotezy: H 0 : P(X > Y) =P(Y > X) lub dla próbek symetrycznych φ 1 = φ 2 H 1 : P(X > Y) ≠ P(Y > X) lub dla próbek symetrycznych φ 1 ≠ φ 2 3.rangujemy wyniki z obu próbek 4.Statystyka U a)jest równa ilości przypadków kiedy zmienna ze zbioru 1 (x) ma większą rangę niż zmienna ze zbioru 2 (y). Przyjmujemy, że zbiór 1 ma mniejsze rangi. b)Inny sposób: Niech R 1 i R 2 to odpowiednio sumy rang dla zbiorów 1 (x) i 2 (y). Wówczas
40 40 Test Manna-Whitneya dla dwóch prób niezależnych (niezwiązanych) cd. porównanie median z dwóch populacji 5.U jest stabelaryzowane dla małych n. Dla dużych n może być przybliżone rozkładem normalnym. Gdy wartość U jest dostatecznie małe to odrzucamy H 0. Wartość oczekiwana U gdy H 0 jest prawdziwa wynosi n 1 n 2 /2 6.wartość P - Jeśli P>α → nie odrzucamy H 0, jeśli P
41 41 Schemat testów: 1.rodzaj testu: porównanie lub zależność 2.skala pomiarowa 3.wybór testu 4.hipotezy H0 i H1 5.wynik: P 6.Interpretacja wyniku
42 42 Skala nominalna - porównanie dwóch grup niezależnych Porównanie proporcji Symptom (test) Grupy ↓ TakNiesuma Chorzyaba+b Zdrowicdc+d a+cb+da+b+c+d Czułość symptomu (testu) – prawdopodobieństwo pojawienia się symptomu u osoby chorej p=a/(a+b) swoistość symptomu (testu) – prawdopodobieństwo, że nie ma symptomu u pacjentów zdrowych p=d/(c+d) Wartość predykcyjna dodatnia – prawdopodobieństwo, że osoba jest chora zakładając, że ma symptom p=a/(a+c) Wartość predykcyjna ujemna – prawdopodobieństwo, że osoba jest zdrowa zakładając, że nie ma symptomu p=d/(b+d)
43 43 Skala nominalna - porównanie dwóch grup niezależnych Porównanie proporcji Badamy proporcje p 1 =a/(a+b) i p 2 =c/(c+d) i porównujemy je do proporcji oczekiwanych w sytuacji w której symptom nie zależy od grupy. Hipotezy: H 0 : π 1 = π 2 lub P(x,y)=P(x)P(y) Równość proporcji jest równoważna H 1 : π 1 ≠ π 2 lub P(x,y)≠P(x)P(y) niezależności zmiennych. Testy oparte są na porównaniu liczności obserwowanych O i do liczności oczekiwanych E i. np. E 1 =(a+b)(a+c)/(a+b+c+d) co wynika z warunku P(x=tak,y=chorzy)=P(x=tak)P(y=chorzy) Symptom (test) Grupy ↓ TakNiesuma Chorzyaba+b Zdrowicdc+d a+cb+da+b+c+d
44 44 Skala nominalna - porównanie dwóch grup niezależnych Porównanie proporcji chi2 (N=n 1 +n 2 >40, E i >10) dla tabeli 2x2 V-kwadrat (N>40 i jakieś E i 40 i jakieś E i 5) Dokładny Fishera (20
45 45 Skala nominalna - porównanie dwóch grup zależnych - test McNemara Porównanie proporcji Badamy proporcje p 1 =(a+b)/(c+d) i p 2 =(a+c)/(b+d). Hipotezy: H 0 : π 1 = π 2 H 1 : π 1 ≠ π 2 po przed ↓ +-suma +aba+b -cdc+d a+cb+da+b+c+d
46 46 Porównanie wielu próbek
47 47 Porównanie wielu próbek – test ANOVA porównanie średnich wielu próbek 1.Założenia: grupy niezależne, rozkład normalny we wszystkich grupach, równe wariancje, brak korelacji średnich w grupach z ich wariancjami. 2.Przyjmujemy model: x ij =µ+α i +e ij 3.Porównujemy zmienność wew. grupową: ze zmiennością międzygrupową Używając statystyki F zdefiniowanej jako: z k-1 i n-k stopniami swobody
48 48 Porównanie wielu próbek – test ANOVA (jednoczynnikowa) porównanie średnich wielu próbek
49 49 Porównanie wielu próbek – test ANOVA z powtarzanymi pomiarami porównanie średnich wielu próbek
50 50 ANOVA nieparametryczna porównanie median wielu próbek 1.Test Kruskala-Wallisa - założenia: grupy niezależne, skala co najmniej porządkowa, test post hoc: wielokrotne porównanie średnich rang. 2.Test Friedmana - założenia: grupy zależne, skala co najmniej porządkowa, test post hoc: dostępny w postaci skryptu
51 51 Relacja między danymi – współczynniki korelacji Współczynnik korelacji liniowej Pearsona
52 52 Relacja między danymi – współczynniki korelacji Współczynnik korelacji liniowej Pearsona
53 53 Relacja między danymi – współczynniki korelacji współczynnik korelacji Spearmana 1. Założenia: zmienne co najmniej w skali porządkowej – zwykle stosuje się dla zmiennych na skali interwałowej, które nie mają rozkładu normalnego. 2.Definicja: Korelacja liniowa liczona dla rang. 3.Hipotezy (test na istotność wsp. korelacji Spearmana): H 0 : ρ s =0 H 1 : ρ s ≠0 r s 2 – nie podlega takiej interpretacji jak r 2
54 54 Relacja między danymi – współczynniki korelacji współczynnik τ Kendalla 1. Założenia: zmienne co najmniej w skali porządkowej – zwykle stosuje się dla zmiennych na skali porządkowej 2.Definicja: τ=P((x1-x2)(y1-y2)>0)-P((x1-x2)(y1-y2)0) Q- ilość par niezgodnych ((x1-x2)(y1-y2)
55 55 Relacja między danymi – współczynniki korelacji współczynnik Yule’a 1. Założenia: zmienne binarne w skali nominalnej – tabela 2x2 2.Definicja: 0≤ ϕ ≤1 - test istotności taki sam jak dla proporcji w tablicy 2x2, df=1. 3.Hipotezy (test na istotność wsp. τ Yule’a): H 0 : ϕ =0 H 1 : ϕ ≠0
56 56 Relacja między danymi – współczynniki korelacji współczynnik C-Pearsona (kontyngencji) 1. Założenia: zmienne w skali nominalnej 2.Definicja: df=(n 1 -1)(n 2 -1) n 1, n 2 – ilość różnych elementów w grupie 1 i 2 Test istotności --> chi2. C powinno być większe niż 0. Przyjmuje wartości zależne od wielkości tabeli. 3.Hipotezy (test na istotność wsp. C-Pearsona): H 0 : C=0 H 1 : C≠0
57 57 Relacja między danymi – współczynniki korelacji współczynnik V-Cramera 1. Założenia: zmienne w skali nominalnej 2.Definicja: n 1, n 2 – ilość różnych elementów w grupie 1 i 2 0≤V≤1 - nie zależy od wielkości tabeli. Test istotności chi2. 3.Hipotezy (test na istotność wsp. V-Cramera): H 0 : V=0 H 1 : V≠0
58 58 Regresja liniowa 1. Założenia: rozkład normalny obu zmiennych, lub rozkład zmiennej zależnej y dla każdej wartości zmiennej niezależnej x jest normalny i wariancja y jest taka sama dla każdego x, zależność liniowa. 2.Definicja: y=ax+b – regresja y wzg. x y=cx+d – regresja x wzg. y współczynniki liczone są metodą najmniejszych kwadratów:
59 59 3.Test na istotność wsp. Β taki sam jak na istotność wsp. korelacji. H 0 : β=0 H 1 : β≠0 4.Błąd standardowy estymacji: 5.Przedział predykcji i przedział ufności Regresja liniowa