Rachunek P-stwa i Statystyka

1 Rachunek P-stwa i StatystykaKurs powtórkowy dla Inżynie...
Author: Cecylia Cimochowski
0 downloads 2 Views

1 Rachunek P-stwa i StatystykaKurs powtórkowy dla Inżynierii Biomedycznej Strona internetowa:

2 Wykładowca : Małgorzata BogdanBiuro: C Godziny konsultacji: Pon 14:00-16:00, Pt 13:00 – 15:00 (lub indywidualnie) Telefon:

3 Oceny Dwa kolokwia na wykładzie (22 listopad i 24 styczeń)Aktywność na ćwiczeniach Zaliczenie ćwiczeń gwarantuje zaliczenie wykładu Egzamin Egzamin zalicza ćwiczenia na ocenę najwyżej dostateczną

4 Książka Statistics for the Life Sciences, 3rd edition, Myra L. Samuels i Jeffrey A. Witmer, 2003 Listy zadań dostępne w internecie

5 Dane Używamy danych aby odpowiedzieć na różne pytania naukoweNa ogół dane charakteryzują się losową zmiennością Oceniamy informację zawartą w danych Chcemy odróżnić sygnał od szumu

6 Co to jest statystyka? Nauka dotycząca zrozumienia danych i podejmowania decyzji w obliczu losowości Zbiór metod do planowania eksperymentu i analizy danych służących do uzyskania maksimum informacji i ilościowej oceny ich wiarygodności

7 Przykład 1 Badania dotyczące wpływu aktywności fizycznej na poziom cholesterolu. Jedna grupa ćwiczy, druga nie. Czy poziom cholesterolu jest niższy u osób, które ćwiczą ? Ludzie mają naturalnie różne poziomy cholesterolu Reagują różnie na tą samą dawkę ćwiczeń (np. genetyka) Różny stopnień zaangażowania w realizację planu ćwiczeń Wpływ diety Ćwiczenia mogą wpływać na inne czynniki (np. apetyt)

8 Przykład 2 Eksperyment mikromacierzowy porównujący komórki rakowe i normalne. Czy dwukrotnie wyższy zaobserwowany poziom ekspresji genu dowodzi faktycznie różnej ekspresji ? Czy mamy powtórzenia eksperymentu ? Czy w kolejnych powtórzeniach wyniki są podobne ? Dlaczego dwukrotna zmiana, a nie trzy lub czterokrotna ? Jak ustalić właściwą wartość krytyczną ?

9 Przykład 3 (Lokalizacja genów)Gen o dwóch allelach – trzy genotypy AA, Aa, aa Dzielimy kłosy żyta odpowiednio na trzy grupy Czy różnice w przeciętnej wydajności między tymi trzema grupami są wystarczająco duże aby stwierdzić bliskość genu odpowiadającego za wydajność

10 Przykład 4 W artykule wyczytaliśmy, że stwierdzono, że 80 % pieszych będących ofiarami nocnych wypadków samochodowych nosiło ciemne ubrania a 20 % jasne ubrania. Wyciągnięto wniosek, że w nocy bezpiecznie jest nosić jasne ubrania. Czy przeprowadzone badania upoważniają do takiej konkluzji ?

11 Przykład 5 Reakcja owiec na bakterie wąglikaSzczepione Nie szczepione Śmierć 24 Przeżycie Procent przetrwania 100 % 0 %

12 Przykład 6 Rozwój raka wątroby u myszywynik E.coli Wolne od zarazków Rak wątroby 8 19 Zdrowa 5 30 Suma 13 49 Procent myszy z rakiem wątroby 62 % 39 %

13 Przykład 5 – brak zmienności (?) – mocna konkluzjaPrzykład 6 – duża zmienność – słaba konkluzja Jak duża musi być próba abyśmy w oparciu o nią mogli dowieść wpływu czynnika na wynik eksperymentu ?

14 Losowość Dane na ogół charakteryzują się zmiennościąMatematycznie modelujemy tą zmienność używając rachunku prawdopodobieństwa

15 Przykłady Prognoza pogody- prawdopodobieństwo deszczu wynosi 80%Prawdopodobieństwo wyrzucenia “orła” wynosi ½ Prawdopodobieństwo heterozygoty Aa wynosi 2p(1-p), gdzie p i (1-p) są częstościami alleli A i a

16 Proces naukowy/statystycznyPytanie naukowe Planowanie eksperymentu Eksperyment / zbieranie danych Analiza danych Wnioski statystyczne Wnioski naukowe

17 Próba, Zmienna Próba Przykłady Obserwacje lub wyniki eksperymentuReprezentuje kolejne realizacje eksperymentu Przykłady Wysokości 10 kłosów żyta (10 obserwacji) Poziom hemoglobiny u 35 dawców Kolor i kształt 556 fasolek w drugiej generacji (żółte/zielone, gładkie/pomarszczone)

18 Rozmiar próby Zmienna “n” n=10,n=35,n=556 To co mierzymyWysokość, poziom hemoglobiny, kolor/kształt

19 Rodzaje zmiennych Zmienne Jakościowe Ilościowe PorządkoweNie porządkowe Ciągłe Dyskretne

20 Rodzaje zmiennych Jakościowe – kwalifikujące do kategoriiPorządkowe : wybory w ankiecie ; nigdy, rzadko, czasami, często, zawsze Nie porządkowe : gładkie & żółte, gładkie & zielone, pomarszczone & żółte, pomarszczone & zielone

21 Ilościowe – wynik jest liczbąCiągłe : wzrost, waga, stężenie Dyskretne : liczba wadliwych elementów, liczba gładkich i żółtych fasolek

22 Oznaczenia Rozmiar próby = n, czasami n1,n2zmienne : X,Y,Z; Y=wzrost, pojęcie obserwacje (wyniki) : x,y,z Wielokrotne obserwacje y1,y2,…,yn

23 Próba a Próba Biolog mierzy poziom glukozy we krwi 20 ludzi.20 próbek krwi ? (biolog) Jedna próba 20 pomiarów glukozy ? (statystyk) Będziemy używali “pomiar” tam gdzie biolog użyłby słowa “próba”.

24 Tabela częstości Fasolki:gładkie/pomarszczone, zielone/żółte KlasyLiczba Gładkie, żółte 315 Gładkie, zielone 108 Pomarszczone, żółte 101 Pomarszczone, zielone 32

25 Wykres słupkowy (dane jakościowe)

26 Dane ilościowe dyskretneLiczba potomstwa u n=36 macior. Liczba potomstwa jest liczbą całkowitą (zmienna dyskretna).

27 Dane 10 12 7 14 11 13 8 5 9

28 Rozkład częstości 13 14 Liczba potomstwa Liczba macior 5 1 6 7 2 8 3 97 2 8 3 9 10 11 12 13 14

29

30 Histogram Zwykle jest pomocne grupowanie podobnych obserwacjiTak prawie zawsze postępujemy z danymi ciągłymi Definiujemy “klasy” obserwacji i zliczamy liczbę obserwacji w każdej klasie

31 Jak wybierać klasy Każda obserwacja musi wpadać do dokładnie jednej klasy (klasy są rozłączne, nie ma ``dużych’’ dziur) Rozmiar (szerokość) wszystkich klas jest zwykle taki sam Używamy wygodnych granic, np a nie – 29.26 Używamy 5 do 15 klas dla umiarkowanych zbiorów danych (n  50); więcej gdy próba jest duża

32 Przykład Dane : długość łodygi papryki (n=15) 12.4 12.2 13.4 10.9 12.111.8 13.5 12 14.1 12.7 13.2 12.6 11.9 13.1

33 Min=10.9, max=14.1, zakres=max-min=3.2Wybieramy szerokość klasy, np. 0.5 i punkt początkowy 10.5 aby pokryć przedział 10.5 – 14.5. Liczymy rozkład częstości i rysujemy histogram. Zmieniamy szerokość klas aby uzyskać pożądany kształt Za mała szerokość klas = ``postrzępiony’’, za duża = tracimy informację

34 Tabela częstości Klasa Częstość 10.5 - 10.99 1 11.0 - 11.49 11.5 - 10.99 1 11.49 11.99 2 12.49 5 12.99 13.49 3 13.99 14.49

35

36 Czasami rysujemy histogramy częstości względnej = częstość / nUżyteczne gdy chcemy porównać kilka zbiorów o różnych rozmiarach

37 Przykład Serum CK 121 82 100 151 68 58 95 145 64 201 101 163 84 57 139 60 78 94 119 104 110 113 118 203 62 83 67 93 92 25 123 70 48 42

38 Min=25, max=203 Rozstęp =178 Szerokość klasy =20 Punkt początkowy=20

39 Serum CK Częstość 1 4 7 8 3 2 Suma 36

40

41 Centralny szczyt (moda) w okolicach 100 U/LiZasadnicza masa rozkładu między 40 a 140 U/Li Nie symetryczny – skośny na prawo

42 Całkowanie powierzchni pod histogramem (równa szerokość klas)Odcinek U/Li 42 % całkowitej powierzchni pod histogramem 42 % (16 out of 36) wartości CK

43 Nierówna szerokość klasPowierzchnia pod histogramem nie jest proporcjonalna do częstości W tak ``spaczonym’’ histogramie (patrz następna strona) powierzchnia między 140 – 220 stanowi 39 % całkowitej powierzchni (tylko 14 % obserwacji) Rozwiązanie – Podzielić odpowiednią częstość przez liczbę zgrupowanych klas Oś Y na przekształconym histogramie – średnia częstość w zgrupowanych klasach

44

45

46 Diagram pnia i liścia (Stem and leaf plot)Inny sposób podsumowania danych; zachowuje ``prawie’’ wszystkie informacje. Wybieramy podstawę lub ``pień’’; zwykle opuszczając jedną lub dwie ostatnie cyfry w zapisie danych Zapisujemy wszystkie bazy w kolumnie, w kolejności rosnącej i rysujemy pionową linię

47 Przeglądamy dane. Znajdujemy ``pień’’ odpowiadający każdej obserwacjiPrzeglądamy dane. Znajdujemy ``pień’’ odpowiadający każdej obserwacji. Za linią pionową zapisujemy pozostałe (bez pnia) cyfry danej obserwacji. Ta część zapisu obserwacji nazywana jest liściem. Dostajemy ``obrócony’’ histogram Ograniczenia – ciężko kontrolować liczbę klas

48 Przykład Stężenie glukozy w przedniej komorze prawego oka u 31 zdrowych psów 81 85 93 99 76 75 84 78 82 89 96 74 70 86 80 131 88 102 115 79 106

49

50 Opis histogramu (rozkładu)Symetryczny / asymetryczny W kształcie dzwonu (normalny) / ciężkie ogony Skośny na prawo lub lewo Jednomodalny (jeden główny wierzchołek) Dwumodalny (dwa główne wierzchołki) Wykładniczy (malejący) Rozrzut (duży lub mały)

51 Statystyka Statystyka – liczbowa charakteryzacja danychPrzykłady statystyk próba: y1=24, y2=35, y3=26 ,y4=36 min=24, max=36, t= y1+y2=59

52 Miary położenia rozkładuŚrednia z próby symbol oznacza liczbę (arytmetyczną średnią z obserwacji) Symbol oznacza pojęcie średniej z próby Średnia jest ``środkiem ciężkości’’ zbioru danych

53 Przykład: Przyrost wagi owiecDane : 11, 13, 19, 2, 10,1 y1=11, y2=13,…, y6=1

54 Odchylenia Σ devi= ?

55 Mediana próbkowa Środkowa obserwacja jeżeli n jest nieparzysteŚrednia z dwóch środkowych wartości gdy n jest parzyste

56 Przykłady Przykład 1 (n = 5) Przykład 2 (n = 6)Dane: Średnia z próbyy = 32/5 = 6.4 Mediana = Przykład 2 (n = 6) Dane: Średnia z próby y = 293.8

57 Średnia a mediana Przykład 1 (n = 5) Błąd w zapisie danychDane: Średniay = 32/5 = 6.4 Mediana = 6.3 Błąd w zapisie danych Data: Średnia y = 19 Mediana = 6.3

58 Średnia a mediana Mediana dzieli powierzchnię histogramu na połowęJest odporna – nie mają na nią wpływu obserwacje ``odstające’’ Średnia to ``środek ciężkości’’ histogramu Obserwacje odstające mają duży wpływ na średnią – średnia nie jest odporna

59 Średnia a Mediana Jeżeli histogram jest w przybliżeniu symetryczny to średnia i mediana są zbliżone. Jeżeli histogram jest skośny na prawo to średnia jest zwykle większa niż mediana. Obie miary położenia są jednakowo ważne Średnia jest częściej wykorzystywana do testowania i estymacji (czego nauczymy się wkrótce).

60 Kwartyle Kwartyle dzielą zbiór danych na cztery grupy.Drugi kwartyl (Q2) to mediana. Pierwszy kwartyl (Q1) to mediana połowy obserwacji leżących poniżej Q2. Trzeci kwartyl (Q3) to mediana połowy obserwacji leżących powyżej Q2.

61 Przykład Dane:

62 Przykład (n=15) 7 12 8 2 4 3 5 6 9

63 Rozstęp międzykwartylowyIRQ=Q3-Q1

64 Wykres pudełkowy (Boxplot)Boxplot – graficzna reprezentacja mediany, kwartyli, maximum i minimum z danych. ``Pudełko’’ powstaje z obrysowania kwartyli Linie ciągą się do wartości najmniejszej i największej.

65

66 Zmodyfikowany BoxplotObserwacja odstająca Np. błąd w zapisie danych, błąd maszyny, zmiana warunków eksperymentu Które obserwacje są odstające Dolna granica = Q *IQR Górna granica = Q *IQR

67 Dane :

68

69 Miary rorzutu Opis danych : kształt, centrum, rorzut Miary rozrzutuRozstęp (max – min) – bardzo wrażliwy na obserwacje odstające, nie przydatny do testowania Rozstęp międzykwartylowy (IRQ=Q3-Q1) – rozstęp środkowych 50% obserwacji Standardowe odchylenie/ Wariancja Współczynnik zmienności (CV)

70 Próbkowe odchylenie standardowe (SD, symbol s)Wyrażone w jednostkach pomiarowych Mówi jak przeciętnie obserwacje są odległe od średniej.

71

72 Próbkowa wariancja Przeciętny kwadrat odległości od średniej próbkowej – s2 Mierzona w jednostkach będących kwadratem jednostek, w których wyrażone są dane.

73 Dlaczego n-1 ? s2 jest nieobciążonym estymatorem wariancji w populacjiΣ devi=0 n-1 jednostek informacji = n-1 stopni swobody

74 Miary rozrzutu Współczynnik zmienności (CV) PrzykładDane : 35.1,30.6,36.9,29.8 (n=4) Rozstęp =

75 Suma obserwacji: y = 35.1 + 30.6 + 36.9 + 29.8 = 132.4średnia: SD z definicji: SS = variance: s2 =

76 Współczynnik zmienności: CV=Uwaga: Proszę zachować dużo cyfr znaczących przy rachunkach. Zaokrąglamy dopiero na koniec.

77 Standardowe odchylenie (cd)Duże SD = Duży rozrzut. Małe SD = mały rozrzut. Ogólne zasady Jeżeli rozkład jest dzwonowy (bliski normalnemu) wtedy zwykle 68% obserwacji jest w odległości  1 SD od średniej 95% obserwacji jest w odległości  2 SD od śedniej > 99% obserwacji jest w odległości  3 SD od średniej

78 Nierówność CzebyszewaNawet gdy rozkład nie jest normalny to możemy oczekiwać, że Co najmniej 75% obserwacji będzie w odległości  2 SD od średniej Co najmniej 89% obserwacji będzie w odległości  3 SD od średniej.

79 Przykład 13 14 12 17 19 11 10 15 20 18

80 Przykład cd Średnia = 14.4 i odchylenie standardowe s = 2.9.

81 Ocena SD z histogramu Odcinek zawiera około 95 % danych.Ocena s = (długość I /4) Działa najlepiej gdy rozkład jest bliski normalnemu.

82 Przykład (puls po ćwiczeniach)95 % danych jest pomiędzy 75 a 125 Faktyczne s = 13.4

83 Porównanie miar rozrzutu i położeniaMiary rozrzutu służą do oszacowania zmienności w danych. Odporność Załóżmy, że mamy dość skupiony ``dzwonowy’’ (normalny) zbiór danych. Co się stanie gdy jedną dużą obserwację zastąpimy bardzo dużą wartością.

84 Mediana Rozstęp Średnia Kwartyle i rozstęp międzykwartylowy Standardowe odchylenie