STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.

1 STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-...
Author: Liliana Stefańska
0 downloads 0 Views

1 STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii

2 CECHA STATYSTYCZNA WIELOWYMIAROWA

3 Dane indywidualne Każdy student wchodzący w skład badanej zbiorowości jest opisany jednocześnie przez 3 cechy; jest „trójwymiarowy”; Liczba opisujących studenta cech decyduje o wymiarze cechy wielowymiarowej  u nas mamy cechę trójwymiarową; Cecha jednowymiarowa to osobno: - kolor oczu - liczba rodzeństwa - czas dotarcia na uczelnię Cecha trójwymiarowa to jednocześnie: - kolor oczu - liczba rodzeństwa - czas dotarcia na uczelnię

4 Dla cechy wielowymiarowej klasyfikacja na: 1.cechy mierzalne i niemierzalne 2.cechy skokowe i ciągłe jest analogiczna jak dla cechy jednowymiarowej

5 Wśród charakterystyk każdego ze studentów wyróżnimy łącznie jedynie dwie cechy. Będziemy je oznaczać przez X i Y Możemy „łączyć” ze sobą zarówno cechy mierzalne i niemierzalne oraz cechy skokowe i ciągłe w różnych kombinacjach W rezultacie otrzymujemy zbiór par postaci (x i, y j ), gdzie x i jest zaobserwowaną u badanego studenta i-tą kategorią cechy X oraz y j jest zaobserwowaną u tego samego studenta j-tą kategorią cechy Y CECHA DWUWYMIAROWA

6 Otrzymane informacje (pary liczb) można analizować: 1.w układzie indywidualnym  oddzielne rozkłady każdej ze zmiennych (rozkłady jednowymiarowe), 2.w układzie łącznym, czyli w formie danych pogrupowanych w rozkład (rozkład dwuwymiarowy) CECHA DWUWYMIAROWA

7 CECHY JEDNOWYMIAROWE x i - kolor oczunini wiwi niebieski10 0,417 zielony5 0,208 brązowy5 0,208 szary4 0,167 suma241 z i – liczba rodzeństwanini wiwi 06 0,250 113 0,542 24 0,167 31 0,042 suma241 (y 0i - y 1i > – czasnini wiwi 0-107 0,292 10-203 0,125 20-303 0,125 30-403 0,125 40-505 0,208 50 +∞3 0,125 suma241 Rozkład koloru oczu w wybranej grupie studentów Rozkład liczby rodzeństwa w wybranej grupie studentów Rozkład czasu dotarcia na uczelnię w wybranej grupie studentów

8 CECHA DWUWYMIAROWA Kolor oczu Liczba rodzeństwa razem 0123 brązowy13105 niebieski451010 szary03104 zielony12115 razem61341 24 Czas dotarcia (y 0i - y 1i > Liczba rodzeństwa razem 0123 0-10 23117 10-20 02103 20-30 02103 30-40 02103 40-50 32005 50-60 12003 razem 6134124

9 ROZKŁAD ZMIENNEJ DWUWYMIAROWEJ

10 ZMIENNA LOSOWA DWUWYMIAROWA DEFINICJA Zmienna losowa dwuwymiarowa jest to funkcja dwuwymiarowa opisana na zbiorze zdarzeń elementarnych Oznacza to, że każdemu zdarzeniu elementarnemu przypisane są dwie wartości tej funkcji

11 ZMIENNA LOSOWA DWUWYMIAROWA Rozkład dwuwymiarowej zmiennej losowej można opisać trzema sposobami: Dla zmiennej losowej skokowej: 1.Funkcja prawdopodobieństwa 2.Dystrybuanta 3.Parametry rozkładu Dla zmiennej losowej ciągłej: 1.Funkcja gęstości 2.Dystrybuanta 3.Parametry rozkładu Analogicznie jak w przypadku zmiennej jednowymiarowej

12 DWUWYMIAROWA ZMIENNA LOSOWA SKOKOWA

13 ROZKŁAD DWUWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ Rozkład dwuwymiarowej zmiennej losowej można przedstawić: 1.W układzie łącznym (rozkład dwuwymiarowy) 2.W układzie warunkowym  tylko jeśli zmienne tworzące zmienną dwuwymiarową są zależne (rozkłady warunkowe)

14 ŁĄCZNY ROZKŁAD DWUWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ Rozkład łączny opisują prawdopodobieństwa występowania pary liczb (X, Y). Jest on analogiczny do sposobu przedstawiania prawdopodobieństwa iloczynu zdarzeń losowych. Wystąpienie pary liczb (X, Y) oznacza iloczyn takich zdarzeń, że X = x i oraz Y = y j. Funkcja prawdopodobieństwa dwuwymiarowej zmiennej losowej p ij = P(X = x i, Y = y j ) przy czym: gdzie: k – liczba kategorii zmiennej X, j – liczba kategorii zmiennej Y

15 ROZKŁADY BRZEGOWE DWUWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ Rozkłady brzegowe zmiennej losowej dwuwymiarowej to oddzielne rozkłady każdej ze zmiennych tworzących dwuwymiarową zmienną losową Powstają jako: 1.Rozkład brzegowy zmiennej X 2.Rozkład brzegowy zmiennej Y

16 ROZKŁAD DWUWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ xixi yjyj p i. y1y1 y2y2 …ylyl x1x1 p 11 p 12 …p 1l p 1. x2x2 p 21 p 22 …p 2l p 2. ………p ij … xkxk p k1 p k2 …p kl p k. p.j p.1 p.2 …p.l 1 Rozkład brzegowy zmiennej X Rozkład brzegowy zmiennej Y Rozkład łączny zmiennej (X, Y)

17 Rozkłady brzegowe pokazują prawidłowości w przejawianiu się każdej ze zmiennych X i Y oddzielnie Całkowicie ignorują sposób i wartości „pojawiania się” zmiennej „towarzyszącej”

18 DYSTRYBUANTA DWUWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ

19 Dystrybuanta dwuwymiarowej zmiennej losowej skokowej w punkcie (x 0, y 0 ) to prawdopodobieństwo, że zmienna losowa X przyjmie wartości nie większe niż x 0 i jednocześnie zmienna losowa Y przyjmie wartości nie większe ni y 0

20 PARAMETRY ROZKŁADU DWYWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ

21 PARAMETRY ROZKŁADU DWUWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ 1.Wartość oczekiwana E(X, Y), która jest wektorem o składowych E(X) oraz E(Y) E(X, Y) = [E(X), E(Y)] 2.Wariancja D 2 (X, Y), która jest wektorem o składowych D 2 (X) oraz D 2 (Y) D 2 (X, Y) = [D 2 (X), D 2 (Y)] 3.Kowariancja C(X, Y), która jest skalarem wyznaczanym według wzoru Dla zmiennej losowej skokowej wzór przyjmuje postać:

22 PRZYKŁAD na podstawie M. Rószkiewicz Statystyka. Kurs podstawowy Efekt, Warszawa 2002

23 Na zbiorze 10 jednakowo prawdopodobnych zdarzeń elementarnych E i (i = 1, …,10) opisano zmienne losowe X i Y. Każdemu zdarzeniu elementarnemu przypisano zatem parę liczb (x i, y j ) Czyli na zbiorze zdarzeń elementarnych E i zdefiniowano zmienną losową dwuwymiarową o łącznym rozkładzie postaci: EiEi E1E1 E2E2 E3E3 E4E4 E5E5 E6E6 E7E7 E8E8 E9E9 E 10 X 01 011 1 Y1223412233 xixi yjyj 1234 0,1 0 00 100,2 0

24 Rozkłady brzegowe: Rozkład brzegowy X: 0,1 + 0,1 + 0,1 + 0,1 = 0,4 0,1 + 0,1 + 0 + 0 = 0,2 0 + 0,2 + 0,2 + 0 = 0,4 Rozkład brzegowy Y: 0,2 = 0,1 + 0,1 + 0 0,4 = 0,1 + 0,1 + 0,2 0,3 = 0,1 + 0 + 0,2 0,1 = 0,1 + 0 + 0 xixi yjyj p i. 1234 0,1 0,4 00,1 000,2 10 00,4 p.j 0,20,40,30,11 xixi p i. 0,4 00,2 10,4 yjyj 1234 p.j 0,20,40,30,1

25 xixi yjyj p i. 1234 0,1 0,4 00,1 000,2 10 00,4 p.j 0,20,40,30,11 xixi p i. 0,4 00,2 10,4 yjyj p.j 10,2 20,4 30,3 40,1 PARAMETRY ROZKŁADU DWUWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ 1.Wartość oczekiwana E(X, Y) = [E(X), E(Y)] E(X, Y) = [0; 2,3] 2.Wariancja D 2 (X, Y) = [D 2 (X), D 2 (Y)] D 2 (X, Y) = [0,8; 0,81)]

26 xixi yjyj p i. 1234 0,1 0,4 00,1 000,2 10 00,4 p.j 0,20,40,30,11 xixi p i. 0,4 00,2 10,4 yjyj p.j 10,2 20,4 30,3 40,1 PARAMETRY ROZKŁADU DWUWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ 3.Kowariancja C(X, Y)

27 ROZKŁADY WARUNKOWE DWYWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ

28 Rozkłady warunkowe ukazują rozkłady prawdopodobieństwa każdej ze zmiennych tworzących dwuwymiarową zmienną losową oddzielnie ALE przy przyjęciu założenia, że druga ze zmiennych przyjmuje określoną wartość Tak samo jak w przypadku rozkładów brzegowych

29 Dla zmiennej skokowej: 1.Rozkład warunkowy zmiennej X pod warunkiem, że Y = y j 2.Rozkład warunkowy zmiennej Y pod warunkiem, że X = x i xixi yjyj p i. y1y1 y2y2 …ylyl x1x1 p 11 p 12 …p 1l p 1. x2x2 p 21 p 22 …p 2l p 2. ………p ij … xkxk p k1 p k2 …p kl p k. p.j p.1 p.2 p.l 1

30 PRZYKŁAD cd na podstawie M. Rószkiewicz Statystyka. Kurs podstawowy Efekt, Warszawa 2002

31 xixi yjyj p i. 1234 0,1 0,4 00,1 000,2 10 00,4 p.j 0,20,40,30,11 Rozkład warunkowy zmiennej X pod warunkiem, że Y = y j xixi 0 1 suma1111

32 xixi 0 1 suma1111 Istnieją 4 różne rozkłady warunkowe zmiennej X  czyli tyle, ile wartości może przyjąć zmienna Y Ogólnie: Istnieje tyle rozkładów warunkowych zmiennej X, ile można nałożyć warunków na zmienną Y czyli każdej wartości zmiennej Y można przyporządkować odpowiedni rozkład zmiennej X To przyporządkowanie określa się związkiem stochastycznym zmiennych X i Y

33 xixi 0 1 suma1111 Dla każdego z rozkładów warunkowych policzyć można wartość oczekiwaną i wariancję (średnią warunkową oraz wariancję warunkową) Przykładowo dla rozkładu X/Y=2

34 xixi 0 1 -0,50,250,33 0,250,690,890 Średnie warunkowe zmiennej X Wariancje warunkowe zmiennej X

35 xixi yjyj p i. 1234 0,1 0,4 00,1 000,2 10 00,4 p.j 0,20,40,30,11 Rozkład warunkowy zmiennej Y pod warunkiem, że X = x i yiyi 1 2 3 4 suma111 Istnieją 3 różne rozkłady warunkowe zmiennej Y  czyli tyle, ile wartości może przyjąć zmienna X

36 Ogólnie: Istnieje tyle rozkładów warunkowych zmiennej Y, ile można nałożyć warunków na zmienną X czyli każdej wartości zmiennej X można przyporządkować odpowiedni rozkład zmiennej Y To przyporządkowanie określa się związkiem stochastycznym zmiennych X i Y

37 yiyi 1 2 3 4 suma111 Dla każdego z tych rozkładów policzyć można wartość oczekiwaną i wariancję (średnią warunkową oraz wariancję warunkową) Przykładowo dla rozkładu Y/X= -1

38 yiyi 1 2 3 4 2,51,52,5 1,250,25 Średnie warunkowe zmiennej Y Wariancje warunkowe zmiennej Y

39 Ogólnie: Istnieje tyle rozkładów warunkowych zmiennej Y, ile można nałożyć warunków na zmienną X czyli każdej wartości zmiennej X można przyporządkować odpowiedni rozkład zmiennej Y To przyporządkowanie określa się związkiem stochastycznym zmiennych X i Y

40 Związek stochastyczny między dwoma zmiennymi występuje wtedy, gdy rozkłady warunkowe jednej zmiennej „reagują” na przyjmowanie przez drugą zmienną konkretnych wartości ZWIĄZEK STOCHASTYCZNY xixi 0 1 -0,50,250,33 0,250,690,890

41 Gdy rozkłady warunkowe jednej zmiennej są takie same i takie same jak jej rozkład brzegowy, to zmienne są stochastycznie niezależne ZWIĄZEK STOCHASTYCZNY

42 Przejawy stochastycznej niezależności zmiennych: 1.Identyczne rozkłady warunkowe i takie jak jej rozkład brzegowy  czyli charakteryzujące je parametry też muszą być takie same oraz i jednocześnie oraz 2.Dla zmiennych niezależnych kowariancja wynosi 0 3.Tablica rozkładu łącznego zmiennej dwuwymiarowej (X, Y) przyjmuje charakterystyczną postać: dla wszystkich x i oraz y j ZWIĄZEK STOCHASTYCZNY

43 xixi yjyj p i. y1y1 y2y2 …ylyl x1x1 p 1. x p.1 p 1. x p.2 …p 1. x p.l p 1. x2x2 p 2. x p.1 p 2. x p.2 …p 2. x p.l p 2. ………p i. x p.j … xkxk p k. x p.1 p k. x p.2 …p k. x p.l p k. p.j p.1 p.2 p.l 1

44 ZWIĄZEK KORELACYJNY

45 Przyporządkowanie wartościom jednej zmiennej wartości oczekiwanej odpowiedniego rozkładu warunkowego drugiej zmiennejlub (1; -0,5) (2; 0,25) (3; 0,33) (4; -1) ZWIĄZEK KORELACYJNY xixi 0 1 -0,50,250,33 0,250,690,890

46 Jeżeli średnie warunkowe poszczególnych rozkładów warunkowych (czyli przy nakładaniu różnych warunków na drugą zmienną) są identyczne i takie same jak średnia w rozkładzie brzegowym oznacza to, że zmienne są nieskorelowane ZWIĄZEK KORELACYJNY xixi 0 1 -0,50,250,33 0,250,690,890

47 Miarą związku korelacyjnego jest współczynnik korelacji liniowej ρ przyjmuje wartości Wartości ujemne oznaczają, że korelacja jest ujemna, czyli wraz ze wzrostem wartości jednej zmiennej obserwuje się spadek wartości średnich warunkowych drugiej zmiennej Wartości dodatnie oznaczają, że korelacja jest dodatnia, czyli wraz ze wzrostem wartości jednej zmiennej obserwuje się wzrost wartości średnich warunkowych drugiej zmiennej Wartość 0 oznacza, że korelacja między zmiennymi nie występuje ZWIĄZEK KORELACYJNY

48 1.Zależność ujemna  Korelacja ujemna ρ = -1 2.Zależność dodatnia  Korelacja dodatnia ρ = 1 3.Zależność krzywoliniowa lub brak zależności  ρ = 0 ZWIĄZEK KORELACYJNY a zależność stochastyczna