1 Zmienna losowa dwuwymiarowa Dwuwymiarowy rozkład empiryczny Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie dr Marta Marszałek e-mail: [email protected]
2 Plan
3 Dwuwymiarowa zmienna losowa
4 Dla zmiennej losowej skokowej: 1.Funkcja prawdopodobieństwa 2.Dystrybuanta Dla zmiennej losowej ciągłej: 1.Funkcja gęstości 2.Dystrybuanta Analogicznie jak w przypadku zmiennej jednowymiarowej Rozkład dwuwymiarowej zmiennej losowej jest jednoznacznie zdefiniowany, gdy znana jest:
5 Dwuwymiarowa zmienna losowa skokowa
6 Funkcja prawdopodobieństwa dwuwymiarowej zmiennej losowej skokowej Funkcją prawdopodobieństwa dwuwymiarowej zmiennej losowej typu skokowego przyjmującej wartości (x i,y j ) jest funkcja: p ij = P(X=x i, Y=y j ) gdzie i,j = 1,2,… przy czym gdzie: k – liczba kategorii zmiennej X, l – liczba kategorii zmiennej Y
7 Dystrybuanta
8 y j x i Y 1 y 2.......... y l p i. =∑p ij j x1x2.....xkx1x2.....xk p 11 p 12.......... p 1l p 21 p 22.......... p 2l. p k1 p k2.......... p kl p 1. p 2.. p k. p.j =∑p ij i p.1 p.2.......... p.l 1
9 y j x i 1 2 3 p i. 0101 0,3 0,1 0 0,2 0 0,4 0,4 0,6 p.j 0,5 0,1 0,41
10 Rozkłady brzegowe zmiennej losowej X oraz Y
11 Rozkład brzegowy zmiennej losowej X y j x i 1 2 3 p i. 0101 0,1 0,3 0 0 0,2 0,4 0,4 0,6 p.j 0,1 0,5 0,41 xixi p i. 0101 0,4 0,6 1
12 Rozkład brzegowy zmiennej losowej Y y j x i 1 2 3 p i. 0101 0,1 0,3 0 0 0,2 0,4 0,4 0,6 p.j 0,1 0,5 0,41 yjyj p.j 123123 0,1 0,5 0,4 1
13 Rozkłady warunkowe
14 y j x i 1 2 3 p i. 0101 0,1 0,3 0 0 0,2 0,4 0,4 0,6 p.j 0,1 0,5 0,41
15
16 y j x i 1 2 3 p i. 0101 0,1 0,3 0 0 0,2 0,4 0,4 0,6 p.j 0,1 0,5 0,41 P(Y=1/X=0) =0,1 : 0,4=0,25 P(Y=2/X=0) =0,3 : 0,4=0,75 P(Y=3/X=0) = 0 : 0,4 = 0 Y P(Y/X=0) 10,25 20,75 3 0
17 Ile istnieje rozkładów warunkowych zmiennej Y? Istnieją 2 różne rozkłady warunkowe zmiennej Y czyli tyle, ile wartości może przyjąć zmienna X. Ogólnie: Istnieje tyle rozkładów warunkowych zmiennej Y, ile można nałożyć warunków na zmienną X, czyli każdej wartości zmiennej X można przyporządkować odpowiedni rozkład zmiennej Y. To przyporządkowanie określa się związkiem stochastycznym zmiennych X i Y.
18 Niezależność zmiennych losowych
19 Prawdopodobieństwo warunkowe a niezależność zmiennych losowych jednakowe są wszystkie rozkłady warunkowe zmiennej losowej X, oraz wszystkie rozkłady warunkowe zmiennej losowej Y, oraz takie jak odpowiednie rozkłady brzegowe. Jeśli zmienne są niezależne, to:
20 Czy zmienne losowe X i Y są niezależne? y j x i 1 2 3 p i. 0101 0,1 0,3 0 0 0,2 0,4 0,4 0,6 p.j 0,1 0,5 0,41 Warunek: p ij = p i. ∙ p.j Sprawdzamy dla i=1 i j=1 0,1 ≠ 0,4 ∙ 0,1 p 11 ≠ p 1. ∙ p.1 Odp. Zmienne nie są niezależne.
21 Przykład niezależnych zmiennych losowych X i Y y j x i 1 2 3 p i. 0101 0,04 0,2 0,16 0,06 0,3 0,24 0,4 0,6 p.j 0,1 0,5 0,41 Rozkłady warunkowe zm. X X Y=1 Y=2 Y=3 0 0,4 0,4 0,4 10,6 0,6 0,6 Rozkłady warunkowe zm. Y Y X=0 X=1 1 0,1 0,1 2 0,5 0,5 3 0,4 0,4 Dla zm. niezależnych rozkłady warunkowe są identyczne
22 Parametry dwuwymiarowej zmiennej losowej
23 Wartość oczekiwana i wariancja w rozkładzie brzegowym zmiennej losowej X Wartość oczekiwana: E(X)= 0 ∙ 0,4 + 1 ∙ 0,6 = 0,6 Wariancja: D 2 (X)=[0-0,6] 2 ∙0,4+[1-0,6] 2 ∙0,6= 0,24 inaczej: D 2 (X)=[0 2 ∙0,4 + 1 2 ∙0,6]-[0,6] 2 = 0,24 xixi p i. 0101 0,4 0,6 1 Rozkład brzegowy zm. X
24 Wartość oczekiwana i wariancja w rozkładzie brzegowym zmiennej losowej Y Wartość oczekiwana: E(Y)= 1∙0,1 + 2∙0,5 + 3∙0,4 = 2,3 Wariancja: D 2 (Y)=[1-2,3] 2 ∙0,1+[2-2,3] 2 ∙0,5+ [3- 2,3] 2 ∙0,4 = 0,41 inaczej: D 2 (Y)=[1 2 ∙0,1 + 2 2 ∙0,5+ 3 2 ∙0,4]-[2,3] 2 = 0,41 yjyj p.j 123123 0,1 0,5 0,4 1 Rozkład brzegowy zm. Y
25 Parametry dwuwymiarowej zmiennej losowej 2. W rozkładach warunkowych Wartość oczekiwana w rozkładzie warunkowym Wartość oczekiwana z warunkowych wartości oczekiwanych = wartości przeciętnej rozkładu brzegowego: E[E(X/Y)]=E(X)
26 Wartości oczekiwane w rozkładach warunkowych - przykład y j x i 1 2 3 p i. 0101 0,1 0,3 0 0 0,2 0,4 0,4 0,6 p.j 0,1 0,5 0,41 X P(X/Y=1) P(X/Y=2) P(X/Y=3) 0 1 0,6 0 1 0 0,4 1 E(X/Y=1) = 0 ∙ 1 + 1 ∙ 0 = 0 E(X/Y=2) = 0∙0,6+1∙0,4=0,4 E(X/Y=3) = 0 ∙ 0 + 1 ∙ 1 = 1 E[E(X/Y)]= 0∙0,1+0,4∙0,5+1∙0,4=0,6=E(X)
27 3. Kowariancja w rozkładzie łącznym y j x i 1 2 3 p i. 0101 0,1 0,3 0 0 0,2 0,4 0,4 0,6 p.j 0,1 0,5 0,41 Kowariancja cov(X,Y)= E[(X-E(X))(Y-E(Y)]= E(XY) – E(X)E(Y) E(X)=0,6E(Y)= 2,3 I sposób: cov(X,Y)=(0-0,6)(1-2,3)∙0,1+(0-0,6)(2-2,3)∙0,3+ +(1-0,6)(2-2,3)∙0,2+(1-0,6)(3-2,3)∙0,4 = 0,22 II sposób: cov(X,Y)= ∑∑x i y j p ij -∑x i p i. ∙∑y j p.j = 0∙1∙0,1+0∙2∙0,3+…+1∙2∙0,2+1∙3∙0,4- 0,6∙2,3=0,22
28 Związek stochastyczny a związek korelacyjny
29 Związek stochastyczny Związek stochastyczny (X,Y) między dwoma zmiennymi występuje wtedy, gdy rozkłady warunkowe jednej zmiennej „reagują” na przyjmowanie przez drugą zmienną konkretnych wartości. Związek stochastyczny (X,Y) nie występuje gdy rozkłady warunkowe jednej zmiennej są identyczne i takie same jak jej rozkład brzegowy. Wówczas zmienne są stochastycznie niezależne.
30 Przejawy stochastycznej niezależności zmiennych: 1.Identyczne rozkłady warunkowe i takie jak rozkład brzegowy czyli charakteryzujące je parametry też muszą być takie same oraz i jednocześnie oraz 2.Dla zmiennych niezależnych kowariancja = 0 cov(XY)=E(XY)-E(X)∙E(Y)=E(X)∙E(Y)-E(X)∙E(Y)=0 Związek stochastyczny
31 y j x i y1y1 y2y2 …ylyl p i. x1x1 p 1. ∙ p.1 p 1. ∙ p.2 …p 1. ∙ p.l p 1. x2x2 p 2. ∙ p.1 p 2. ∙ p.2 …p 2. ∙ p.l p 2. ………p i. ∙ p.j … xkxk p k. ∙ p.1 p k. ∙ p.2 …p k. ∙ p.l p k. p.j p.1 p.2 p.l 1 3. Tablica rozkładu łącznego zmiennej dwuwymiarowej (X,Y) przyjmuje charakterystyczną postać dla wszystkich x i oraz y j : Warunek niezależności: Jeśli zmienne X i Y są niezależne to:
32 Przyporządkowanie wartościom jednej zmiennej wartości oczekiwanej odpowiedniego rozkładu warunkowego drugiej zmiennejlub Związek korelacyjny xixi 0 10,60 1 00,41 0 1
33 Jeżeli warunkowe wartości oczekiwane poszczególnych rozkładów warunkowych (czyli przy nakładaniu różnych warunków na drugą zmienną) są identyczne i takie same jak wartość oczekiwana w rozkładzie brzegowym oznacza to, że zmienne są nieskorelowane. W szczególności X nieskorelowana z Y, gdy wszystkie E(X/Y=y j ) są równe. Związek korelacyjny
34 Miarą związku korelacyjnego jest współczynnik korelacji liniowej ρ przyjmuje wartości Wartości ujemne oznaczają, że korelacja jest ujemna, czyli wraz ze wzrostem wartości jednej zmiennej obserwuje się spadek wartości średnich warunkowych drugiej zmiennej Wartości dodatnie oznaczają, że korelacja jest dodatnia, czyli wraz ze wzrostem wartości jednej zmiennej obserwuje się wzrost wartości średnich warunkowych drugiej zmiennej Wartość 0 oznacza, że korelacja między zmiennymi nie występuje. Związek korelacyjny
35 1.Zależność ujemna korelacja ujemna ρ = -1 2.Zależność dodatnia korelacja dodatnia ρ = 1 3.Zależność krzywoliniowa lub brak zależności ρ = 0 ZWIĄZEK KORELACYJNY a zależność stochastyczna
36 Niezależność a nieskorelowanie
37 Dwuwymiarowy rozkład empiryczny
38 Analiza współzależności cech Dane do analizy współzależności dwóch cech mogą być zaprezentowane w postaci danych indywidualnych: lub danych pogrupowanych w tablicy korelacyjnej: x1x1 x2x2 x3x3 x3x3 xnxn y1y1 y2y2 y3y3 y4y4 ynyn Liczba kart bankowych1302 ……..1 Liczba kredytów01021
39 Dwuwymiarowy rozkład empiryczny. Tablica korelacyjna cech x i y y j x i y 1 y 2.......... y l n i. =∑n ij j x1x2.....xkx1x2.....xk n 11 n 12.......... n 1l n 21 n 22.......... n 2l. n k1 n k2.......... n kl n 1. n 2.. n k. n.j =∑n ij i n.1 n.2.......... n.l n
40 Rozkład empiryczny osób ze względu na liczbę kart bankowych (X) i liczbę zaciągniętych kredytów (Y) y j x i 0 1 2 n i. 01230123 5 0 0 35 100 0 35 170 10 15 100 30 5 135 215 145 n.j 85 370 40500
41 Analiza współzależności Badając zależność pomiędzy dwoma cechami w oparciu o rozkład empiryczny (próbę) należy sprawdzić: -czy występuje zależność (stochastyczna, korelacyjna), -jaka jest jej siła, -jaki ma kierunek (dodatni, ujemny), -jaki jest kształt zależności.
42 Analiza współzależności – wnioskowanie statystyczne Jeśli –> brak informacji o całej populacji, ale mamy dane z próby losowej pobranej z tej populacji, to możemy skorzystać z metod wnioskowania statystycznego o współzależności cech. 2 warianty: - wnioskowanie o zależności typu stochastycznego – test niezależności chi-kwadrat. - estymacja siły związku korelacyjnego i wnioskowania o jego istotności – test istotności współczynnika korelacji liniowej Pearsona.
43 Test niezależności χ 2 H 0 : /\ p ij = p i. ∙ p.j - zmienne są niezależne stochastycznie ij H 1 : \/ p ij ≠ p i. ∙ p.j - zmienne są zależne stochastycznie ij Liczebności teoretyczne w tablicy korelacyjnej, przy założeniu, że cechy X i Y są niezależne (H 0 prawdziwa): liczebności brzegowe
44 Test niezależności χ 2
45 Im większa będzie obliczona z próby wartość statystyki χ 2, świadcząca o dużych rozbieżnościach między rozkładem empirycznym a teoretycznym, tym mniej wiarygodna będzie hipoteza o niezależności cech. Próba musi być dostatecznie duża Liczebności teoretyczne n̂ ij ≥ 5. W przypadku niespełnienia tego warunku wiersz (lub kolumnę) z małymi liczebnościami należy połączyć z sąsiednim.
46 1. Współczynnik zbieżności V-Cramera Odrzucenie H 0 o niezależności sugeruje istnienie związku między badanymi cechami. 0 ≤ χ 2 ≤ n(m-1) gdzie m=min (k,l) Współczynnik V przyjmuje wartości z przedziału V = 0 - niezależność stochastyczna, liczebności n ij i n̂ ij są identyczne V = 1 - zależność funkcyjna
47 Własności współczynnika V-Cramera
48 Miary w dwuwymiarowym rozkładzie empirycznym
49 Dwuwymiarowy rozkład empiryczny rozkłady brzegowe średnie: wariancje:
50 rozkłady warunkowe średnie wariancje
51 Miara w rozkładzie łącznym - kowariancja dla danych indywidualnych: dla danych pogrupowanych w tablicy korelacyjnej: Kowariancja wskazuje kierunek zależności (korelacji). c xy = 0 → brak korelacji c xy > 0 → korelacja dodatnia (+) c xy < 0 → korelacja ujemna (-)
52 2. Współczynnik korelacji liniowej Pearsona
53 Własności współczynnika korelacji liniowej Pearsona
54 Przykłady korelacji między cechami
55 Współczynnik korelacji liniowej r xy = 0 może wskazywać na brak zależności albo funkcyjny, ale krzywoliniowy związek zmiennych.
56 Test istotności współczynnika korelacji liniowej Założenie: Dwuwymiarowy rozkład zmiennych losowych X i Y jest normalny H 0 : ρ = 0 współczynnik korelacji liniowej jest nieistotny statystycznie (w populacji nie różni się istotnie od 0) H 1 : ρ ≠ 0 współczynnik korelacji liniowej jest istotny statystycznie (w populacji różni się istotnie od 0) ______________________________________ Inne możliwe H 1 H 1 : ρ > 0 współczynnik korelacji liniowej jest istotnie dodatni (w populacji jest istotnie większy od 0) H 1 : ρ < 0 współczynnik korelacji liniowej jest istotnie ujemny (w populacji jest istotnie mniejszy od 0)
57 Test dla współczynnika korelacji liniowej
58 3. Współczynnik korelacji rang Spearmana
59 Własności współczynnika korelacji rang
60 r d > 0 dodatnia korelacja między cechami, wraz ze wzrostem rang dla jednej cechy rosną też rangi dla cechy drugiej, przy czym r d = 1 – idealna zgodność rang r d < 0 ujemna korelacja między cechami, wraz ze wzrostem rang dla jednej cechy maleją rangi dla cechy drugiej, przy czym r d = -1 – maksymalna niezgodność rang r d = 0 brak korelacji między cechami – losowe kojarzenie się rang
61 Przykład - współczynnik korelacji rang Spearmana l.p.kraj rangi rozwoju ekonomic znego rangi rozwoju polityczn ego różnicekwadrat różnic aibididi^2 1A21 11 2B65 11 3C13 -24 4D66 00 5E32 11 6F611 -525 7G1011 1 8H45 1 9I86 24 10J77 00 SUMA38 Odp.: Współczynnik Spearmana wynosi 0,77 i oznacza silną zgodność rang.
62 Podsumowanie: niezależność stochastyczna Warunki niezależności stochastycznej w rozkładzie empirycznym: rozkłady warunkowe cechy X są identyczne, tzn. rozkłady te mają jednakowe średnie i wariancje: równość warunkowych średnich: X̄ 1 = X̄ 2 ……. = X̄ l równość warunkowych wariancji: s 1 2 =s 2 2 =…….=s l 2 To samo dla cechy Y.
63 Niezależność stochastyczna X – oszczędności, Y – wielkość rodziny V xy = 0 c xy = 0 → r xy = 0 y x 123n i. 5-15612 30 15-25816 40 25-35612 30 n.j 2040 100 y x 123n i. 5-15 15-252040 100 25-35 n.j 2040 100 ȳ i s̃ i 2 2,20,56 2,20,56 2,20,56 x̄ j s̃ j 2 2060 2060 2060 x̄ j s̃j2s̃j2 200 0 0
64 Podsumowanie: niezależność korelacyjna Warunki niezależności korelacyjnej w rozkładzie empirycznym: średnie warunkowe cechy X są identyczne (ale rozkłady warunkowe różnią się między sobą) równość średnich warunkowych : X̄ 1 = X̄ 2 ……. = X̄ l lub równość średnich warunkowych : ȳ 1 = ȳ 2 ……. = ȳ k
65 Niezależność korelacyjna x względem y, ale nie y względem x r xy = 0 Zależność funkcyjna r xy = 1 y x 123n i. 5-155151030 15-2510 2040 25-355151030 n.j 2040 100 y x 123n i. 5-1520 15-2540 25-3540 n.j 2040 100 ȳ i s̃ i 2 2,1670,47 2,250,6875 2,1670,47 x̄ j s̃ j 2 2050 2075 2050 x̄ j s̃j2s̃j2 100 200 300
66 Dziękuję dr Marta Marszałek e-mail: [email protected]