1 STATYSTYKA – kurs podstawowy wykład 2 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii
2 Dane indywidualne Dane pogrupowane (y 0i - y 1i > – czasnini wiwi 0-107 0,292 10-203 0,125 20-303 0,125 30-403 0,125 40-505 0,208 50-603 0,125 suma241 x i – liczba rodzeństwanini wiwi 06 0,250 113 0,542 24 0,167 31 0,042 suma241
3 W praktyce zamiast przedstawiać całe rozkłady cechy wykorzystuje się ich liczbowe (zwięzłe) charakterystyki
4 Własności rozkładów cechy statystycznej grupuje się w cztery kategorie zagadnień: 1.Położenie 2.Zróżnicowanie 3.Asymetria 4.Koncentracja Statystyczny opis rozkładu cechy
5 MIARY POŁOŻENIA
6 Miary klasyczne Średnia arytmetyczna Miary pozycyjne Kwantyle (kwartyle, mediana)
7 MIARY POŁOŻENIA ŚREDNIA ARYTMETYCZNA Dane indywidualne Cecha skokowa Dane pogrupowane – formuły „ważone” Cecha ciągła
8 MIARY POŁOŻENIA ŚREDNIA ARYTMETYCZNA x i – liczba rodzeństwanini wiwi 06 0,250 113 0,542 24 0,167 31 0,042 suma241 Ile rodzeństwa, przeciętnie rzecz ujmując, mają badani studenci? 1.Dane pogrupowane 2.Cecha skokowa
9 MIARY POŁOŻENIA ŚREDNIA ARYTMETYCZNA Dane indywidualne Cecha skokowa Dane pogrupowane – formuły „ważone” Cecha ciągła
10 MIARY POŁOŻENIA ŚREDNIA ARYTMETYCZNA x i – liczba rodzeństwanini wiwi 06 0,250 113 0,542 24 0,167 31 0,042 suma241 1.Dane pogrupowane 2.Cecha skokowa Badani studenci posiadają średnio jedno rodzeństwo. Gdyby wszyscy badani studenci mieli taką samą liczbę rodzeństwa, to byłoby to właśnie dokładnie jedno rodzeństwo.
11 MIARY POŁOŻENIA ŚREDNIA ARYTMETYCZNA Ile czasu, średnio biorąc, zajmuje badanym studentom dotarcie na uczelnię? 1.Dane pogrupowane 2.Cecha ciągła (y 0i - y 1i > – czasnini wiwi 0-107 7/24=0,292 10-203 3/24=0,125 20-303 3/24=0,125 30-403 3/24=0,125 40-505 5/24=0,208 50-603 3/24=0,125 suma241
12 MIARY POŁOŻENIA ŚREDNIA ARYTMETYCZNA Dane indywidualne Cecha skokowa Dane pogrupowane – formuły „ważone” Cecha ciągła
13 (y 0i - y 1i > – czasnini wiwi y 0-107 0,2925 10-203 0,12515 20-303 0,12525 30-403 0,12535 40-505 0,20845 50-603 0,12555 suma241--- MIARY POŁOŻENIA ŚREDNIA ARYTMETYCZNA Ile czasu, średnio biorąc, zajmuje badanym studentom dotarcie na uczelnię? 1.Dane pogrupowane 2.Cecha ciągła (y 0i - y 1i > – czasnini wiwi 0-107 0,292 10-203 0,125 20-303 0,125 30-403 0,125 40-505 0,208 50-603 0,125 suma241
14 MIARY POŁOŻENIA ŚREDNIA ARYTMETYCZNA (y 0i - y 1i > – czasnini wiwi y 0-107 0,2925 10-203 0,12515 20-303 0,12525 30-403 0,12535 40-505 0,20845 50-603 0,12555 suma241--- Badani studenci docierają na uczelnię średnio w 27,08 minuty. Gdyby wszyscy badani studenci docierali w tym samym czasie, to zabierałoby im to 27,08 minut. UWAGA!!! To jest wynik uzyskany dla danych pogrupowanych; Jeśli policzymy średnią z danych indywidualnych, wynik będzie inny
15 MIARY POŁOŻENIA KWARTYLE Q 2 – mediana = wartość środkowa CECHA SKOKOWA (liczba rodzeństwa), dane indywidualne 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 3 0,5 zaokrąglamy w dół 0,5 zaokrąglamy w górę Q 1 = 0 gdy n parzyste Q 3 = 1 UWAGA!!! Wartości cechy MUSZĄ być uszeregowane niemalejąco (24+1)/4 = 6,25 gdy n nieparzyste (24+1)/2 = 12,5 3(24+1)/5 = 18,75
16 MIARY POŁOŻENIA KWARTYLE Q 2 – mediana = wartość środkowa x i – liczba rodzeństwa F n (x) 0 0,250 1 0,792 2 0,958 3 1 suma--- Rozkład liczby rodzeństwa w wybranej grupie studentów CECHA SKOKOWA – liczba rodzeństwa F n (Q 1 ) ≥ 0,25 F n (Q 2 ) ≥ 0,50 F n (Q 3 ) ≥ 0,75 Q 1 = 0 Q 2 = 1 Q 3 = 1
17 Graficzna prezentacja kwartyli 0,792 0,958 Q1Q1 Q2Q2 = Q 3 x i – liczba rodzeństwa F n (x) 0 0,250 1 0,792 2 0,958 3 1 suma--- F n (Q 1 ) ≥ 0,25 F n (Q 2 ) ≥ 0,50 F n (Q 3 ) ≥ 0,75 Q 1 = 0 Q 2 = 1 Q 3 = 1
18 Graficzna prezentacja kwartyli CECHA CIĄGŁA – czas dotarcia na uczelnię 0,292 0,875 Rozkład czasu dotarcia na uczelnię w wybranej grupie studentów (y 0i - y 1i > – czas F n (y 1i ) 0-10 0,292 10-20 0,417 20-30 0,542 30-40 0,667 40-50 0,875 50 +∞ 1 suma--- 0,417 0,667 0,542 F n (Q 1 ) ≥ 0,25 F n (Q 2 ) ≥ 0,50 F n (Q 3 ) ≥ 0,75 Q1Q1 Q2Q2 Q 3 Do analitycznego wyznaczenia wartości kwartyli wykorzystujemy wzory interpolacyjne – na ćwiczeniach
19 MIARY ZRÓŻNICOWANIA Miary klasyczne Wariancja Odchylenie standardowe Współczynnik zmienności Miary pozycyjne Rozstęp Rozstęp ćwiartkowy Odchylenia ćwiartkowe Pozycyjny współczynnik zmienności
20 MIARY ZRÓŻNICOWANIA Miary pozycyjne Rozstęp Rozstęp ćwiartkowy Odchylenia ćwiartkowe Pozycyjny współczynnik zmienności x max – x min Kraj A4 – 1 = 3 Kraj B7 – 1 = 6 Im mniejszy jest rozstęp, tym zróżnicowanie cechy jest mniejsze = przyjmuje ona bardziej jednorodne wartości
21 MIARY ZRÓŻNICOWANIA Miary pozycyjne Rozstęp Rozstęp (przedział) ćwiartkowy Odchylenia ćwiartkowe Pozycyjny współczynnik zmienności Q 3 – Q 1 Q 1 = 0 Q 2 = 1 Q 3 = 1 1 – 0 = 1 Między pierwszym a trzecim kwartylem znajduje się 50% obserwacji (środkowych obserwacji) Im mniejszy jest rozstęp ćwiartkowy = im mniejszy jest przedział, w którym mieści się 50% obserwacji, tym zróżnicowanie cechy jest mniejsze
22 MIARY ZRÓŻNICOWANIA Miary pozycyjne Rozstęp Rozstęp (przedział) ćwiartkowy Odchylenia ćwiartkowe Pozycyjny współczynnik zmienności Q = (Q 3 – Q 1 )/2 Q 1 = 0 Q 2 = 1 Q 3 = 1 Q = (1 – 0)/2 = 0,5 Odchylenie ćwiartkowe to połowa rozstępu ćwiartkowego
23 MIARY ZRÓŻNICOWANIA WARIANCJA Dane indywidualne Cecha skokowa Dane pogrupowane – formuły „ważone” Cecha ciągła NIE POSIADA INTERPRETACJI
24 MIARY ZRÓŻNICOWANIA Odchylenie standardowe S(x) – pierwiastek kwadratowy z wariancji
25 MIARY ZRÓŻNICOWANIA WARIANCJA I ODCHYLENIE STANDARDOWE Proszę ocenić zróżnicowanie czasu dojazdu na uczelnię 1.Dane pogrupowane 2.Cecha ciągła (y 0i - y 1i > – czasnini wiwi y 0-107 0,2925 10-203 0,12515 20-303 0,12525 30-403 0,12535 40-505 0,20845 50-603 0,12555 suma241---
26 MIARY ZRÓŻNICOWANIA WARIANCJA Dane indywidualne Cecha skokowa Dane pogrupowane – formuły „ważone” Cecha ciągła NIE POSIADA INTERPRETACJI
27 MIARY ZRÓŻNICOWANIA WARIANCJA I ODCHYLENIE STANDARDOWE Proszę ocenić zróżnicowanie czasu dojazdu na uczelnię 1.Dane pogrupowane 2.Cecha ciągła (y 0i - y 1i > – czasnini wiwi y 0-107 0,2925 10-203 0,12515 20-303 0,12525 30-403 0,12535 40-505 0,20845 50-603 0,12555 suma241--- Wśród 24 badanych studentów czas dojazdu na uczelnię różni się od przeciętnego czasu dotarcia na uczelnię (27,083 min) o średnio 18,25 minuty. UWAGA!!! To jest wynik uzyskany dla danych pogrupowanych; Jeśli policzymy wariancję z danych indywidualnych, wynik będzie inny
28 MIARY ZRÓŻNICOWANIA Wariancja i odchylenie standardowe Wzór wykorzystywany w przypadku analizy danych z próby Wzór wykorzystywany w przypadku analizy danych z populacji
29 MIARY ZRÓŻNICOWANIA Miary klasyczne Współczynnik zmienności Miary pozycyjne Pozycyjny współczynnik zmienności Miary służące do porównania zróżnicowania dwóch lub więcej rozkładów między sobą
30 MIARY ZRÓŻNICOWANIA Typowy obszar zmienności obejmuje jednostki typowe Dana wartość cechy należy do wartości typowych gdy należy do przedziału
31 MIARY ASYMETRII Miary klasyczne Klasyczny współczynnik asymetrii Miary pozycyjne ……. Rozkład asymetryczny prawostronnie, dodatnio Rozkład asymetryczny lewostronnie, ujemnie Rozkład symetryczny
32 MIARY ASYMETRII Rozkład asymetryczny prawostronnie, dodatnio Rozkład asymetryczny lewostronnie, ujemnie Rozkład symetryczny medo me
33 MIARY ASYMETRII Klasyczny współczynnik asymetrii – A(x) Dane indywidualne Cecha skokowa Dane pogrupowane Cecha ciągła
34 WSTĘP DO RACHUNKU PRAWDOPODOBIEŃSTWA
35 Zdarzenia, częstość i prawdopodobieństwo Zajmijmy się doświadczeniem polegającym na rzucie idealną kostką do gry Wynik rzutu kostką nie jest z góry przesądzony, bo liczba oczek, jaka może się pojawić na kostce, może wynieść: 1 oczko 2 oczka 3 oczka 4 oczka 5 oczek 6 oczek Zdarzenie polegające na wyrzuceniu danej liczby oczek określane jest mianem zdarzenia losowego Jest to jednocześnie zdarzenie elementarne, bo nie da się go „rozszczepić” na zdarzenie prostsze.
36 Zdarzenia, częstość i prawdopodobieństwo Wszystkie zdarzenia doświadczenia losowego tworzą zbiór zdarzeń elementarnych W przypadku rzutu kostką do gry (rzut jednokrotny) zbiór zdarzeń elementarnych tworzy 6 elementów: Ω: {1, 2, 3, 4, 5, 6} Empirycznie stwierdzono, że, w miarę zwiększania liczby rzutów, częstość pojawienia się określonej liczby oczek, np. 6 oczek, stabilizuje się wokół wartości 1/6 prawdopodobieństwo wyrzucenia określonej liczby oczek
37 Zdarzenia, częstość i prawdopodobieństwo Suma prawdopodobieństw wszystkich zdarzeń elementarnych tworzących doświadczenie losowe wynosi 1 (zdarzenie pewne) Zapis formalny: A – zdarzenie polegające na wyrzuceniu 1 oczka, P(A)=1/6 B – zdarzenie polegające na wyrzuceniu 2 oczek, P(B)=1/6 C – zdarzenie polegające na wyrzuceniu 3 oczek, P(C)=1/6 D – zdarzenie polegające na wyrzuceniu 4 oczek, P(D)=1/6 E – zdarzenie polegające na wyrzuceniu 5 oczek, P(E)=1/6 F – zdarzenie polegające na wyrzuceniu 6 oczek, P(F)=1/6 P(A) + P(B) + P(C) + P(D) + P(E) + P(F) = 1
38 Zdarzenia, częstość i prawdopodobieństwo Definicja prawdopodobieństwa: 1.Dla dowolnego zdarzenia : 0 ≤ P(Z) ≤ 1 2. Dla zdarzenia niemożliwego O i zdarzenia pewnego I: P(O) = 0, P(I)=1 3. Jeśli zdarzenia i wykluczają się wzajemnie (AB=0), to: P(A+B) = P(A) + P(B)
39 Zmienna losowa Wyniki doświadczeń rozpatrywanych na gruncie rachunku prawdopodobieństwa mogą być opisane za pomocą słów lub liczb Wygodniej (szybciej) stosuje się zapis liczbowy, nawet jeśli zdarzenia mają charakter jakościowy Przykład 1: Doświadczenie 1 polega na rzucie rzetelną monetą Możliwe wyniki doświadczenia: Ω: {orzeł, reszka} Przykład 2: Doświadczenie 2 polega na rzucie rzetelną kostką Możliwe wyniki doświadczenia: Ω: {1 oczko, 2 oczka, 3 oczka, 4 oczka, 5 oczek, 6 oczek} zastąpmy słowa liczbami = przyporządkujmy poszczególnym zdarzeniom liczby
40 Zmienna losowa Doświadczenie 1 (rzut rzetelną monetą) Ω: {orzeł,reszka} Wyrzucenie orła zapiszmy jako 0 Wyrzucenie reszki zapiszmy jako 1 Doświadczenie 2 (rzut rzetelną kostką) Ω: {1 oczko, 2 oczka, 3 oczka, 4 oczka, 5 oczek, 6 oczek} Zdarzeniu polegającemu na wyrzuceniu k-tej liczby oczek przypiszmy wartość k, czyli np.: wyrzucenie 5 oczek zapiszmy jako 5 wyrzucenie 3 oczek zapiszmy jako 3 Jednoznaczne przypisanie każdemu zdarzeniu elementarnemu wartości liczbowej prowadzi do określenia zmiennej losowej RZUT Orzeł Reszka zapisujemy 0 1
41 Zmienna losowa – definicja Niech E będzie zbiorem zdarzeń elementarnych danego doświadczenia. Funkcję X(e), która każdemu zdarzeniu elementarnemu przyporządkowuje jedną i tylko jedną liczbę X(e) = e nazywamy zmienną losową Oznacza to, że każde zdarzenie elementarne e w doświadczeniu jest charakteryzowane przez pewną liczbę rzeczywistą x. W praktyce zamiast X(e), piszemy skrótowo X. Najczęściej zmienne losowe oznacza się za pomocą dużych liter X, Y, Z. Wartości jakie mogą przyjmować zmienne losowe oznacza się odpowiednio x, y, z.
42 Rozkład zmiennej losowej Doświadczenie 1 (rzut rzetelną monetą) Ω: {orzeł,reszka} Wyrzucenie orła zapiszmy jako 0; prawdopodobieństwo tego zdarzenia to ½ P(orzeł)=P(0)= ½ Wyrzucenie reszki zapiszmy jako 1; prawdopodobieństwo tego zdarzenia to ½ P(reszka)=P(1)= ½ Doświadczenie 2 (rzut rzetelną kostką) Zdarzeniu polegającemu na wyrzuceniu k-tej liczby oczek przypiszmy wartość k X = x i 01 P(X = x i )0,5 X = x i 123456 P(X = x i )1/6 Te układy liczb noszą nazwę rozkładu prawdopodobieństwa zmiennej losowej X Rozkład, bo określa jak rozłożona/rozdzielona jest cała masa prawdopodobieństwa (=1) między poszczególne wartości zmiennej
43 Zmienna losowa SKOKOWA (dyskretna) gdy może przyjmować skończoną i przeliczalną liczbę wartości Np.: Liczba orłów w trzykrotnym rzucie monetą OOO ORO OOR ROO RRO ROR ORR RRR CIĄGŁA gdy jej wartości należą do przedziału ze zbioru liczb rzeczywistych Np.: 1.waga urodzeniowa niemowląt 2.wielkość dochodów rozporządzalnych gospodarstw domowych w Polsce
44 ZMIENNA LOSOWA SKOKOWA
45 Rozkład zmiennej losowej skokowej charakteryzują: 1.Funkcja prawdopodobieństwa 2.Dystrybuanta 3.Parametry rozkładu Ad. 1 Funkcją prawdopodobieństwa zmiennej skokowej X jest zbiór prawdopodobieństw postaci: p i = P(X = x i ) dla i = 1, 2, …, k (k nie musi być wartością skończoną) takich że: Przykład: X – liczba orłów w trzykrotnym rzucie monetą
46 Funkcja prawdopodobieństwa zmiennej losowej skokowej Funkcją prawdopodobieństwa zmiennej skokowej X jest zbiór prawdopodobieństw postaci: p i = P(X = x i ) dla i = 1, 2, …, k (k nie musi być wartością skończoną) takich że:
47 Przykład: X – liczba orłów w trzykrotnym rzucie monetą RRR RRO ROR ORR OOR ROO ORO OOO X = x i 0 1 23 P(X = x i )1/83/8 1/8 X p
48 Dystrybuanta zmiennej losowej skokowej Dystrybuanta zmiennej skokowej X to prawdopodobieństwo postaci: P(X ≤ x i ) = F(x i ) Łatwo zauważyć, że oba typy prawdopodobieństw (prawdopodobieństwo i dystrybuantę) łączy związek postaci: F(x k ) = P(X ≤ x k ) = P(X = x 1 ) + P(X = x 2 ) + … + P(X = x k-1 ) + P(X = x k ) = p 1 + p 2 + … + p k-1 + p k
49 dla x < 0 dla 0 ≤ x
50 Parametry rozkładu prawdopodobieństwa zmiennej losowej liczbowe wielkości stałe charakteryzujące każdy rozkład 1.Wartość oczekiwana 2. Wariancja zmiennej losowej X zmiennej losowej X E(X) D 2 (X) Wartość oczekiwana = średnia = nadzieja matematyczna = moment zwykły rzędu I Moment zwykły k-tego rzędu E(X 2 ) - moment zwykły rzędu II Moment centralny rzędu II Moment centralny k-tego rzędu
51 Własności wartości oczekiwanej Własności 1.Wartość oczekiwana stałej równa jest stałej E(b) = b 2.E(bX) = bE(X) 3.E(aX+b) = aE(X) + b 4.Jeśli E(X 1 ) = a oraz E(X 2 ) = b, to E(X 1 + X 2 ) = = E(X 1 ) + E(X 2 ) = a + b 5.Jeśli X 1 i X 2 są niezależne, to E(X 1 X 2 ) = E(X 1 ) E(X 2 ) Przykład: E(X 1 ) = 3 oraz E(X 2 ) = ½ 1.E(4) = 4 2.Y = 4X 1, E(Y) = E(4X 1 ) = 4 E(X 1 ) = 4 * 3 =12 3.Z = 4X 1 – 3, E(Z) = 4* E(X 1 ) – 3 = 12 – 3 = 9 4.E(X 1 + X 2 ) = E(X 1 ) + E(X 2 ) = 3 + ½ = 3,5 5.E(X 1 X 2 ) = E(X 1 ) E(X 2 ) = 3*1/2 = 1,5
52 Własności wariancji Własności 1.Wariancja stałej równa jest 0 2.Dodanie stałej do zmiennej losowej nie zmienia jej wariancji D 2 (X+b) = D 2 (X) 3.D 2 (Xb) = b 2 D 2 (X) 4.D 2 (Xb+a) = b 2 D 2 (X) Przykład: D 2 (X 1 ) = 2 1.D 2 (5) = 0, bo dla dowolnej stałej nie występuje zróżnicowanie jej wartości względem jej samej 2.Y = X 1 +5 D 2 (Y) = D 2 (X 1 +5) = D 2 (X 1 ) = 2 3.Z = 4X 1 D 2 (Z) = D 2 (4X 1 ) = 4 2 D 2 (X 1 ) = 16 * 2 = 32 4.W = 4X 1 + 5 D 2 (W) = D 2 (4X 1 +5) = 4 2 D 2 (X 1 ) = 16 * 2 = 32
53 Jak policzyć E(X) i D 2 (X)? X – liczba orłów w trzykrotnym rzucie monetą X = x i 0 1 23 P(X = x i )1/83/8 1/8
54 ZMIENNA LOSOWA CIĄGŁA
55 Rozkład zmiennej losowej ciągłej charakteryzują: 1.Funkcja gęstości 2.Dystrybuanta 3.Parametry rozkładu Analogicznie jak w przypadku zmiennej losowej skokowej Dlaczego w przypadku zmiennej losowej skokowej mówimy o funkcji prawdopodobieństwa, a w przypadku zmiennej losowej ciągłej – o funkcji gęstości? Zmienna losowa skokowa przyjmuje wartości przeliczalne – najczęściej całkowite – stąd natomiast zmienna ciągła przyjmuje wartości nieprzeliczalne opisywane za pomocą przedziałów liczbowych pipi f(x) x x Funkcja gęstości
56 Chociaż ciągła zmienna losowa może przyjąć wartość x 0, to prawdopodobieństwo tego zdarzenia wynosi: x 0 = 121 f(x) x
57 Jedyne prawdopodobieństwo, jakie można rozważać w przypadku zmiennej losowej typu ciągłego, to prawdopodobieństwo, że zmienna ta przyjmie wartości z określonego w dowolny sposób przedziału liczbowego x0x0 x1x1 x0x0 x1x1 x X ≤ x 0 X ≤ x 1 Różnica dwóch odcinków WNIOSEK Prawdopodobieństwo w rozkładzie zmiennej losowej typu ciągłego może być wyrażane jedynie za pomocą dystrybuanty f(x) x
58 DYSTRYBUANTA ZMIENNEJ LOSOWEJ CIĄGŁEJ F(x) x Własności dystrybuanty zmiennej losowej ciągłej: 1. 0 ≤ F(x) ≤ 1 2. F (-∞) = 0, F(+ ∞) = 1 3. Funkcja niemalejąca 4. Funkcja ciągła
59 Własności funkcji gęstości zmiennej losowej ciągłej: 1.f(x) ≥ 0 2. Funkcja gęstości przyjmuje wartości ze zbioru liczb rzeczywistych dodatnich i 0 Pole powierzchni pod funkcją gęstości jest równe 1 f(x) x
60 Powierzchnię zakreślonych pół (zielonego i czarnego) obliczyć można wykorzystując rachunek całkowy Jeśli funkcja gęstości ma postać f(x), to czarne pole obliczyć można następująco: GRAFICZNA INTERPRETACJA ZMIENNEJ LOSOWEJ CIĄGŁEJ x2x2 x1x1 f(x) x x3x3