1 Statystyka Wykłady dla II rok Geoinformacji rok akademicki 2012/2013Wykład 3 i 4: Prawdopodobieństwo, zmienna losowa, rozkłady prawdopodobieństwa, podstawowe pojęcia statystyki, skale pomiarowe
2 Ściąga notacji z zakresu logiki matematycznej i teorii mnogości
3 Zdarzenia Eksperyment – powtarzalny sposób postępowania dający jakiś wynik nie zakładamy powtarzalności wyniku Zdarzenie elementarne – każdy możliwy wynik eksperymentu
4 Zbiory zdarzeń Zbiór zdarzeń elementarnych – zbiór wszystkich możliwych wyników eksperymentu Zdarzenie losowe – dowolny podzbiór zbioru zdarzeń
5 Prawdopodobieństwo Określone dla zdarzeń losowych lub elementarnych.Własności definiujące:
6 Częstość Częstość zdarzenia A: liczba wystąpień zdarzenia Aliczba powtórzeń eksperymentu
7 Prawdopodobieństwo i częstośćTylko w nielicznych przypadkach można obliczyć teoretyczne prawdopodobieństwa. Zazwyczaj musimy przybliżać je za pomocą częstości. Przybliżenie to jest tym lepsze, im większa liczba powtórzeń eksperymentu (prawo wielkich liczb).
8 Prawdopodobieństwo warunkoweZdarza się, że interesują nas nie wszystkie możliwe wyniki eksperymentu, a jedynie te, które spełniają pewien warunek (zdefiniowany przez zdarzenie losowe) Prawdopodobieństwo zdarzeń przy tak ograniczonym zbiorze zdarzeń elementarnych można obliczyć ze wzoru:
9 Prawdopodobieństwo warunkowe – przykładyP(♂|starał się na WNGiG UAM) =291/7650,38 policzenie tego wprost ze wzoru byłoby trudniejsze. P(♂|przyjęty na WNGiG UAM) =148/4200,35
10 Zatem dla zdarzeń niezależnych:Zdarzenia niezależne Jeśli nałożony warunek nie zmienia prawdopodobieństwa, zdarzenia nazywamy niezależnymi Zatem dla zdarzeń niezależnych:
11 Zmienna losowa Jeżeli wynik eksperymentu wyrazimy w postaci liczbowej to otrzymamy zmienną losową Ściślej: zmienna losowa to odwzorowanie zbioru zdarzeń elementarnych w zbiór liczb rzeczywistych. Nie musi być wzajemnie jednoznaczne. np. tę samą wygraną w grze liczbowej można uzyskać dla wielu układów wylosowanych liczb.
12 Zmienna losowa Gdy zmienna losowa może przybierać dowolne wartości z pewnego przedziału, nazywamy ją zmienną losową ciągłą. Jeśli natomiast przyjmuje tylko pewne wartości, a nie przyjmuje wartości pośrednich nazywamy ją zmienną losową dyskretną.
13 Zmienna losowa ciągła Losujemy liczbę z przedziału [0,1] – to nasza zmienna losowa X. Jakie są prawdopodobieństwa:
14 Zmienna losowa ciągła Dla zmiennych losowych celowe jest rozważanie prawdopodobieństw w przedziałach, a nie punktach. Pożytecznym sposobem przedstawienia zachowania zmiennej losowej jest histogram.
15 Histogram
16 Histogramy Ze wzrostem liczby przedziałów częstości obserwacji w przedziałach stają się coraz niższe. Można temu zapobiec wykreślając częstość / szerokość przedziału. W takim histogramie pole powierzchni słupka jest równe częstości.
17 Histogram
18 Histogramy
19 Funkcja gęstości rozkładu prawdopodobieństwaZe wzrostem liczby pomiarów częstość dąży do prawdopodobieństwa. Jeśli równocześnie zwiększamy liczbę przedziałów, histogram dąży do wykresu tzw. funkcji gęstości rozkładu prawdopodobieństwa. Ma ona sens tylko dla zmiennej losowej ciągłej.
20 Funkcja gęstości rozkładu
21 Funkcja gęstości – właściwościFunkcja gęstości rozkładu prawdopodobieństwa pozwala obliczać prawdopodobieństwo znalezienia zmiennej losowej w dowolnym przedziale.
22 Funkcja gęstości
23 Funkcja rozkładu (dystrybuanta)Dystrybuanta podaje prawdopodobieństwo nieprzekroczenia przez zmienną losową wartości argumentu. Funkcja rozkładu ma sens zarówno dla ciągłych, jak i dyskretnych zmiennych losowych.
24 Funkcja gęstości prawdopodobieństwa a dystrybuanta rozkładu
25 Funkcja rozkładu jeśli X jest niewiększe od bi nie jest niewiększe od a W języku logiki: Można więc napisać:
26 Funkcja rozkładu Dla ciągłych zmiennych losowych było: a więc
27 Funkcja rozkładu Dystrybuanta jest funkcją pierwotną dla funkcji gęstości rozkładu: Nachylenie wykresu dystrybuanty odpowiada więc funkcji gęstości.
28 Funkcja rozkładu i f. gęstości Inne właściwościF jest funkcją niemalejącą (pole pod wykresem f(x) jest zawsze równe 1)
29 Rozkłady prawdopodobieństwaRóżne eksperymenty opisywane mogą być różnymi funkcjami gęstości, czyli zmienne losowe mogą mieć różne rozkłady prawdopodobieństwa. W praktyce bardzo często spotykamy rozkład normalny.
30 Rozkład normalny Funkcja gęstości dana jest wzorem:Jej konkretna postać określona jest przez dwa parametry: wartość oczekiwaną odchylenie standardowe
31 Rozkład normalny
32 Rozkład normalny Dlaczego rozkład normalny jest tak częsty?Model Hagena. Centralne twierdzenie graniczne
33 Model Hagena dla błędów pomiarowychBłąd jest wypadkową wielu niezależnych czynników, wszystkich tego samego rzędu. Każdy czynnik z równym prawdopodobień-stwem wpływa na zawyżenie lub zaniżenie wyniku pomiaru. Można udowodnić, że gdy spełnione są te założenia, to wynik pomiaru podlega rozkładowi normalnemu.
34 Centralne twierdzenie graniczne
35 Wizualizacja centralnego twierdzenia granicznego
36 Wartość oczekiwana i odchylenie standardoweWartość oczekiwaną i odchylenie standardowe można określić dla wielu innych (ale nie wszystkich) funkcji gęstości rozkładu: kwadrat odchyle-nia stand. nazy-wamy wariancją.
37 Średnia pomiarowa jako przybliżenie wartości oczekiwanejJeżeli zm. losowa X ma dowolny rozkład prawdopodobieństwa (ale taki, że określone są i ), to oznacza średnią z n pomiarów w praktyce zwykle wystarczy n rzędu 10.
38 Estymacja parametrów Parametry rozkładu normalnego zwykle nie są znane. Na podstawie serii pomiarów możemy je oszacować: jest oszacowaniem dla wartości oczekiwanej jest oszacowaniem odchylenia standardowego
39 Standardowy rozkład normalnyJeśli X ma rozkład normalny o parametrach i to: ma rozkład normalny o parametrach zwany standardowym rozkładem normalnym.
40 Standardowy rozkład normalny
41 Suma i różnica niezależnych rozkładówJeżeli X ma rozkład o parametrach i oraz Y ma rozkład o parametrach i to parametry rozkładu ich sumy X+Y są następujące: Podobnie, dla różnicy X-Y:
42 Suma i różnica rozkładówKształt rozkładu sumy lub różnicy jest zwykle inny od kształtu składników. Są jednak wyjątki, np. rozkład normalny lub Suma lub różnica dwóch zmiennych o rozkładzie normalnym też ma rozkład normalny.
43 Średnia z pomiarów o rozkładzie normalnymJeśli zmienna losowa X ma rozkład normalny o parametrach i : to średnia z n pomiarów ma rozkład normalny o parametrach i :
44 Galeria rozkładów ciągłych
45 Rozkłady statystyczne w R Commander
46 Ile jest teoretycznych rozkładów statystycznych?
47 PODSTAWOWE POJĘCIA STATYSTYKIBadanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter: pełny - badanie obejmuje całą populację częściowy - odbywa się na pewnych (zazwyczaj losowo) wybranych elementach populacji, czyli próbie losowej, zazwyczaj reprezentatywnej dla populacji
48 Ile czołgów posiadał armia niemiecka w czasie II Wojny Światowej?
49 Badania statystyczne
50 PODSTAWOWE POJĘCIA STATYSTYKIZbiorowość statystyczna, nazywana też populacją statystyczną, - zbiór elementów (osób, przedmiotów, zdarzeń) podobnych, lecz nie identycznych pod względem określonej cechy, poddanych badaniom statystycznym.
51 PODSTAWOWE POJĘCIA STATYSTYKIElement zbiorowości statystycznej (populacji statystycznej) jest nazywany jednostką statystyczną. Liczba jednostek statystycznych, czyli elementów zbiorowości, jest nazywana liczebnością zbiorowości.
52 PODSTAWOWE POJĘCIA STATYSTYKIElement zbiorowości statystycznej (populacji statystycznej) jest nazywany jednostką statystyczną. Liczba jednostek statystycznych, czyli elementów zbiorowości, jest nazywana liczebnością zbiorowości. Cecha statystyczna (nazywana też zmienną) to właściwość elementów zbiorowości statystycznej będąca przedmiotem badania statystycznego.
53 Klasyfikacja zbiorowości statystycznychZbiorowość statystyczna Skończona Ma skończoną liczbę jednostek; np. 50 firm farmaceutycznych Nieskończona Ma nieskończona lub niemożliwą do ustalenia liczbę jednostek statystycznych; Np. zbiorowość mikroorganizmów, klienci odwiedzający centrum handlowe
54 Klasyfikacja zbiorowości statystycznychZbiorowość statystyczna Jednowymiarowa badana ze względu na jedną cechę np. firmy farmaceutyczne badane ze względu na wielkość obrotów Wielowymiarowa badana jednocześnie ze względu na kilka cech np. firmy farm. W których badamy zależność wielkości obrotów od liczby przedstawicieli handlowych
55 Klasyfikacja zbiorowości statystycznychZbiorowość statystyczna Względnie jednorodna Jej podzbiorowości mało różnią się własnościami np. zbiorowość gospodarstw 2 – osobowych badana ze względu na tygodniowe wydatki na żywność Niejednorodna Jej podzbiorowości wyraźnie różnią się własnościami np. zbiorowość gospodarstw o różnej wielkości badana ze względu na tygodniowe wydatki na żywność
56 Klasyfikacja zbiorowości statystycznychZbiorowość statystyczna Statyczna Wszystkie jednostki statystyczne pochodzą z tego samego okresu np. firmy farm. zarejestrowane we wrześniu 2006 r., spółki na giełdzie notowane r. Dynamiczna Jednostki statystyczne pochodzą z różnych okresów np. kolejne sesje giełdowe w październiku 2006r.
57 Cecha Badana własność elementów populacji statystycznej, która różnicuje tę populację Cechy mierzalne (ilościowe): możliwe do opisania za pomocą liczb ciągłe: przyjmujące dowolne wartości w danym przedziale skokowe: przyjmująca określone wartości w danym przedziale, Cechy niemierzalne (jakościowe): można je jedynie opisać słownie lub za pomocą odpowiednich skal
58 Rodzaje cech ilościowe jakościowe
59 Klasyfikacja cech statystycznychCecha statystyczna ilościowa (mierzalna) wyrażone za pomocą liczb jakościowa (niemierzalna) wyrażona w sposób opisowy. skokowa przyjmuje skończoną lub przeliczalną liczbę wartości; w pewnym przedziale zmienności może przyjąć tylko niektóre wartości. ciągła - może przyjąć każdą wartość z określonego przedziału liczbowego
60 PRZYKŁAD 1 Badamy wysokość kredytów wśród klientów indywidualnych PKO BP w dniu r. Zbiorowość statystyczna: indywidualni kredytobiorcy PKOBP Jednostka statystyczna: jeden klient – obiekt materialny (kto – klient PKO BP, kiedy – r., gdzie – Polska) Typ zbiorowości: skończona, jednowymiarowa, względnie jednorodna, statyczna Cecha statystyczna: wysokość kredytu (tys. zł) Typ cechy statystycznej: mierzalna, ciągła
61 PRZYKŁAD 2 Badamy opinię pracowników, dotyczącą decyzji zarządu jednej z warszawskich firm o połączeniu z jedną firmą. Zbiorowość statystyczna: pracownicy firmy Jednostka statystyczna: jeden pracownik – obiekt materialny (kto – pracownik firmy, kiedy – np r., gdzie – Warszawa, Polska) Typ zbiorowości: skończona, jednowymiarowa, względnie jednorodna, statyczna Cecha statystyczna: opinia (kategoria cechy: popieram, nie popieram, nie wiem) Typ cechy statystycznej: niemierzalna
62 Skale pomiarowe Uzależnione są od rodzaju opisywanych zmiennychDeterminują, co można zrobić z daną zmienną Zmienne jakościowe Skala nominalna Skala porządkowa (rangowa) Zmienne ilościowe Skala przedziałowe (interwałowa) Skala ilorazowa (stosunkowa)
63 Skala nominalna Pozwala rozpoznawać obiekty jednakowe i różne, bez wypowiadania się o relacjach między nimi, np. gatunek, rodzaj drewna, rodzaj zakładu pracy, płeć, itp. Często pomiar na skali nominalnej jest liczbowym etykietowaniem badanych obiektów, np. kody w niektórych bazach danych Bardzo słaba skala pomiarowa Graficzna prezentacja, dominanta
64 Skala porządkowa Dodatkowo wprowadza relację porządku w zbiorze zmiennych jakościowych, np. drewno suche, wilgotne; uszkodzenie słabe, średnie, silne; ... Jest skalą mocniejszą niż nominalna Powoduje najwięcej problemów i nieporozumień, przedmiot powszechnie popełnianych błędów
65 Skala porządkowa Przykład: skala ocen (ndst, dst, db, bdb)Wszelkiego rodzaju obliczenia są tutaj nadużyciem: nieznana jest odległość między poszczególnymi ocenami (różnica w między różnymi stopniami jest różna; często mieszane kategorie) Możliwe jest jedynie określenie, że np. silny stopień uszkodzenia jest mocniejszy, niż słaby
66 Skala przedziałowa Zachowuje własności skali porządkowej, ale dodatkowo wyposażona jest w stałą jednostkę miary i umowne zero Możliwy jest pomiar odległości między uporządkowanymi zmiennymi Jest skalą mocniejszą od porządkowej
67 Skala przedziałowa Przykład: skala Celsjusza dla temperaturyMożliwe jest określenie o ile stopni dana temperatura różni się od innej Ale nie można opisać sensownie stosunku dwóch wartości zmiennych Np. średnia temperatura lipca w centralnej Polsce (17°C) różni się od średniej rocznej temperatury tego obszaru (7°C) o 10 stopni, ale nie oznacza to, że w lipcu jest prawie 2,5 raza cieplej, niż średnio w roku
68 Skala ilorazowa różni się od skali przedziałowej tym, że jest posiada zero absolutne, a nie umowne Możliwe jest określenie ile razy dana cecha jest większa od innej Jest to najsilniejsza skala pomiarowa
69 Skala ilorazowa Przykład: skala KelwinaGleba o temperaturze 50°C (323°K) jest 1.1 raza (czyli o 10%) cieplejsza od gleby o temperaturze 20°C (293°K) Przykład: liczba kandydatów na studia Na WB (300) było 5 razy mniej kandydatów na studia, niż na WNGiG (1500) – zerem absolutnym jest tu brak kandydatów na dany kierunek studiów