Statystyka Wykłady dla II rok Geoinformacji rok akademicki 2012/2013

1 Statystyka Wykłady dla II rok Geoinformacji rok akademi...
Author: Elżbieta Milewska
0 downloads 2 Views

1 Statystyka Wykłady dla II rok Geoinformacji rok akademicki 2012/2013Wykłady 1 i 2: Wprowadzenie do statystyki

2 Program wykładu Wykładowca Wprowadzenie do problematykihipotetyczno-dedukcyjna metoda wyjaśniania zadania statystyki Zakres tematyczny wykładów Literatura Termin i forma egzaminu

3 Wykładowca Dr hab. Alfred StachInstytut Geoekologii i Geoinformacji, Wydział Nauk Geograficznych i Geologicznych Specjalność: geografia fizyczna, geomorfologia, hydrologia, GIS, geostatystyka, modelowanie matematyczne Collegium Geographicum, IIp, pokój 216, tel ,

4 Zasady poznawania otaczającej rzeczywistościNAUKOWE POZNAWANIE ŚWIATA Wyjaśnianie Obserwowane zjawiska Teoria Testowanie (walidacja)

5 Faktyczne podstawy tworzenia wyjaśnień rzeczywistości

6 Co odróżnia hipotezy naukowe od innych?

7 Naukowa metodologia poznawania rzeczywistości

8 Metoda naukowa poznawania rzeczywistości

9 Testowanie hipotezy

10 Testowanie hipotezy: „palenie papierosów zwiększa ryzyko raka płuc”

11 Na czym opiera się nasza wiedza o otaczającym środowisku fizycznym i społecznym?I. Pomiar + Teoria

12 Na czym opiera się nasza wiedza o otaczającym środowisku fizycznym i społecznym?II. Pomiar + ???

13 Przykład z gazet – badania opinii społecznejAby poznać preferencje dorosłych (ok. 29 mln.) Polaków z dokładnością ± 3% ankietuje się zazwyczaj ok osób (próbka 0,000045). Próbka musi być reprezentatywna tzn. zachowywać proporcje głównych parametrów całej populacji: strukturę płci, strukturę wiekową, strukturę wykształcenia, strukturę zawodową, strukturę zamieszkania.

14 Przykład w skali Polski: suma opadów atmosferycz-nych w sierpniu 1975Dane źródłowe z 2659 stacji. DUŻO, CZY MAŁO?

15 Przykład w skali Polski: suma opadów atmosferycz-nych w sierpniu 1975 roku.Dane wyjściowe: 2659 deszczomierzy Hellmanna powierzchnia zbiorcza deszczomierza Hellmanna: 200 cm2 powierzchnia Polski: km2 Obliczenia: Powierzchnia pomiaru = 2659  200 cm2 = cm2 = 53,2 m2 = km2 Powierzchnia pomiarowa w stosunku do powierzchni Polski 1 : 0, To tak jakby się chciało poznać opinię społeczną w Polsce na podstawie ankietowania 0,0223 obywatela Dane źródłowe z 2659 stacji. DUŻO, CZY MAŁO?

16 A MOŻE TO JEDNAK WYSTARCZAJĄCO DUŻO DANYCH?Mechanizm powstawania opadów w Polsce: frontalne (30 – 60 tys. km2), konwekcyjne (ok. 5 km2), i dodatkowo wpływ rzeźby terenu. Przykład w skali Polski: suma opadów atmosferycz-nych w sierpniu 1980 roku. Obliczenia: Powierzchnia przypadająca na 1 deszczomierz: : 2659 = 117,6 km2 średnia odległość między deszczomierzami: 117,60,5 = 10,84 km średni promień opadowej komórki konwekcyjnej: (5 : )0,5 = 1,26 km Dane źródłowe z 2659 stacji. DUŻO, CZY MAŁO?

17 Przykład w skali Polski: suma opadów atmosfe-rycznych w sierpniu 1975 roku

18 Problem w skali globalnej

19 Globalne ocieplenie – dane źródłoweLokalizacja stacji meteo. z danymi średniej temperatury powietrza Lokalizacja stacji meteo. z danymi maks. temperatury powietrza

20 Decyzje ekonomiczne – eksploatacja ropy naftowej na Morzu PółnocnymRdzenie wiertnicze: 0, Wiercenia: 0, Pomiary geofizyczne: 0, Koszt budowy i instalacji platformy wiertniczej: ok. 2 mld. U$ Informacje bę-dące podstawą decyzji o wyda-niu 2 mld. U$:

21 Podstawy klasycznej statystyki

22 Indukcyjne poznawanie rzeczywistości – rola statystyki

23 Historia statystyki „Statystyka ma długą prehistorię, ale krótką historię” (C. Radhakrishna Rao) Najdawniejszy zapis statystyczny: karby na kościach, kamieniu i innych materiałach służące do prowadzenia rachunku swego bydła i innego dobytku Pierwsze spisy ludności przeprowadzano w Chinach ok lat p.n.e Za czasów dynastii Czou (1122 – 256 p.n.e.) ustanowiono oficjalne stanowisko odpowiedzialnego za prace statystyczne zwane „szih-su” (księgowy)

24 Historia statystyki Termin statystyka ma źródło w łacińskim słowie „status”, co oznacza „państwo”. Został on użyty po raz pierwszy w połowie XVIII przez Niemca Gottfrieda Achenwalla dla określenia „gromadzenia, przetwarzania i wykorzystywania danych przez państwo” W 1800 roku Francja jako pierwsze państwo na świecie tworzy Centralny Urząd Statystyczny W 1834 roku powstało w Londynie Królewskie Towarzystwo Statystyczne (Royal Statistical Society). Wtedy statystykę uważano za „fakty odnoszące się do ludzi, możliwe do przedstawienia w postaci liczb, w wystarczająco zwielokrotnionej ilości, sygnalizujące prawa ogólne”

25 Historia statystyki I Międzynarodowy Kongres Statystyczny w 1854 roku w Brukseli – prezesem został belgijski matematyk Adolphe Quetlet ( ) W 1885 powstało międzynarodowe stowarzyszenie statystyków pod nazwą Międzynarodowego Instytutu Statystycznego (International Statistical Institute). Siedzibą ISI jest Haga w Holandii W Polsce niepodległej w 1918 powołano Główny Urząd Statystycznych (GUS). GUS powstał z inicjatywy Ludwika Krzywickiego, jednego z najwybitniejszych socjologów swoich czasów. Działalność GUS była zawieszona w okresie drugiej wojny światowej, i wznowiona w 1945 roku.

26 Definicja - Wikipedia Statystyka – nauka, której przedmiotem zainteresowania są metody pozyskiwania i prezentacji, a przede wszystkim analizy danych opisujących zjawiska, w tym masowe. Duża część nauki zajmuje się obserwacją otaczającego nas świata lub też posługuje się eksperymentem dla potwierdzenia swoich teorii. Takie badanie przebiega zazwyczaj według schematu: zebranie dużej ilości danych, ich analiza i interpretacja. Badaczowi potrzebny jest wtedy zestaw narzędzi - sprawdzonych metod, które umożliwią mu operowanie na dużych zbiorach danych. Tworzeniem i rozwijaniem takich użytecznych narzędzi zajmuje się właśnie statystyka.

27 Opinie o statystyce Mark Twain„There are three kinds of lies: lies, damned lies, and statistics” Mark Twain „Sometimes it is useful to know how large your zero is.” Author unknown „Nic nie wymaga większej dokładności przy roztrząsaniu spraw ludzkich jak ścisłe rozróżnienie, co jest wynikiem przypadku, a co działaniem przyczyn” David Hume Esej: „Powstanie i postęp sztuk i nauk” „Dane należy torturować tak długo, aż zaczną zeznawać” Znalezione w sieci „It is easy to lie with statistics. It is hard to tell the truth without statistics” Andrejs Dunkels „ …technology tends to overwhelm common sense.” D. A. Freedman

28 Problem „daty urodzin”Jakie jest prawdopodobieństwo że na sali są co najmniej dwie osoby urodzone tego samego dnia roku?

29 Problem „daty urodzin”Jakie jest prawdopodobieństwo że na sali są co najmniej dwie osoby urodzone tego samego dnia roku?

30 Główne funkcje statystykiOpisywanie/podsumowywanie/ tabelaryzowanie danych, Testowanie hipotez (przewidywań) na temat danych Przeprowadzanie eksploracji danych w poszukiwaniu struktury/układów/ czynników/skupień

31 Opisywanie/podsumowywanie/ tabelaryzowanie danychPodsumowanie/rysowanie kształt rozkładu zmiennych ciągłych, Tabelaryzowanie/ilustrowanie graficzne danych jakościowych (takich jak płeć, zawód) oraz wyznaczanie liczności, procentów itp., Przeprowadzanie eksploracji/ podsumowywanie szeregów czasowych

32 Testowanie hipotez (przewidywań) na temat danychKształtu (lub dopasowania) rozkładu, Różnic pomiędzy grupami/próbami, Różnic pomiędzy zmiennymi, Zależności (relacji) między zmiennymi, Różnic w relacjach pomiędzy zmiennymi w różnych grupach

33 Przeprowadzanie eksploracji danych w poszukiwaniu struktury/układów/ czynników/skupieńCzynników lub wymiarów wśród wielu zmiennych ciągłych, Skupień lub naturalnych grup zmiennych lub przypadków, Wzorców lub trendów zachodzących w czasie, Związków w tablicach wielodzielczych. Związków pomiędzy zmiennymi niezależnymi (objaśniającymi) a zmiennymi zależnymi, określającymi przynależność do grup (kategorii).

34 Program wykładu Wykładowca Wprowadzenie do problematykihipotetyczno-dedukcyjna metoda wyjaśniania zadania statystyki Zakres tematyczny wykładów Literatura Termin i forma egzaminu

35 Ćwiczenia ze statystyki w roku akademickim 2012/2013: zakres tematyczny zajęćPrzygotowanie danych do analiz statystycznych Podstawy grafiki statystycznej Statystyki opisowe Testowanie hipotez – metody parametryczne; analiza wariancji (ANOVA) Testowanie hipotez – metody nieparametryczne Tabele dwudzielcze i wielodzielcze (kontyngencji) – testowanie istotności proporcji Analiza korelacji i regresji (liniowa, wielokrotna liniowa, proste warianty regresji nieliniowych, regresja logistyczna) Wieloczynnikowa analiza wariancji (MANOVA) Metody wielowymiarowe: analiza składowych głównych, analiza skupień (metody hierarchiczne i k-średnich).

36 Zagadnienia dodatkowe na wykładachPodstawy teorii prawdopodobieństwa; zmienne losowe, rozkłady losowe Pobieranie próby / Planowanie eksperymentu

37 Statystyka – strona domowa wykładów i ćwiczeń: http://www.geoinfo.amu.edu.pl/zajecia/stat/index.html

38 Podręczniki

39 Podręczniki

40 Podręczniki

41 Podręczniki

42 Encyklopedie i słowniki

43 Statystyka jest łatwa ?

44 Internetowy podręcznik statystyki: http://www. statsoft

45 R – literatura

46 R – literatura po polsku

47 Internet – AniWiki: http://animation.yihui.name/

48 Program wykładu Wykładowca Wprowadzenie do problematykihipotetyczno-dedukcyjna metoda wyjaśniania zadania statystyki Zakres tematyczny wykładów Literatura Termin i forma zaliczenia