1 STATYSTYCZNA ANALIZA DANYCHV semestr studiów inżynierskich w PJWSTK, 2010/11 Prowadząca: dr hab. Elżbieta Ferenstein, profesor PJWSTK Cel wykładu - poznanie podstaw analizy danych statystyka opisowa modelowanie probabilistyczne wnioskowanie statystyczne
2
3
4
5
6 STATYSTYKA OPISOWA Techniki wstępnej analizy danych i ich prezentacji:gromadzenie, przechowywanie danych, analiza danych surowych prezentacja danych: tabele, wykresy, parametry liczbowe obliczane dla danych. Cel: charakteryzacja danych - w zwięzłej formie odzwierciedlająca pewne ich cechy, np. średni dochód, średnie zużycie paliwa, .. odnalezienie różnego rodzaju regularności ( nieregularności ) ukrytych w danych, zależności między podzbiorami danych.
7
8
9
10
11 Diagram liczebności Liczba oczek
12 Wykres kołowy
13 Metody opisu danych jakościowychwykres słupkowy, wykres kołowy
14 Grupa rok 1990/ rok 1997/98 kierunków liczba % liczba % 1. pedagogiczne , ,0 2. humanistyczne , ,1 3. prawne i nauki , ,5 społeczne 4. nauki ścisłe i , ,4 przyrodnicze 5. medyczne , ,0 6. pozostałe , ,0 ogółem
15 Wstępna analiza danychOpis danych surowych: 2 próbki o liczebnościach n = oraz m = cecha jakościowa: grupa kierunków studiów 6 kategorii ( klas, atrybutów ) cechy atrybuty: grupa kierunków pedagogicznych, humanistycznych, medycznych, .... Najliczniejsze grupy kierunków: nauki ścisłe i przyrodnicze w 1990/91 roku prawo i nauki społeczne w 1997/98 roku Procentowy udział klasy = ( liczność klasy/ liczebność próbki ) x 100% = częstość x 100%
16 Wykres słupkowy procentowego udziału grup kierunków studióww r. ak. 1990/91
17 Wykres słupkowy procentowego udziału grup kierunków studióww r. ak. 1997/98
18 Wykresy słupkowe 1990/ /98
19 Połączony wykres słupkowypedag. prawne,społ. med.. ścisłe,przyr. inne human.
20 Połączony wykres słupkowypedag. 1990/91 1997/98 human. prawne,spol scisle,przyr. med. inne 1 2 3 4 5 6 (X )
21 1990/91 pedag. human. 18,30% prawne,spol scisle,przyr. med. inne 2,80%15,00% scisle,przyr. med. inne 12,70% 26,60% 24,60%
22
23 1997/98
24
25
26
27
28
29 28+16+12+4=60% pracowników ma co najmniej 33 lata
30
31
32
33 WSKAŹNIKI SUMARYCZNE
34 Niech
35 2000, 2000, 2000, 2000, 2500, 2500, 2500, 2500, 3500, 3500, 19000 Mediana = 2500
36
37
38
39 Średnia winsorowska ( z parametrem k )
40
41
42
43 Obserwacja potencjalnie odstająca0,4 0,8 1,2 1,6
44
45
46
47
48