1 Estymacja parametrów populacji
2 Estymacja polega na szacowaniu wartości parametrów rozkładu lub postaci samego rozkładu zmiennej losowej, na podstawie próby statystycznej.
3 Estymacje można podzielić na: estymację punktową - wyznaczanie na podstawie próby statystycznej konkretnych wartości parametrów dla całej zbiorowości generalnej (mogą to być takie parametry jak wartość oczekiwana, mediana, czy odchylenie standardowe), estymację przedziałową polegającą na konstruowaniu przedziału liczbowego, który z ustalonym z góry, wysokim prawdopodobieństwem pokrywa nieznaną wartość szacowanego parametru. Przedział taki nazywa się przedziałem ufności, a prawdopodobieństwo, z jakim pokrywa on szacowany parametr - współczynnikiem ufności.
4 4 Przedział ufności Granice przedziału ufności są losowe, a więc dla konkretnych prób będziemy uzyskiwać różne wartości. Uzyskany konkretny przedział będziemy interpretować następująco: w 1- procentach przypadków przedział (a, b) pokrywa nieznaną wartość parametru. Oznacza to jednocześnie, że średnio w procentach przypadków wyznaczony przedział nie pokrywa szacowanego parametru.
5 5 Przedział ufności (c.d.) Dokładność estymacji parametru określa rozpiętość przedziału ufności będąca różnicą między jego górną i dolną granicą: d = b - a. Rozpiętość przedziału ufności zależy między innymi od przyjętego poziomu ufności 1- : im to prawdopo- dobieństwo jest bliższe jedności, tym rozpiętość przedziału jest większa (a precyzja oceny mniejsza). W zastosowaniach praktycznych najczęściej stosujemy poziomy ufności rzędu 0.90, 0.95 czy 0.99 ( odpowiednio 0.10, 0.05 czy 0.01)
6 Przedział ufności dla wartości oczekiwanej – znane odchylenie standardowe Jeśli znamy odchylenie standardowe zbiorowości, to wartość szacowanej średniej, z prawdopodobieństwem równym 1-α, znajduje się w przedziale danym wzorem: gdzie: -średnia arytmetyczna, -wartość odczytana z tablicy rozkładu t-Studenta dla liczby stopni swobody r= , - odchylenie standardowe, - liczebność próby, - wartość oczekiwana.
7 Zakładając, że ceny jednostkowe lokali mieszkalnych z danego przykładu w miejscowości A w pierwszym kwartale 2012 r. mają rozkład zbliżony do rozkładu normalnego N (3460,241) oraz, że znane jest odchylenie standardowe zbiorowości, oszacować przedział ufności dla nieznanej wartości średniej zbiorowości. Przyjmijmy współczynnik ufności 1-α = 0,95 Podstawiając powyższe dane do danego wzoru oraz odczytując z tablicy zmiennej losowej t-Studenta wartość krytyczną, dla liczby stopni swobody r=∞ (albowiem odchylenie standardowe zbiorowości jest znane) i α = 0,05 otrzymujemy: Oznacza to, że przedział liczbowy z prawdopodobieństwem 1-α = 0,95 pokrywa nieznaną wartość m. Rozwiązanie Przykład
8 Przedział ufności dla wartości oczekiwanej – odchylenie standardowe nie jest znane Jeżeli odchylenie standardowe zbiorowości nie jest znane, to przedział ufności dla wartości oczekiwanej m należy skonstruować w oparciu o rozkład t-Studenta: gdzie: r = n -1 stopni swobody, s - odchylenie standardowe.
9 Przykład Zakładając, że ceny jednostkowe lokali mieszkalnych z danego przykładu w miejscowości A w pierwszym kwartale 2012 r. mają rozkład zbliżony do rozkładu normalnego N (3460,241), oszacować przedział ufności dla nieznanej wartości średniej. Przyjmijmy współczynnik ufności 1- α = 0,95 Rozwiązanie Podstawiając powyższe dane do wzoru oraz odczytując z tablicy zmiennej losowej t-Studenta wartość, dla liczby stopni swobody r = n-1=29 i α = 0,05 otrzymujemy: Można zatem stwierdzić, że z prawdopodobieństwem 95% średnia cena jednostkowa lokali mieszkalnych w miejscowości A zawiera się w przedziale liczbowym o końcach 3370 zł/m 2 i 3550 zł/m 2.
10 Jeżeli liczba obserwacji n dąży do nieskończoności, to różnica między wyżej podanymi przedziałami jest bardzo mała. Dzieje się tak dlatego, że rozkład t-Studenta jest zbieżny do rozkładu normalnego. Występuje to wtedy, gdy liczba stopni swobody (n-1) wzrasta nieograniczenie. Począwszy od n=30 różnicę między tymi przedziałami można praktycznie zaniedbać.
11 11 Przedział ufności dla wariancji 2 w populacji normalnej Niech zmienna losowa oraz niech x i (i = 1, 2,..., n) oznacza n-elementową próbę losową. Dla ustalonego można określić takie dwie wartości i, dla których spełnione są równości: Statystyka ma rozkład 2 z liczbą stopni swobody v = n - 1.
12 12 Przedział ufności dla wariancji 2 w populacji normalnej (c.d.) Z obu wzorów wynika, że Po odpowiednich przekształceniach otrzymujemy przedział ufności dla wariancji:
13 13 Przedział ufności dla odchylenia standardowego w populacji normalnej. Pierwiastkując krańce przedziału ufności dla wariancji otrzymujemy poszukiwany przedział dla odchylenia standardowego:
14 Przedział ufności dla odchylenia standardowego w populacji normalnej – dla dużej próby Gdzie: - wartość odczytana z tablicy dystrybuanty rozkładu normalnego N(0,1) w taki sposób, aby przy danym współczynniku ufności 1-α spełniona była równość
15 Przedział ufności dla prawdopodobieństwa w populacji normalnej Gdzie: m - liczba jednostek w próbie mających wyróżnioną cechę, n - liczebność próby, - wskaźnik struktury w próbie, który jest estymatorem prawdopodobieństwa p w populacji generalnej - wartość odczytana z tablicy dystrybuanty rozkładu normalnego N(0,1) w taki sposób, aby przy danym współczynniku ufności 1-α spełniona była równość
16 Uzasadnienie wielkości próby gdzie: (wariancja jest znana) (wariancja jest nieznana)
17 gdzie: d - dopuszczalny, ustalony z góry maksymalny błąd szacunku wartości m. Zbiorowość generalna ma rozkład dwupunktowy z parametrem p (p jest frakcją jedynek lub elementów wyróżnionych w zbiorowości.) Jeżeli nie znamy rzędu wielkości szacowanego wskaźnika struktury p, to przyjmując za iloczyn pq jego największą wartość ¼, otrzymujemy poniższy wzór:
18 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumie się dowolne przypuszczenie na temat wartości parametrów lub postaci funkcyjnej zbiorowości generalnej. Z hipotezą parametryczną mamy do czynienia gdy przypuszczenie to dotyczy wartości parametrów rozkładu, natomiast pozostałe hipotezy nazywane są hipotezami nieparametrycznymi. W testach istotności hipotezę H 0 formułuje się jako hipotezę „o równości” natomiast hipotezę alternatywną H 1 jako hipotezę o „różności”, „większości” lub „mniejszości”.
19 H 1 : Q < Q 0 H 0 : Q ≥ Q 0 H 1 : Q > Q 0 H 0 : Q ≤ Q 0 H 1 : Q ≠ Q 0 H 0 : Q = Q 0 Q - parametr zbiorowości generalnej oszacowany na podstawie próby, Q 0 – porównywana z nim wartość hipotetyczna. H 0 : Q = Q 0 H 1 : Q ≠ Q 0 H 1 : Q > Q 0 H 1 : Q < Q 0
20 Hipoteza zerowa PrawdziwaFałszywa Decyzja Przyjąć Decyzja prawidłowa Błąd II. rodzaju OdrzucićBłąd I. rodzaju Decyzja prawidłowa
21 Oznaczmy przez D pewną charakterystykę, która jest miarą odchylenia między rozkładem z próby a rozkładem hipotetycznym. Miara ta nazywa się zwykle sprawdzianem hipotezy i określa się ją jako funkcję wyników próby, na podstawie której podejmuje się decyzję przyjęcia lub odrzucenia hipotezy zerowej.
22 Obszarem krytycznym, zwanym inaczej obszarem odrzuceń lub zbiorem krytycznym nazywamy podzbiór przestrzeni prób, który ma tę własność, że jeżeli wartość charakterystyki D zostanie zakwalifikowana do niego, to wtedy hipotezę zerową należy odrzucić.
23 Obszar krytyczny zbudowany z dwóch rozłącznych przestrzeni prób w rozkładzie charakterystyki nosi nazwę obszaru krytycznego testu dwustronnego. Obszar krytyczny testu w zależności od hipotezy alternatywnej może być jednostronny, lewo- lub prawostronny. Test jest dwustronny w zależności od tego, czy odrzuca się hipotezę zerową dla wartości charakterystyki testu, która przypada na dwa przedziały lub tez na jeden przedział rozkładu z próby.
24 Wprowadzenie podziału testów na jednostronny i dwustronny ma swoje uzasadnienie w przypadku odczytywania z tablic statystycznych wartości krytycznych D α. Jeżeli, na przykład, sprawdzamy hipotezę stosując test jednostronny, a tablice statystyczne zbudowane dla testu dwustronnego, to wtedy D α odczytujemy nie dla poziomu istotności α, ale dla podwojonego poziomu istotności, tzn. dla 2 α.
25 f(D)f(D) D k = (- , D d ) (D g, + ) D d E(D) D g D A
26 D k = (D g, + ) E(D) D g D f(D)f(D) B
27 f(D)f(D) D k = (- , D d ) D d E(D) D C
28 Zmienna X w zbiorowości generalnej ma rozkład N(m, ) lub zbliżony do normalnego i wartość m jest nieznana: H 0 : m=m 0 H 1 : m m 0 H 1 : m>m 0 H 1 : m30 3) - nieznane, n 30 Statystyka t ma rozkład Studenta z n-1stopniami swobody Weryfikacja hipotez dotyczących wartości oczekiwanej
29 Przyjmijmy, że zbiorowość generalna ma rozkład normalny N(m,σ ) o nieznanej wartości średniej. Ze zbiorowości tej wylosowano n -elementową pr ó bę statystyczną w celu zweryfikowania hipotezy H 0, że wartość oczekiwana z pr ó by równa jest wartości oczekiwanej zbiorowości. W tym przypadku hipoteza alternatywna H 1 mówi o istotnej r ó żnicy pomiędzy tymi wartościami. H 0 : m = m 0 H 1 : m ≠ m 0 Wartość statystyki testującej obliczamy na podstawie wzoru: gdzie: - średnia arytmetyczna - wartość oczekiwana
30 Jeśli znane jest odchylenie standardowe: gdzie: - średnia arytmetyczna - wartość oczekiwana
31 Procedura podejmowania decyzji dotyczących przyjęcia lub odrzucenia H 0 przebiega następująco: a) w przypadku testu dwustronnego ( H 1 : m ≠ m 0 ) jeśli wartość obliczona t spełnia nierówność - należy odrzucić H 0 na korzyść H 1, jeśli natomiast: - nie ma podstaw do odrzucenia H 0. b) w przypadku testu jednostronnego ( H 1 : m m 0 ) jeśli wartość obliczona t spełnia nierówność - należy odrzucić H 0 na korzyść H 1, jeśli natomiast: - nie ma podstaw do odrzucenia H 0.
32 W przypadku, gdy odchylenie standardowe nie jest znane, należy posłużyć się odchyleniem standardowym z próby. Wartość sprawdzianu hipotezy obliczamy wykorzystując następujący wzór: Granicę obszaru krytycznego dla zadanego poziomu istotności α odczytujemy z tablicy rozkładu t-Studenta dla r =n-1 stopni swobody. W przypadku testu dwustronnego (H 1 : m ≠ m 0 ) obszar krytyczny ma postać:
33 Jeżeli obliczona wartość t znajdzie się w obszarze krytycznym, to wtedy H 0 należy odrzucić na korzyść hipotezy alternatywnej H 1. W przeciwnym razie nie ma podstaw do jej odrzucenia. Hipoteza zerowa może również przyjąć postać H 0 : m ≤ m 0 lub H 0 : m ≥ m 0. W pierwszym przypadku hipoteza H 1 : m > m 0 a w drugim: H 1 : m < m 0. Taki zapis jednoznacznie określa sposób wyznaczenia obszaru krytycznego. W przypadku testów jednostronnych (H 1 : m m 0 ) mamy natomiast: lub
34 Przykład Na podstawie badań rynku nieruchomości przeprowadzonych w pierwszym kwartale zeszłego roku obliczono, że średnia cena lokali mieszkalnych w miejscowości B wynosi 3500 zł/m 2. W drugim kwartale zeszłego roku specjalista w pewnej firmie zajmującej się sprzedażą nieruchomości przeprowadził na 25 elementowej próbie podobne badanie i stwierdził, że średnia cena lokali mieszkalnych wyniosła 3560 zł/m 2 a odchylenie standardowe 250 zł/m 2. Czy oznacza to, że ceny nieruchomości wzrosły? Należy przyjąć poziom istotności α = 0,05.
35 Rozwiązanie Formułujemy hipotezy: H 0 : m = 3500 – średnia cena nieruchomości dalej wynosi 3500 zł/m 2 H 1 : m > 3500 – średnia cena nieruchomość wzrosła Ponieważ nie znamy odchylenia standardowego zbiorowości posłużymy się wzorem: W przypadku testu jednostronnego odczytujemy z tablicy rozkładu t-Studenta, dla r = 25-1=24 stopni swobody i 2 α = 0,1 wartość. Ponieważ - nie ma podstaw do odrzucenia H 0, m ó wiącej o r ó wności cen jednostkowych lokali mieszkalnych w badanych okresach. Można zatem stwierdzić z 95% pewnością, że średnia cena jednostkowa została na tym samym poziomie.
36 WERYFIKACJA ISTOTNOŚCI RÓŻNICY MIĘDZY WARTOŚCIAMI OCZEKIWANYMI DWÓCH ZMIENNYCH LOSOWYCH Weryfikacji poddawana jest najczęściej hipoteza H 0 m ó wiąca, że nie ma istotnej r ó żnicy między wartościami oczekiwanymi, wobec hipotezy alternatywnej H 1 sugerującej istotną r ó żnicę między tymi wartościami. H 0 : m 1 = m 2 H 1 : m 1 ≠ m 2 Sprawdzian hipotezy zerowej w takiej sytuacji ma postać:
37 Jeśli próby są równe n 1 = n 2 = n, to: Jeśli wartość obliczona t spełnia nierówność, gdzie r = (n 1 -1)+ (n 2 -1) stopni swobody - należy odrzucić H 0 na korzyść H 1, Jeżeli natomiast: - przeto nie ma podstaw do odrzucenia H 0.
38 Przykład Przykład ten dotyczy losowego zbioru cen jednostkowych sprzedanych lokali mieszkalnych o liczebności n = 8, na kt ó rym przeprowadzono pomiar cechy X. W tym przypadku rozważamy zbi ó r wartości z dw ó ch okres ó w badań. Na podstawie danych przedstawionych w danej tablicy określić, czy różnice miedzy wartościami średnich można uznać za nieistotne. Sformułowaną hipotezę należy zweryfikować na poziomie istotności =0,05. WARTOŚCI OBLICZONYCH CHARAKTERYSTYK x1x1 x2x2 3287,53575 s2s2 81093,8146875 s 284,8383,2 Źródło: Obliczenia własne.
39 Rozwiązanie Formułujemy hipotezę zerową ( H 0 ), m ó wiącą, że nie ma istotnej r ó żnicy między średnimi cenami dla dw ó ch badanych okres ó w, wobec hipotezy alternatywnej ( H 1 ), m ó wiącej o istotnej r ó żnicy między tymi średnimi. H 0 : m 1 = m 2 H 1 : m 1 ≠ m 2 Ponieważ wielkości prób są sobie równe ( n = 8 ), stosuje się wzory: Wartość t r jest realizacją zmiennej losowej t-Studenta o r = n 1 + n 2 –2 stopniach swobody. Dla =0,05 oraz r =14, odczytana z tablicy rozkładu zmiennej losowej t-Studenta wartość krytyczna t 0,05;14 = 2,145. Ponieważ |t | < t 0,05;14 przeto nie ma podstaw do odrzucenia hipotezy zerowej, o istotnej różnicy między średnimi cenami sprzedaży lokali mieszkalnych dla obydwu badanych okresów.
40 Testowanie hipotezy o wariancji Niech cecha X ma w zbiorowości generalnej rozkład N(m,σ). Należy zweryfikować hipotezę H 0 :σ 2 =σ 2 0 przeciwko H 1 :σ 2 >σ 2 0. Taką hipotezę alternatywną przyjmuje się najczęściej, gdyż zwykle sytuacja, gdy wariancja cechy w zbiorowości jest duża, jest niekorzystna. Jeśli m jest znane, to sprawdzian hipotezy H 0 ma postać: Przy założeniu prawdziwości H 0 statystyka ta ma rozkład χ 2 o n stopniach swobody.
41 Jeśli m jest nieznane, sprawdzianem H 0 hipotezy jest: Statystyka ta ma rozkład χ 2 o n-1 stopniach swobody. Z uwagi na postać H 1 relacja P(χ 2 >χ 2 α )=α wyznacza prawostronny zbiór krytyczny, gdzie χ 2 α jest wartością krytyczną odczytaną z tablic rozkładu χ 2 dla odpowiedniej liczby stopni swobody i P=α. Jeśli dla danej próby losowej relacja wyznaczająca zbiór krytyczny jest spełniona, to H 0 należy odrzucić na korzyść H 1.
42 Jeśli n>30, sprawdzian hipotezy przyjmuje jedną z poniższych postaci: Jeśli m jest znane w zbiorowości generalnej, to Jeśli m jest nieznane, wówczas Statystyka T ma rozkład zbliżony do N(0,1), zatem dalsze postępowanie jest identyczne jak w opisanych wcześniej testach istotności wykorzystujących statystyki o rozkładzie N(0,1).
43 Testowanie hipotezy o dwóch wariancjach Badamy dwie zbiorowości o rozkładzie normalnym N(m 1,σ 1 ) i N(m 2,σ 2 ). Należy zweryfikować hipotezę: H 0 : σ 2 1 =σ 2 2 przy H 1 : σ 2 1 >σ 2 2. Z obydwu populacji losuje się próby proste o liczebności n 1 i n 2. Niech S 2 (1) i S 2 (2) oznaczają wariancję S 2. Ze względu na postać hipotezy H 1 tak numerujemy zbiorowości, aby S 2 (1) >S 2 (2). Sprawdzianem hipotezy jest statystyka: Statystyka ta ma rozkład F-Snedecora o r 1 =(n 1 -1) i r 2 =(n 2 -1) stopniach swobody. Relacja wyznaczająca prawostronny zbiór krytyczny jest postaci: P(F>F α )=α, Gdzie F α odczytujemy z tablic rozkładu F-Snedecora dla r 1 i r 2 stopni swobody.
44 Testowanie hipotezy o wskaźniku struktury Niech populacja generalna ma rozkład dwupunktowy z parametrem p oznaczającym prawdopodobieństwo, że badana cecha przyjmie wyróżnioną wartość. Chcemy zweryfikować na podstawie n-elementowej próby (n>100) hipotezę zerową H 0 :p=p 0 Hipoteza alternatywna może przyjmować jedną z następujących postaci: H 1 :p≠p 0, H 1 :p p 0 Sprawdzianem hipotezy zerowej jest statystyka: która przy prawdziwości H 0 ma w przybliżeniu rozkład N(0,1), przy czym X oznacza ilość jednostek o wyróżnionej wartości cechy w n-elementowej próbie.
45 Testowanie hipotezy o dwóch wskaźnikach struktury Zakładamy, że badana cecha ma w dwóch populacjach rozkład dwupunktowy z parametrami p 1 i p 2. Należy zweryfikować hipotezę H 0 :p 1 =p 2. Hipoteza alternatywna może mieć postać H 1 :p 1 ≠p 2 lub H 1 :p 1 p 2. Z obu populacji losujemy próby proste o liczebności n 1 i n 2, przy czym obydwie próby muszą być duże, tzn. n 1 ≥100 i n 2 ≥100. Sprawdzianem hipotezy zerowej jest statystyka: gdzie: Statystyka ta, przy założeniu prawdziwości hipotezy H 0, ma rozkład zbliżony do N(0,1).