Metoda reprezentacyjna i statystyka małych obszarów z SAS Instytut Statystyki i Demografii SGH dr Dorota Bartosińska Zajęcia 4 Wnioskowanie statystyczne.

1 Metoda reprezentacyjna i statystyka małych obszarów z S...
Author: Franciszka Melcer
0 downloads 0 Views

1 Metoda reprezentacyjna i statystyka małych obszarów z SAS Instytut Statystyki i Demografii SGH dr Dorota Bartosińska Zajęcia 4 Wnioskowanie statystyczne o średniej, wartości globalnej i ilorazie z prób złożonych – zastosowanie procedury SURVEYMEANS. Estymatory ilorazowe.

2 Struktura zajęć Szacowane parametry populacjiEstymatory średniej dla różnych schematów losowania próby Ilorazowe estymatory średniej Estymatory wartości globalnej Estymator ilorazu Pośrednie metody oceny wariancji estymatorów Procedura SURVEYMEANS Przykład zastosowania procedury SURVEYMEANS

3 1. Szacowane parametry populacjiRozpatrujemy cechę ilościową Y: Y – cecha badana yi – wartości cechy badanej dla i-tej jednostki 1.1. Średnia cechy Y w populacji: 1.2. Wartość globalna (suma wartości zmiennej) 1.3. Iloraz dwóch wartości globalnych/średnich

4 2. Estymatory średniej dla różnych schematów losowania próby2.1. Losowanie proste niezależne Estymatorem średniej populacji jest średnia z próby: Estymator ten jest nieobciążony, tzn.:

5 Wariancja estymatora średniej:D2 – wariancja estymatora S2 – wariancja cechy badanej w populacji Estymator wariancji estymatora: d2 - estymator wariancji estymatora s2 – estymator wariancji cechy badanej w populacji, czyli wariancja w próbie

6 2.2. Losowanie proste zależneEstymatorem średniej populacji jest średnia z próby: Estymator ten jest nieobciążony: Wariancja tego estymatora: Estymatorem wariancji jest: - poprawka na bezzwrotność losowania

7 2.3. Losowanie warstwowe Estymatorem średniej populacji jest średnia z próby warstwowej: Wariancja tego estymatora: - średnia cechy badanej Y w h-tej warstwie - liczebność populacji dla h-tej warstwy - liczebność próby dla h-tej warstwy - udział liczebności h-tej warstwy w populacji

8 2.4. Warstwowanie po wylosowaniu próbyZał. znane Wh Estymator średniej: Wariancja tego estymatora: - frakcja, jaką stanowi próba w populacji - wariancja estymatora średniej w przyp. los. warstwowego proporcjonalnego Czasami możemy dokonać warstwowania dopiero po wylosowaniu próby. Tak się robi np.. W statystyce małych obszarów, gdzie próbę wylosowaną dla „dużego obszaru” i nawet już zbadaną, dzieli się na małe obszary. Jest to możliwe ,gdy wiemy, jaką część populacji stanowi h-ta warstwa.

9 2.5. Losowanie dwustopniowelos. dwustopniowe (los. proste zależne na obu stopniach): I stopień – losujemy do próby m jednostek z M jednostek populacji, g - numer jednostki losowania I stopnia II stopień - losujemy do próby ng jednostek z Ng jednostek i - numer jednostki losowania II stopnia Estymator średniej: Podane powyżej wzory mają zastosowanie, gdy są jednakowe prawdopodobieństwa wyboru jednostek do próby na pierwszym stopniu losowania. Gdy prawdopodobieństwa wyboru jednostek losowania I stopnia są różne, to estymatory i ich wariancje są jeszcze bardziej złożone. We wzorze na średnią przed M/n dochodzi jeszcze trzecia suma. Trudno jest obliczyć wariancję takiego złożonego estymatora, w praktyce stosuje się tzw. wagi i różne metody szacowania wariancji, np. Bootstrap. Będzie o tym na przykładzie BAEL.

10 3. Ilorazowe estymatory średniej3.1. Ilorazowy estymator średniej bez warstwowania - stosowany, gdy mamy informację o średniej cechy dodatkowej X w populacji cecha dodatkowa X musi być skorelowana z cechą badaną Y potrzebne są dane indywidualne o cesze pomocniczej R - iloraz, r - estymator ilorazu: - średnia cechy pomocniczej X w populacji - średnia cechy pomocniczej X w próbie - średnia cechy badanej Y w próbie

11 Ilorazowy estymator średniej- jest obciążony jego wariancja: R - iloraz w populacji, - współczynnik korelacji między cechą pomocniczą X i cechą badaną Y Sx - odchylenie standardowe cechy pomocniczej X w populacji Sy - odchylenie standardowe cechy badanej Y w populacji

12 Ilorazowy estymator średniejjest bardziej efektywny niż średnia z próby, gdy: V(X) - współczynnik zmienności dla cechy pomocniczej X V(Y) - współczynnik zmienności dla cechy badanej Y Współczynnik zmienności cechy jest to iloraz odchylenia standardowego cechy przez średnią arytmetyczną tej cechy.

13 3.2. Ilorazowy warstwowy estymator średniejstosowany, gdy mamy informację o średniej cechy dodatkowej X w populacji dla każdej z H warstw Rh – iloraz wartości globalnych lub średnich cechy badanej Y i cechy pomocniczej X dla h-tej warstwy: - średnia cechy Y w populacji dla h-tej warstwy - średnia cechy X w populacji dla h-tej warstwy rh – estymator ilorazu wartości globalnych lub średnich cechy badanej Y i cechy pomocniczej X dla h-tej warstwy: - średnia cechy Y w próbie dla h-tej warstwy - średnia cechy X w próbie dla h-tej warstwy

14 Wariancja ilorazowego warstwowego estymatora średniej- współczynnik korelacji między cechą badaną Y i cechą pomocniczą X dla h-tej warstwy - wariancja cechy badanej Y dla h-tej warstwy - wariancja cechy pomocniczej X dla h-tej warstwy Estymator ten jest obciążony, zgodny (obciążenie maleje wraz ze wzrostem nh).

15 4. Estymatory wartości globalnejWartość globalna: Estymator wartości globalnej otrzymamy, mnożąc estymator średniej przez N: Wariancję estymatora wartości globalnej otrzymamy, mnożąc wariancję estymatora średniej przez N2: Estymator wariancji estymatora wartości globalnej: Bardzo często w wielu badaniach statystycznych istnieje potrzeba oszacowania innych parametrów niż średnia: wartości globalnej, liczby i frakcji elementów wyróżnionych, ilorazu dwóch średnich lub ilorazu dwóch wartości globalnych, np.? - pytanie do studentów

16 5. Estymator ilorazu - mają zastosowanie wzory podane przy ilorazowym estymatorze średniej na r

17 6. Pośrednie metody oceny wariancji estymatorówW przypadku złożonych schematów losowania próby do szacowania parametrów populacji są stosowane estymatory warstwowe lub/i złożone „wielopiętrowe” estymatory zaliczające się do estymatorów typu ilorazowego. Ta złożoność schematów losowania próby i estymatorów jest w praktyce omijana poprzez użycie w procesie estymacji tzw. wag. Estymator średniej ma postać ilorazu:

18 Bezpośrednia estymacja wariancji estymatorów parametrów populacji jest utrudniona w przypadku złożonych schematów losowania próby i złożonych estymatorów. W takich sytuacjach do oceny wariancji estymatorów można wykorzystać metody pośrednie: linearyzację Taylora (ang. Taylor series linearization), metodę bootstrapową, metodę jackknife, metodę półprób zrównoważonych (ang. balanced repeated replication), metodę grup losowych (ang. interpenetrating sub-samples).

19 7. Procedura SURVEYMEANSPROC SURVEYMEANS opcje słowa kluczowe statystyk; BY zmienne grupujące ; CLASS zmienne jakościowe ; CLUSTER zmienne identyfikujące jednostki los. I stopnia; DOMAIN zmienne domen< zmienna * zmienna zmienna * zmienna * zmienna ... > ; RATIO < 'etykieta' > zmienna licznika / zmienna mianownika; REPWEIGHTS zmienne < / opcje > ; STRATA zmienne warstwujące < / opcje > ; VAR zmienne analizowane ilościowe; WEIGHT zmienna ważąca;

20 8. Przykład zastosowania procedury SURVEYMEANSDane: Badanie Budżetów Gospodarstw Domowych GUS 2008 Populacja: ok. 13 mln gospodarstw domowych w Polsce Próba: ok. 37 tys. gospodarstw domowych (0,3%) Schemat losowania próby: dwustopniowy, warstwowy, z różnymi prawdopodobieństwami wyboru na I stopniu losowania. Jednostki losowania I stopnia – terenowe punkty badań. Jednostki losowania II stopnia – mieszkania.

21 Operaty losowania Na I st. losowania – wykazy rejonów statystycznych, opracowane dla potrzeb NSP 2002, aktualizowane co roku, utworzono 783 tpb (w mieście 250 mieszkań, na wsi 150), przed losowaniem powarstwowane oddzielnie w każdym województwie według klasy miejscowości. Na II st. losowania – wykazy zamieszkanych mieszkań w wylosowanych tpb, opracowane przez urzędy statystyczne.

22 Konstrukcja wag Wagi pierwotne są odwrotnościami prawdopodobieństw wyboru do próby poszczególnych jednostek: W przypadku losowania wielostopniowego prawdopodobieństwa wylosowania jednostek do próby oraz wagi pierwotne otrzymuje się przez przemnożenie odpowiednio prawdopodobieństw i wag ze wszystkich stopni losowania próby. Prawdopodobieństwo wybrania j-tej jednostki losowania II stopnia w i-tej jednostce losowania I stopnia wynosi: Wagi pierwotne skorygowano danymi o strukturze gospodarstw domowych wg liczby osób w podziale na miasto i wieś z NSP 2002. Suma wag jest estymatorem liczebności populacji

23 Prezentacja wybranych wynikówOceny: parametrów błędów standardowych ocen współczynników zmienności ocen efekt schematu

24 Wydatki gospodarstw domowych – proc surveymeansPodregiony 66