1 Modelowanie zmiennych ukrytych – analiza klas ukrytych dr Dorota Węziak-Białowolska, ISiD 1
2 Modelowanie zmiennych ukrytych polega na wykryciu nieobserwowalnych związków między zmiennymi wskaźnikowymi ZJAWISKA NIEOBSEROWALNE BEZPOŚREDNIO WSKAŹNIKI Zdarzenia obserwowalne, które pozwalają z określonym prawdopodobieństwem stwierdzić zaistnienie zjawiska nieobserwowalnego ZMIENNE UKRYTE ZMIENNE WSKAŹNIKOWE ZMIENNE DIAGNOSTYCZNE 2 dr Dorota Węziak-Białowolska, ISiD, SGH
3 F X1X1 X2X2 X4X4 X3X3 F – zmienna ukryta X i – zmienna obserwowalna (wskaźnikowa, diagnostyczna) 3 dr Dorota Węziak-Białowolska, ISiD, SGH
4 Orientacja na osiągnięcia V32. Potrafię sprostać zadaniom, które sobie wyznaczam V33. Nie boję się trudnych sytuacji i mam satysfakcję z ich pokonywania V34. Lubię ryzyko, które przynosi korzyści V35. Wolę pracę 'u siebie' niż ‘u kogoś' V36. Nie boję się przeciwności losu V37. Mam bogate plany na przyszłość 5 (zdecydowanie się zgadzam) 4 (zgadzam się) 3 (ani się zgadzam, ani się nie zgadzam) 2 (nie zgadzam się) 1 (zdecydowanie się nie zgadzam) 4 dr Dorota Węziak-Białowolska, ISiD, SGH
5 Zastosowanie odpowiedniego modelu/metody do zmierzenia zmiennej ukrytej związane jest: 1. z poziomem pomiaru/skalą pomiaru zmiennej ukrytej 2. z poziomem pomiaru/skalą pomiaru zmiennych wskaźnikowych 5 dr Dorota Węziak-Białowolska, ISiD, SGH
6 KLASYFIKACJA SKAL WG STEVENSA 6 dr Dorota Węziak-Białowolska, ISiD, SGH
7 Skale pomiarowe Skale mocneSkale słabe Skala nominalna Skala porządkowa Skala przedziałowa Skala ilorazowa Transformować można jedynie skale mocniejszą na skalę słabszą 7 dr Dorota Węziak-Białowolska, ISiD, SGH
8 Klasyczna klasyfikacja modeli dla zmiennych ukrytych Zmienne obserwowalne Zmienne ukryte Ciągłe (latent traits) Dyskretne (latent classes) CiągłeAnaliza czynnikowa Analiza profili ukrytych DyskretneModele IRT (1PL, 2PL, model Rascha) Analiza klas ukrytych 8 dr Dorota Węziak-Białowolska, ISiD, SGH
9 Analiza klas ukrytych (latent class analysis, LCA) 9 dr Dorota Węziak-Białowolska, ISiD, SGH
10 Metoda analizy danych pozwalająca na identyfikację grup respondentów na podstawie ich odpowiedzi na zestaw pytań o odpowiedziach tak/nie Grupy te: 1. Określa się mianem klas; 2. Obejmują respondentów podobnych do siebie; Ponadto zakłada się, że grupy/klasy te mają charakter nieobserwowalny bezpośrednio Przyjmuje się, że poszczególne klasy są kategoriami zmiennej ukrytej o charakterze dyskretnym. 10 dr Dorota Węziak-Białowolska, ISiD, SGH
11 Analiza czynnikowa (factor analysis FA) F X1X1 X2X2 X4X4 X3X3 C X1X1 X2X2 X4X4 X3X3 C – zmienna ukryta dyskretna X i – zmienna obserwowalna (wskaźnikowa) ciągła lub dyskretna Analiza profili ukrytych (latent profile analysis) F – zmienna ukryta ciągła X i – zmienna obserwowalna (wskaźnikowa) ciągła lub dyskretna Analiza klas ukrytych (latent class analysis LCA) 11 dr Dorota Węziak-Białowolska, ISiD, SGH
12 Szacowane parametry: a) Prawdopodobieństwo przynależności do klasy γ (bezwarunkowe) (latent class membership probabilities) γ – odsetek populacji w danej klasie ukrytej; stanowią część strukturalną modelu klas ukrytych; b) Prawdopodobieństwo k-tej odpowiedzi na i-te pytanie pod warunkiem przynależności do c-tej klasy ukrytej ρ (warunkowe) (item-response probabilities, conditional response probabilities) ρ – opisuje związek między odpowiedzią na i-tą zmienną wskaźnikową, a przynależnością do c-tej klasy ukrytej; stanowi podstawę opisu c-tej klasy; odpowiednik ładunków czynnikowych w analizie czynnikowej; stanowią część pomiarową modelu klas ukrytych; 12 dr Dorota Węziak-Białowolska, ISiD, SGH
13 Założenia: a) Brak założeń odnośnie rozkładów zmiennych wskaźnikowych b) Założenie o lokalnej niezależności (w obrębie klasy zmienne wskaźnikowe są niezależne) Metoda estymacji: MNW 13 dr Dorota Węziak-Białowolska, ISiD, SGH
14 Ocena jakości modelu (dopasowanie modelu do danych) 1. Podstawą analizy klas ukrytych jest analiza tablicy kontyngencji 2. Miara jakości dopasowania bazuje na statystyce chi-kwadrat gdzie: S – liczba wzorów odpowiedzi = liczba elementów tablicy kontyngencji f(s) – empiryczna liczebność w komórce s tablicy kontyngencji e(s) – oczekiwana liczebność w komórce s tablicy kontyngencji k – liczba estymowanych parametrów G 2 – statystyka chi-kwadrat wyrażona w postaci ilorazu wiarygodności; 14 dr Dorota Węziak-Białowolska, ISiD, SGH
15 Porównanie dwóch modeli (1) A. Test na istotność różnicy statystyk G 2 UWAGA: 1. Modele powinny być zagnieżdżone 2. Test na istotność różnicy nie może być stosowany do porównania dwóch modeli o różnej liczbie klas ukrytych 15 dr Dorota Węziak-Białowolska, ISiD, SGH
16 Porównanie dwóch modeli (2) B. Kryteria informacyjne Kryterium informacyjne Akaike’a (AIC): AIC = -2ln(L) + 2p gdzie: ln(L) – logarytm naturalny funkcji wiarygodności p - liczba estymowanych parametrów Kryterium Bayesowskie Schwarza: (SBC lub BIC - the Bayesian Information Criterion ): SBC = -2ln(L) + p*ln(N) gdzie: N – liczba obserwacji Zgodne kryterium informacyjne Akaike’a (CAIC): CAIC= -2ln(L) + p * (1 + ln(N)) 16 dr Dorota Węziak-Białowolska, ISiD, SGH
17 Porównanie dwóch modeli (3) C. Entropia Miara jakości klasyfikacji obiektów do klas ukrytych na podstawie prawdopodobieństw a posteriori gdzie: K – liczba klas - prawdopodobieństwo warunkowe przynależności i-tego respondenta do k-tej klasy 17 dr Dorota Węziak-Białowolska, ISiD, SGH
18 Porównanie dwóch modeli (4) Muthen zaleca sprawdzanie entropii; Według Nylund, Asparouhova, Muthena najlepiej stosować BLRT (bootstrap likelihood ratio test) ALE wymaga dużej mocy obliczeniowej) następnie zalecają sprawdzenie BIC i wreszcie adjusted BIC. [Nylund, Asparouhov, Muthen, Deciding on the Number of Classes in Latent Class Analysis and Growth Mixture Modeling: A Monte Carlo Simulation Study, „Structural Equation Modeling”, 14(4), s. 535-569] 18 dr Dorota Węziak-Białowolska, ISiD, SGH
19 Analiza klas ukrytych (latent class analysis) a analiza czynnikowa (factor analysis) - Ta sama podstawa merytoryczna: 1) zmienne wskaźnikowe są symptomami istnienia klas ukrytych 2) zmienne wskaźnikowe służą do zmierzenia zmiennej ukrytej (pośrednio, z błędem pomiaru) - Różnice w postrzeganiu zmiennej ukrytej: 1) W analizie czynnikowej zmienna ukryta ma charakter ciągły 2) W analizie klas ukrytych zmienna ukryta ma charakter dyskretny Analiza czynnikowa – macierz korelacji Analiza klas ukrytych – tabela kontyngencji 19 dr Dorota Węziak-Białowolska, ISiD, SGH
20 Dyskryminacja w miejscu pracy - zastosowanie analizy klas ukrytych Przykład Dyskryminacja w miejscu pracy - zastosowanie analizy klas ukrytych Izabela Grabowska Dorota Węziak-Białowolska 20 dr Dorota Węziak-Białowolska, ISiD, SGH
21 Dane pochodzą z 4 rundy badania EWCS przeprowadzonej w roku 2005 European Working Conditions Survey (EWCS) – badanie prowadzone przez Europejską Fundację działającą na rzecz poprawy warunków życia i warunków pracy (the European Foundation for the Improvement of Living and Working Conditions) Wielkość próby: prawie 25 277 pracowników w wieku powyżej 15 roku życia z 31 krajów (27 UE, Norwegia, Chorwacja, Szwajcaria, Turcja) Badanie jest całkowicie porównywalne między krajami, wykorzystuje się ten sam kwestionariusz ankietowy. 21 dr Dorota Węziak-Białowolska, ISiD, SGH
22 Pytania badawcze Jakie praktyki dyskryminacyjne występują na europejskim rynku pracy? Jakie praktyki dyskryminacyjne współwystępują? Czy wśród praktyk dyskryminacyjnych wyróżniają się dyskryminacja ze względu na wiek i dyskryminacja ze względu płeć?
23 Dyskryminacja ze względu na płeć i/lub orientację seksualną Over the past 12 months, have you or have you not, personally been subjected at work to...? A - threats of physical violence B - physical violence from people from your workplace C - physical violence from other people D - bullying / harassment E - sexual discrimination / discrimination linked to gender F - unwanted sexual attention G - age discrimination H - discrimination linked to nationality I - discrimination linked to ethnic background J - discrimination linked to religion K - discrimination linked to disability L - discrimination linked to sexual orientation Dane Przemoc fizyczna Dyskryminacja ze względu na wiek Dyskryminacja związana z niepełnosprawnością Dyskryminacja ze względu na narodowość, pochodzenie i religię
24 YesNo A. Have you personally been subjected at work to threats of physical violence? 5,8%94,2% B. Have you personally been subjected at work to physical violence from people from your workplace? 1,7%98,3% C. Have you personally been subjected at work to physical violence from other people? 3,9%96,1% D. Have you personally been subjected at work to bullying / harassment? 6,0%94,0% E. Have you personally been subjected at work to sexual discrimination / discrimination linked to gender? 1,3%98,7% F. Have you personally been subjected at work to unwanted sexual attention? 1,9%98,1% G. Have you personally been subjected at work to age discrimination? 3,0%97,0% H. Have you personally been subjected at work to discrimination linked to nationality? 1,3%98,7% I. Have you personally been subjected at work to discrimination linked to ethnic background? 0,9%99,1% J. Have you personally been subjected at work to discrimination linked to religion? 0,6%99,4% K. Have you personally been subjected at work to discrimination linked to disability? 0,5%99,5% L. Have you personally been subjected at work to discrimination linked to sexual orientation? 0,2%99,8% 24 dr Dorota Węziak-Białowolska, ISiD, SGH
25 Number of classes AICBICAdj. BICG2G2 df 251016.3451219.7651140.312705.2264046 349834.5450143.7450022.971749.8274041 449367.1549782.1249620.041202.9924025 548993.4449514.1949310.81109.9144023 648886.9249513.4549268.75985.2764010 748831.2949563.649277.58996.7493997 25 dr Dorota Węziak-Białowolska, ISiD, SGH Rozwiązanie 6-klasowe
26 Rozwiązanie 6-klasowe – parametr ρ (prawdopodobieństwo odpowiedzi „Tak”) Statement Class 123456 A0.0010.3550.86900.7180.077 B0.0010.2030.210.0140.4740.004 C 0.220.4880.030.6290.037 D0.0150.5850.330.2680.8440.171 E010.0170.0710.3550.043 F0.0040.7420.079 0.360.005 G0.0040.3160.0650.2280.5310.157 H00.02 0.0380.6760.658 I000.00700.6120.724 J0.0010.0290.0040.010.3270.28 K00.0060.0120.0340.2050.043 L00.0710.001 0.1830.02 not at all discriminated in any field subjected at work to sexual discrimination /discrimination linked to gender and to unwanted sexual attention subjected at work to threats of physical violence only rather not discriminated subjected to threats of physical violence, physical violence and harassment because of nationality or ethnic background discriminated because of nationality or ethnic background only
27 Statement Class 123456 A0.0010.3550.86900.7180.077 B0.0010.2030.210.0140.4740.004 C 0.220.4880.030.6290.037 D0.0150.5850.330.2680.8440.171 E010.0170.0710.3550.043 F0.0040.7420.079 0.360.005 G0.0040.3160.0650.2280.5310.157 H00.02 0.0380.6760.658 I000.00700.6120.724 J0.0010.0290.0040.010.3270.28 K00.0060.0120.0340.2050.043 L00.0710.001 0.1830.02 Fraction γ84.77%0.48%5.96%7.48%0.40%0.90% description not at all discriminated sexually harassed subjected at work to threats of physical violence rather not discriminated with exception to age discriminated because of nationality or ethnic background and subjected to threats a nd physical violenc discriminated because of nationality or ethnic background Table 3. Final 6-class solution – ρ-parameters ( probability of „yes” ) 27