1 Gradacyjna analiza danychInstytut Podstaw Informatyki PAN Wiesław Szczesny Emilia Jarochowska
2 Gradacyjna analiza danychGrade Correspondence Analysis Pomiar koncentracji, nadreprezentacja, GCA Przykład analizy Ku kompletnej infrastrukturze pojęć gradacyjnej analizy danych
3 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje się krzywą w kwadracie jednostkowym, która reprezentuje koncentrację jednego rozkładu względem drugiego. Para rozkładów Krzywa koncentracji
4 Pomiar maksymalnej koncentracji: krzywa Cmax i wskaźnik armaxarmax = 2 × pole Cmax
5 Nadreprezentacja „wielkość obserwowana” Wskaźnik nadreprezentacji =pi 0.06 0.07 0.081 0.094 0.125 0.127 0.184 0.26 qi 0.022 0.036 0.051 0.071 0.212 0.217 0.263 hi 0.37 0.51 0.63 0.76 1.02 1.67 1.18 1.01 „wielkość obserwowana” Wskaźnik nadreprezentacji = „wielkość wynikająca z modelu”
6 GCA
7
8 GradeStat Zmienne na różnych skalach Dane wielowymiaroweDane z brakami GradeStat GCA: analiza odpowiedniości Analiza skupień Imputacja Wykrywanie el. odstających
9 Wskaźniki ekonomiczno-gospodarczePrzykład analizy Wskaźniki ekonomiczno-gospodarcze Dane z Grzegorek, 2006 na podstawie
10 odpowiedniości + imputacja GCA – gradacyjna analizaPrzykład analizy
11 GCCA – gradacyjna analizaskupień Przykład analizy
12 Mapa zróżnicowania wewnątrz zmiennychPrzykład analizy
13 Znajdowanie elementów odstającychPrzykład analizy
14 Znajdowanie elementów odstającychPrzykład analizy Znajdowanie elementów odstających
15
16 Grade Models and Methods for Data AnalysisKsiążki Grade Models and Methods for Data Analysis With applications for the analysis of data populations Kowalczyk T., Pleszczyńska E., Ruland F. (red.) 2004
17 Analiza danych medycznych i demograficznychKsiążki Analiza danych medycznych i demograficznych Przy użyciu programu GradeStat Książyk J., Matyja O., Pleszczyńska E., Wiech M. (red.) 2005 książka wydana we współpracy Instytutu Podstaw Informatyki z Centrum Zdrowia Dziecka
18 Ku kompletnej infrastrukturze pojęć gradacyjnej analizy danych
19 Dla pary zmiennych: Dla tablicy m×k: Pomiar asymetrii, spłaszczeniai nierówności Krzywa koncentracji Krzywa maks. koncentracji Dla tablicy m×k: Pomiar asymetrii, spłaszczenia i nierówności; HGCA Powierzchnia koncentracji Powierzchnia maks. koncentracji
20 Dla pary zmiennych symetryzacja krzywej porządkowanie punktówPomiar asymetrii, spłaszczenia i nierówności Krzywa koncentracji Krzywa maks. koncentracji Wskaźnik koncentracji Krzywa Lorenza Wskaźnik maks. koncentracji Dla pary zmiennych
21 Uzgodnienie zwrotów zmiennych. Pomiar asymetrii,symetryzacja HGCA Porządkowanie wierszy i kolumn: GCCA Uzgodnienie zwrotów zmiennych. Pomiar asymetrii, spłaszczenia i nierówności; Powierzchnia maksymalnej koncentracji Powierzchnia koncentracji Wskaźnik koncentracji Wskaźnik maks. koncentracji Dla tablicy m×k Tablica kontyngencji lub macierz danych wielowymiarowych
22 Ten schemat będzie w przyszłości rozwijany w wielu pracach dotyczących infrastruktury pojęciowej analizy danych wielowymiarowych
23 Powiązania z innymi metodami wizualizacji, npPowiązania z innymi metodami wizualizacji, np. generalized association plots (Szczesny i Wiech, 2006) Dekompozycja obrazów medycznych, np. NMR (Grzegorek, 2005) Prace nad uzgadnianiem zwrotu zmiennych European Economic Survey – zastosowanie GCA (m.in. praca magisterska)
24 Zastosowanie w monitorowaniu ordynacji lekarskiej współpraca z Łódzkim Oddziałem NFZ
25 Zapraszamy na stronę http://gradestat.ipipan.waw.plPrzykłady zastosowań Zapraszamy na stronę
26 Gradacyjna Analiza DanychW przygotowaniu książka Gradacyjna Analiza Danych dla użytkowników na rozmaitych poziomach zaawansowania
27 Dziękujemy za uwagę Wiesław Szczesny [email protected]Emilia Jarochowska
28 Mapa nadreprezentacji w kolorze
29 Mapa współczynników korelacji rangowej Spearmana