Wstęp do regresji logistycznej

1 Wstęp do regresji logistycznejDr Wioleta Drobik-Czwarno...
Author: Seweryna Sobczyk
0 downloads 3 Views

1 Wstęp do regresji logistycznejDr Wioleta Drobik-Czwarno

2 Regresja logistyczna Zmienna zależna jest zmienną dychotomiczną (dwustanową) – przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być: wystąpienie lub brak pewnego zdarzenia (np. śmierć, choroba) przekształcona zmienna innego typu: kategoryczna, ciągła Szerokie zastosowania w: nauki biomedyczne bankowośc i finanse np. szacowanie ryzyka kredytowego kryminalistyka ekologia lingwistyka

3 Regresja logistyczna Dlaczego nie regresja liniowa?W regresji liniowej zmienne powinny być mierzone na skali ilościowej Problem z predykcją: dla dychotomicznej zmiennej objaśnianej regresja liniowa będzie szacowała wartości spoza akceptowalnego zakresu (poniżej 0 lub powyżej 1) Założenia do modelu nie będą są spełnione: brak rozkładu normalnego dla reszt brak jednorodności wariancji

4 Funkcja logistyczna Funkcja logistycznaEtapy zmian wartości funkcji logistycznej: Dla początkowych argumentów funkcja przyjmuje wartości bliskie zera Od momentu osiągnięcia wartości progowej następuje nagły wzrost wartości funkcji Po osiągnięciu pewnej wartości dla kolejnych wartości argumentów przyjmuje wartości bliskie 1

5 Model logistyczny Warunkowe prawdopodobieństwa, że prognozowana zmienna przyjmie wartość 1 dla wartości zmiennych niezależnych e – liczba Eulera ≈ 2,718 0 – stała regresji dla regresji logistycznej i – współczynnik regresji logistycznej dla zmiennej niezależnej

6 Założenia dla modelu regresji logistycznejZmienna Y podlega rozkładowi dwumianowemu Wartość oczekiwana E[y|x]=P(x) jest obliczana na podstawie funkcji logistycznej Wartości wyjściowe są statystycznie niezależne Nie jest wymagana jednorodność wariancji

7 Regresja logistyczna a regresja liniowa

8 Szansa Szansa (S; ang. odd) – prawdopodobieństwo wystąpienia zdarzenia (p) w stosunku do prawdopodobieństwa wystąpienia zdarzenia przeciwnego (1-p) Szansa zdarzenia A: Przykład: W trakcie badania 1000 osób, 200 z nich miało podwyższone stężenie glukozy we krwi. Jakie jest prawdopodobieństwo przekroczenia normy? Jaka jest szansa przekroczenia normy? Jaka jest szansa, że stężenie glukozy nie przekroczy normy?

9 Interpretacja parametrów modeluModel regresji logistycznej - szansa zajścia zdarzenia dla jednej zmiennej objaśniającej X1: Obustronne zlogarytmowanie sprowadza model do postaci liniowej względem parametrów. Logarytm szansy: Przedstawienie modelu na skali logarytmu szansy, sprawia że model logistyczny jest modelem liniowym i jest nazywane przekształceniem logitowym

10 Interpretacja parametrów modeluLogarytm szansy jest liniowo zależny od zmiennej objaśniającej (X1), dzięki czemu możemy łatwo interpretować współczynnik regresji 1 zmiana wartości logarytmu szansy dla zmiany o jednostkę zmiennej X Jeżeli: eβ1 > 1, to czynnik opisywany przez zmienną X1 ma stymulujący wpływ na wystąpienia badanego zjawiska. eβ1 < 1, to dany czynnik działa ograniczająco eβ1 = 1, to czynnik nie ma wpływu na opisywane zdarzenie.

11 B – przekroczenie normyIloraz szans Stosunek szansy wystąpienia zdarzenia w jednej grupie do szansy wystąpienia tego zdarzenia w grupie drugiej Iloraz szans (OR, z ang. odds ratio ) równy jeden oznacza równoważność szans dla porównywanych grup Przykład: Liczba pacjentów w zależności od statusu Status Mężczyzna Kobieta B – przekroczenie normy 162 38 A – parametr w normie 539 261 Oblicz iloraz szans dla przekroczenia normy pod względem analizowanego parametru w grupie mężczyzn w stosunku do grupy kobiet.

12 Iloraz szans Jeżeli OR > 1, to w pierwszej grupie zajście zdarzenia jest bardziej prawdopodobne OR < 1, to w drugiej grupie zajście zdarzenia jest bardziej prawdopodobne OR = 1, to w obu klasach obserwacji zdarzenie jest tak samo prawdopodobne

13 Regresja logistyczna Metoda estymacji parametrówRegresja liniowa – metoda najmniejszych kwadratów Regresja logistyczna – metoda największej wiarygodności (ang. maximum likelihood) Metoda największej wiarygodności (ML) wiarygodność danego modelu jest określana jako łączne prawdopodobieństwo otrzymania obserwowanych wartości wyjściowych wyrażonych za pomocą funkcji wybranego modelu regresji wielokrotne estymowanie parametrów modelu, tak by zmaksymalizować prawdopodobieństwo uzyskania takich wyników, jakie osiągnięto w badanej próbie

14 Weryfikacja modelu i jego parametrówTest LR – ilorazu wiarygodności (ang. Likelihood ratio) wstępna ocena istotności modelu Pozwala na porównanie dwóch modeli: bieżącego i referencyjnego Test Walda statystyczna istotność parametrów modelu β – jest oceną parametru regresji logistycznej Jakość modelu oceniana jest również za pomocą wskaźników: AIC – kryterium informacyjne Akaikego BIC – Bayesowskie kryterium informacyjne Schwartza

15 Regresja logistyczna w RDane: admit Akceptacja na uczelnie gre Punkty z testu 380 1 660 800 640 520 760

16 Regresja logistyczna w RUżywamy funkcji glm()  uogólnione modele liniowe (generalized linear models) glm(formula, family=familytype(link=”linkfunction”), data=) Współczynniki modelu wraz z testem istotności (test Walda) Miara dopasowania modelu (Akaike Information Criterion)

17 Regresja logistyczna w RTabela coefficients: Wiersze tabeli odpowiadają zmiennym objaśniającym i wyrazowi wolnemu dopasowanego modelu I kolumna: wyestymowane współczynniki modelu II kolumna: odchylenie standardowe tych współczynników III kolumna: wartość statystyki testu Walda. IV kolumna: prawdopodobieństwo testowe (p-value) Hipotezą zerową w teście Walda dla współczynników jest nieistotność danej zmiennej objaśniającej

18 Regresja logistyczna w RInterpretacja: Dla wzrostu zmiennej gpa o jednostkę obserwuje się wzrost logarytmu szans dla bycia przyjętym na uczelnie o 0,003582 Przedziały ufności dla parametrów:

19 Regresja logistyczna w RIloraz szans oraz przedziały ufności Parametr: szansa dla bycia przyjętym na uczelnie zwiększa się o 1, dla wzrostu wartości zmiennej gre o jednostkę Przedział ufności: szansa dla bycia przyjętym na uczelnie zwiększa się o wartość pomiędzy 1,00168 a 1, na 95% dla wzrostu wartości zmiennej gre o jednostkę

20 Źródła Biecek P Analiza danych z programem R. Wydawnictwo naukowe PWN. Warszawa Olech W., Wieczorek M Zastosowanie metod statystyki w doświadczalnictwie zootechnicznym. Wydawnictwo SGGW. Migut K Regresja logistyczna w badaniach medycznych i przyrodniczych. Materiały kursowe StatSoft Polska. Institute for Digital Research and Education materials: Giemza J., Zwierzchowska K Wprowadzenie do modelu regresji logistycznej wraz z przykładem zastosowania w pakiecie statystycznym R do danych o pacjentach po przeszczepie nerki. Praca licencjacka pod kierunkiem Przemysława Biecka.