1 Additive Models, Trees, and Related Methods„The Element of Statistical Learning” Chapter 9
2 Plan prezentacji Uogólnione modele addytywne DrzewaCART HME (Hierarchical mixtures of experts) PRIM (The patient rule introduction method) MARS - Adaptacyjna regresja splajnowa
3 Uogólnione modele addytywne
4 Uogólnione modele addytywne c.d.Uogólniony model addytywny Addytywny model regresji logistycznej W ogólności
5 Dopasowanie modeli addytywnychModel addytywny Kryterium
6 Dopasowanie modeli addytywnych c.d.Założenie Metoda backfitting - dopasowanie Regresja wielomianowa, metody jądrowe, Splajny parametryczne Bardziej skomplikowane metody np. periodic smoother for seasonal effects
7 Addytywna regresja logistycznadefiniujemy
8 Addytywna regresja logistycznaIteracyjnie Konstruujemy pomocniczą zmienną Konstruujemy wagi backfitting otrzymujemy
9 Modele addytywne bardziej elastyczne niż modele liniowezachowując interpretowalność prostota backfitting ograniczenia w przypadku dużych zbiorów wejściowych
10 Drzewa Drzewa regresyjne i decyzyjne CART Podstawowe problemyHierarchical mixtures of experts
11 CART
12 CART c.d. Formalny zapis Kryterium EstymatorJak wybierać zmienne do podziału? Jak wybierać punkty podziału?
13 Budowa drzewa regresyjnegoRozbudowa drzewa Wybór zmiennej i punktu podziału (greedy algorithm): 2. Przycinanie drzewa (cost-comlexity pruning)
14 Drzewa klasyfikacyjneMiary jakości podziału Funkcja entropii gdzie Wskaźnik zróżnicowania Giniego Błąd niepoprawnej klasyfikacji
15 Miary jakości podziałuTworzenie drzewa - entropia i wskaźnik zróżnicowania Giniego Cost-complexity pruning – błąd złej klasyfikacji
16 Drzewa Macierz strat Niekompletne dane wejściowePodział na kilka obszarów Niestabilność drzew Brak gładkości Trudność w uchwyceniu addytywnej struktury
17 PRIM- Patient Rule Induction Methodpodział na „pudełka”(wysoka wartość średnia wyjść) bump hunting brak opisu przy pomocy drzewa binarnego (trudniejsza interpretacja)
18 PRIM
19 PRIM
20 PRIM Pell off (minimalna liczba danych) PastingCross-validation (wybór pudełka) Wyłączenie danych znajdujących się w wybranym pudełku z dalszych rozważań Przewaga nad metodą CART
21 HME Hierarchical Mixtures of ExpertsJest metoda oparta na drzewach Podziały dokonywane na podstawie uzyskanych prawdopodobieństw. Końcowe wierzchołki – eksperci wierzchołki wewnętrzne - gating networks
22 HME
23 HME Pierwsza „warstwa” gating networksKolejne „warstwy” gating networks W każdym ekspercie otrzymujemy model
24 HME Całkowite prawdopodobieństwo gdzie Estymacja parametrów
25 MARS- Wielowymiarowa adaptacyjna regresja splajnowa
26 MARS Zbiór funkcji bazowych Modelgdzie jest funkcją ze zbioru C, lub iloczynem dwóch lub więcej takich funkcji
27 MARS Rozpoczynamy mając w modelu tylko funkcję stałąWybieramy składnik powodujący największy spadek w błędzie uczącym i dodajemy do modelu M proces jest kontynuowany do czasu, gdy model M zawiera pewną maksymalną liczbę członów następnie rozpoczynamy procedurę usuwania (residual squared error )
28 MARS
29 MARS
30 Niekompletne dane Ustalenie losowości MAR-missing at randomMCAR-missing completely at random
31 Niekompletne dane Metody postępowania:Odrzucenie obserwacji, które mają brakujące wartości Poleganie na algorytmie uczącym zajmującym się brakującymi danymi na etapie uczenia Uzupełnianie wszystkich brakujących danych przed rozpoczęciem
32 Dziękuję za uwagę