1 Metody pozyskiwania wiedzybezpośrednie zapisanie wiedzy pozyskiwanie wiedzy na podstawie instrukcji pozyskiwanie wiedzy na podstawie analogii pozyskiwanie wiedzy na podstawie przykładów pozyskiwanie wiedzy na podstawie obserwacji
2 Bezpośrednie zapisanie wiedzyuczenie na pamięć (ang. rote learning) system uczony (uczeń) otrzymuje gotową wiedzę w postaci kompletnych i spójnych zbiorów reguł zapisanych zgodnie z obowiązującymi w systemie zasadami zapisu wiedzy
3 Pozyskiwanie wiedzy na podstawie instrukcjiuczenie przez przekazanie informacji (ang. learning by being told) istotną rolę w tej metodzie odgrywa nauczyciel, który tworzy wiedzę w postaci akceptowalnej przez system ekspertowy uczeń dokonuje integracji nowej wiedzy z pewną wiedzą aprioryczną nauczyciel narzuca natomiast strukturę i charakter zapisywanej wiedzy
4 Pozyskiwanie wiedzy na podstawie analogiipolega na takiej transformacji istniejącej wiedzy, by mogła być użyteczna do opisów faktów podobnych (choć nie identycznych) proces ten może odbywać się bez nauczyciela choć wymaga aktywnego zaangażowania ucznia do wyszukiwania i „tłumaczenia” analogii
5 Pozyskiwanie wiedzy na podstawie przykładówgeneruje się ogólny opis pojęć (klas) na podstawie zbioru przykładów i/lub kontrprzykładów obiektów reprezentujących te pojęcia (klasy) – metoda indukcyjna przykłady są dostarczane przez nauczyciela
6 Pozyskiwanie wiedzy na podstawie obserwacjimetoda indukcyjna oparty o przykłady (obserwacje) pochodzące ze świata zewnętrznego lub z eksperymentów – uczenie bez nauczyciela do indukcji można wykorzystywać techniki eksploracji danych (ang. data mining), grupowania, metody statystyki, sztuczne sieci neuronowe, algorytmy genetyczne
7 Przykłady metod pozyskiwania wiedzyAlgorytm ID3 Metoda generowania pokryć
8 Drzewo decyzyjne A0 Tak Nie A1,1 A1,2 Tak Nie A1,1,1 A1,1,2 C1 C2 C3
9 pi – prawdopodobieństwo wystąpienia stanu iAlgorytm ID3 - Quinlana Entropia: pi – prawdopodobieństwo wystąpienia stanu i
10 Entropia - przykład Entropia eksperymentu polegającego na losowaniu w oparciu o „rzut monetą”
11 Entropia - przykład Załóżmy, że moneta jest „oszukana” i prawdopodobieństwo wylosowania orła wynosi 1/4 a reszki 3/4 Ponieważ wiemy o oszustwie nasza niepewność jest mniejsza
12 Entropia w przypadku wielu przykładów i wielu rezultatów:Algorytm ID3 - Quinlana Entropia w przypadku wielu przykładów i wielu rezultatów: liczba przykładów należących do klasy k liczba wszystkich przykładów
13 Entropia w ujęciu częstościowym - przykładZałóżmy, że znamy 10 przykładów wniosków kredytowych ocenionych pozytywnie Spośród nich 6 przypadków dotyczy kredytów spłaconych, 2 spłaconych po terminie i 2 niespłaconych w ogóle
14 Entropia w ujęciu częstościowym - przykładZałóżmy, że znamy 10 przykładów wniosków kredytowych ocenionych pozytywnie Obliczmy entropię, w przypadku gdy 3 przykłady dotyczyły kredytów spłaconych, 4 spłaconych z opóźnieniem i 3 niespłaconych
15 Znaczenie entropii Im wyższa jest miara entropii tym mniej wiemy o ocenianej sytuacji W pierwszym przypadku nie mieliśmy żadnych przesłanek by oceniać możliwość niespłacenia kredytu w oparciu o zewnętrzne informacje Wiemy jednak, że możliwość spłacenia kredytu jest znacznie wyższa niż niespłacenia czy opóźnienia
16 Algorytm ID3 - Quinlana Ilość informacji przenoszona przez warunek j na temat całego problemu: liczba przykładów potwierdzonych przez warunek j liczba przykładów zaprzeczonych przez warunek j liczba wszystkich przykładów
17 Załóżmy, że uzyskujemy następującą dodatkową informację:spośród 10 przykładów w 6 przykładach kredyty były zabezpieczone hipoteką a w 4 nie wówczas
18 Ilość informacji przenoszona przez warunek j:Algorytm ID3 - Quinlana Ilość informacji przenoszona przez warunek j:
19 Algorytm ID3 - Quinlana
20 Algorytm ID3 - Quinlana liczba przykładów potwierdzających, że jeżeli warunek j jest spełniony to przykład należy do klasy k liczba przykładów potwierdzających, że jeżeli warunek j nie jest spełniony to przykład należy do klasy k
21 Dodatkowe informacje Załóżmy, że w przypadku wniosków zabezpieczonych hipoteką (razem 6) 5 zostało spłaconych w terminie i jeden z opóźnieniem; natomiast kredyty nie zabezpieczone (razem 4) w jednym przykładzie został spłacony w terminie, w jednym spłacony z opóźnieniem a w dwóch niespłacony
22 Obliczenia Obliczmy ilość informacji przenoszonych przez przykłady dotyczące zabezpieczonych hipoteką kredytów – spłaconych w terminie
23 Obliczenia Obliczmy ilość informacji przenoszonych przez przykłady dotyczące zabezpieczonych hipoteką kredytów – spłaconych z opóźnieniem
24 Obliczenia Ponieważ żaden zabezpieczony kredyt nie pozostał niespłacony obliczamy łączną informację przenoszoną przez zabezpieczone kredyty
25 Obliczenia Obliczmy ilość informacji przenoszonych przez przykłady dotyczące nie zabezpieczonych hipoteką kredytów – spłaconych w terminie
26 Obliczenia Obliczmy ilość informacji przenoszonych przez przykłady dotyczące nie zabezpieczonych hipoteką kredytów – spłaconych z opóźnieniem
27 Obliczenia Obliczmy ilość informacji przenoszonych przez przykłady dotyczące nie zabezpieczonych hipoteką kredytów – niespłaconych
28 Obliczenia Obliczamy łączną informację przenoszoną przez przykłady dotyczące nie zabezpieczonych kredytów oraz ogółem przez informację o zabezpieczeniu
29 Dodatkowe informacje Załóżmy, że uzyskaliśmy dodatkową informację o przeznaczeniu kredytu; wśród 10 przykładów 5 były to kredyty konsumpcyjne a 5 na zakup samochodu Spośród kredytów konsumpcyjnych 3 zostały spłacone, 1 spłacony w terminie i jeden niespłacony Obliczmy jaką informację niesie fakt, że kredyt był konsumpcyjny
30 Obliczenia Obliczmy ilość informacji przenoszonych przez przykłady dotyczące kredytów konsumpcyjnych – spłaconych w terminie
31 Obliczenia Obliczmy ilość informacji przenoszonych przez przykłady dotyczące kredytów konsumpcyjnych – spłaconych z opóźnieniem
32 Obliczenia Obliczmy ilość informacji przenoszonych przez przykłady dotyczące kredytów konsumpcyjnych – niespłaconych
33 Obliczenia Obliczamy łączną informację przenoszoną przez przykłady dotyczące kredytów konsumpcyjnych
34 Dodatkowe informacje Załóżmy, że spośród kredytów innych niż konsumpcyjne 3 zostały spłacone w terminie, 1 z opóźnieniem i 1 w ogóle niespłacony
35 Obliczenia Obliczmy ilość informacji przenoszonych przez przykłady dotyczące kredytów innych niż konsumpcyjne – spłaconych w terminie
36 Obliczenia Obliczmy ilość informacji przenoszonych przez przykłady dotyczące kredytów innych niż konsumpcyjne – spłaconych z opóźnieniem
37 Obliczenia Obliczmy ilość informacji przenoszonych przez przykłady dotyczące kredytów innych niż konsumpcyjne – niespłaconych
38 Obliczenia Obliczamy łączną informację przenoszoną przez przykłady dotyczące kredytów innych niż konsumpcyjne oraz ogółem przez informację o rodzaju kredytu
39 Algorytm ID3 - Quinlana Warunek wyboru warunku k:
40 Porównanie dwóch informacjiInformacja o zabezpieczeniu Informacja o rodzaju kredytu
41 Przykład – dobór formy reklamy
42 Przykład – dobór formy reklamy
43 Przykład – dobór formy reklamyIlość informacji przenoszona przez potwierdzenie warunku 1
44 Przykład – dobór formy reklamyIlość informacji przenoszona przez zaprzeczenie warunku 1
45 Przykład – dobór formy reklamyIlość informacji przenoszona przez warunek j na temat całego problemu:
46 Przykład – dobór formy reklamyj I-Ej 1 0,4147 2 0,1852 3 0,1140 4 0,0290 5 6 0,6548 7
47 Przykład – dobór formy reklamy
48 Przykład – dobór formy reklamyj I-Ej 1 0,8249 2 0,3658 3 4 0,1142 5
49 Drzewo decyzyjne mieszka na wsi Nie Tak wiek<20 telewizja Tak NieInternet płeć=K Nie Tak wiek>30 prasa Tak Nie telewizja prasa
50 Algorytm ID3 przy ciągłych wartościach cechZałóżmy, że cechy obiektów przyjmują wartości z pewnych ciągłych przedziałów, wówczas zbiór obiektów (przykładów) zbiór atrybutów identyczny dla wszystkich przykładów zbiór klas, do których kwalifikujemy przykłady
51 Algorytm ID3 przy ciągłych wartościach cechwartość atrybutu j w przykładzie i numer klasy do której należy i-ty przykład
52 Algorytm ID3 przy ciągłych wartościach cechPonieważ dla takiego zapisu nie można wprost wykorzystać metody ID3 należy wprowadzić dodatkowo dla kolejnych atrybutów wartości w* dzielące dziedzinę na dwa rozłączne podzbiory należy tak przekształcać warunki i przykłady by możliwy był następujący zapis:
53 Przykład Należy określić zależność wielkości sprzedaży od wieku klienta, poziomu wykształcenia oraz odległości od sklepu
54 Wybór punktu podziału Badamy jaką ilość informacji na temat problemu przenosi wiek klienta. W tym celu wybieramy taki punktu podziału w* ze zbioru {20, 21, 35, 40} , który wprowadza najwięcej informacji. Uzyskujemy następujące tabele:
55 Wybór punktu podziału wg wieku
56 Wybór punktu podziału wg wiekuI-Ej 20 0,5219 21 1,063 35 40
57 Wybór punktu podziału wg wykształceniaI-Ej 3 0,5219 4 0,7294 5
58 Wybór punktu podziału wg odległościI-Ej 200 0,5219 400 0,3961 500 0,7294 600 0,8553
59 Koniec pierwszego etapuJeżeli za czynnik decydujący w pierwszym etapie o podziale przypadków wiek <35 wówczas uzyskamy następujące podzbiory
60 Kontynuacja Przedstawione procedury powtarzamy dla każdego z podzbiorów aż do pełnego rozjaśnienia problemu UWAGA: metoda nie dopuszcza przykładów sprzecznych
61 Generowanie pokryć - przykładWybieramy podzbiór P obiektów należących do klasy k i podzbiór M obiektów nie należących do danej klasy Z podzbioru P wybieramy dowolny przykład xr Ustalamy różnice w warunkach pomiędzy wybranym przykładem a wszystkimi przykładami z podzbioru M
62 Przykład – dobór formy reklamy
63 Generowanie pokryć - przykładPodzbiór P – wszystkie przykłady należące do klasy telewizja xr=[wiek<20] [płeć=M] [mieszka=wieś] Ustalamy różnice dr1=[płeć=M] [mieszka=wieś] dr2=[mieszka=wieś] dr3=[wiek<20] [mieszka=wieś] dr4= [wiek<20] [mieszka=wieś] dr5= [wiek<20] [płeć=M] [mieszka=wieś]
64 Generowanie pokryć - przykładGenerujemy pokrycia wybierając po jednym warunku z każdej różnicy łącząc je każdy z każdym: z dr1 wybieramy [płeć=M] z dr2 - [mieszka=wieś] z dr3 – [wiek<20] ponieważ w kolejnych różnicach nie ma już różnych warunków uzyskujemy pokrycie: C1= [płeć=M] [mieszka=wieś] [wiek<20]
65 Generowanie pokryć - przykładKoniunkcja warunków w pokryciu wskazuje na przykład, który na pewno nie należy do zbioru M, a należy do zbioru P. Dalej: z dr1 wybieramy [mieszka=wieś] z dr3 - [wiek<20] z dr5 – nie wybieramy [płeć=M] bo uzyskalibyśmy pokrycie C1 ponieważ w kolejnych różnicach nie ma już różnych warunków uzyskujemy pokrycie: C2= [mieszka=wieś] [wiek<20]
66 Generowanie pokryć - przykładPokrycie C2. informuje nas o tym, że wszystkie osoby mieszkające na wsi młodsze niż 20 lat na pewno nie preferują telewizji jako medium reklamowego. Zauważmy, że z każdej różnicy możemy wybrać warunek [mieszka=wieś] Uzyskujemy pokrycie: C3= [mieszka=wieś] co oznacza, że spełnienie tego warunku wyklucza przynależność do badanej klasy.
67 Generowanie pokryć - przykładWybieramy najkorzystniejsze pokrycie - C3 do lewej strony reguły dopisując warunki C3 uzyskujemy regułę [mieszka=wieś] [reklama =Telewizja] Ze zbioru P usuwamy przykłady zgodne z regułą C3
68 Przykład – dobór formy reklamy
69 Generowanie pokryć - przykładPodzbiór P – wszystkie przykłady należące do klasy telewizja xr=[wiek>30] [płeć=K] [mieszka=miasto] Ustalamy różnice dr1=[wiek>30] dr2=[wiek>30] [płeć=K] dr3=[wiek>30] [płeć=K] dr4= [płeć=K] dr5= [wiek>30]
70 Generowanie pokryć - przykładGenerujemy pokrycia C1=[wiek>30] [płeć=K] Wybieramy pokrycie – C1 Ze zbioru P usuwamy przykłady zgodne z regułą C1 uzyskujemy regułę [mieszka=wieś] [wiek>30] [płeć=K] [reklama =Telewizja] Kontynuujemy działania aż do rozróżnienia wszystkich przykładów