Sieci dynamiczne Sieci Neuronowe Wykład 16 Włodzisław Duch Uniwersytet Mikołaja Kopernika Google: W. Duch.

1 Sieci dynamiczne Sieci Neuronowe Wykład 16 Włodzisław D...
Author: Sylwester Woźniak
0 downloads 1 Views

1 Sieci dynamiczne Sieci Neuronowe Wykład 16 Włodzisław Duch Uniwersytet Mikołaja Kopernika Google: W. Duch

2 Co było Teoria aproksymacji Funkcje radialne Sieci RBF

3 Co będzie Sieci ze sprzężeniami zwrotnymi Model Hopfielda Modele pamięci asocjacyjnej

4 Sieci dynamiczne W układach biologicznych neurony mają silne sprzężenia zwrotne. Dotychczas tylko model BAM wykorzystywał sprzężenia zwrotne. Najprostsze modele sieci z rekurencją: sieci Hopfielda, sieci uczone regułą Hebba, sieć Hamminga. Modele bardziej złożone: RTRN - Real Time Recurrent Network, przetwarzająca sygnały w czasie rzeczywistym; sieć Elmana i inne o uproszczonej strukturze rekurencji RCC - Recurrent Cascade Correlation

5 5 Reguła Hebba “Kiedy akson komórki A jest dostatecznie blisko by pobudzić komórkę B i wielokrotnie w sposób trwały bierze udział w jej pobudzaniu, procesy wzrostu lub zmian metabolicznych zachodzą w obu komórkach tak, że sprawność neuronu A jako jednej z komórek pobudzających B, wzrasta.” D. O. Hebb, 1949

6 6 Model Hopfielda J ohn Hopfield (1982, 1984), model pamięci autoasocjacyjnej. Założenia: Wszystkie neurony są ze sobą połączone (fully connected network) z wagami synaps W ij. Macierz wag połączeń jest symetryczna, W i,i = 0, W ij = W ji. Symetria jest wygodna z teoretycznego p. widzenia, pozwala wprowadzić f. energii ; jest nierealistyczna z biologicznego p. widzenia. Dyskretny s tan neuronu - potencjał V i = ±1 = sgn (I( V )) W późniejszych modelach stany rzeczywiste.

7 7 Model Hopfielda - dynamika Wektor potencjałów wejściowych V ( 0 )= V ini, czyli wejście = wyjście. Dynamika (iteracje)  sieć Hopfielda osiąga stany stacjonarne = odpowiedzi sieci (wektory aktywacji elementów) na zadane pytanie V ini (autoasocjacja). t - czas dyskretny (numer iteracji). Stany stacjonarne = atraktory punktowe.

8 8 Minimalizacja energii Dla sieci o symetrycznych wagach taka dynamika prowadzi do minimalizacji funkcji typu energii. W teorii układów dynamicznych - funkcji Lapunova, w fizyce statystycznej funkcji Hamiltona, w teorii optymalizacji funkcji celu lub kosztu, w obliczeniach ewolucyjnych funkcji przystosowania... Zmiana energii w czasie iteracji jest  0 Jeśli I i  0 to V i nie może zmaleć, więc energia zmaleje; Jeśli I i < 0 to  V i < 0, energia również zmaleje.

9 9 Atraktory Dynamika: ruch po hiperpowierzchni energii, zależnej od potencjałów neuronów, aż do osiągnięcia lokalnego minimum na takiej powierzchni. Jeśli V i dyskretne to ruch po rogach hipersześcianu.

10 10 3 neurony

11 11 Stopniowe studzenie Atraktory punktowe - tylko dla symetrycznych połączeń. Stany stabilne: minima lokalne E(W) odpowiadające pamiętanym wzorcom V i - pamięć asocjacyjna. Prawdopodobieństwo aktywacji: sigmoidalne. W wysokiej T przypadkowe błądzenie, stopniowe studzenie pozwala unikać płytkich minimów lokalnych. Duża aktywacja i niska temperatura prawie na pewno da V i =1

12 12 S.A. - wykres E

13 13 S.A. - wykres P

14 14 Uczenie Warunek stabilności korzystając z reguły Hebba : Wystarczy zażądać by: Dla wielu wzorców korzystamy z reguły Hebba uśredniając:

15 15 Uczenie cd. Warunek stabilności prowadzi do wydzielenia przesłuchu: Jeśli korelacja pomiędzy wzorcami jest słaba to zbieżność. Lepsze rezultaty: metoda pseudoinwersji:

16 16 Pojemność modelu H Odwracania macierzy V można uniknąć iteracyjną metodą rzutowania: 2 N możliwych stanów sieci binarnej złożonej z N neuronów. Zbyt wiele wzorców  chaos, zapominanie. L. poprawnie pamiętanych wzorców: dla p. błędów 0.37% wynosi  /N= 0.138 Około 7 neuronów/N-bitowy wzorzec lub 7 połączeń/bit. W praktyce gorzej, ale różnie dla różnych algorytmów! Liczba dobrze pamiętanych wzorców = f(  )

17 17 Diagramy fazowe Dla  = p wzorców /N i różnych temperatur

18 18 Sprytna modyfikacja Co zrobić jeśli wzorce b. duże, np. dla obrazów N  10 6 ? Faktoryzacja macierzy wag W na m

19 19 Realizacja sprzętowa

20 20 Równania - sprzętowo Prosta realizacja sprzętowa, elektroniczna lub optyczna. W stanie stacjonarnym wejście=wyjście. Równania na sygnały wejściowe: U i - napięcie wejściowe i-tego wzmacniacza V i - napięcie wyjściowe i-tego wzmacniacza C- pojemność wejściowa I i - zewnętrzny prąd i-tego wzmacniacza

21 21 CAM, pamięć adresowalna kontekstowo Sieć Hopfielda może służyć jako pamięć adresowalna kontekstowo. Fragment epizodu pozwala odtworzyć całość. Dla ortogonalnych prototypów i idealnej zgodności: Zbiór wzorców {P i }, i=1..m Funkcja kosztu: korelacja wzorców z osiąganymi minimami: Energia używając reg. Hebba

22 22 Optymalizacja Zagadnienia NP-trudne: jak zastosować sieć Hopfielda? Przykład: najkrótsza droga pomiędzy N miastami. Funkcja kosztów: min. droga + 1 w wierszu + 1 w kolumnie Macierz n i  i=1,2..N, nr. miasta  - kolejność Jak dobrać W?

23 Dobór wag Zagadnienia NP-trudne: jak zastosować sieć Hopfielda? Przykład: najkrótsza droga pomiędzy N miastami. + 1 w wierszu Odległość N miast + 1 w kolumnie

24 Spełnianie ograniczeń Rozwiązania mogą nie spełniać ograniczeń, obliczanie odbywa się wewnątrz hiperkostki, ma końcu osiągany jest stan poprawny. Metody optymalizacji - operacje dyskretne, zawsze poprawne. Zagadnienia wymagające spełniania ograniczeń i optymalizacji: Problem N królowych: umieścić je na szachownicy NxN tak, by się nie szachowały. Problem ustawienia skoczków, problem plecakowy... Problem rutowania pakietów w sieciach pakietowych. Dobór funkcji kosztu, metody minimalizacji - intensywnie badane. Metody wyspecjalizowane radzą sobie lepiej ale wyrafinowane wersje metod pola średniego dają doskonałe rezultaty. Porównanie metod SA bez i z modelem Hopfielda?

25 Model Hopfielda i percepcja Interpretacja sygnałów dochodzących do mózgu nie jest jednoznaczna. Interpretacja musi spełniać ograniczenia: KOT Tylko jedna litera na danej pozycji. Obecność danej litery aktywizuje rozpoznanie słowa. Cecha na danej pozycji aktywizuje rozpoznanie litery.

26 3 słowa K..Ą...A...T..P KATKATKĄTKAP

27 27 Faza snu Sen może być okresem, w którym mózg prowadzi optymalizację zużycia swoich zasobów, utrwalając pewne zdarzenia/fakty i usuwając z pamięci pozostałe. W modelu CAM Hopfielda szybkość ostatnio poznane są szybciej przypominane. Wzorce odpowiadające fałszywym minimom można wyeliminować pokazując antywzorce, związane z fałszywymi, płytkimi minimami. Przypadkowe błądzenie wśród zniekształconych wzorców - sen? Niektóre neurochipy do prawidłowej pracy muszą działać przez pewien czas bez żadnych sygnałów wejściowych - okres kalibracji.

28 Zaburzenia pamięci Są eksperymentalne dowody na to, że za pamięć biologiczną odpowiedzialne są sieci atraktorowe. Degeneracja pamięci, np. w chorobie Alzheimera, może być związana z utratą słabych synaps. Jak wpłynie taka utrata na pojemność pamięci? Kompensacja - pozostałe synapsy mogą się zaadoptować do nowej sytuacji. Jaka kompensacja jest najlepsza? d - stopień uszkodzenia k=k(d) funkcja kompensacji Silne synapsy ulegają dalszemu wzmocnieniu. Samo d nie świadczy jeszcze o stopniu uszkodzenia pamięci.

29 29 Kompensacja

30 30 Model amnezji Pamięć trwała jest rezultatem stanów atraktorowych minikolumn kory mózgu, zapisana jest więc w synapasch. Układ neuromodulacji reguluje plastyczność hipokampa i kory. Pamięć średnioterminowa zapisana jest w sieciach hipokampa.

31 31 Powstawanie trwałej pamięci

32 32 Amnezja wsteczna Główna przyczyna: utrata łączy do kory. Objawy: gradienty Ribota czyli im starsze wspomnienia tym lepiej pamiętane.

33 33 Amnezja następcza Główna przyczyna: uszkodzenie systemu neuromodulacji. Wtórnie: utrata łączy z korą. Objawy: Brak możliwości zapamiętania nowych faktów.

34 34 Amnezja semantyczna Główna przyczyna: uszkodzenie łączy wewnątrzkorowych. Objawy: Trudności w znajdowaniu słów, rozumieniu, zapamiętanie nowych faktów wymaga ciągłego powtarzania.

35 Neurodynamika Spoczynkowa aktywność neuronów (1-5 impulsów/sek) Ok. 10.000 impulsów/sek dochodzi do neuronu w pobliżu progu. 1. Stabilna sieć z aktywnością spoczynkową: globalny atraktor. 2. Uczenie się przez tworzenie nowych atraktorów. Model Amit, Brunel 1995 Aktywność tła ma charakter stochastyczny. Jednorodność: neurony w identycznym środowisku. Impulsy wysyłane przez różne neurony nie są skorelowane. Aktywacja neuronu jest sumą wkładów synaptycznych. Gaussowski rozkład wkładów synaptycznych. Wystarczy aktywność neuronu = liczbie impulsów na sekundę.

36 Schemat kolumny Ogólny schemat sieci: model kolumny, 10 5 neuronów. Kolumna ma około 1 mm 2, 10 5 neuronów. Połączenia: pobudzające i hamujące wewnątrz modułu, pobudzające dochodzące z zewnątrz (komórki piramidowe). 50-80% impulsów z lokalnych obwodów pobudzających. Około 20% jednostek hamujących; C  20.000 synaps/neuron;

37 Struktura sieci Sieć złożona z lokalnych modułów. Uczenie: początkowo moduł biorący udział w rozpoznawaniu zwiększa w nieselektywny sposób częstość impulsacji dla wszystkich sygnałów. Powyżej krytycznej wartości wzmocnienia LTP pojawiają się lokalne atraktory na tle globalnej aktywności - struktura sygnału uczącego. Aktywność spoczynkowa rośnie do około 20 Hz, utrzymuje się po zniknięciu bodźca - aktywna reprezentacja bodźca w pamięci. Pobudzenia wewnętrzne silniejsze niż zewnętrzne, utrzymują spontaniczną aktywność, modelowane przez rozkład Poissona. 50-80% impulsów z lokalnych obwodów pobudzających o modyfikowalnych synapsach. Depolaryzacja membrany V(t) o  10ms opisana jest równaniem:

38 Działanie modelu Symulacja modułu z 2000 neuronów: spontaniczna aktywność jest stabilna w czasie lokalnego uczenia się, moduł uczący się ma podwyższoną częstość impulsacji wśród neuronów biorących udział w kodowaniu wzorca i obniżoną wśród pozostałych. Podwyższenie średniej częstości impulsacji przy prezentacji wzorców zapowiada pojawienie się nowego atraktora: pojawia się bifurkacja i dwa rozwiązania stabilne: spontaniczna aktywność + atraktor lokalny. Dobra zgodność z obserwacjami neurofizjologicznymi, opartymi na pomiarach aktywności neuronów małp w czasie wykonywania zadań wymagających aktywnej pamięci pokazywanego przez krótki czas bodźca (delayed match-to-sample). Podwyższona aktywność spontaniczna widoczna w trakcie uczenia, po nauczeniu widać aktywność związana z lokalnymi atraktorami.

39 Sztuczne Mózgi? Source: DARPA Synapse, projekt koordynowany przez IBM (2008)

40 Neuromorficzne komputery Projekt Synapse 2015: IBM TrueNorth chip  16 mln neuronów i 4 mld synaps, 16 chipów  256 mln neuronów potrzebuje 2.5 wata. Skalowanie: 400 takich modułów NS16e to  100 mld neuronów, 25,6 bld = 2,56x10 13 synaps, potrzebuje zaledwie 1000 watów. IBM Neuromorphic System osiąga więc złożoność ludzkiego mózgu.

41 Co dalej? Maszyny Boltzmanna. Głębokie uczenie. Deep Learning Wiki Tutoriale: Lista KDDnuggets UFLDL Lisa LabLisa Lab (pdf) Deep Learning for NLPDeep Learning for NLP (Richard Socher) Krótkie wprowadzenieKrótkie wprowadzenie (Ivan Vasilev)

42 Koniec wykładu 16