Redes neuronales feed-forward

1 Redes neuronales feed-forwardEl algoritmo Back Propagat...
Author: Bernardo Lozano Sáez
0 downloads 2 Views

1 Redes neuronales feed-forwardEl algoritmo Back Propagation From Tai-Wen Yue’s slides

2 Contenido Estructura de las redes feed-forward Funciones de activacionAprendizaje supervisado El algoritmo de aprendizaje back-propagation Factores del aprendizaje

3 Estructura de las redes feed-forward

4 Estructura Capa de salida Capas ocultas Capa de entrada x1 x2 xm y1 y2 x1 x2 xm y1 y2 yn Capa de salida Capas ocultas Capa de entrada

5 Funciones de activacion

6 Funcion de activacion— Linealx1 x2 xm wi1 wi2 wim .

7 Sigmoide unipolar x1 x2 xm wi1 wi2 wim .

8 Sigmoide bipolar x1 x2 xm wi1 wi2 wim .

9 Derivada de la sigmoidenet 1 0.5 Recordar esto

10 Aprendizaje supervisado

11 Aprendizaje supervisadoConjunto de entrenamiento; entrada y target

12 Aprendizaje supervisadoConjunto de entrenamiento Aprendizaje supervisado x1 x2 xm o1 o2 on d1 d2 dn Capa de salida Capa oculta Capa de entrda

13 Aprendizaje supervisadoConjunto de entrenamiento Aprendizaje supervisado x1 x2 xm o1 o2 on Suma de los errores al cuadrado d1 d2 dn Objetivo: Minimizar

14 El algoritmo back-propagation

15 El algoritmo back-propagationUn procedimiento de aprendizaje que premite entrenar a las redes feedforward multicapa En teoria se puede capturar “cualquier” mapeo de entrada-salida

16 Descenso por el gradienteEl back-propagation es un ejemplo de una tecnica del descenso por el gradiente (w1,w2) (w1+w1,w2 +w2) Para minimizar E, w =  E

17 El algoritmo back-propagation x1 x2 xm o1 o2 on d1 d2 dn Aprendizaje de las neuronas de salida Aprendizaje de las neuronas ocultas

18 Aprendizaje de las neuronas de salida j i o1 oj on d1 dj dn wji ? ?

19 Aprendizaje de las neuronas de salida j i o1 oj on d1 dj dn wji depende de la funcion de activacion

20 Aprendizaje de las neuronas de salida j i o1 oj on d1 dj dn wji Usando la sigmoide,

21 Aprendizaje de las neuronas de salida j i o1 oj on d1 dj dn wji Usando la sigmoide,

22 Aprendizaje de las neuronas de salida j i o1 oj on d1 dj dn wji

23 Aprendizaje de las neuronas de salida j i o1 oj on d1 dj dn wji ¿Cómo entrenar los pesos de las neuronas de salida?

24 Aprendizaje en las neuronas ocultas j k i wik wji ? ?

25 Aprendizaje en las neuronas ocultas j k i wik wji

26 Aprendizaje en las neuronas ocultas j k i wik wji ?

27 Aprendizaje en las neuronas ocultas j k i wik wji

28 Aprendizaje en las neuronas ocultas j k i wik wji

29 Back Propagation o1 oj on j k i d1 dj dn x1 xm

30 Back Propagation o1 oj on j k i d1 dj dn x1 xm

31 Back Propagation o1 oj on j k i d1 dj dn x1 xm

32 Factores del aprendizaje

33 Factores del aprendizajePesos iniciales Velocidad de aprendizaje () Funciones de costo Momento Reglas de actualizacion Datos de entrenamiento y generalizacion Numero de capas Numero de nodos ocultos

34 Técnicas prácticas para mejorar BackpropagationNormalizar la entrada Podemos normalizar cada entrada para que tenga media cero y la misma varianza Valores del target Para aplicaciones de reconocimiento de patrones, usar +1 para la clase deseada y -1 para la otra Entrenamiento con el ruido

35 Técnicas prácticas para mejorar BackpropagationInicializacion de los pesos Si usamos datos normalizados, deseamos pesos positivos y negativos, asi como una distribución uniforme Aprendizaje uniforme

36 Técnicas prácticas para mejorar BackpropagationProtocolos de entrenamiento Una época corresponde a la presentación de todos los datos del conjunto de entrenamiento Entrenamiento estocástico Las muestras son elegidas al azar del conjunto de entrenamiento y los pesos se actualizan por cada muestra Entrenamiento por lotes Todas las muestras de entrenamiento (epoca) son presentadas a la red antes de que los pesos sean actualizados

37 Técnicas prácticas para mejorar BackpropagationProtocolos de entrenamiento Entrenamiento en línea Cada muestra de entrenamiento es presentada una vez y solamente una vez No hay memoria para guardar muestras de entrenamiento

38 Aumentar la velocidad de convergenciaHeuristica Momentum Velocidad de aprendizaje variable Gradiente conjugado Metodos de segundo orden Metodo de Newton Algoritmo de Levenberg-Marquardt

39 Reconocimiento Tomado deTai-Wen Yue, “Artificial Neural Networks” course slides Tatung University. Taipei, Taiwan. 5th june 2006