Redes neuronales artificiales para aprendizaje automático y minería ...

4 oct. 2007 - En forma matricial (ΦT Φ)WT = ΦT T. ▻ Φ una matriz N × M con los elementos φn j. ▻ W una matriz c × M, con los elementos wkj. ▻ T una ...
613KB Größe 21 Downloads 96 vistas
Redes neuronales artificiales para aprendizaje autom´atico y miner´ıa de datos Tratamiento Inteligente de la Informaci´ on y Aplicaciones

Juan A. Bot´ıa Departamento de Ingenier´ıa de la Informaci´ on y las Comunicaciones Universidad de Murcia

October 4, 2007

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de4,datos 2007

1 / 74

Gui´on de la clase 1

Introducci´on

2

Perceptr´on Algoritmos de ajuste de pesos

3

Redes Multi-capa Momentum RPROP Cascada-correlaci´on

4

Radial Basis Function Networks

5

Self Organizing Maps

6

Otras cuestiones concretas Datos discretos en redes neuronales Series temporales

7

Bibliograf´ıa

8

Ap´endice A

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de4,datos 2007

2 / 74

RNAs : Justificaci´on Modelo aproximador de funciones reales, discretas y vectoriales en la salida. Aplicaciones I I I

Reconocimiento de caracteres, de rostros, para pilotaje de veh´ıculos, etc.

Id´oneas cuando... I I

I I

I

Ejemplos del conjunto de aprendizaje formados por pares atributo-valor La salida de la funci´ on que define los datos de entrada tiene como salida un valor real, un valor discreto o un vector de valores reales y/o discretos Datos de entrenamiento contienen ruido (errores) No es necesario interpretar, para comprender, la funci´on objetivo aprendida por la RNA No es relevante el tiempo consumido en la fase de aprendizaje

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de4,datos 2007

3 / 74

Ideas iniciales La regla de decisi´on ´optima para minimizar la probabilidad de clasificar una nueva observaci´ on como ejemplar consiste en asignar a ese ejemplar nuevo la clase con mayor probabilidad a posteriori. El uso de redes neuronales para obtener clasificadores o modelos de regresi´ on implica emplear una estrategia diferente ⇒ usar la idea de funciones discriminantes una funci´on discriminante se especifica en una determinada forma param´etrica el valor de los par´ametros se determina (i.e. ajusta) mediante un algoritmo de aprendizaje sobre los datos de entrada. Representaci´on b´asica: combinaci´ on lineal de variables de entrada

October 2007 Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ ıa de4,datos

4 / 74

Discriminante m´as simple

Una funci´on discriminante, la denotaremos con y (x) es tal que el vector x se asigna a la clase C1 si y (x) > 0 y a la clase C2 si y (x) < 0. La m´as simple es lineal y (x) = w T x + ω0 , siendo w un vector d-dimensional y ω0 el bias

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de4,datos 2007

5 / 74

Interpretaci´on geom´etrica (ver [?])

Si consideramos y (x) = 0 como el l´ımite de decisi´ on entre las dos clases, corresponde a un hiperlano d − 1 dimensional, en un espacio x d-dimensional Con dos variables de entrada x1 y x2 , el l´ımite de decisi´ on es una l´ınea recta. Sean x A y x B del hiperplano citado, tenemos y (x A ) = y (x B ) = 0 y por la definici´ on de y (x) w T (x B − x A ) = 0, la orientaci´ on de w condiciona totalmente la orientaci´ on del discriminante.

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de4,datos 2007

6 / 74

Interpretaci´on geom´etrica (y II)

Sea x un punto cualquier del hiperplano la distancia normal del origen al T hiperplano viene dada por l = w||w ||x , como w T x = −ω0 , tenemos que ω0 l = − ||w || ω0 determina la posici´ on con respecto al eje del discriminante, en el espacio de las variables de entrada.

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de4,datos 2007

7 / 74

M´as de dos clases Si hay c clases, usamos un discriminante yk (x) para cada clase Ck de la forma T

yk (x) = wk + ωk k0, el punto x se asignar´ a a la clase Ck si se tiene que yk (x) > yj (x)∀j 6= k a La l´ınea de separaci´ on entre dos clases Ck y Cj vendr´ dada por el hiperplano yk (x) = yj (x) El hiperplano tendr´ a la forma T

(wk − wj ) x + (ωk0 − ωj0 ) = 0. La orientaci´ on del discriminante vendr´ a dada por (wk − wj ) La distancia al origen por el bias l =−

(ωk0 − ωj0 ) . ||wk − wj||

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de4,datos 2007

8 / 74

C´alculo de wi . Formulaci´ on del problema de los m´ınimos cuadrados

Se basa en la optimizaci´ on de una funci´ on de error de sumas cuadr´ aticas (adecuada para regresi´ on) transformamos el vector de entrada mediante M funciones φj (x), denominadas funciones base, y M P representamos la salida mediante una combinaci´ on lineal de esas funciones: yk (x) = wkj φj (x) + wk0 j=1

Podemos introducir una funci´ on φ0 = 1 adicional para que el discriminante quede: M P yk (x) = wkj φj (x) j=0

El error de sumas cuadr´ aticas se define mediante la funci´ on:

E (x) =

N c 1 XX n n 2 (yk (x ; w ) − tk ) , 2 n=1 k=1

yk (x n ; w ) la salida para el nodo k como funci´ on del vector de entrada y el vector de pesos w N es el n´ umero de patrones de entrenamiento c el n´ umero de nodos de salida tkn es el valor objetivo para el nodo k y el vector de entrada x n

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de4,datos 2007

9 / 74

Funci´on de error

Esta funci´on de error compone una superficie de variaciones suaves a la salida Es funci´on de wij y se puede minimizar con una gran cantidad de t´ecnicas, e.g. m´ınimos cuadrados y gradiente descendente E (w ) es una funci´on cuadr´atica con respecto w y por lo tanto las derivadas son funciones lineales en w As´ı, el valor de los pesos en el m´ınimo de la funci´on de error puede calcularse

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

10 / 74

Interpretaci´on geom´etrica Vamos a considerar una red de una u ´nica salida, i.e. c = 1 para una observaci´ on de entrada x n , la salida de la red ser´a de la forma M P yn = wj φj (x n ) j=0

Agrupamos todos los valores objetivo de los datos de entrada para formar un vector N dimensional, ~t Para cada una de las funciones base φj (x), agrupamos tambi´en sus ~ j tambi´en de dimensi´ correspondientes valores en φ on N Sea el n´ umero de funciones base, M tal que M + 1 < N. ~ j componen una base S, M + 1 dimensional que Los M + 1 vectores φ engendra un supespacio vectorial S. Si agrupamos las salidas de la red y n en un vector ~y , este vector estar´a M P ~j tambi´en en S ya que ~y = wj φ j=0

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

11 / 74

Interpretaci´on geom´etrica (II)

Cambiando los valores de wj cambiamos la direcci´ on de ~y

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

12 / 74

Interpretaci´on geom´etrica (III) Usando notaci´ on vectorial E (x) =

1 2

‚ ‚2 ‚P ‚ ‚M ~ j − ~t ‚ ‚ wi φ ‚ ‚ ‚j=1

Si minimizamos con respecto a los pesos

∂E ∂wj

~ T (~y − ~t) (ver Desarrollo A) =0=φ j

descompongamos ~t = ~t⊥ + ~tk , siendo ~tk proyeccion ortogonal de ~t en S ~t⊥ el resto ~ T ~t⊥ = 0 al ser perpendiculares, tenemos que Como φ j ∂E ~ T (~y − ~tk ) = 0, j = 1, . . . , M. =φ j ∂wj ~ i componen la base que egendra el subespacio S, el u y como φ ´nico producto vectorial con esa base que puede ser nulo es el del vector nulo, con lo que tenemos ~y = ~tk el proceso de aprendizaje trata de modificar el vector ~y de tal forma que se minimice la distancia a ~t

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

13 / 74

Soluci´on basada en la pseudoinversa Reescribimos la funci´ on de error E (w ) =

 c X M N X X 1 2

n=1 k=1



wkj φnj − tkn

j=0

2 

.



Al diferenciar con respecto a w e igualar las derivadas a cero   N X M  X wkj 0 φnj0 − tkn φnj = 0  0 n=1

j =0

En forma matricial (ΦT Φ)W T = ΦT T I I I

Φ una matriz N × M con los elementos φnj W una matriz c × M, con los elementos wkj T una matriz N × c con los elementos tkn

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

14 / 74

Soluci´on basada en la pseudoinversa (II)

La matriz ΦT Φ es cuadrada, de dimensiones M × M Si el determinante de ΦT Φ es distinto de cero (i.e. es no singular), podemos invertirla para obtener la soluci´ on W T = Φ† T

I I

Φ† es una matriz M × N denominada pseudo inversa de Φ Φ† = (ΦT Φ)−1 ΦT

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

15 / 74

Objeciones al m´etodo

Φ es, generalmente, una matriz no cuadrada y no tiene una inversa ΦT Φ suele tenerla I

la soluci´ on directa de las ecuaciones normales puede presentar dificultades F F F

F

la posibilidad de que ΦT Φ sea singular o casi singular ~ j son casi colineales si dos de los vectores φ los errores de redondeo t´ıpicos de una m´ aquina las van a hacer casi linealmente dependientes. Si esto ocurre, el procedimiento num´erico usado fallar´ a adecuado un m´etodo del tipo SVD (Singular Value Decomposition)

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

16 / 74

El perceptr´on (ver Minsky, 1969 [?]) Es la red m´ as sencilla Una u ´nica neurona, que puede tener varias entradas reales, y salida en {0,1}. Formalmente, dadas las entradas x1 , x2 , . . . , xn , la salida 0(x1 , x2 , . . . , xn ) se define mediante  o(x1 , x2 , . . . , xn ) =

1 −1

si w0 x0 + w1 x1 + . . . + wn xn > 0 sino

Los wi , i = 1, 2, . . . , n son los pesos asignados a cada entrada

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

17 / 74

El perceptr´ on. Capacidad de representaci´ on

Con un perceptr´ on podemos representar funciones l´ ogicas como AND y OR. Con un s´ olo nodo no podemos representar la funci´ on XOR.

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

18 / 74

Regla de entrenamiento del perceptr´on [?] Mecanismo de aprendizaje de respuestas ±1 adecuadas seg´ un el ejemplo de aprendizaje. Para cada ejemplo variar los wi seg´ un la expresi´ on wi ← wi + ∆wi en donde ∆wi = η(t − o)xi t es la salida esperada, o es la salida obtenida para el ejemplo η es el ratio de aprendizaje Problema: convergencia

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

19 / 74

Regla de entrenamiento delta

Soluciona el problema de la convergencia anterior Basada en gradiente descendente Se ajusta asint´oticamente a la representaci´ on deseada Medida de error E (~ w) =

1X (td − od )2 2 d∈D

D es el conjunto de ejemplos de entrenamiento, td es la salida de la funci´ on buscada, y od es la salida de la red.

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

20 / 74

Obtenci´on de la regla El vector de gradiente ser´ a ∆E (~ w) =

h

∂E ∂E , ∂E , . . . , ∂w ∂w0 ∂w1 n

i

y regla del gradiente ser´ a

~ ← +∆~ w w , ∆~ w = −η∆E (~ w) ∆E se obtiene seg´ un ∂E ∂wi

= = = = =

∂ 1 ∂wi 2

(td − od )2 d∈D P 1 ∂ (t − od )2 2 ∂wi d d∈D P 1 ∂ 2(td − od ) ∂w (td − od ) 2 i d∈D P ∂ ~ ~xd ) (td − od ) ∂w (td − w i d∈D P P

(td − od )(−xid )

d∈D

Finalmente ∆wi = η

X

(td − od )xid

d∈D

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

21 / 74

Gradiente descendente: algoritmo Paso 0: sea el conjunto de entrenamiento un conjunto de ejemplos en la forma < ~x , t > en donde ~x es el vector de valores de entrada, y t es el valor de salida. η es el ratio de aprendizaje. Paso 1: Inicializar cada wi a un valor aleatorio Paso 2: Hasta que se cumpla la condici´ on de terminaci´on I I

Inicializar los ∆wi ← 0 Para cada < ~x , t > hacer F F

Realizar una pasada con ~x y calcular o Para cada wi , hacer ∆wi ← ∆wi + η(t − o)xi

I

Para cada wi , hacer wi ← wi + ∆wi

El algoritmo anterior actualiza los pesos en cada pasada de todo el conjunto de entrenamiento

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

22 / 74

Versi´on estoc´astica

La versi´on estoc´astica lo hace para cada ejemplo: Paso 0: sea el conjunto de entrenamiento un conjunto de ejemplos en la forma < ~x , t > en donde ~x es el vector de valores de entrada, y t es el valor de salida. η es el ratio de aprendizaje. Paso 1: Inicializar cada wi a un valor aleatorio Paso 2: Hasta que se cumpla la condici´ on de terminaci´on I I

Inicializar los ∆wi ← 0 Para cada < ~x , t > hacer Realizar una pasada con ~x y calcular o Para cada wi , hacer wi ← wi + η(t − o)xi

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

23 / 74

Comentarios a las versiones

La versi´on est´andar es m´as costosa computacionalmente. La versi´on estoc´astica es m´as segura, un vector de error por cada ejemplo. La regla de entrenamiento se denomina regla delta, LMS (least-mean-square), regla ADALINE (ADAptative LINEar unit) y Widrow-Hoff.

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

24 / 74

Redes Multi-capa. Capacidad de representaci´ on

¿C´omo podemos aumentar la capacidad de representaci´on de un perceptr´on? Ejemplo I

Podr´ıamos intentar formar una red con varios perceptrones lineales como ...

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

25 / 74

Nodos

Su expresi´on ser´ıa

o(x1 , x2 ) = x3 w3,6 + x4 w4,6 + x5 w5,6 = (x1 w1,3 + x2 w2,3 )w3,6 + (x1 w1,4 + x2 w2,4 )w4,6 + (x1 w1,5 + x2 w2,5 )w5,6 = x1 (w1,3 w3,6 + w1,4 w4,6 + w1,5 w5,6 )+ x2 (w2,3 w3,6 + w2,4 w4,6 + w2,5 w5,6 ) Podr´ıamos usar perceptrones con umbral (i.e. salidas ±1) PROBLEMA −→ es necesario poder derivar las funciones de salida

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

26 / 74

Nodos (II) Soluci´on: sigmoide o = σ(~ w ~x ) = dσ(y ) dy

1 1+e −~w~x

con derivada

= σ(y )(1 − σ(y ))

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

27 / 74

Nodos (III)

Podr´ıamos obtener la expresi´ on resultande de aplicar la sigmoide a todos los nodos, para la red anterior Como puede verse, esta superficie ya es mucho m´as compleja que una superficie lineal.

o(x1 , x2 ) = σ(σ(x3 )w3,6 + σ(x4 )w4,6 + σ(x5 )w5,6 ) = σ(σ(x1 w1,3 + x2 w2,3 )w3,6 )+ σ(σ(x1 w1,4 + x2 w2,4 )w4,6 )+ σ(σ(x1 w1,5 + x2 w2,5 )w5,6 )

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

28 / 74

Capacidad de representaci´on

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

29 / 74

Algoritmo Backpropagation

Aprende los wi para una red neuronal multi-capa, con funciones de activaci´ on derivables Versi´ on fully-connected y conexi´ on estricta Funci´ on de error E (~ w) =

1 XX (tkd − okd )2 2 d∈D k∈O

en donde D es el conjunto de ejemplos y O el conjunto de nodos de salida. tkd ser´ a la salida esperada para el ejemplo d en el nodo k, okd la salida obtenida para el nodo k y el ejemplo d. Convergencia a m´ınimos locales

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

30 / 74

Algoritmo Backpropagation, versi´on estoc´astica Paso 1: Inicializar cada wij a un valor aleatorio Paso 2: Hasta que se cumpla la condici´ on de terminaci´ on Paso 3: Para cada < ~x , ~t > hacer Propagar la entrada por la red hacia adelante inicializando los nodos de entrada con ~x y calcular los o empezando por todos los nodos de la capa oculta, y a continuaci´ on los de la capa de salida. Propagar el error por la red, hacia atr´ as (1) Para cada nodo de salida k, calcular su error, δk seg´ un δk ← ok (1 − ok )(tk − ok ) (2) Para cada nodo oculto, h, calcular su error, δh seg´ un δh ← oh (1 − oh )

X

whk δk

k∈O

(3) Actualizar los wij seg´ un wij ← wij + ∆wij donde ∆wij = ηδi xij

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

31 / 74

Algoritmo Backpropagation

Similitud con regla delta En regla delta, wi se actualizan con ηxi (t − o). En backpropagation se suma a los wij el producto ηxij δi . En realidad δi es el producto de (t − o) por σ()0 en los nodos de salida P En los nodos de la capa oculta el producto es de σ()0 y whk δk k∈O

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

32 / 74

Algoritmo Backpropagation (y II)

Condiciones de parada En un problema “real” se realizan usualmente varios miles de pasadas (i.e. epochs) por todo el conjunto de entrenamiento. A veces la condici´on de parada del algoritmo es simplemente llegar a un n´ umero l´ımite de esas pasadas Otras es no alcanzar una cantidad m´ınima de error por pasada. Se ha de evitar el sobreaprendizaje u overfitting.

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

33 / 74

Momentum El algoritmo actualiza gradualmente los pesos de la red en la direcci´on de m´axima variaci´ on del error mediante la expresi´on wij (t + 1) = wij (t) − η

∂E (t) ∂wij

Si el valor de η es excesivamente grande, entonces la b´ usqueda hacia un error peque˜ no sufrir´a oscilaciones Si es muy peque˜ no, la convergencia al m´ınimo ser´a lenta y se necesitar´an muchas iteraciones para llegar a un error aceptable → momentum ∆wij (t) = −η

∂E (t) + µ∆wij (t − 1) ∂wij

Marca una inercia, en el avance hasta el punto ´ optimo, desde la u ´ltima actualizaci´on hasta la actual, lo cual evitaba las oscilaciones. Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

34 / 74

RPROP (ver [?])

Idea: variar el valor de η, conforme se avanzaba en el aprendizaje Ejemplos de algoritmos son Delta-Bar-Delta, SuperSAB y Quickprop. RPROP tiene en cuenta, en cada paso, la derivada parcial de cada peso, y su expresi´ on general para la cantidad con la que actualizar los pesos es

∆ij (t) =

∂E (t−1) ∂wij ∂E (t−1) ∂wij

η + × ∆ij (t − 1)

,

si

− > η × ∆ij (t − 1) > : ∆ij (t − 1)

,

si

,

si no

8 > >
0 ∂E (t)

× ∂wij < 0

Si de una iteraci´ on a otra, el valor de la derivada parcial del peso wij cambia su signo → la actualizaci´ on anterior fue demasiado elevada Si mantiene el signo lo que hacemos es aumentar el valor de actualizaci´ on para aumentar la velocidad de convergencia. La ecuaci´ on de actualizaci´ on queda

wij (t + 1) = wij (t) − ∆ij (t) ∗ sign

∂E (t)

!

∂wij

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

35 / 74

Algoritmo de cascada-correlaci´on (ver [?]) Responde al problema del objetivo m´ ovil del backpropagation Cada nodo en la red intenta jugar un rol determinado en el c´ alculo global El resto tambi´ en, y no se comunican entre s´ı Es dificil, en esas condiciones, que cada nodo encuentre su lugar Manifestaci´ on → el “efecto manada” Sup´ ongase dos tareas A y B a realizar por los nodos ocultos Cada nodo deber´ a decidir a cu´ al de las dos dedicarse Si A genera un error mayor que el de B entonces todos los nodos se concentrar´ an en resolver la tarea de A Una vez que A est´ a resuelta, se comenzar´ a a centrar la atenci´ on en B, y el problema en A reaparecer´ a Al final, la distribuci´ on de los nodos ser´ a correcta, pero existe un largo per´ıodo de indecisi´ on Soluci´ on → permitir que u ´nicamente un conjunto reducido de nodos cambie cada vez, manteniendo el resto constantes Dos ideas: arquitectura en cascada y algoritmo de aprendizaje

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

36 / 74

Correlaci´on en cascada - Arquitectura

Inicialmente se parte de una red sin nodos ocultos

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

37 / 74

Correlaci´on en cascada - Arquitectura (II) Cada nuevo nodo oculto recibe una conexi´ on de la entrada y se conecta a todas las salidas

October 4, datos 2007 Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ ıa de

38 / 74

Correlaci´on en cascada - Arquitectura (III) Un nuevo nodo oculto recibe conexiones de la entrada y todos los nodos ocultos preexistentes

October 4, datos 2007 Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ ıa de

39 / 74

Correlaci´on en cascada - Aprendizaje

Los pesos de los arcos que van desde la entrada a los nodos ocultos se congelan una vez se a˜ naden Los pesos de los arcos que van desde los nodos ocultos a los de salida se entrenan repetidamente Inicialmente (sin nodos ocultos) se entrenan los pesos de las entradas a las salidas (regla delta, regla de entrenamiento del perceptron, etc) Una vez no se tiene una reducci´ on significante del error, se evalua la red sobre D. I Si el error obtenido es aceptable, paramos I Si no, aun queda un resto de error que necesitamos reducir F Intentamos reducirlo a˜ nadiendo un nuevo nodo (usamos el algoritmo de creaci´ on de nodos) F Congelamos todos los pesos de entrada, incluido el del nuevo nodo F Entrenamos los pesos de salida de nuevo F Repetimos el ciclo hasta que el error es aceptable

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

40 / 74

Correlaci´on en cascada - Alg. Creaci´ on de nodos

Se comienza con un nodo candidato que recibe conexiones de 1 todo nodo de entrada 2 todo nodo oculto preexistente sin conectar su salida Se realizan varias pasadas de entrenamiento ajustando los pesos de entrada al nuevo nodo, intentando maximizar S → correlaci´ on entre V y el error residual Eo que se observa en la unidad de salida o

S =

˛ ˛ ˛ ˛ X ˛X ˛ ¯ ¯ ˛ ˛ (V − V )(E − E ) p p,o o ˛ ˛ ˛ o ˛ p

en donde I V es el valor de salida del nodo candidato I o es la salida de la red en la que medimos el error I p es la instancia de entrada I V ¯ la media de los valores de V sobre todas las entradas I E¯o la media de los valores de Eo sobre todas las entradas

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

41 / 74

Correlaci´on en cascada - Maximizando S

Para maximizar S necesitamos calcular ∂S/∂wi X ∂S/∂wi = σo (Ep,o − E¯o )fp0 Ii,p p,o

en donde σo es el signo de S fp0 es la derivada de la funci´ on de activaci´ on del nodo candidato, para la instancia p, con respecto a la suma de las entradas Ii,p es la entrada al nodo candidato desde el nodo de entrada i, con la instancia p Una vez calculada ∂S/∂wi para todo arco de entrada al nodo candidato realizamos gradiente ascendente para maximizar S

Juan A. Bot´ıa (Departamento de Ingenier´ıa de Redes la Informaci´ neuronales on yartificiales las Comunicaciones para aprendizaje Universidad autom´ de atico Murcia) y miner´ October ıa de 4, datos 2007

42 / 74

Redes RBF (ver [?])

Las redes RBF (Radial Basis Functions) Se trata de aproximar globalmente una funci´ on mediante el uso de varias RBF que realizan una aproximaci´ on local. La hip´ otesis inducida con este tipo de m´ etodos va a tener la forma fˆr (x) = w0 + w1 K1 (d(µ1 , x)) + w2 K2 (d(µ2 , x)) + · · · + wk Kk (d(µk , x))

(1)

en donde I cada µi es un punto del espacio