Un Algoritmo Gen´etico para Aprendizaje de un Sistema Basado en Reglas Difusas tipo Takagi Sugeno F. Herrera1 , P. Villar2 Resumen— Este trabajo presenta un m´etodo de aprendizaje de la base de conocimiento de un Sistema Basado en Reglas Difusas tipo Takagi Sugeno mediante ejemplos. Para el aprendizaje de las particiones difusas utilizadas en los antecedentes se utiliza un Algoritmo Gen´etico que incluye tanto el numero ´ de etiquetas de cada partici´on como la sem´antica de dichas etiquetas. Para el aprendizaje de las reglas se utiliza un mecanismo simple de cubrimiento en los antecedentes y los coeficientes de los consecuentes se aprenden mediante m´ınimos cuadrados Palabras clave— Aprendizaje autom´atico, sistemas basados en reglas difusas TS, algoritmos gen´eticos,
´ I. I NTRODUCCI ON El modelado difuso ling¨u´ıstico es una aplicaci´on importante de los Sistemas Basados en Reglas Difusas (SBRDs). En este tipo de modelos, la interpretabilidad es un requisito fundamental, junto con la precisi´on. En algunos casos, se necesita algo m´as de precisi´on de la que pueden proporcionar a costa de perder algo de interpretabilidad. Los SBRDs de Tipo Takagi-Sugeno (TS) presentan este comportamiento ya que los antecedentes de las reglas difusas toman valores de un conjunto de t´erminos con una interpretaci´on en el mundo real (variables ling¨u´ısticas) mientras que los consecuentes son una combinacin lineal de los valores de entrada (sin interpretaci´on sencilla). La Base de Conocimiento (BC) de un SBRD TS est´a formada por dos componentes: 1) la Base de Reglas (BR), constituida por el conjunto de reglas difusas, y 2) la Base de Datos (BD), que incluye las funciones de pertenencia de cada uno de los t´erminos ling¨u´ısticos (o etiquetas) de las particiones difusas asociadas a las variables de entrada. La BC de un SBRD TS depende del problema que se intente resolver, por tanto, se hace necesario alg´un mecanismo de derivaci´on autom´atica de dicha BC. Dentro de la literatura especializada existen m´etodos de aprendizaje de la BR a partir de una BD previamente definida. En la mayor´ıa de esos m´etodos, se consideran particiones difusas uniformes con el mismo n´umero de etiquetas para todas las variables. Sin embargo, ya se ha demostrado para SBRD ling¨u´ısticos (donde los consecuentes tambi´en son etiquetas ling¨u´ısticas), que la elecci´on de la BD tiene una decisiva influencia en el comportamiento del SBRD resultante[6] 1 Departamento de Ciencias de la Computaci´ on e Inteligencia Artificial, E.T.S. Ing. Informtica, Avda. Andaluc´ıa, 18, 18071 Granada (Espa˜na)
[email protected] 2 Departamento de Lenguajes y Sistemas Inform´aticos, E.T.S. Ing. Informtica, Avda. Andaluc´ıa, 18, 18071 Granada (Espa˜na)
[email protected]
Teniendo en cuenta la fuerte interrelaci´on entre los dos componentes de la BC, ser´ıa muy aconsejable un mayor grado de cooperaci´on entre las tareas de aprendizaje de la BR y la BD, que permitiese obtener modelos con un buen equilibrio entre interpretabilidad y precisi´on. Bas´andonos en esta idea, se propone un m´etodo de aprendizaje de la BC que mantiene una poblaci´on de posibles definiciones de la BD al mismo tiempo que busca un conjunto compacto de reglas (BR). M´as concretamente, para la derivaci´on de las reglas difusas utilizaremos un sencillo mecanismo de cubrimiento de ejemplos para escoger los antecedentes, mientras que los coeficientes que aparecen en el consecuente se obtendr´an mediante regresi´on por m´ınimos cuadrados. Para la definici´on de la BD se emplear´a un Algoritmo Gen´etico que incluye sus principales componentes para cada variable: dominio, n´umero de etiquetas y partici´on difusa, siguiendo la propuesta presentada en [5] para el caso de SBRDs de tipo Mamdani. Describiremos primero la estructura de un SBRD TS. A continuaci´on, se presenta el m´etodo propuesto y finalmente, se muestran unos resultados experimentales y algunas conclusiones. II. S ISTEMAS BASADOS
EN
R EGLAS D IFUSAS TS
En [11], Takagi y Sugeno propusieron una herramienta matem´atica para obtener un modelo difuso para un sistema. Dicho modelo est´a basado en reglas difusas que presentan la siguiente estructura: Ri : I f X1 is Ai1 and . . . and Xn is Ain T hen Y = pi1 · X1 + . . . + pin · Xn + pi0, donde las Xi son las variables de entrada del sistema mientras que Y es la variable de salida de dicho sistema, que determina una relaci´on lineal entre la entrada y la salida por medio de los coeficientes pi j . La salida de un SBRD con una base de conocimiento con m reglas TS es la media ponderada de cada una de las reglas individuales, yi , con i = 1, . . . , m: ∑m i=1 hi · yi , ∑m i=1 hi siendo hi = T (A1 (x1 ), . . . , An (xn )) el grado de emparejamiento entre el antecedente de la i-´esima regla y la entrada actual al sistema (x1 , . . . , xn ), y siendo T una Tnorma. Cada una de esas relaciones parciales se combina mediante una agregaci´on, teniendo en cuenta su dominancia en su a´ rea de aplicaci´on respectiva y el conflicto existente en las a´ reas solapadas [11]. De esta manera, los
1
SBRDs TS presentan una serie de caracter´ısticas interesantes como pueden ser su localidad y la existencia de herramientas matem´aticas para el dise˜no del sistema.
0.8
0.6
0.4
III. M E´ TODO DE APRENDIZAJE DE LA BASE C ONOCIMIENTO DE UN SBRD TS
DE 0.2
0
En este apartado describiremos nuestra propuesta para el aprendizaje autom´atico de la BC de un SBRD TS, compuesta por dos mecanismos: • Un proceso de aprendizaje de la BD mediante un Algoritmo Gen´etico (AG) que nos va a definir: – Dominio de cada variable de entrada que interviene en el modelo. El dominio inicial de cada variable se puede alargar ligeramente por los dos extremos. – N´umero de etiquetas de cada variable de entrada. – Sem´antica de cada etiqueta considerando particiones difusas no uniformes. Para construir dichas particiones se emplea una funci´on de escala no lineal que define a´ reas con mayor o menor “sensibilidad”. • el algoritmo de aprendizaje de reglas, que deriva la BR tomando como punto de partida la BD previamente obtenida en el paso anterior. De esta manera, el m´etodo h´ıbrido propuesto obtiene una definici´on completa de la BC mediante la acci´on cooperativa de ambos procesos. Ya que todos los componentes de la BD ir´an evolucionando mediante un AG, ser´ıa aconsejable reducir la dimensi´on del espacio de b´usqueda. Por tanto, el uso de una funci´on de escala no lineal deber´ıa estar condicionado a escoger una funci´on parametrizada con un reducido n´umero de par´ametros. Para este trabajo, hemos considerado la funci´on propuesta en [9], que solamente tiene un par´ametro denominado a (a ∈ IR). La funci´on es: f : [−1, 1] → [−1, 1] f (x) = sign(x) · |x|a ,
con a > 0
El resultado final es un valor entre [−1, 1]. La acci´on del par´ametro a en la partici´on difusa depende de su valor: sensibilidad uniforme (a = 1), mayor sensibilidad en los valores centrales (a > 1), o mayor sensibilidad en los valores extremos (a < 1). En este trabajo se han considerado funciones de pertenencia triangulares, por tanto, la funci´on de escala no lineal s´olo se aplica a los tres puntos que definen la funci´on de pertenencia. Es importante destacar que esa funci´on produce efectos sim´etricos alrededor del punto central del dominio. La Figura 1 muestra esas tres posibilidades. Esta funci´on de escala es v´alida para variables sim´etricas ya que produce los mismos efectos en la partici´on difusa de forma sim´etrica sobre el centro de dicha partici´on. Para permitir que el a´ rea de mayor sensibilidad de la partici´on se desplace sobre un u´ nico extremo de la misma, se a˜nade un nuevo par´ametro (S) como se describe en [5]. Dicho par´ametro no aumenta significativamente la complejidad del espacio de b´usqueda ya que u´ nicamente puede tomar dos valores ({0, 1}), que permiten desplazar el a´ rea de mayor sensibilidad hacia un
-1
-0.5
0
0.5
1
1
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0
1
0 -1
-0.5
0
0.5
1
-1
-0.5
-1
-0.5
0
0.5
0
0.5
1
Fig. 1. Particiones difusas con a = 1 (arriba), a > 1 (izquierda) y a < 1 (derecha) 1
1
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0
0 -1
-0.5
0
0.5
1
1
Fig. 2. Particiones difusas con S = 1 (izquierda con a > 1 y derecha con a < 1)
extremo u otro si S = 1 tal y como se puede ver en la Figura 2. Es importante resaltar que cualquiera de las anteriores transformaciones de las particiones difusas siguen obteniendo lo que se conoce como una partici´on difusa “fuerte”, en la que la suma de los grados de pertenencia en todas las etiquetas de cada punto del dominio de la variable es uno. A continuaci´on, se describir´a el proceso evolutivo que monitoriza el aprendizaje de la BC. Los AGs[10] son t´ecnicas de optimizaci´on y b´usqueda basadas en una formalizaci´on del proceso evolutivo de los seres vivos. Cuando se trabaja con AGs, los aspectos importantes son c´omo codificar cada soluci´on (en este caso, la BD de un SBRD TS), como evaluar esa soluci´on y como crear nuevas soluciones: A. Codificaci´on de la BD. Para un modelo con N variables de entrada, cada individuo o cromosoma est´a compuesto de cuatro partes: • N´ umero de etiquetas (C1 ): codificados en un vector de valores enteros de longitud N. Para este trabajo, el rango considerado es E ∈ {2, . . . , 7}. • Par´ ametros de desplazamiento a uno de los extremos (el par´ametro S comentado anteriormente): (C2 ): codificados en un vector de enteros de longitud N, que puede tomar los valores S ∈ {0, 1}. • Par´ ametros de sensibilidad (C3 ): codificados en un vector de valores reales de longitud N, donde se almacena el valor del par´ametro (a) de la funci´on de escala no lineal para cada variable. El rango considerado es el intervalo (0, 10). • Dominios (C4 ): codificados en un vector de N × 2 valores reales que almacenan el dominio de cada va-
riable ([vmin , vmax ]). Si el dominio inicial de una variable es [viin f , visup ], y d es la dimensi´on del intervalo (d = visup − viin f ), el rango para el l´ımite inferior del dominio es [viin f − (1/4 ∗ d), viin f ], y el rango para el l´ımite superior es [visup , visup + (1/4 ∗ d)]. Una representaci´on gr´afica del cromosoma ser´ıa: C1 = (E1 , . . . , EN ) C2 = (S1 , . . . , SN ) C3 = (a1 , . . . , aN ) C4 = (v1min , v1max , . . . , vNmin , vNmax ) C = C1C2C3C4 B. Poblaci´on inicial La poblaci´on inicial est´a compuesta de cuatro bloques con el mismo n´umero de cromosomas en cada uno de ellos. El proceso de generaci´on de la misma se describe a continuaci´on: • En el primer bloque, cada cromosoma tiene el mismo n´umero de etiquetas para todas las variables del problema y se consideran funciones de pertenencia distribuidas uniformemente a lo largo del universo de discurso de la variable, es decir, a = 1 y S = 0. • En el segundo bloque, dentro de cada cromosoma puede haber distintos valores, escogidos aleatoriamente, para el n´umero de etiquetas de las variables. Las funciones de pertenencia se distribuyen uniformemente al igual que en el primer bloque. • En el tercer bloque tiene cromosomas son n´ umero de etiquetas aleatorio en las variables y se var´ıa de forma aleatoria el dominio de cada una de las variables, al igual que el par´ametro a, cuyos valores van alternando las dos posibilidades de desplazamiento de las etiquetas hacia el centro o los extremos (a < 1 y a > 1). El par´ametro S sigue siendo igual a cero. • En el u ´ ltimo bloque todos los componentes del cromosoma de escogen de forma aleatoria considerando sus correspondientes intervalos de variaci´on. C. Evaluaci´on de los cromosomas. El c´alculo de la funci´on de evaluaci´on consta de tres pasos: • Construir las particiones difusas de cada variable de entrada, utilizando la informaci´on contenida en el cromosoma. Esta tarea consta de varias fases: – el dominio de cada variable (C4 ) es normalizado al intervalo [−1, 1]. – Se crea una partici´on difusa uniforme considerando su n´umero de etiquetas (C1 ). – La funci´on de escala no lineal, con su “forma” (C2 ) y su par´ametro de sensibilidad (C3 ) se aplica a los tres puntos que definen cada etiqueta. – La partici´on es trasladada de nuevo a su dominio original (C4 ). • Generar la BR considerando la BD obtenida en el paso previo. Se compone de dos procesos:
– El primer paso es seleccionar los antecedentes de las reglas. Se recorren todos los ejemplos del conjunto de entrenamiento y para cada uno de ellos se incluye la combinaci´on de antecedentes que mejor cubre dicho ejemplo. cuanto mayor sea el n´umero de etiquetas, mayor ser el n´umero de combinaciones de antecedentes seleccionado. Cada una de estas combinaciones dar´a lugar a una regla. – Para cada regla obtenida en el paso anterior, se obtienen los coeficientes que componen su consecuente mediante m´ınimos cuadrados. • Calcular el error cuadr´ atico medio (ECM) sobre el conjunto de datos de entrenamiento usando la BC obtenida (BD + BR). Hay que resaltar que el m´etodo de m´ınimos cuadrados obtiene la configuraci´on o´ ptima para minimizar el error sobre los datos de entrenamiento, lo que suele provocar un gran sobreaprendizaje (ECM sobre el conjunto de datos de prueba muy elevado). Para mejorar la capacidad de generalizaci´on del SBRD resultante, intentando evitar dicho sobreaprendizaje, penalizaremos los SBRDs con un n´umero de reglas (NR) excesivo. As´ı, la funci´on de evaluaci´on es: F = ω1 · ECM + ω2 · NR siendo ω1 y ω2 porcentajes de peso de cada componente (ω1 + ω2 = 1). Para los experimentos, hemos considerado ω2 = 0.75. D. Operadores gen´eticos El mecanismo de selecci´on empleado ha sido el Muestreo Universal Estoc´astico, propuesto por Baker en [2], incorporando una selecci´on elitista. En lo referente a los restantes operadores gen´eticos, se ha considerado la especial estructura de los cromosomas (con cuatro niveles de informaci´on distintos, pero algunos fuertemente relacionados), para obtener una definici´on adecuada que haga el mejor uso posible de la representaci´on escogida. Los operadores considerados son los siguientes: D.1 Cruce Utilizaremos dos operadores diferentes seg´un las caracter´ısticas de los dos cromosomas padre implicados en el cruce: • Cruce cuando los dos padres tienen igual n´ umero de etiquetas para cada variable: Si los dos cromosomas tienen los mismos valores en C1 (cada variable tiene el mismo n´umero de etiquetas en ambos padres), podemos suponer que la b´usqueda gen´etica ha localizado una zona prometedora del espacio que conviene explotar. Una buena elecci´on para esta tarea es el operador de cruce max-min-aritm´etico (MMA)[8] sobre los componentes del cromosoma con codificaci´on real, es decir, los par´ametros a (C3 ) y los universos de discurso de las variables de entrada (C4 ), manteniendo el valor de C1 en ambos descendientes. Si el par´ametro Si es el mismo en ambos cromosomas, e´ ste se mantiene en la descendencia, en caso de que sean diferentes, se prueban las dos combinaciones y se selecciona la mejor de ellas. Dicho cruce MMA funciona de la siguiente manera:
Si Cvt = (c1 , ..., ck , ..., cH ) y Cwt = (c′1 , ..., c′k , ..., c′H ) se van a cruzar, se generan los cuatro descendientes siguientes (con d ∈ [0, 1]): C1t+1 = dCwt + (1 − d)Cvt C2t+1 = dCvt + (1 − d)Cwt ′ C3t+1 con ct+1 3k = min{ck , ck } ′ C4t+1 con ct+1 4k = max{ck , ck }
De esos cuatro, se escogen los dos mejores para sustituir a los padres. Si el par´ametro Si es distinto en ambos cromosomas padre, se generaran ocho descendientes, los cuatro anteriores con S = 0 y los mismos con S = 1. • Cruce cuando los padres tienen distinto n´ umero de etiquetas en alguna variable: En este segundo caso, parece interesante utilizar la informaci´on contenida en ambos padres para explorar el espacio de b´usqueda y tratar de localizar nuevas zonas prometedoras. El funcionamiento del operador de cruce es sencillo, se selecciona aleatoriamente un punto de corte p (p ∈ {2, .., N}, siendo N el n´umero de variables), y se cruzan las cuatro partes C1 , C2 , C3 y C4 de los dos cromosomas de acuerdo al operador cl´asico de cruce. Una representaci´on gr´afica del funcionamiento de este cruce se muestra a continuaci´on (siendo Ri el dominio de la variable i): sean Ct = (E1 ,... ,E p ,E p+1 ,... ,EN ,S1 ,... ,S p ,S p+1 ,... ,SN ,
a1 ,... ,a p ,a p+1 ,... ,aN ,R1 ,... ,R p ,R p+1 ,... ,RN )
D.2 Mutaci´on Debido a la distinta naturaleza de los valores almacenados en las cuatro partes de los cromosomas, se utilizar´an tres operadores diferentes de mutaci´on, uno para los valores enteros (n´umero de etiquetas), otro para los valores reales (par´ametro de “sensibilidad” y universos de discurso) y otro para los par´ametros S: • Mutaci´ on en C1 : El operador de mutaci´on seleccionado es el propuesto por Thrift en [12]. Si el gen a mutar es de C1 , se aumenta o disminuye en una unidad su granularidad asociada (la decisi´on se toma aleatoriamente). Cuando el valor que se pretende cambiar es el m´ınimo (2) o el m´aximo (7), se realiza el u´ nico cambio posible. • Mutaci´ on en C3 y C4 : Como ambas partes del cromosoma emplean una codificaci´on real, utilizaremos el operador de mutaci´on no uniforme de Michalewicz [10]. Este operador implementa una b´usqueda uniforme en el espacio al principio de la ejecuci´on del AG y una muy localizada en las u´ ltimas generaciones.A continuaci´on, describimos su modo de trabajo: Dado un cromosoma de la poblaci´on P(t), Cvt = (c1 , ..., ck , ..., cH ), y uno de sus genes, ck , k ∈ 1, . . . , H, definido en [cki , ckd ], seleccionado para ser mutado, el cromosoma obtenido tras la mutaci´on presenta la forma Cvt+1 = (c1 , . . . , c′k , . . . , cH ), con ck + △(t, ckd − ck ), si p = 0 ′ ck = ck − △(t, ck − cki ), si p = 1 donde p es un n´umero aleatorio generado en {0, 1} y la funci´on △(t, y) devuelve un valor en el intervalo [0, y], de modo que la probabilidad de que △(t, y) sea cercana a 0 aumenta cuando lo hace el contador de generaciones t: t b
△(t, y) = y(1 − r(1− T ) ) ′
′
′
′
′
′
′
′
′
Ct = (E1 ,... ,E p ,E p+1 ,... ,EN ,S1 ,... ,S p ,S p+1 ,... ,SN ,
′
′
′
′
′
′
′
′
a1 ,... ,a p ,a p+1 ,... ,aN ,R1 ,... ,R p ,R p+1 ,... ,RN )
dos individuos que se van a cruzar en p, los dos descendientes resultantes son: ′
′
′
′
Ct = (E1 ,... ,E p ,E p+1 ,... ,EN ,S1 ,... ,S p ,S p+1 ,... ,SN , ′
′
′
′
a1 ,... ,a p ,a p+1 ,... ,aN ,R1 ,... ,R p ,R p+1 ,... ,RN )
′
′
′
′
′
Ct = (E1 ,... ,E p ,E p+1 ,... ,EN ,S1 ,... ,S p ,S p+1 ,... ,SN , ′
′
′
′
a1 ,... ,a p ,a p+1 ,... ,aN ,R1 ,... ,R p ,R p+1 ,... ,RN )
donde, a su vez, r es un n´umero aleatorio generado en [0, 1], T es el n´umero de generaciones durante las que se ejecutar´a el AG y b es un par´ametro escogido por el usuario que determina el grado de dependencia existente con respecto al n´umero de generaciones. Esta propiedad da lugar a que el operador lleve a cabo una b´usqueda uniforme en el espacio cuando t es peque˜na, es decir, en las primeras iteraciones, y una mucho m´as localizada en generaciones posteriores. • Mutaci´ on en C2 : En este caso, se utiliza el operador de mutaci´on binaria cl´asico ya que este par´ametro solo admite dos valores. IV. R ESULTADOS EXPERIMENTALES Para probar nuestro m´etodo hemos utilizado un problema real de modelado de la longitud de la l´ınea de baja tensi´on en n´ucleos rurales asturianos [4], que consiste en emplear un sistema de predicci´on que sea capaz de determinar la relaci´on existente entre la longitud de la l´ınea de baja tensi´on tendida en una poblaci´on (variable de salida) y otras caracter´ısticas de e´ sta, tales como su radio o el n´umero de usuarios que viven en ella, que ser´an nuestras dos variables de entrada. Para resolverlo, dispondremos de un conjunto de datos proporcionado por la
Hidroel´ectrica del Cant´abrico que contiene informaci´on sobre distintas caracter´ısticas de 495 n´ucleos rurales situados en la provincia de Asturias. Para los experimentos, se ha realizado una validaci´on cruzada con 5 particiones distintas. Es decir, el conjunto de datos se divide en 5 subconjuntos de igual tama˜no (aproximadamente) y el m´etodo es ejecutado 5 veces, dejando en cada una de ellas uno de esos subconjuntos como conjunto de datos de prueba y utilizando los otros cuatro como conjunto de datos de entrenamiento1. Para cada una de las cinco particiones de datos, se ha ejecutado el AG cuatro veces con diferentes valores para la semilla de inicio de la secuencia de n´umeros aleatorios. Los par´ametros del AG utilizados en los experimentos se muestran en la tabla I. TABLA I ´ ´ TICOS VALORES DE LOS PAR AMETROS GEN E
Par´ametro Tama˜no de la poblaci´on Probabilidad de cruce Probabilidad de mutaci´on Par´ametro b (Mutaci´on de Michalewicz) Par´ametro d (Cruce max-min-aritm´etico) N´umero de generaciones
Valor 81 0.6 0.1 0.5 0.35 30
Los resultados obtenidos por el m´etodo propuesto (etiquetado como AG+MC) se han comparado con otros mecanismos: • Uno de ellos utiliza un algoritmo simple de cubrimiento de ejemplos que trabaja con SBRDs de tipo Mamdani, el m´etodo de Wang y Mendel [13]. Posteriormente, se desechan los consecuentes y se utiliza una estrategia de evoluci´on E(µ,λ) para aprender los consecuentes de las reglas obtenidas. En este caso se han considerado, para todas las variables de entrada, particiones difusas uniformes con el mismo n´umero de etiquetas en todas ellas (5 etiquetas, al ser el valor con el que se ha obtenido los mejores resultados). A continuaci´on, se ajustan las particiones difusas mediante un AG como se describe en [3]. Este m´etodo est´a etiquetado en la tabla como WM-TSajuste. • El m´ etodo etiquetado como LEL-TSK, propuesto en [1], y que consta de dos etapas principales. En la primera de ellas se desarrolla un proceso local de identificaci´on de prototipos utilizando una Estrategia de Evoluci´on (1+1), mientras que la segunda es una etapa de postprocesamiento donde se utiliza un AG para seleccionar las reglas con mejor cooperaci´on y otro AG para un ajuste de las funciones de pertenencia que componen las particiones difusas de las variables de entrada. • el m´ etodo ANFIS, propuesto por Jang en [7], considerando funciones de pertenencia triangulares en lugar de las gaussianas del m´etodo original. Este m´etodo representa el sistema difuso con una estructura neuronal y se realiza en dos etapas. En la primera de ellas se 1 los conjuntos de datos utilizados se pueden obtener en http://decsai.ugr.es/∼casillas/FMLib/
mantienen fijos los antecedentes y se ajustan los consecuentes por m´ınimos cuadrados, mientras que en el segundo paso se mantienen fijos los consecuentes y se ajustan los antecedentes mediante gradiente descendente Los resultados se muestran en la tabla II. En cada columna aparecen los valores medios de las ejecuciones realizadas para cada una de las cinco particiones. Los cuatro valores que se presentan para cada m´etodo son: • #E: Media del n´ umero de etiquetas de cada variable de entrada. • #R: Media del n´ umero de reglas obtenidas en el modelo. • ECMentr : Error cuadr´ atico medio sobre el conjunto de datos de entrenamiento. • ECMtest : Error cuadr´ atico medio sobre el conjunto de datos de prueba. TABLA II R ESULTADOS OBTENIDOS
Method AG+MC WM-TSK-ajuste LEL-TSK ANFIS
#E 2.2 5 5 -
#R 3 12.4 32 19.6
ECMentr 166308 139915 127206 112942
ECMtest 205497 261397 206558 120732480
Como se puede observar en la tabla, el m´etodo propuesto obtiene buenos resultados en capacidad de generalizaci´on ya que apenas presenta sobreaprendizaje aunque eso suponga algo menos de precisi´on en el ECM sobre el conjunto de entrenamiento. Adem´as, el error sobre el conjunto de prueba mejora bastante al obtenido por ANFIS, que presenta mucho sobreaprendizaje al tratarse de un problema real complejo fuertemente no lineal. respecto a LEL-TSK, el error de prueba es s´olo ligermente mejor, pero nuestra propuesta obtiene dichos resultados con un modelo mucho m´as simple e interpretable (3 reglas de media frente a 32). El principal inconveniente del mecanismo propuesto es la dependencia del par´ametro ω2 , que acaba determinando, de forma indirecta, la complejidad del modelo (n´umero de etiquetas por partici´on y, por tanto, n´umero m´aximo de reglas), de forma que se puede optar por modelos m´as precisos reduciendo el valor de dicho par´ametro, y por tanto, la influencia del n´umero de reglas en la funci´on de evaluaci´on. Por otro lado, la optimizaci´on por m´ınimos cuadrados consume mucho tiempo y puede suponer una desventaja, especiamente en problemas complejos (con muchas variables). En cualquier caso, el m´etodo ha obtenido buenas soluciones con un reducido n´umero de generaciones. V. C ONCLUSIONES En este trabajo, se ha propuesto un m´etodo h´ıbrido para el aprendizaje de la BC de un SBRD TS. Dicho m´etodo ha obtenido unos buenos resultados, especialmente en capacidad de generalizaci´on y en simplicidad, obteniendo modelos interpretables (en la parte de los antecedentes, al tratarse de reglas TS) que obtienen parti-
ciones difusas “fuertes” para las variables de entrada que aparecen en dichos antecedentes. En trabajos futuros intentaremos eliminar la influencia del par´ametro ω2 , que obliga a realizar varias pruebas hasta obtener el balance precisi´on-simplicidad deseado. Para ello utilizaremos un AG multiobjetivo que considere los dos objetivos que aparecen en la funci´on de evaluaci´on (error cuadr´atico y n´umero de reglas) para obtener modelos con distinto balance en una u´ nica ejecuci´on del m´etodo. R EFERENCIAS [1]
[2] [3]
[4] [5]
[6]
[7] [8]
[9] [10] [11] [12] [13]
R. Alcal´a, J. Alcal´a-Fdez, J. Casillas, O. Cord´on, F. Herrera., Local identification of prototypes for genetic learning of accurate TSK fuzzy rule-based systems, International Journal of Intelligent Systems In press. Baker, J.E., Reducing bias and inefficiency in the selection algorithm, Proceedings of the Second International Conference on Genetic Algorithms (ICGA’87), Hillsdale, 1987, pp. 14-21. Cord´on, O., Herrera, F. A two stage evolutionary process for designing TSK fuzzy rule-based systems IEEE Transactions on Systems, Man, and Cybernetics. Part B. Cybernetics , volume 29:6, pages 703-715, 1999. Cord´on, O., Herrera, F., S´anchez, A., Solving electrical distribution problems using hybrid evolutionary data analysis techniques, Applied Intelligence 10, 1999, pp. 5-24. O. Cord´on, F. Herrera, L. Magdalena, P. Villar, A genetic learning process for the scaling factors, granularity and contexts of the fuzzy rule-based system data base, Information Sciences 136, 2001, pp. 85-107. O. Cord´on, F. Herrera, P. Villar, Analysis and guidelines to obtain a good uniform fuzzy partition granularity for fuzzy rule-based systems using simulated annealing, International Journal of Approximate Reasoning 25, 2000, pp. 187-215. J.R. Jang. ANFIS: Adaptative network-based fuzzy inference system. IEEE Transactions on Systems, Man, and Cybernetics , volume 23:3, pages 665-684, 1993. F. Herrera, M. Lozano and J.L. Verdegay, “Fuzzy connectives based crossover operators to model genetic algorihtms population diversity”, Fuzzy Sets and Systems, vol. 92, no. 1, pp. 21-30, 1997. L. Magdalena, Adapting the gain of an FLC with genetic algorithms, International Journal of Approximate Reasoning 17(4), 1997, pp. 327-349. Z. Michalewicz, Genetic Algorithms + Data Structures = Evolution Programs (Springer-Verlag, 1996). T. Takagi, M. Sugeno. Fuzzy identification of systems and its application to modeling and control. IEEE Transactions on Systems, Man, and Cybernetics , volume 15:1, pages 116-132, 1985. P. Thrift, Fuzzy logic synthesis with genetic algorithms. Proceedings of Fourth International Conference on Genetic Algorithms (ICGA’91), 1991, pp. 509-513. Wang, L.X., Mendel, J.M., Generating fuzzy rules by learning from examples, IEEE Transactions on Systems, Man, and Cybernetics 22, 1992, pp. 1414-1427.