Combinando Clustering con Aproximaci´on Espacial para B´usquedas ...

existen clusters de elementos y que además pueda hacer un mejor uso de la memoria disponible para mejorar las búsquedas. Palabras Claves: búsqueda por ...
228KB Größe 5 Downloads 30 vistas
Combinando Clustering con Aproximaci´on Espacial para B´usquedas en Espacios M´etricos * Marcelo Barroso 1

Gonzalo Navarro 2

Nora Reyes 1

Departamento de Inform´atica, Universidad Nacional de San Luis. 1 Departamento de Ciencias de la Computaci´on, Universidad de Chile. 2 [email protected]

[email protected]

[email protected]

Resumen El modelo de espacios m´etricos permite abstraer muchos de los problemas de b´usqueda por proximidad. La b´usqueda por proximidad tiene m´ultiples aplicaciones especialmente en el a´ rea de bases de datos multimedia. La idea es construir un ´ındice para la base de datos de manera tal de acelerar las consultas por proximidad o similitud. Aunque existen varios ´ındices prometedores, pocos de ellos son din´amicos, es decir, una vez creados muy pocos permiten realizar inserciones y eliminaciones de elementos a un costo razonable. ´ El Arbol de Aproximaci´on Espacial (dsa–tree) es un ´ındice recientemente propuesto, que ha demostrado tener buen desempe˜no en las b´usquedas y que adem´as es totalmente din´amico. En este trabajo nos proponemos obtener una nueva estructura de datos para b´usqueda en espacios m´etricos, basada en el dsa–tree, que mantenga sus virtudes y que aproveche que en muchos espacios existen clusters de elementos y que adem´as pueda hacer un mejor uso de la memoria disponible para mejorar las b´usquedas.

Palabras Claves: b´usqueda por similitud, espacios m´etricos, bases de datos y algoritmos.

1. Introducci´on y Motivaci´on Con la evoluci´on de las tecnolog´ıas de informaci´on y comunicaci´on, han surgido almacenamientos no estructurados de informaci´on. No s´olo se consultan nuevos tipos de datos tales como texto libre, im´agenes, audio y v´ıdeo; sino que adem´as, en algunos casos, ya no se puede estructurar m´as la informaci´on en claves y registros. A´un cuando sea posible una estructuraci´on cl´asica, nuevas aplicaciones tales como la miner´ıa de datos requieren acceder a la base de datos por cualquier campo y no s´olo por aquellos marcados como “claves”. Estos tipos de datos son dif´ıciles de estructurar para adecuarlos al concepto tradicional de b´usqueda. As´ı, han surgido aplicaciones en grandes bases de datos en las que se desea buscar objetos similares. Este tipo de b´usqueda se conoce con el nombre de b´usqueda aproximada o b´usqueda por similitud y tiene aplicaciones en un amplio n´umero de campos. Algunos ejemplos son bases de datos no tradicionales, b´usqueda de texto, recuperaci´on de informaci´on, aprendizaje de m´aquina y clasificaci´on; s´olo para nombrar unos pocos. Como en toda aplicaci´on que realiza b´usquedas, surge la necesidad de tener una respuesta r´apida y adecuada, y un uso eficiente de memoria, lo que hace necesaria la existencia de estructuras de datos especializadas que incluyan estos aspectos. El planteo general del problema es: existe un universo U de objetos y una funci´on de distancia positiva d: U × U → R + definida entre ellos. Esta funci´on de distancia satisface los tres axiomas que hacen que el conjunto sea un espacio m´etrico: positividad estricta (d(x, y) = 0 ⇔ x = y), simetr´ıa (d(x, y) = d(y, x)) y desigualdad triangular *

Este trabajo ha sido financiado parcialmente por el Proyecto RIBIDI CYTED VII.19 (todos los autores) y por el Centro del N´ucleo Milenio para Investigaci´on de la Web, Grant P04-067-F, Mideplan, Chile (´ultimo autor).

(d(x, z) ≤ d(x, y) + d(y, z)). Mientras m´as “similares” sean dos objetos menor ser´a la distancia entre ellos. Tenemos una base de datos finita S ⊆ U que puede ser preprocesada (v.g. para construir un ´ındice). Luego, dado un nuevo objeto del universo (un query q), debemos recuperar todos los elementos similares de que se encuentran en la base de datos. Existen dos consultas b´asicas de este tipo: ´ Busqueda por rango: recuperar todos los elementos de S a distancia r de un elemento q dado. ´ Busqueda de k vecinos m´as cercanos: dado q, recuperar los k elementos m´as cercanos a q en S. La distancia se considera costosa de evaluar (por ejemplo, comparar dos huellas dactilares). As´ı, es usual definir la complejidad de la b´usqueda como el n´umero de evaluaciones de distancia realizadas, dejando de lado otras componentes tales como tiempo de CPU para computaciones colaterales, y a´un tiempo de E/S. Dada una base de datos de |S| = n objetos el objetivo es estructurar la base de datos de forma tal de realizar menos de n evaluaciones de distancia (trivialmente n bastar´ıan). Un caso particular de este problema surge cuando el espacio es un conjunto de P D-dimensional p 1/p puntos y la funci´on de distancia pertenece a la familia Lp de Minkowski: Lp = ( 1≤i≤d |xi − yi | ) . Existen m´etodos efectivos para buscar sobre espacios D-dimensionales, tales como kd-trees [1] o R-trees [5]. Sin embargo, para 20 dimensiones o m´as esas estructuras dejan de trabajar bien. Nos dedicamos en este trabajo a espacios m´etricos generales, aunque las soluciones son tambi´en adecuadas para espacios D-dimensionales. Es interesante notar que el concepto de “dimensionalidad” se puede tambi´en traducir a espacios m´etricos: la caracter´ıstica t´ıpica en espacios de alta dimensi´on con distancias Lp es que la distribuci´on de probabilidad de las distancias tiene un histograma concentrado, haciendo as´ı que el trabajo realizado por cualquier algoritmo de b´usqueda por similaridad sea m´as dificultoso [2, 4]. Para espacios m´etricos generales existen numerosos m´etodos para preprocesar la base de datos con el fin de reducir el n´umero de evaluaciones de distancia [4]. Todas aquellas estructuras trabajan b´asicamente descartando elementos mediante la desigualdad triangular, y la mayor´ıa usa la t´ecnica dividir para conquistar. ´ El Arbol de Aproximaci´on Espacial Din´amico (dsa–tree) es una estructura de esta clase propuesta recientemente [7], basado sobre un nuevo concepto: m´as que dividir el espacio de b´usqueda, aproximarse al query espacialmente, y adem´as es completamente din´amica. El dinamismo completo no es com´un en estructuras de datos m´etricas [4]. Adem´as de ser desde el punto de vista algor´ıtmico interesante por s´ı mismo, se ha mostrado que el dsa–tree da un buen balance espacio-tiempo respecto de las otras estructuras existentes sobre espacios m´etricos de alta dimensi´on o consultas con baja selectividad, lo cual ocurre en muchas aplicaciones. A diferencia de algunas otras estructuras de datos m´etricas [3], el dsa–tree no saca mayor provecho si el espacio m´etrico posee clusters, ni puede mejorar las b´usquedas a costa de usar m´as memoria. Nos proponemos obtener un nuevo ´ındice para b´usqueda en espacios m´etricos, basado en el dsa– tree, que mantenga sus virtudes, pero que aproveche que en muchos espacios existen clusters de elementos y que adem´as haga un mejor uso de la memoria disponible para mejorar las b´usquedas.

´ 2. Arbol de Aproximaci´on Espacial Din´amico

Describiremos brevemente aqu´ı la aproximaci´on espacial y el dsa–tree, m´as detalles en [6, 7]. Se puede mostrar la idea general de la aproximaci´on espacial utilizando las b u´ squedas del vecino m´as cercano. En este modelo, dado q ∈ U y estando en alg´un elemento a ∈ S el objetivo es moverse a otro elemento de S m´as cercano “espacialmente” de q que a. Cuando no es posible realizar m´as este movimiento, estamos posicionados en el elemento m´as cercano a q de S. Las aproximaciones son efectuadas s´olo v´ıa los “vecinos”. Cada a ∈ S tiene un conjunto de vecinos N (a). Para construir incrementalmente al dsa–tree se fija una aridad m´axima para el a´ rbol y se mantiene informaci´on sobre el tiempo de inserci´on de cada elemento. Cada nodo a en el a´ rbol est´a conectado

con sus hijos, los cuales forman el conjunto N (a), los vecinos de a. Cuando se inserta un nuevo elemento x, se ubica su punto de inserci´on comenzando desde la ra´ız del a´ rbol a y realizando el siguiente proceso. Se agrega x a N (a) (como una nueva hoja) si (1) x est´a m´as cerca de a que de cualquier elemento b ∈ N (a), y (2) la aridad del nodo a, |N (a)|, no es ya la m´axima permitida. En otro caso, se fuerza a x a elegir el vecino m´as cercano en N (a) y se contin´ua bajando en el a´ rbol recursivamente, hasta que se alcance un nodo a tal que x est´e m´as cerca de a que de cualquier b ∈ N (a) y la aridad de a no haya alcanzado la m´axima permitida, lo que eventualmente ocurrir´a en una hoja del a´ rbol. En ese punto se agrega a x como el vecino m´as nuevo en N (a), se le coloca a x la marca del tiempo corriente y e´ ste se incrementa. En cada nodo a del a´ rbol se mantiene la siguiente informaci´on: el conjunto de vecinos N (a), el tiempo de inserci´on del nodo tiempo(a) y el radio de cobertura R(a) que es la distancia entre a y el elemento de su sub´arbol que est´a m´as lejos de a. La Figura 1 ilustra el proceso de inserci´on. Se sigue s´olo un camino desde la ra´ız del a´ rbol al padre del elemento insertado. La funci´on se invoca como Insertar(a,x), donde a es la ra´ız del a´ rbol y x es el elemento a insertar. El dsa–tree se puede construir comenzando con un u´ nico nodo a donde N (a) = ∅ y R(a) = 0, y luego realizando sucesivas inserciones. Insertar (Nodo a, Elemento x) 1. R(a) ← m´ax(R(a), d(a, x)) 2. c ← argminb∈N (a) d(b, x) 3. If d(a, x) < d(c, x) ∧ |N (a)| < M axArity Then 4. N (a) ← N (a) ∪ {x} 5. N (x) ← ∅, R(x) ← 0 6. tiempo(x) ← CurrentT ime 7. Else Insertar (c,x)

Figura 1: Inserci´on de un nuevo elemento x dentro del dsa–tree con ra´ız a. M axArity es la m´axima aridad del a´ rbol y CurrentT ime es el tiempo actual, que luego se incrementa en cada inserci´on. Notar que no podemos asegurar que un nuevo elemento x sea vecino del primer nodo a que satisfaga estar m´as cerca de a que de cualquier elemento b ∈ N (a). Es posible que la aridad de a fuera ya m´axima y x fuera forzado a elegir un vecino de a, lo cual tiene consecuencias en la b´usqueda. Se ha conseguido demostrar experimentalmente en [7], que el desempe˜no de la construcci´on mejora a medida que se reduce la aridad m´axima del a´ rbol, siendo mucho mejor que la construcci´on est´atica del a´ rbol de aproximaci´on espacial (sa–tree). Por lo que la aridad reducida es un factor clave para bajar los costos de construcci´on. La idea de la b´usqueda por rango es replicar el proceso de inserci´on de los elementos relevantes para la consulta. Es decir, se procede como si se quisiera insertar q pero considerando que los elementos relevantes pueden estar a distancia hasta r de q. As´ı, en cada decisi´on, al simular la inserci´on de q se permite una tolerancia de ±r; por lo tanto, puede ser que los elementos relevantes fueran insertados en diferentes hijos del nodo corriente, y sea necesario hacer backtracking. Durante las b´usquedas se debe considerar que cuando se insert´o un elemento x, un nodo a en su camino pudo no haberse elegido como padre porque su aridad ya era m´axima, como se indic´o previamente. Entonces, en la b´usqueda debemos seleccionar la m´ınima distancia s´olo entre N (a). Otro hecho importante a considerar es que, cuando se insert´o x los elementos con timestamp m´as alto no estaban presentes en el a´ rbol; as´ı, x pudo elegir su vecino m´as cercano s´olo entre los elementos m´as viejos que e´ l. En otras palabras, consideremos los vecinos {v 1 . . . vk } de a de m´as viejo a m´as nuevo, sin tener en cuenta a, entre la inserci´on de vi y la de vi+j pudieron aparecer nuevos elementos que eligieron a vi porque vi+j no estaba a´un presente; as´ı, estos elementos se deben tener en cuenta en la b´usqueda y no se deben descartar por la existencia de v i+j .

Las b´usquedas se optimizan usando la informaci´on almacenada sobre el tiempo de inserci´on y el radio de cobertura, dado que nos permiten podar cierta parte del a´ rbol. La Figura 2 muestra el algoritmo de b´usqueda, que se invoca inicialmente como B´usquedaporRango(a,q,r,CurrentT ime), donde a es la ra´ız del a´ rbol. Notar que d(a, q) siempre se conoce, excepto la primer invocaci´on. En las l´ıneas 1 y 6 se puede observar la optimizaci´on de la b´usqueda por medio del tiempo de inserci´on y el radio de cobertura, como se destac´o en el p´arrafo anterior. A pesar de la naturaleza cuadr´atica de la iteraci´on impl´ıcita en las l´ıneas 4 y 6, la query, desde luego, se compara s´olo una vez contra cada vecino. ´ BusquedaporRango (Nodo a, Query q, Radio r, Timestamp t) 1. If tiempo(a) < t ∧ d(a, q) ≤ R(a) + r Then 2. If d(a, q) ≤ r Then informar a 3. dmin ← ∞ 4. For bi ∈ N (a) en orden creciente de timestamp Do 5. If d(bi , q) ≤ dmin + 2r Then 6. k ← m´ın {j > i, d(bi , q) > d(bj , q) + 2r} 7. B´ usquedaporRango (bi ,q,r,tiempo(bk )) 8. dmin ← m´ın{dmin , d(bi , q)}

Figura 2: Consulta de q con radio r en un dsa–tree. Experimentalmente [7], se puede concluir que la mejor aridad para la b´usqueda depende del espacio m´etrico, pero la regla, grosso modo, es que aridades bajas son buenas para dimensiones bajas o radios de b´usqueda peque˜nos. Las eliminaciones son m´as complicadas porque los cambios a realizar en la estructura son m´as costosos, y no son localizados. Sin embargo, en [7, 8] se muestran distintas posibilidades de eliminaci´on. Podemos concluir que el dsa–tree es completamente din´amico, como ya hemos destacado, y adem´as respecto al sa–tree logra mejorar el costo de construcci´on. En algunos casos mejora el desempe˜no de las b´usquedas, mientras que en otras paga un peque˜no precio por su dinamismo. Por lo tanto, el dsa–tree se convierte en una estructura muy conveniente.

3. Nuestra Propuesta El dsa–tree es una estructura que realiza la partici´on del espacio considerando la proximidad espacial, pero si el a´ rbol lograra agrupar los elementos que se encuentran muy cercanos entre s´ı, lograr´ıa mejorar las b´usquedas al evitarse el recorrido del a´ rbol para alcanzarlos. As´ı, nos hemos planteado el estudio de una nueva estructura de datos que realice la aproximaci´on espacial sobre clusters o grupos de elementos, en lugar de elementos individuales. Podemos pensar entonces que construimos un dsa–tree, con la diferencia que cada nodo representa un grupo de elementos muy cercanos (“clusters”); y de este modo, logramos relacionar los clusters por su proximidad en el espacio. Por lo tanto, cada nodo de la estructura ser´ıa capaz de almacenar varios elementos de la base de datos. La idea ser´ıa que en cada nodo se mantenga un elemento, al que se toma como el centro del cluster correspondiente, y se almacenen los k elementos m´as cercanos a e´ l, cualquier elemento a mayor distancia del centro que los k elementos, pasar´ıa a formar parte de otro nodo en el a´ rbol, que podr´ıa ser un nuevo vecino en algunos casos. Al igual que en el dsa–tree para cada nodo n, se mantiene el radio de cobertura R(n), el conjunto de vecinos del nodo N (n), y el tiempo de inserci´on del nodo tiempo nodo(n). Como cada nodo representar´a un cluster, se mantendr´an el elemento que ser´a el centro del cluster centro(n),

los k elementos m´as cercanos al centro cluster(n), junto con las distancias entre los elementos del cluster y su centro. Dado que como se mantienen la distancias entre el centro del cluster centro(n) y sus elementos, conocemos el radio del cluster rc(n), es decir la distancia al elemento m´as alejado del centro. Durante las b´usquedas, se pueden utilizar ambos radios, R(n) y rc(n), para permitirnos descartar zonas completas del espacio. A continuaci´on daremos detalles de esta nueva estructura.

3.1. Inserci´on Para construir incrementalmente nuestra estructura de datos, mantenemos las consideraciones del dsa–tree, es decir que fijamos una aridad m´axima para el a´ rbol y almacenamos informaci´on del tiempo de inserci´on de cada nodo; pero adem´as, mantenemos el tiempo de inserci´on tiempo(a) para cada elemento a que se encuentra en el a´ rbol. Al intentar insertar un nuevo elemento en un nodo cuyo cluster ya tiene sus k elementos presentes, debemos decidir cu´ales son los k elementos m´as cercanos al centro que deber´ıan quedar en el cluster para mantener el m´ınimo volumen del mismo, esto nos permitir´a mejorar el desempe˜no de las b´usquedas. Entonces, para cada elemento en el cluster se podr´ıan almacenar las distancias al centro y mantener los elementos del cluster ordenados por esta distancia; evitando as´ı recalcular distancias para decidir qui´en queda y, por consiguiente, qui´en sale del cluster. Adem´as estas distancias juegan un rol importante en el proceso de b´usqueda. Debido a la aproximaci´on espacial, al insertar un nuevo elemento x, deber´ıamos bajar por el a´ rbol hasta encontrar el nodo n tal que x est´e m´as cerca de su centro a que de los centros de los nodos vecinos en N (n). Si en el cluster de ese nodo hay lugar para un elemento m´as, se lo insertar´ıa junto con su distancia d(x, a). Si no hay lugar, elegir´ıamos el elemento m´as distante b entre los k elementos del cluster y x, es decir el k + 1 en el orden de distancias con respecto al centro a. A continuaci´on deber´ıamos analizar dos casos posibles: Si b es x: x se deber´ıa agregar como centro de un nuevo nodo vecino de n, si la aridad de n lo permite; en otro caso, deber´ıa elegir el nodo cuyo centro, entre todos los nodos vecinos en N (n), es el m´as cercano y continuar el proceso de inserci´on desde all´ı. Si b es distinto de x: b deber´ıa elegir al centro m´as cercano c entre a y los centros de los nodos vecinos en N (n) que sean m´as nuevos que b, debido a que cuando b se insert´o no se tuvo que comparar con ellos. Luego, si c es a, el proceso que sigue es id´entico a lo realizado cuando b es x; en otro caso, si c no es a, se contin´ua con la inserci´on de b desde el nodo cuyo centro es c. La Figura 3 ilustra el proceso de inserci´on. La funci´on es invocada como InsertarCluster(a,x), donde a es la ra´ız del a´ rbol y x es el elemento a insertar. Como se puede observar, al igual que en el dsa–tree, s´olo seguimos un camino desde la ra´ız del a´ rbol hasta el cluster o el nodo padre, en caso de que sea un nuevo centro vecino, donde va a ser insertado el elemento. En la l´ınea 3 se decide si el elemento x cae en el cluster del correspondiente nodo a, en primer lugar x debe estar m´as cerca del centro de a que de los centros de sus vecinos, y posteriormente determinamos si hay lugar dentro del cluster o si su distancia determina que debe ir dentro de e´ l. Aqu´ı se pueden observar los dos casos posibles que analizamos previamente, siempre y cuando el cluster ya contenga sus k elementos. El primer caso corresponde con la rama del Else, l´ınea 11, de la condici´on que determina si el elemento debe pertenecer al cluster (l´ınea 3). Luego, se determina si al elemento se lo puede ubicar como el centro de un nuevo nodo vecino b, siempre y cuando la m´axima aridad lo permita; en caso contrario, la inserci´on va a continuar por el centro vecino m´as cercano. El segundo caso que analizamos, se corresponde la rama del Then (l´ınea 4) de la condici´on, donde el elemento se inserta en el cluster del nodo, pero el elemento m´as distante se reinsertar´a en el a´ rbol; l´ıneas 8, 9 y 10. Podemos observar

que cuando se inserta un nuevo elemento x en el cluster se almacena la distancia al centro d 0 (x) y su tiempo de inserci´on tiempo(x), lineas 5 y 6 respectivamente. Cabe destacar que cuando se reinserta un elemento y, por quedar afuera del cluster (l´ınea 10), e´ ste ya tendr´a su tiempo de inserci´on. Por lo tanto, este valor ser´a reutilizado en vez de asignarle uno nuevo. Adem´as el elemento y s´olo se compara con los centros vecinos m´as nuevo que e´ l en la l´ınea 2. InsertarCluster (Nodo a, Elemento x) 1. R(a) ← m´ax(R(a), d(centro(a), x)) // Sea rc(a) la distancia desde centro(a) al elemento m´ as alejado en cluster(a) 2. c ← argminb∈N (a) d(centro(b), x) 3. If (d(centro(a), x) < d(centro(c), x)) ∧ ((|cluster(a)| < k) ∨ (d(centro(a), x) < rc(a))) Then 4. cluster(a) ← cluster(a) ∪ {x} 5. d0 (x) ← d(centro(a), x) 6. tiempo(x) ← CurrentT ime 7. If (|cluster(a)| = k + 1) Then 8. y ← elemento en cl(a) con mayor d0 9. cluster(a) ← cluster(a) − {y} 10. InsertarCluster(a,y) 11. Else 12. If d(centro(a), x) < d(centro(c), x) ∧ |N (a)| < M axArity Then 13. N (a) ← N (a) ∪ {b} //b es el nuevo nodo vecino de a, con x como centro 14. centro(b) ← x 15. N (b) ← ∅, R(b) ← 0 16. cluster(b) ← ∅ 17. tiempo(x) ← CurrentT ime 18. tiempo nodo(b) ← CurrentT ime 19. Else 20. InsertarCluster (c,x)

Figura 3: Inserci´on de un nuevo elemento x en el a´ rbol con ra´ız a. M axArity es la m´axima aridad del a´ rbol, k la capacidad del cluster y CurrentT ime el tiempo actual. El a´ rbol se puede construir comenzando con un u´ nico primer nodo a, donde contiene el elemento centro centro(a), N (a) = ∅, R(a) = 0 y cluster(a) = ∅; y luego realizando sucesivas inserciones. Los siguientes k inserciones, desde el primer u´ nico nodo se tomar´an como los k objetos del cluster del nodo ra´ız y luego, al insertar el k + 2, reci´en se crear´a un nuevo nodo cuyo centro ser´a el elemento m´as distante del cluster del nodo ra´ız. Teniendo en cuenta la manera en que se realizan las inserciones, es posible observar que ninguna inserci´on modificar´ıa el centro de un cluster y adem´as que es posible que durante una inserci´on se cree a lo sumo un nuevo nodo y que e´ sta afecte posiblemente a varios nodos.

´ 3.2. Busquedas En la b´usqueda de un elemento q con radio r procedemos similarmente al dsa–tree, es decir realizando aproximaci´on espacial entre los centros de los nodos. Tambi´en consideramos los dos hechos importantes que influyen en el proceso de b´usqueda del dsa–tree. El hecho de que cuando insertamos (o reinsertamos) un elemento x, un nodo a pudo no haberse elegido como padre por que su aridad ya era m´axima; y que x pudo elegir su centro vecino m´as cercano s´olo entre los nodos m´as viejos que x. Adem´as de las consideraciones previamente mencionadas, al tener clusters en los nodos debemos verificar si hay o no intersecci´on entre la zona consultada y el cluster. M´as a´un, si no la hay

se pueden descartar todos los elementos del cluster sin necesidad de compararlos contra q. A trav´es del radio del cluster de un nodo a, rc(a), verificamos si existe dicha intersecci´on. Si el cluster no se pudo descartar para la consulta, usamos al centro de cada nodo como un pivote para los elementos xi que se encuentran en el cluster, ya que mantenemos las distancias d 0 (xi ) respecto del centro del nodo a. De esta manera es posible que, evitemos algunos c´alculos de distancia entre q y los x i , si |d(q, centro(a)) − d0 (xi )| > r. Es importante destacar que si la zona consultada cae completamente dentro de un cluster, podemos estar seguros que en ninguna otra parte del a´ rbol encontraremos elementos relevantes para esa consulta. La Figura 4 muestra el algoritmo de b´usqueda, que se invoca inicialmente como B´usquedaRangoCluster(a,q,r,CurrentT ime), donde a es la ra´ız del a´ rbol. En la l´ınea 3 del algoritmo, se determina si existe intersecci´on entre el cluster y la zona consultada, posteriormente en caso de que haya intersecci´on la l´ınea 7 determina si la b´usqueda debe continuar o no. BusquedaRangoCluster (Nodo a, Query q, Radio r, Timestamp t) 1. If tiempo nodo(a) < t ∧ d(centro(a), q) ≤ R(a) + r Then 2. If d(centro(a), q) ≤ r Then Informar a 3. If (d(centro(a), q) − r ≤ rc(a)) ∨ (d(centro(a), q) + r ≤ rc(a)) Then 4. For ci ∈ cluster(a) Do 5. If |(d(centro(a), q) − d0 (ci )| ≤ r Then 6. If (d(ci , q) ≤ r Then Informar ci 7. If d(centro(a), q) + r < rc(a) Then Terminar b´ usqueda 8. dmin ← ∞ 9. For bi ∈ N (a) en orden creciente de timestamp Do 10. If d(centro(bi ), q) ≤ dmin + 2r Then 11. k ← m´ın {j > i, d(centro(bi ), q) > d(centro(bj ), q) + 2r} 12. B´ usquedaRangoCluster (bi ,q,r,time(bk )) 13. dmin ← m´ın{dmin , d(centro(bi ), q)}

Figura 4: Consulta de q con radio r en nuestra nueva estructura.

4. Resultados Experimentales Para los experimentos hemos seleccionado dos espacios m´etricos diferentes. Im´agenes de la NASA: 40700 vectores de caracter´ısticas, en dimensi´on 20, generado de im´agenes descargadas de la NASA. Usamos la distancia Eucl´ıdea. http://www.dimacs.rutgers.edu/Challenges/Sixth/software.html. ´ Este es un espacio f´acil (el histograma de distancia no es tan concentrado). Palabras: un diccionario con 69069 palabras en ingl´es. La distancia es la distancia de edici o´ n, esto es, el m´ınimo n´umero de inserciones, eliminaciones o cambios de caracteres necesarios para que dos palabras sean iguales. Se usa en recuperaci´on de textos para manejar errores de ortograf´ıa, de escritura y reconocimiento o´ ptico de caracteres (OCR). Es de dificultad media baja. En ambos casos, construimos los ´ındices con el 90 % de los elementos y usamos el 10 % restante (seleccionado aleatoriamente) como consultas. Hemos considerado en las consulta por rango recuperar el 0.01 %, el 0.1 % y el 1 % de la base de datos, cuando la funci´on de distancia es continua. Esto quiere decir radios 0,605740, 0,780000 y 1,009000 para las im´agenes de la NASA. Como las palabras tienen una distancia discreta, entonces usamos radios de 1 a 4, el cual recupera el 0.00003 %, 0.00037 %, 0.00326 % y 0.01757 % de la base de datos, respectivamente. Las mismas consultas fueron usadas para todos los experimentos sobre la misma base de datos. Realizamos 10 ejecuciones de cada

Costo de Construccion para N=40700 vectores, dim. 20 y Aridad=2

Costo de Construccion para N=40700 vectores, dim. 20 y Aridad=4

600

600

300

200

100

Evaluacion de distancias (x 10000)

0

10

20

30 40 50 60 70 80 Porcentaje de la base de datos usada

90

300

200

100

10

20

30

40

50

60

70

80

90

500

400

200

100

10

20

30 40 50 60 70 80 Porcentaje de la base de datos usada

90

100

Costo de Construccion para N=40700 vectores, dim. 20 y Aridad=16 600 Estatico Dinamico K=10 500 K=50 K=100 K=150 K=200 400

300

200

100

0

100

Estatico Dinamico K=10 K=50 K=100 K=150 K=200

300

0

100

Costo de Construccion para N=40700 vectores, dim. 20 y Aridad=8 600 Estatico Dinamico K=10 500 K=50 K=100 K=150 K=200 400

0

10

20

30

40

50

60

70

80

90

100

Porcentaje de la base de datos usada

Porcentaje de la base de datos usada

Costo de Construccion para N=40700 vectores, dim. 20 y Aridad=32

Costo de Construccion para N=40700 vectores, dim. 20 y sin limite de Aridad

600 Evaluacion de distancias (x 10000)

Evaluacion de distancias (x 10000)

400

Evaluacion de distancias (x 10000)

500

Estatico Dinamico K=10 K=50 K=100 K=150 K=200

500

400

600

Estatico Dinamico K=10 K=50 K=100 K=150 K=200

Evaluacion de distancias (x 10000)

Evaluacion de distancias (x 10000)

experimento sobre permutaciones distintas de la base de datos; por lo tanto, los resultados exhibidos corresponden a los valores medios obtenidos. Como existen algoritmos de rango o´ ptimos para las b´usquedas de los k-vecinos m´as cercanos, no hemos realizado experimentos para esta clase de b´usquedas separadamente. Algunos de los experimentos que hemos realizado comparan el costo de construcci´on incremental de esta estructura contra el dsa–tree y el sa–tree para conjuntos crecientes de la base de datos. Experimentamos con los tama˜nos de cluster 10, 50, 100, 150 y 200, y con las aridades 2, 4, 8, 16, 32 y sin l´ımite de aridad. De los resultados obtenidos podemos deducir principalmente que la aridad reducida es un factor clave para bajar los costos de construcci´on como ocurr´ıa con el dsa–tree, pero adem´as el tama˜no del cluster es tambi´en un factor importante para el costo de construcci´on, ya que a medida que el cluster crece los costos decrecen significativamente. En la Figura 5 se muestran los costos de construcci´on para el espacio de vectores de im´agenes de la NASA, comparando el comportamiento de los distintos tama˜nos de cluster para cada aridad. En la Figura 6 se muestran los costos de construcci´on para el espacio de palabras, comparando tambi´en el comportamiento de los distintos tama˜nos de cluster para cada aridad.

300

200

100

0

10

20

30 40 50 60 70 80 Porcentaje de la base de datos usada

90

100

500

Estatico K=10 K=50 K=100 K=150 K=200

400

300

200

100

0

10

20

30 40 50 60 70 80 Porcentaje de la base de datos usada

90

100

Figura 5: Costos de construcci´on para el espacio de vectores de im´agenes de la NASA, utilizando distintas aridades y comparando los distintos tama˜nos de cluster.

700 600

Estatico Dinamico K=10 K=50 K=100 K=150 K=200

500 400 300 200 100 0

10

20

Costo de Construccion para N=69069 palabras y Aridad=4 Evaluacion de distancias (x 10000)

Evaluacion de distancias (x 10000)

Costo de Construccion para N=69069 palabras y Aridad=2 800

30 40 50 60 70 80 Porcentaje de la base de datos usada

90

800 700 600 500 400 300 200 100 0

100

800 700 600 500 400 300 200 100 0

10

20

30 40 50 60 70 80 Porcentaje de la base de datos usada

90

600 500 400 300 200 100 0

10

20

30 40 50 60 70 80 Porcentaje de la base de datos usada

90

100

20

30 40 50 60 70 80 Porcentaje de la base de datos usada

90

100

700 600

Estatico Dinamico K=10 K=50 K=100 K=150 K=200

500 400 300 200 100

10

20

30 40 50 60 70 80 Porcentaje de la base de datos usada

90

100

Costo de Construccion para N=69069 palabras y sin limite de Aridad Evaluacion de distancias (x 10000)

Evaluacion de distancias (x 10000)

700

Estatico Dinamico K=10 K=50 K=100 K=150 K=200

800

0

100

Costo de Construccion para N=69069 palabras y Aridad=32 800

10

Costo de Construccion para N=69069 palabras y Aridad=16 Evaluacion de distancias (x 10000)

Evaluacion de distancias (x 10000)

Costo de Construccion para N=69069 palabras y Aridad=8 Estatico Dinamico K=10 K=50 K=100 K=150 K=200

Estatico Dinamico K=10 K=50 K=100 K=150 K=200

800 700 600

Estatico K=10 K=50 K=100 K=150 K=200

500 400 300 200 100 0

10

20

30 40 50 60 70 80 Porcentaje de la base de datos usada

90

100

Figura 6: Costos de construcci´on para el espacio de palabras, utilizando distintas aridades y comparando los distintos tama˜nos de cluster. En las Figuras 7 y 8 se muestran los costos promedios de b´usqueda de un elemento para el espacio de vectores de im´agenes de la NASA. La Figura 7 compara el comportamiento de los distintos tama˜nos de cluster para cada aridad. Como puede observarse en este espacio para todas las aridades e incluso no limitando la aridad, el mejor tama˜no de cluster para las b´usquedas es k = 10. As´ı, en Figura 8 mostramos la comparaci´on usando k = 10, para las distintas aridades (a la izquierda). Claramente la mejor aridad para todos los radios de b´usqueda considerados es 8. A la derecha de Figura 8 comparamos nuestra estructura con sus mejores par´ametros contra el dsa–tree para todas las aridades. Es destacable que hemos obtenido un mejor desempe˜no en las b´usquedas que el dsa–tree y el sa–tree. En las Figuras 9 y 10 se muestran los costos promedios de b´usqueda de un elemento para el diccionario. La Figura 9 compara los distintos tama˜nos de cluster para cada aridad y la Figura 10 muestra los mismos resultados con los mejores tama˜nos de cluster observados, es decir para k = 10 y k = 50. En aridades altas mejora el comportamiento usando k = 50 para radios peque˜nos. Si usamos k = 10 mejoran las b´usquedas en aridades bajas para todos los radios y en aridades altas para radios grandes. En este espacio tambi´en los mejores par´ametros para las b´usquedas parecen ser k = 10 con aridad ilimitada, o con aridad 32, porque se comportan mejor que k = 50 para los radios 1, 2 y 3. Podemos observar que hemos logrado mejorar el desempe˜no de la b´usqueda del sa–tree en el diccionario, donde el dsa–tree no lo lograba [7]. La aridad 32 e ilimitada son las que obtienen mejor

Costo de Consulta por elemento para N=40700 vectores, dim. 20 y Aridad=2

Evaluacion de distancias

11000 10000

Costo de Consulta por elemento para N=40700 vectores, dim. 20 y Aridad=4 12000

Estatico Dinamico K=10 K=50 K=100 K=150 K=200

11000 Evaluacion de distancias

12000

9000 8000 7000 6000 5000 0.01

0.1 Porcentaje de la base de datos recuperada

10000

7000 6000

10000

9000 8000 7000 6000

11000

8000 7000 6000

0.1 Porcentaje de la base de datos recuperada

10000

12000

9000

5000 0.01

1

0.1 Porcentaje de la base de datos recuperada

1

Costo de Consulta por Elemento para N=40700 vectores, dim. 20 y Sin Limite de Aridad

Estatico Dinamico K=10 K=50 K=100 K=150 K=200

Evaluacion de distancias

Evaluacion de distancias

11000

0.1 Porcentaje de la base de datos recuperada

Estatico Dinamico K=10 K=50 K=100 K=150 K=200

5000 0.01

1

Costo de Consulta por elemento para N=40700 vectores, dim. 20 y Aridad=32 12000

6000

11000

8000

0.1 Porcentaje de la base de datos recuperada

7000

12000

9000

5000 0.01

8000

Costo de Consulta por elemento para N=40700 vectores, dim. 20 y Aridad=16

Estatico Dinamico K=10 K=50 K=100 K=150 K=200

Evaluacion de distancias

Evaluacion de distancias

11000

9000

5000 0.01

1

Costo de Consulta por elemento para N=40700 vectores, dim. 20 y Aridad=8 12000

10000

Estatico Dinamico K=10 K=50 K=100 K=150 K=200

1

10000

Estatico K=10 K=50 K=100 K=150 K=200

9000 8000 7000 6000 5000 0.01

0.1 Porcentaje de la base de datos usada

1

Figura 7: Costos de b´usqueda para el espacio de vectores de im´agenes de la NASA, utilizando distintas aridades y comparando los distintos tama˜nos de cluster. desempe˜no superando ampliamente al sa–tree y al dsa–tree.

5. Conclusiones y Trabajo Futuro Hemos presentado una nueva estructura para b´usqueda en espacios m´etricos que permitiendo agrupar los elementos de la base de datos y manteniendo el dinamismo del dsa–tree, logra reducir significativamente los costos de b´usqueda. Adem´as hemos mejorado tambi´en el costo de construcci´on. Para los costos de construcci´on el tama˜no del cluster juega un rol importante, mientras mayor sea el cluster menor ser´a el costo. La aridad reducida tambi´en es un factor clave para reducir el costo de construcci´on. La situaci´on para las b´usquedas es distinta, el tama˜no de cluster y la aridad dependen del espacio m´etrico en particular. Aunque el tama˜no de cluster para obtener un mejor desempe˜no en las b´usquedas dependa del espacio, si comparamos con el sa–tree y dsa–tree, podemos asegurar que independientemente del tama˜no del cluster elegido lograremos reducir o mantener el costo de construcci´on. Entre los temas que pretendemos analizar a futuro, podemos citar la siguientes: Experimentar con otros espacios m´etricos y analizar los resultados obtenidos. Analizar y experimentar con las distintas t´ecnicas de eliminaci´on existentes para el a´ rbol de aproximaci´on espacial.

Costo de Consulta por Elemento para N=40700 vectores, dim. 20 y K=10

Evaluacion de distancias

11000 10000

Costo de Consulta por Elemento para N=40700 vectores, dim. 20 12000

Estatico sin limite de aridad Aridad 2 Aridad 4 Aridad 8 Aridad 16 Aridad 32

11000 Evaluacion de distancias

12000

9000 8000 7000 6000

10000

Aridad 8- k=10 Aridad 2 Aridad 4 Aridad 8 Aridad 16 Aridad 32

9000 8000 7000 6000

5000 0.01

0.1 Porcentaje de la base de datos recuperada

1

5000 0.01

0.1 Porcentaje de la base de datos recuperada

1

Figura 8: Costos de b´usqueda para el espacio de vectores de im´agenes de la NASA, utilizando tama˜no de cluster k = 10. Dado que los nodos tienen tama˜no fijo, esta estructura parecer´ıa adecuada para memoria secundaria. Pero, ¿ser´ıa realmente eficiente en memoria secundaria? ¿Es posible mantener el cluster separado del nodo, y permitir que en cada nodo se almacene el centro, con su informaci´on asociada y los centros vecinos? ¿Ser´ıa una mejor opci´on para memoria secundaria? ¿Ser´ıa m´as adecuado mantener los clusters con cantidad fija de elementos o con radio fijo? ¿Existen otras maneras de combinar t´ecnicas de clustering con aproximaci´on espacial para b´usquedas en espacios m´etricos?

Referencias [1] J. Bentley. Multidimensional binary search trees in database applications. IEEE Trans. on Software Engineering, 5(4):333–340, 1979. [2] S. Brin. Near neighbor search in large metric spaces. In Proc. 21st Conference on Very Large Databases (VLDB’95), pages 574–584, 1995. [3] E. Ch´avez and G. Navarro. A compact space decomposition for effective metric indexing. Pattern Recognition Letters. To appear. [4] E. Ch´avez, G. Navarro, R. Baeza-Yates, and J. Marroqu´ın. Searching in metric spaces. ACM Computing Surveys, 33(3):273–321, September 2001. [5] A. Guttman. R-trees: a dynamic index structure for spatial searching. In Proc. ACM SIGMOD International Conference on Management of Data, pages 47–57, 1984. [6] G. Navarro. Searching in metric spaces by spatial approximation. The Very Large Databases Journal (VLDBJ), 11(1):28–46, 2002. [7] G. Navarro and N. Reyes. Fully dynamic spatial approximation trees. In Proceedings of the 9th International Symposium on String Processing and Information Retrieval (SPIRE 2002), LNCS 2476, pages 254–270. Springer, 2002. [8] G. Navarro and N. Reyes. Improved deletions in dynamic spatial approximation trees. In Proc. of the XXIII International Conference of the Chilean Computer Science Society (SCCC’03), pages 13–22. IEEE CS Press, 2003.

30000 25000 20000 15000

Evaluacion de distancias

Evaluacion de distancias

Costo de consulta por elemento para N=69069 palabras y Aridad=2 50000 Estatico Dinamico 45000 K=10 K=50 K=100 40000 K=150 K=200 35000

10000 5000

Costo de consulta por elemento para N=69069 palabras y Aridad=4 50000 Estatico Dinamico 45000 K=10 K=50 K=100 40000 K=150 K=200 35000 30000 25000 20000 15000 10000

1

2

3

5000

4

1

2

Radio de Busqueda Costo de consulta por elemento para N=69069 palabras y Aridad=8

Evaluacion de distancias

45000 40000 35000

25000 20000 15000 10000 1

2 3 Radio de Busqueda

40000 35000

30000 25000 20000 15000

1

20000 15000

4

Estatico K=10 K=50 K=100 K=150 K=200

45000

25000

2 3 Radio de Busqueda

Costo de consulta por elemento para N=69069 palabras y sin limite de aridad 50000

Estatico Dinamico K=10 K=50 K=100 K=150 K=200

30000

10000 5000

35000

5000

4

Evaluacion de distancias

Evaluacion de distancias

45000

40000

10000

Costo de consulta por elemento para N=69069 palabras y Aridad=32 50000

Estatico Dinamico K=10 K=50 K=100 K=150 K=200

45000

30000

5000

4

Costo de consulta por elemento para N=69069 palabras y Aridad=16 50000

Estatico Dinamico K=10 K=50 K=100 K=150 K=200

Evaluacion de distancias

50000

3

Radio de Busqueda

40000 35000 30000 25000 20000 15000 10000

1

2 3 Radio de Busqueda

5000

4

1

2 3 Radio de Busqueda

4

Costo de Consulta por elemento para N=69069 palabras y K=10 50000 Estatico sin limite de aridad 45000 Aridad 2 Aridad 4 Aridad 8 40000 Aridad 16 Aridad 32 35000 30000 25000 20000 15000 10000 5000

Evaluacion de distancias

Evaluacion de distancias

Figura 9: Costos de b´usqueda para el espacio de palabras, utilizando distintas aridades y comparando los distintos tama˜nos de cluster.

Costo de Consulta por elemento para N=69069 palabras y K=50 50000 Estatico sin limite de aridad 45000 Aridad 2 Aridad 4 Aridad 8 40000 Aridad 16 Aridad 32 35000 30000 25000 20000 15000 10000

1

2 Radio de Busqueda

3

4

5000

1

2

3

4

Radio de Busqueda

Figura 10: Costos de b´usqueda para el espacio de palabras, utilizando tama˜nos de cluster de k = 10 y k = 50, comparando las distintas aridades.