Recuperación de información geográfica basada ... - Semantic Scholar

desarrollado y evaluado un sistema de recuperación de información ... El sistema desarrollado es modular, lo que permite la integración de otros módulos o.
545KB Größe 8 Downloads 121 vistas
Procesamiento del Lenguaje Natural, Revista nº 46 marzo de 2011, pp 131-132

recibido 17-01-11 revisado 15-02-11 aceptado 24-02-11

Recuperaci´ on de informaci´ on geogr´ afica basada en m´ ultiples formulaciones y motores de b´ usqueda Geographic Information Retrieval based on multiple formulations and search engines Jos´ e Manuel Perea Ortega Departamento de Inform´atica, Escuela Polit´ecnica Superior Universidad de Ja´en, E-23071 - Ja´en [email protected] Resumen: Este trabajo est´a relacionado con el ´area de la Recuperaci´on de Informaci´on Geogr´afica (Geographical Information Retrieval, GIR). En ´el se ha dise˜ nado, desarrollado y evaluado un sistema de recuperaci´on de informaci´on geogr´afica, aplicando para ello diferentes t´ecnicas de Procesamiento del Lenguaje Natural (PLN), recursos de conocimiento geogr´afico y herramientas de recuperaci´on de informaci´on. El sistema desarrollado es modular, lo que permite la integraci´on de otros m´odulos o recursos de conocimiento. La principal novedad del sistema consiste en utilizar una arquitectura basada en la creaci´on de diferentes subconsultas a partir de la consulta original y tambi´en en la aplicaci´on de varias herramientas de recuperaci´on y t´ecnicas de fusi´on de resultados, consiguiendo con ello mejoras en la variabilidad y en la cobertura de los documentos recuperados. Palabras clave: Recuperaci´on de informaci´on geogr´afica, reformulaci´on de consulta, recuperaci´on de informaci´on, procesamiento del lenguaje natural Abstract: This work is related to the area of Geographic Information Retrieval (GIR). In this work, a GIR system has been designed, developed and evaluated, applying different techniques of Natural Language Processing (NLP), several information retrieval engines and using external geographic knowledge resources. The developed system is modular, allowing the integration of other modules or knowledge resources. The main novelty of the system is to use an architecture based on creation of different subqueries from the original query, the use of three textual information retrieval tools and different fusion techniques of document lists, achieving improvements in variability and coverage of the documents retrieved. Keywords: Geographic Information Retrieval, Query Reformulation, Information Retrieval, Natural Language Processing

1.

Introducci´ on

Hoy d´ıa la informaci´on geogr´afica es almacenada en una amplia variedad de medios y tipos de documentos. En las u ´ltimas d´ecadas, la tecnolog´ıa utilizada para acceder a este tipo de informaci´on se ha centrado en la combinaci´on de mapas digitales y bases de datos, que es lo que caracteriza a la mayor´ıa de los sistemas de informaci´on geogr´afica. S´olo en los u ´ltimos a˜ nos se ha prestado especial atenci´on en desarrollar sistemas autom´aticos que traten espec´ıficamente de recuperar esa informaci´on geogr´afica presente, por ejemplo, en el recurso inmenso de documentos no estructurados que componen la ISSN 1135-5948

web (Larson, 1996; Purves et al., 2007). Actualmente, la aplicaci´on de m´etodos usuales de recuperaci´on de informaci´on en la tarea GIR es satisfactoria para algunas consultas geogr´aficas, pero con bastantes limitaciones. La tarea GIR est´a relacionada con la mejora en la calidad de la informaci´on geogr´afica recuperada por un motor de b´ usqueda, es decir, su objetivo es mejorar la recuperaci´on de informaci´on utilizando alg´ un tipo de razonamiento geogr´afico tanto en las consultas como en los documentos (Jones y Purves, 2008). En esta memoria se ha desarrollado un prototipo de sistema GIR basado en la integraci´on de varios motores de recuperaci´on de informa-

© 2011 Sociedad Española para el Procesamiento del Lenguaje Natural

José Manuel Perea Ortega

propuesto ha sido mantener la cobertura alcanzada por el uso de los diferentes motores RI, provocando el m´ınimo impacto en el valor MAP de la lista fusi´on generada como resultado final. Funci´ on de reordenaci´ on basada en la relevancia l´ exica, sem´ antica y geogr´ afica entre consulta y documento. Se ha propuesto una funci´on de reordenaci´on por relevancia de los documentos recuperados por cada motor RI y que han sido fusionados en una u ´nica lista. Esta funci´on de reranking est´a basada en el c´alculo de tres similitudes entre documento y consulta: l´exica, sem´antica y geogr´afica.

ci´ on y la formulaci´on de diferentes subconsultas a partir de la consulta original. Esta arquitectura ha sido evaluada utilizando el foro de evaluaci´on GeoCLEF.

2.

Principales aportaciones

A continuaci´on se exponen las principales contribuciones de este trabajo: Dise˜ no y desarrollo de un prototipo de sistema GIR modular . Se ha demostrado que los resultados obtenidos con este prototipo utilizando el marco de evaluaci´on GeoCLEF han superado, en valor promedio de precisi´on y cobertura, los mejores resultados alcanzados en tres de las cuatro ediciones. Dise˜ no y desarrollo de una herramienta para la detecci´ on y reconocimiento de entidades geogr´ aficas (Geo-NER). Esta herramienta est´a basada en la utilizaci´on de recursos externos como GeoNames y Wikipedia, aplicando cierto razonamiento geogr´afico para detectar las geo-entidades, utilizando patrones sint´acticos y caracter´ısticas geogr´aficas. Para su evaluaci´on se han utilizado las consultas geogr´aficas de GeoCLEF, demostrando que Geo-NER consigue mejorar de forma significativa la precisi´on y la cobertura obtenidas con otras herramientas NER como LingPipe o GATE, en porcentajes que var´ıan entre el 18 % y el 40 %. T´ ecnicas de reformulaci´ on de consulta orientadas a consultas geogr´ aficas. Se ha demostrado la efectividad que supone utilizar estas subconsultas en el sistema GIR propuesto, ya que han permitido recuperar documentos que no se consegu´ıan recuperar con la consulta original. Estudio y evaluaci´ on del comportamiento de diferentes herramientas RI para la tarea GIR. Se ha evaluado el comportamiento en el sistema propuesto de tres de las herramientas RI m´as utilizadas en la actualidad, como son Terrier, Lemur y Lucene. Estudio y evaluaci´ on de varios algoritmos de fusi´ on de listas de documentos, aportando una estrategia basada en normalizaci´ on RSV que consigue los mejores resultados. Se han evaluado diferentes algoritmos tradicionales de fusi´on de listas, tales como normalizaci´on RSV, RoundRobin, CombSum o CombMNZ. El objetivo principal de la fusi´on en el sistema

3.

Informaci´ on adicional

Tesis doctoral en Inform´atica realizada en la Universidad de Ja´en por Jos´e Manuel Perea Ortega, bajo la direcci´on de los doctores L. Alfonso Ure˜ na L´opez y Manuel Garc´ıa Vega. La defensa tuvo lugar el d´ıa 13 de septiembre de 2010 ante un tribunal formado por los catedr´aticos Manuel Palomar Sanz (Univ. de Alicante) y Francisco Javier Ariza L´opez (Univ. de Ja´en), as´ı como por los doctores Mar´ıa Teresa Mart´ın Valdivia (Univ. de Ja´en), Jos´e Antonio Troyano Jim´enez y V´ıctor Jes´ us D´ıaz Madrigal (Univ. de Sevilla). La calificaci´on obtenida fue Sobresaliente Cum Laude por unanimidad.

Bibliograf´ıa Jones, Christopher B. y Ross S. Purves. 2008. Geographical information retrieval. International Journal of Geographical Information Science, 22(3):219–228. Larson, R. 1996. Geographic information retrieval and spatial browsing. En Smith y M. Gluck, editores, Geographic Information Systems and Libraries: Patrons, Maps and Spatial Information, p´aginas 81–124. Purves, Ross S., Paul Clough, Christopher B. Jones, Avi T. Arampatzis, Benedicte Bucher, David Finch, Gaihua Fu, Hideo Joho, Awase Khirni Syed, Subodh Vaid, y Bisheng Yang. 2007. The design and implementation of SPIRIT: a spatially aware search engine for information retrieval on the Internet. International Journal of Geographical Information Science, 21(7):717–745.

132