Acercamiento a un modelo de recuperaci´ on de informaci´ on geogr´ afica basado en t´ ecnicas de exploraci´ on y descripci´ on sem´ antica de datos geoespaciales Manuel E. Puebla-Mart´ınez1 , Jos´e M. Perea-Ortega2 , Alfredo Sim´on-Cuevas3 1
2
3
Universidad de las Ciencias Inform´ aticas. Carretera a San Antonio de los Baos, Km. 2 1/2. Torrens, La Lisa. La Habana, Cuba
[email protected] European Commission, Joint Research Centre (JRC) Institute for the Protection and Security of the Citizen (IPSC), Ispra, Italy.
[email protected] Instituto Superior Polit´ecnico Jos´e Antonio Echeverr´ıa. Calle 114, No. 11901. e/ Ciclov´ıa y Rotonda, Marianao, La Habana, Cuba. CP 19390
[email protected]
Resumen Este art´ıculo realiza una actualizaci´ on del estado del arte sobre el modelo de Recuperaci´ on de Informaci´ on (RI) basado en browsing, en particular su utilizaci´ on en la Recuperaci´ on de la Informaci´ on Geogr´ afica (RIG) donde se le conoce como geobrowsing o browsing espacial. De la misma forma, se indagar´ a en el aprovechamiento de la sem´ antica de los datos geoespaciales en los modelos de RI. Finalmente, se expone una primera aproximaci´ on a una propuesta de modelo para la RIG basado en la estrategia del browsing y en la descripci´ on sem´ antica de los datos geoespacial. El modelo propuesto posee como base fundamental de conocimiento a una ontolog´ıa del dominio geogr´ afico o geontolog´ıa, la misma ser´ a enriquecida por mecanismos semiautom´ aticos y transformada en una geontolog´ıa de aplicaci´ on con el objetivo de modelar el conocimiento de una zona geogr´ afica en particular. Palabras Claves: Recuperaci´ on de Informaci´ on Geogr´ afica, Browsing o exploraci´ on, Sem´ antica Espacial, y Ontolog´ıa Abstract This paper presents a survey on the current state of art of Information Retrieval models based on browsing and, specifically, on those used for Geographical Information Retrieval. The use of semantics from geospatial data applied to Information Retrieval models is also studied. This area is known by the research community as geo-browsing or spatial browsing. Moreover, this paper proposes a preliminary approach based on spatial browsing and semantic descriptions from spatial data to address the Geographical Information Retrieval task. This approach makes use of a specific ontology as geographic knowledge base which will be enriched semi-automatically. Then, it will be transformed into a geo-ontology application in order to model the knowledge of a particular
73 geographic area. Keywords: Geographical Information Retrieval, Browsing, Spatial Semantic, Ontology
1.
Introducci´ on
El concepto de informaci´on espacial (o de informaci´on geogr´afica, o georreferenciada o geodatos, t´erminos pr´acticamente sin´onimos) es en la actualidad suficientemente conocido. Nos referimos con ´el a la informaci´on de todo tipo relativa a entes o eventos en la que se incluye la referencia a la localizaci´on de la misma sobre, o en las inmediaciones de la superficie de la Tierra. La referencia a la posici´ on que ocupan dichos entes o donde suceden tales eventos puede adoptar distintas formas, como puedan ser las coordenadas geogr´aficas (latitud y longitud), cartesianas en alg´ un sistema de referencia cartogr´afico o, simplemente, una direcci´ on postal que permita ubicar dicha posici´on en el espacio de forma inequ´ıvoca [1]. En el pasado, intercambiar la IG era tan simple como enviar mapas de papel o datos, a trav´es del correo [2]. En la actualidad debido al enorme volumen de datos geoespaciales existentes, se ha hecho imprescindible el surgimiento de t´ecnicas de RIG como mecanismos que permiten el acceso oportuno y preciso a dicha informaci´ on. Por otra parte, como respuesta a la necesidad compartir el enorme volumen de datos geoespaciales por el mayor n´ umero de usuarios, se ha incrementado el uso de los Sistemas de Informaci´on Geogr´afica (SIG), como una herramienta integradora que permiten el almacenamiento eficiente, la recuperaci´ on y la visualizaci´on de informaci´on geogr´afica. En la actualidad existe abundante literatura escrita sobre los diferentes modelos de RI, algunos de las cuales han sido utilizados en la RIG. No obstante, la investigaci´ on en t´ecnicas de RI ha abordado esta problem´atica dividi´endola para su estudio en dos grandes estrategias: la interrogaci´on o querying y la exploraci´ on o browsing [3]. Los modelos de RI basados en querying, se sustentan en una pregunta que debe ser formulada por el usuario final del sistema de RI. Para formular la interrogante el usuario debe dominar el lenguaje de consulta y estar consciente de lo que realmente necesita para poder generar una pregunta asequible al sistema. Es interesante analizar el caso particular en el que el lenguaje de consulta fuese el Lenguaje Natural (LN). En este caso estar´ıa solucionado el inconveniente relacionado con el dominio del lenguaje de consulta. Sin embargo, a pesar de que el LN brinda grandes posibilidades para describir la consulta, puede ser impreciso y ambiguo su procesamiento desde el punto de vista computacional. La complejidad inherente a este procesamiento y la precisi´on de los resultados dependen en gran medida de la habilidad y experiencia del usuario que construye la consulta. En los modelos de RI basados en querying tambi´en est´a presente la ambig¨ uedad y vaguedad del lenguaje natural. Analicemos el siguiente ejemplo de consultas a un sistema de RI basado en querying. Tomemos como ejemplo al buscador Google y hagamos la siguiente consulta: R´ıos en Granma.
74
Al analizar los resultados de Google se muestra que los mismos pertenecen a diferentes ´ areas y contextos, sin estar asociados directamente con los r´ıos que pertenecen a la provincia Granma. Por ejemplo: Dos Rios - Provincia Granma (Pueblos de Cuba), Granma (Definici´on en EcuRed ). En (Fig.1) se muestran los resultados usando el motor de b´ usqueda Google.
Figura 1. Resultados de la consulta R´ıos en Granma usando el buscador Google.
En (Fig.1) se resalta el problema de la ambig¨ uedad, donde R´ıo es analizado como una palabra y no como un concepto geogr´afico descrito por propiedades y relaciones. Google utiliza la t´ecnica de coincidencia de palabra o keywordmatching. Es decir se basan en encontrar palabras id´enticas a las presentes en la consulta y como resultado se pueden obtener resultados irrelevantes en ocasiones, sobre todo cuando es usado de forma libre el LN para la construcci´on de las consultas. Una alternativa a la problem´atica planteada en el ejemplo (Fig.1) la encontramos al hacer procesamiento sem´antico (concepto y relaciones) lo cual permite una recuperaci´ on m´ as precisa, ya que evita la ambig¨ uedad (una palabra puede ser ambigua mientras que un concepto no lo es). Por lo tanto, se requiere una estructura de datos que maneje conceptos. Para que a trav´es de ellos se gu´ıe hacia una mejor recuperaci´ on. Este tipo de estructuras son las ontolog´ıas [4]. En aos recientes, diferentes grupos de investigaci´on han enfocado sus esfuerzos en tratar de resolver el problema de la RIG. La precisi´on promedio de los sistemas de recuperaci´ on de informaci´on geogr´afica evaluados dentro del CLEF fue de 26.31 %, 27.25 %, 25.55 % y 23.70 % en los aos 2005, 2006, 2007 y 2008 respectivamente. Los resultados muestran que el avance ha sido pr´acticamente nulo. De aqu´ı la necesidad de nuevas alternativas para abordar el problema. [5]
75
En los modelos de RI basados en browsing, en oposici´on a los basados en querying, el usuario no tiene la necesidad de formular una pregunta, es decir, no tiene que dominar el lenguaje de consulta porque no lo hay. El mismo explora o navega en el banco de informaci´on seleccionando qu´e es lo que necesita, sin la obligaci´ on de concientizar previamente sus necesidades de informaci´on. En m´ ultiples ocasiones nos sucede que estamos buscando informaci´on sobre un tema que no es espec´ıfico o no somos capaces de expresarlo con precisi´on, bajo estas circunstancias la estrategia del browsing parece superar a la estrategia del querying debido al desconocimiento del usuario [3] . Los nuevos modelos te´ oricos de la recuperaci´on de la informaci´on aceptan al browsing como una estrategia b´asica e imprescindible para la b´ usqueda de informaci´ on, especialmente en sistemas dirigidos a usuarios finales, cuyas necesidades de informaci´ on suelen estar en un principio poco o mal definidas. Sin un intermediario que pueda ayudarle a clarificar y formular el problema, el usuario se ver´ a obligado a llevar a cabo una larga y compleja modificaci´on de su estrategia de b´ usqueda original a trav´es de la interacci´on con el sistema y en este contexto el empleo del browsing es sin duda la mejor soluci´on [6]. Para algunos tipos de informaci´on, el browsing parece ser la u ´nica alternativa de b´ usqueda. Por ejemplo, cuando deseamos hallar una imagen o un gr´afico determinado dentro de un banco de im´agenes, nos enfrentamos a una gran problem´ atica: C´ omo caracterizar la informaci´on almacenada en cada una de las im´ agenes del banco? Cualquiera de los modelos basados en querying exigir´a indexar las im´ agenes a partir de la informaci´on que visualizan. En el contexto de la inform´atica moderna, el mapa ya no es s´olo un producto final. Los mapas ahora se est´an utilizando de una manera diferente como una herramienta de autodirigido para derivar la informaci´on deseada de los datos geogr´ aficos. Esto, junto con la evoluci´on de las Ciencias de los SIG y gr´aficos por ordenador, ha llevado a un nuevo campo: la visualizaci´on geogr´afica. Un tema central es c´ omo disear capacidades de visualizaci´on que, como proceso, faciliten el pensamiento creativo para descubrir previamente nueva informaci´on de grandes bases de datos. Los autores proponen el t´ermino geobrowsing para designar este proceso. [7] Varios investigadores, entre ellos Tufte [8] y Peuquet [7], previeron que el geobrowsing puede ayudar a los usuarios en la formulaci´on de consultas, elecci´on de vocabulario, identificaci´ on de relaciones entre los datos y facilitaci´on del pensamiento creativo para descubrir nueva informaci´on en grandes bases de datos. Sin embargo, en [9] se plantea que a pesar de los esfuerzos, las visualizaciones geoespaciales existentes contin´ uan soportando solo el modelo m´as simple de lo que implica geobrowsing: marcadores con hiperv´ınculos a los documentos. Este modelo simple, no favorece la formulaci´on de consultas y el pensamiento creativo de los usuarios. Otras limitaciones que se reportan son las siguientes [9]: 1. No prestan mucha atenci´on a la sem´antica presente en los documentos a recuperar. Documentos vinculados a los mapas est´an asociados a espacios sem´ anticos que se pueden explorar y buscar de forma no dirigida. El modelo actual de geo-browsing no aborda esta cuesti´on y trata a los mapas como
76
”llanuras”, como caracterizar´ıa Tufte en [8], donde todos los marcadores se pegan a una sola capa de mapa. 2. No explica c´ omo hacer frente a un gran n´ umero de marcadores que causan mapa de par´ asitos. 3. Se limitan a la recuperaci´on y la selecci´on de documentos relacionados con los mapas. Los mapas han cambiado dram´aticamente en la u ´ltima d´ecada. Interfaces de programaci´ on de aplicaciones de mapas ahora cuentan con amplias bibliotecas de t´ecnicas de interacci´ on que permiten las visualizaciones para apoyar una variedad m´ as amplia de tareas y actividades cognitivas. Estas actividades no se limitan a la recuperaci´ on y la selecci´ on de documentos relacionados con los mapas. Como dijera Chang y Rice en [10]: El browsing no se limita a la b´ usqueda de libros en los anaqueles de la biblioteca o registros bibliogr´aficos en una base de datos, sino que tambi´en es aplicable a otros dominios humanos de la vida cotidiana. Es concebido como una estrategia de b´ usqueda, un patr´on de observaci´on, una t´ecnica de visualizaci´ on, e incluso una actividad recreativa. El Browsing no s´ olo tiene el objetivo de ayudar al usuario a navegar y recuperar informaci´ on, sino tambi´en el de ofrecer una visi´on global del conjunto documental. A trav´es de esta vista global el usuario podr´a predecir qu´e puede encontrar, e incluso adquirir nuevo conocimiento mediante la interiorizaci´on de la visualizaci´ on. [11]
2. 2.1.
Modelos de Recuperaci´ on de Informaci´ on Modelos de RI basados en browsing
En [9] se propone un modelo conceptual para el geobrowsing en colecciones de textos. Dicho modelo visualiza tres espacios: el geogr´afico, el sem´antico y el cognitivo. Por ejemplo, para la recuperaci´on de lugares geogr´aficos solo recuperan nombres de estados, provincias o ciudades con ayuda de un diccionario geogr´afico. Luego el diccionario geogr´ afico es utilizado para expandir las consultas, generando nuevas consultas con nuevos t´erminos. Los nombres de lugares tienen dos representaciones en la visualizaci´on que hacen del espacio geogr´ afico: una lista de los lugares con hiperv´ınculos al mapa y los marcadores en el mapa. Mientras que el mapa muestra las distancias espaciales, la lista muestra las distancias en un orden alfab´etico. No se visualizan relaciones espaciales existentes entre los lugares recuperados. En la visualizaci´ on del espacio sem´antico se limitan a representar en diferentes tipos de gr´ aficos la dimensi´ on del banco de informaci´on con el que trabajan, por ejemplo, un gr´ afico de columnas que muestra por aos la cantidad de publicaciones sobre el c´ ancer en China. Mientras que en la visualizaci´on del espacio cognitivo construyen representaciones de las acciones realizadas por los usuarios al navegar por los espacios geogr´ afico y sem´anticos.
77
En resumen, en el modelo propuesto en [9] no se visualiza las relaciones sem´ anticas existentes entre los documentos de la colecci´on, tampoco define un soporte para almacenar y generar nueva informaci´on sem´antica a partir de la existente en el banco de informaci´on.
2.2.
Utilizaci´ on de la Sem´ antica Espacial en la RIG
2.2.1. Sang Ok et al (2003) En este art´ıculo Sang OK et al [12] proponen un m´etodo semiautom´ atico para la construcci´on de una ontolog´ıa usando agrupaciones de palabras (hub words). El enfoque tiene como hip´otesis la definici´on de ciertas palabras (hub words) las cuales est´ an relacionadas con un conjunto de otras palabras. Estas hub words son determinadas por la frecuencia de aparici´on de los t´erminos en un documento. Un detalle interesante es que se propone un proceso de construcci´on para una ontolog´ıa usando hub words y un m´etodo autom´atico para la extensi´on de la ontolog´ıa (agregando relaciones). Adem´as de que resaltan que la ontolog´ıa propuesta se puede utilizar como un archivo de indexado en recuperaci´on de la informaci´ on, justificando esta afirmaci´on en el hecho de que una ontolog´ıa puede ofrecer mayor informaci´ on sem´antica que los archivos de ´ındices. El art´ıculo describe la construcci´on de la ontolog´ıa y su extensi´on, as´ı como el proceso de recuperaci´ on de informaci´on. Este trabajo no explica c´omo se establecieron las reglas de extracci´on para las ontolog´ıas (las cuales ser´ıan muy valiosas). Adem´as de que las t´ecnicas usadas son estrictamente de an´ alisis de texto. [4]
2.2.2. Miguel F´ elix Mata 2009 En esta tesis doctoral Miguel Felix Mata [4] propone una metodolog´ıa integral para RIG y un m´etodo para ponderar los resultados de la recuperaci´ on. El ´exito de la recuperaci´on se basa en la integraci´on de tres criterios de b´ usqueda para tres fuentes de datos geogr´aficas heterog´eneas: Ontolog´ıas geogr´ aficas, diccionarios de datos y archivos vectoriales. Los resultados obtenidos demuestran que al combinar las tres fuentes de informaci´ on y los criterios de b´ usqueda, se puede obtener informaci´on relevante que podr´ıa ser omitida al recuperar independientemente por cada fuente. Un detalle importante es que esta investigaci´on no aborda la construcci´on de las tres fuentes de datos geogr´aficos, asume que existen y solo con el objetivo de validar la investigaci´ on construyen un caso de estudio.
2.2.3. Jones, Christopher Bernard et al (2002) Jones en [13] hace una breve resea de las facilidades existentes para la RIG en la web antes de describir un conjunto de herramientas y t´ecnicas que se est´an desarrollando en el proyecto SPIRIT: Recuperaci´on de Informaci´on Espacial en Internet. Del grupo de t´ecnicas que se est´ an desarrollando en el proyecto SPIRIT hay dos que ser´an abordadas en el modelo propuesto, ellas son:
78
1. Ontolog´ıas para modelar la terminolog´ıa geogr´afica: La ontolog´ıa geogr´afica dentro del proyecto SPIRIT, modela el vocabulario y la estructura espacial de los lugares con el objetivo de ser utilizadas en la RIG. 2. Interfaces de usuarios multimodal que proporcionan entrada de textos y mapas de retroalimentaci´on interactiva en el contexto de los documentos recuperados. Se plantea que las interfaces multimodales son conocidas por ser una forma efectiva de interactuar con la informaci´on geogr´afica, aunque a´ un no se han realizado investigaciones en esta ´area para la RIG. Adem´as, afirman que las ontolog´ıas ayudar´ an a eliminar la ambigedad de la consulta y que el nivel de detalle del mapa se adaptar´ a a los intereses del usuario y reflejar´a las estructuras jer´ arquicas del espacio geogr´afico codificado en la ontolog´ıa [13]. Ambas ideas son defendidas en esta propuesta.
3.
Modelo propuesto
Son varias las investigaciones que apuestan por el uso de la sem´antica espacial en el proceso de recuperaci´ on de informaci´on geogr´afica [4], [12], [13] ; mientras otros proponen el modelo del browsing con el mismo objetivo [9]. No obstante, en la bibliograf´ıa consultada hasta la fecha no se han identificado investigaciones que integren verdaderamente ambos enfoques en la RIG. La integraci´ on de ambos enfoque en su totalidad, conducir´a a un modelo de RIG que resolver´ a las insuficiencias antes sealadas a los modelos basado en un enfoque sint´ actico y a los basados en una interrogante o querying. Adem´as, con la incorporaci´ on de la estrategia del browsing, el modelo propuesto no solo se limitar´ a a la recuperaci´ on de informaci´on sino que tambi´en podr´a ser utilizado como un patr´ on de observaci´on, una t´ecnica de visualizaci´on, e incluso una actividad recreativa seg´ un Chang y Rice en [10]. Tambi´en eliminar´a la ineficiencia para resolver una consulta bien definida, limitaci´on que se le atribuye al browsing desde sus or´ıgenes [14]. El modelo propuesto posee como base fundamental de conocimiento a una ontolog´ıa del dominio geogr´afico que ser´a enriquecida por mecanismos semiautom´ aticos con el objetivo de modelar el conocimiento de una zona geogr´afica en particular. La ontolog´ıa geogr´afica interactuar´a con un SIG, en ´el se modelar´ a la zona geogr´ afica y se ubicar´an geogr´aficamente las instancias de conceptos de la geontolog´ıa. El usuario final podr´a explorar el mapa o la ontolog´ıa seg´ un sus necesidades. La interacci´on entre el mapa y la geontolog´ıa brindar´a interesantes resultados en la generaci´on de consultas visuales por parte del usuario final, en la formulaci´ on de dichas consultas se podr´an vincular los componentes de la geontolog´ıa con caracter´ısticas particulares de la zona geogr´afica. En la (fig.2) ilustramos un esquema que representa los componentes del modelo que se propone.
79
Figura 2. Esquema de componentes del modelo propuesto.
3.1.
Conformaci´ on del Banco de Conocimiento o Indexaci´ on de la Informaci´ on Geogr´ afica
El objetivo general de la propuesta es recuperar la mayor cantidad de IG existente en una zona geogr´ afica definida con antelaci´on. El modelo es gen´erico, es decir, aplicable a cualquier zona geogr´afica pero estar´a limitado por la informaci´ on que se pueda extraer de la zona seleccionada a partir del an´alisis de cinco fuentes de informaci´ on: 1. 2. 3. 4. 5.
La cartograf´ıa o bases cartogr´aficas de la zona. Bases de datos espaciales que modelan la zona. Conocimiento de los usuarios finales sobre la zona. Relaciones espaciales entre los datos geogr´aficos ya identificados en la zona. Informaci´ on geogr´ afica disponible en Internet sobre la zona seleccionada.
El modelo propuesto se fundamenta en el diseo y mantenimiento semiautomatizado de una ontolog´ıa geogr´afica o geontolog´ıa. Consiste en iniciar con una ontolog´ıa del dominio geogr´ afico e ir especializ´andola en una geontolog´ıa de aplicaci´ on que conceptualice la zona geogr´afica seleccionada. La especializaci´on de la ontolog´ıa del dominio geogr´ afico se har´a a partir del an´alisis de las cinco fuentes de informaci´ on mencionadas anteriormente. Hasta la fecha, con la excepci´on de la fuente de informaci´ on n´ umero tres, se pretende automatizar el procesamiento de las restantes fuentes de informaci´on. A continuaci´ on se profundiza en las ideas relacionadas con el procesamiento de las cinco fuentes de informaci´on: 1. Se pretende automatizar el procesamiento de la cartograf´ıa en formato vectorial, con el objetivo de extraer la mayor cantidad de informaci´on geogr´afica
80
2.
3.
4.
5.
relacionada con la zona que modelamos. La informaci´on extra´ıda ser´a incorporada a la geontolog´ıa. El objetivo final del modelo propuesto es ser aplicado en una plataforma para el desarrollo de SIG en la Web, para luego ser desplegado en las personalizaciones que se hagan de dicha plataforma SIG. A partir de la experiencia adquirida en las personalizaciones de las plataformas SIG, se ha identificado que las entidades o empresas que solicitan una SIG generalmente ya poseen una base de datos espacial. En caso de no ser as´ı, esta fuente de informaci´on no estar´ıa disponible para el modelo propuesto. En el procesamiento de la tercera fuente de informaci´on se pretende disear y construir un editor de ontolog´ıas geogr´aficas que facilite en gran medida el enriquecimiento sem´ antico y sint´actico de la geontolog´ıa a partir del conocimiento de los usuarios finales. Dicho editor se apoyar´a en visor SIG que permitir´ a simultanear la visualizaci´on de la geontolog´ıa que se edita con las ubicaciones espaciales de las instancias de conceptos presente en dicha geontolog´ıa, que al mismo tiempo representan informaci´on geogr´afica disponible en la zona con la que trabajar´ıa el modelo propuesto. Un elemento importante que se pretende con el editor de geontolog´ıas es potenciar el conocimiento de la informaci´ on geogr´ afica disponible en la zona, por encima del conocimiento que deba tener los usuarios finales sobre la teor´ıa de ontolog´ıas y el diseo de las mismas. Es decir, lograr que la edici´on de la ontolog´ıa pueda ser realizada por usuarios finales que tienen un enorme conocimiento de la informaci´ on geogr´ afica existente en la zona pero no dominan en profundidad la teor´ıa relacionada con las ontolog´ıas y sus lenguajes de diseos. El mantenimiento y actualizaci´on de las ontolog´ıas es uno de los grandes problemas que enfrenta hoy la comunidad cient´ıfica relacionada con el tema. El editor de ontolog´ıas geogr´aficas facilitar´a la soluci´on de esta problem´atica. El modelo iniciar´ a con una ontolog´ıa del dominio geogr´afico que podr´a ser detallada a trav´es del editor de ontolog´ıas geogr´aficas. El visor SIG tambi´en permitir´ a visualizar la topograf´ıa de la zona seleccionada, facilitando la identificaci´ on de las relaciones espaciales existentes entre los datos geogr´aficos ya identificados en la zona: cuarta fuente de informaci´on, cuyo an´alisis ser´ a automatizado. Un punto a considerar en los esquemas conceptuales para el dominio geogr´afico, son las relaciones espaciales, las cuales son abstracciones que ayudan a entender c´ omo en el mundo real los objetos se relacionan con otros [15]. Teniendo las localizaciones geogr´aficas y el per´ımetro de un grupo de objetos geogr´ aficos, es posible automatizar la identificaci´on de las relacione espaciales existentes entre dichos objetos apoy´andose en la Interfaz de Programaci´on de Aplicaciones (API, por sus siglas en ingl´es) JTS (Java Topology Sute, por sus siglas en ingl´es). En la actualidad son varias las fuentes de informaci´on geogr´afica disponibles en Internet, una de las m´as populares es GeoNames. El objetivo de esta fuente de informaci´ on es enriquecer la geontolog´ıa a partir de las diversas fuentes de informaci´ on geogr´afica que contengan informaci´on valiosa para la zona que se modelar´ a.
81
La indexaci´ on de la informaci´on es uno de los componentes m´as importantes en cualquier modelo de RI. Seg´ un [16], el primer paso que debe dar un S.R.I. antes de estar totalmente preparado para que los usuarios lo utilicen es el de procesar la base de datos de documentos, dej´andola en un formato cuya manipulaci´on por parte del sistema sea f´ acil y r´apida. Por tanto, a partir de un documento se generar´ a una representaci´on del mismo, formada por una secuencia de t´erminos de indexaci´ on, los cuales mantendr´an lo m´as fielmente posible el contenido original del documento. A este proceso general se le denomina an´alisis autom´atico de textos. En el modelo propuesto la informaci´on a recuperar no son textos sino informaci´ on geogr´ afica, es decir, informaci´on con coordenadas geogr´aficas. La secuencia de t´erminos de indexaci´on que representar´a a cada dato ser´a la descripci´ on sem´ antica que estar´a almacenada en la geontolog´ıa. Resumiendo: la informaci´ on estar´ a indexada a trav´es de descripciones sem´anticas del contenido de la misma. 3.2.
Recuperaci´ on Basada en Browsing
Una vez concluido el proceso de enriquecimiento de la geontolog´ıa, la misma pasa a constituir la base sobre la que descansa el modelo de RI basado en browsing. Los usuarios finales podr´an explorar el potencial sem´antico y sint´actico que posee la conceptualizaci´ on de la zona geogr´afica, es decir, la geontolog´ıa. El modelo propuesto debe garantizar la posibilidad de mostrar de manera simult´anea la geontolog´ıa y la cartograf´ıa que manipula el visor SIG, es decir, el espacio geogr´ afico y el sem´ antico. Las instancias de conceptos de la geontolog´ıa deben permitir la posibilidad de ser geo referenciadas en el visor SIG a petici´on de los usuarios finales cuando se explore la geontolog´ıa. En la exploraci´ on de la informaci´on hay que garantizar que no se manifieste el segundo problema planteado por [9], para ello se le asignar´a a cada dato geogr´ afico un rango de valores del zoom en el cual ´el ser´a visible en el mapa. Los datos geogr´ aficos solo ser´an visibles en el mapa cuando las coordenadas sean visibles y se est´e en el nivel de zoom adecuado [17]. Adem´as, la visualizaci´on de informaci´ on geogr´ afica en el mapa estar´a regulada por el componente de la geontolog´ıa que est´e seleccionado en cada momento. Por ejemplo, si tenemos una geontolog´ıa de la Universidad de las Ciencias Inform´aticas (UCI) y seleccionamos el concepto Edificio Docente, el modelo solo debe visualizar los edificios docentes cuyas coordenadas est´en en la zona que visualiza en ese momento el visor SIG y en correspondencia con el nivel de zoom. Con esta estrategia se minimiza uno de los inconvenientes sealados al browsing en [14]. 3.3.
Generaci´ on de Consultas Visuales
Una l´ınea de investigaci´ on habitual para facilitar al usuario la expresi´on de consultas es el uso de lenguajes visuales. Se persigue facilitar el uso de los conceptos predefinidos en la ontolog´ıa, ya que estas representaciones reducen el nivel de abstracci´ on [18].
82
Adem´ as de explorar el espacio geogr´afico y el sem´antico, el modelo propuesto debe permitir el diseo de consultas visuales a partir de la selecci´on, por parte de los usuarios finales, de elementos de la geontolog´ıa y elementos del visor SIG. Por ejemplo, se pretende recuperar todas la carreteras que se intersecten dentro de la provincia La Habana. Para resolver esta problem´atica se marcar´ıa en la ontolog´ıa el concepto carretera y la relaci´on intersecten, adem´as delimitar´ıamos en el visor SIG la zona que comprende la provincia La Habana. Con estos elementos seleccionados, el modelo propuesto debe generar una consulta que permita retornar la informaci´on esperada. Otro ejemplo de consultas ser´ıa el siguiente: Supongamos que pretendemos conocer los hospitales que se encuentra a una distancia cercana al lugar donde vive una persona con el objetivo de seleccionar uno de ellos para realizarse un examen. Marcar´ıamos en la geontolog´ıa el concepto hospital y la relaci´on cerca, en el visor SIG marcar´ıamos las coordenadas geogr´ aficas donde vive la persona. Luego el modelo deber´a ser capaz de generar una consulta que retorne la informaci´on esperada. Esta forma de generar consultas al modelo posee tres puntos significativos: 1. Los usuarios finales no necesitan ser grandes conocedores de los lenguajes de consultas a las ontolog´ıas, solo deben dominar la informaci´on disponible en la zona geogr´ afica que se modela en acuerdo con lo que plantea Felix Mata en [4], sobre la necesidad de mecanismos que permitan a personas no expertas en ingenier´ıa ontol´ ogica , obtener resultados relevantes para las b´ usquedas que realizan. 2. El cl´ asico problema de la ambigedad y la vaguedad de los modelos de RI basados en querying se minimiza. Note como en el segundo de los ejemplos anteriormente planteados, la relaci´on espacial cerca debi´o ser definida en la geontolog´ıa, ya sea por el usuario final del modelo a trav´es del editor propuesto o de manera automatizada. En los modelos cl´asicos de RI basados en querying, la palabra cerca pudiera referirse a una distancia o a un tiempo. Para comprender la idea expresada en el p´arrafo anterior consideremos los siguientes ejemplos (1) El Hospital Militar est´a cerca de la vivienda de Mar´ıa y (2) La fecha del cumpleaos de Pedro est´a cerca. El primer ejemplo se refiere a distancia y el segundo a tiempo. 3. La incapacidad del browsing para resolver consultas bien definidas, carencia hist´ oricamente sealada a esta estrategia [14], quedar´a resuelta. Noten como la integraci´ on del Browsing con la estrategia de consultas visuales permite resolver la problem´ atica antes planteada. 3.4.
Clasificaci´ on de los resultados
El objetivo de la clasificaci´on en la RIG es el de presentar al usuario una lista ordenada de los documentos que cumplan los dos criterios en la consulta, el no geogr´ afico y el geogr´ afico [19]. En RI se requiere de una aproximaci´on a un resultado cuando no existen instancias que correspondan con el criterio de consulta. Bajo este enfoque, las respuestas aproximadas tienen un grado de relevancia [4].
83
Consideremos la consulta Hospitales en el Oriente Cubano en la geontolog´ıa de ejemlo que se ilustra en la (fig. 3). Un resultado relevante ser´ıa Hospital Celia S´ anchez Manduley en Manzanillo, ver (fig. 4). Mientras que otro con menor relevancia ser´ıa Policl´ınico Ren´e Vallejo en Manzanillo, ver (fig. 5). En el ejemplo anterior Policl´ınico Ren´e Vallejo en Manzanillo aparece porque el concepto Policl´ınico (concepto al que pertenece la instancia Ren´e Vallejo) est´a relacionado sem´ anticamente con el concepto Hospital mediante la relaci´on sem´antica de Hiperonimia y adem´ as est´a relacionado espacialmente mediante la relaci´on topol´ ogica pertenece con Oriente Cubano, el municipio Manzanillo pertenece al Oriente Cubano. Hasta el momento solo se ha valorado la utilizaci´on de este m´etodo de evaluaci´ on de los resultados. En el futuro se analizar´an el resto de los m´etodos propuestos en [19].
Figura 3. Geontolog´ıa de ejemplo.
Figura 4. Resultado “relevante”de la consulta “Hospitales en el Oriente Cubano”.
84
Figura 5. Resultado “de menor relevancia”de la consulta “Hospitales en el Oriente Cubano”.
4.
Conclusiones
A partir del an´ alisis del estado del arte se concluye que los actuales modelos de RIG basados en la estrategia del browsing o exploraci´on, no aprovechan las verdaderas potencialidades impl´ıcitas en la sem´antica de los datos espaciales. No permiten almacenar las relaciones sem´anticas existentes entre los datos y menos a´ un generar nuevas relaciones sem´anticas a partir de las existentes. Los investigadores que m´ as profundizan en la sem´antica de los datos, como es el caso de Olga Bchel en [9], se limitan a interpretar el espacio geogr´afico y construir gr´ aficas de informaci´ on que constituyen una interpretaci´on sem´antica del espacio geogr´ afico. Otros como Miguel Felix Mata [4] s´ı aprovechan la sem´antica de los datos para resolver la consulta pero no abordan el proceso de conformaci´on de la ontolog´ıa, asumen que existe. Adem´as, no utilizan la estrategia del browsing sino la estrategia del querying. El modelo de RIG propuesto posee las siguientes fortalezas: 1. Integra la exploraci´ on geogr´afica y la descripci´on sem´antica de los datos espaciales, favoreci´endose de los puntos positivos y mitigando los negativos de ambas t´ecnicas. 2. Se alimenta de varias fuentes de informaci´on geogr´afica. 3. Brinda un soporte para almacenar y generar nueva informaci´on sem´antica asociada a los datos espaciales. 4. Utiliza una ontolog´ıa geogr´afica como archivo de indexaci´on de la informaci´ on en el modelo de RI. 5. Automatiza gran parte del mantenimiento a la base de conocimiento del modelo de RIG. 6. Visualiza el espacio sem´antico y geogr´afico de la zona geogr´afica que modela. Facilitando el pensamiento creativo y la generaci´on o descubrimiento de nuevo conocimiento por parte del usuario final. Por lo que se puede afirmar que no se limita a la RIG.
85
7. Propone un sistema de consultas visuales donde el usuario final solo debe seleccionar los elementos sem´anticos y sint´acticos que formar´an parte de su consulta, sin necesidad de ser un especialista en la manipulaci´on de informaci´ on sem´ antica y espacial. 8. Extiende el enfoque sint´actico de los modelos de RI hacia el sem´antico y espacial. 9. Minimiza el cl´ asico problema de la ambigedad en las consultas de RIG. 10. Brinda resultados aproximados a la consulta realizada, apoy´andose en la sem12. Disminuye la sobrecarga de informaci´on, otra de las deficiencias sealadas al browsing en [14].ntica de los datos espaciales que modela. 11. Elimina la ineficiencia para resolver una consulta bien definida, limitaci´on que se le atribuye al browsing desde sus or´ıgenes seg´ un Marchionini [14]. 12. Disminuye la sobrecarga de informaci´on, otra de las deficiencias sealadas al browsing en [14].
Referencias 1. Garea-Llano, E.: Estado actual de la Interpretaci´ on Sem´ antica de datos espaciales, Blue Series. Pattern Recognition. La Habana, Cuba. (2007) 2. Garea-Llano E., Oliva-Santos, R.: Integraci´ on Ontol´ ogica de Datos Metadatos y Conocimiento en Sistemas de Informaci´ on Geogr´ afica como Herramienta para la Interpretaci´ on Sem´ antica de la Informaci´ on Espacial. En VI Congreso Internacional de Geom´ atica 2009. (2009) 3. Herrero-Solana, V., Hassan, Y.: Metodolog´ıas para el desarrollo de interfaces visuales de recuperaci´ on de informaci´ on: an´ alisis y comparaci´ on. Information Research, vol. 11, no. 3, 34. (2006) 4. M. F. Mata Rivera, Recuperaci´ on y Ponderaci´ on de Informaci´ on Geogr´ afica desde Repositorios no Estructurados Conducidas por Ontolog´ıas, M´exico, 2009. 5. Villatoro-Tello, E.: Ordenamiento Basado en Ejemplos para la Recuperaci´ on de Informaci´ on Geogr´ afica, INAOE, Tonantzintla, Puebla. (2010) 6. Herrero-Solana, V.: Modelos de Representaci´ on Visual de la Informaci´ on Bibliogr´ afica, Granada, Espaa.(2000) 7. D. J. Peuquet y M.-J. Kraak, Geobrowsing: creative thinking and knowledge discovery using geographic visualization, Information Visualization, vol. 1, no. 80, 13. (2002) 8. E. R. Tufte, Envisioning Information, GRAPHICS PRESS. (1990) 9. O. Buchel, Redefining Geobrowsing, Ontario. (2013) 10. C. S. J. y R. R. E. , Browsing: A Multidimensional Framework, Annual review of information science and technology (ARIST), vol. 28, pp. 231-76. (1993) 11. Y. Hassan Montero, Visualizaci´ on y Recuperaci´ on de Informaci´ on, de II Encontro de Cincias e Tecnologias da Documentao e Informao., Escola Superior de Estudos Industriais e de Gesto (Vila do Conde). (2006) 12. S. Ok Koo, . S. Yeon Lim y S. Jo Lee, Building an Ontology on Hub Words for Information Retrieval, International Conference on Web Intelligence (WI’03). (2003) 13. C. B. Jones y R. R. Purves, Spatial information retrieval and geographical ontologies an overview of the SPIRIT project de Computer Science & Informatics, New York. (2002)
86 14. G. Marchionini, Information Seeking In Electronic Environments, United States of America: Cambridge University Press. (1995) 15. M. J. Torres Ruiz, Representaci´ on Ontol´ ogica Basada en Descriptores Sem´ anticos Aplicada a Objetos Geogr´ aficos, Ciudad de M´exico. (2007) 16. J. M. Fern´ andez Luna, Modelos de Recuperaci´ on de Informaci´ on Basados en Redes de Creencias, Granada. (2001) 17. R. R. Larson, Browsing, Geographic Information Retrieval and Spatial, Escuela de Postgrado de Biblioteca y Documentaci´ on de la Universidad de Illinois en UrbanaChampaign, California. (1996) 18. D. Moya y J. A. Mac´ıas.: Autor´ıa de Consultas para la Web Sem´ antica Orientada al Usuario Final, de VII Congreso de Interacci´ on Persona Ordenador, Madrid. (2006) 19. G. Andogah, Geographically Constrained Information Retrieval. (2010)