Tratamiento de la Variaci´ on Sint´ actica mediante un Modelo de Recuperaci´ on Basado en Localidad∗ Jes´ us Vilares y Miguel A. Alonso Departamento de Computaci´on, Universidade da Coru˜ na Campus de Elvi˜ na s/n, 15071 - A Coru˜ na {jvilares,alonso}@udc.es Resumen: La aplicaci´on de informaci´on sint´actica en el modelo de recuperaci´on basado en documentos imperante en la actualidad ha sido probada sin excesivo ´exito en numerosas ocasiones, debido mayormente a los problemas que supone la integraci´on de este tipo de informaci´on en el modelo. En este art´ıculo proponemos el empleo de un modelo basado en localidad aplicado a la reordenaci´on de resultados, el cual aborda el problema de la variaci´on ling¨ u´ıstica sint´actica mediante medidas de similaridad basadas en la distancia entre palabras. Se estudian dos aproximaciones cuya efectividad ha sido evaluada sobre el corpus CLEF de documentos en espa˜ nol. Palabras clave: Recuperaci´on de Informaci´on, variaci´on ling¨ u´ıstica sint´actica, modelo basado en localidad, fusi´on de datos. Abstract: To date, attempts for applying syntactic information in the documentbased retrieval model dominant have led to little practical improvement, mainly due to the problems associated with the integration of this kind of information into the model. In this article we propose the use of a locality-based retrieval model for reranking, which deals with syntactic linguistic variation through similarity measures based on the distance between words. We study two approaches whose effectiveness has been evaluated on the CLEF corpus of Spanish documents. Keywords: Information Retrieval, syntactic linguistic variation, locality-based model, data fusion.
1.
Introducci´ on
El procesamiento sint´actico ha sido empleado repetidamente en el a´mbito de la Recuperaci´on de Informaci´on (RI) para hacer frente a la variaci´ on ling¨ u´ıstica sint´ actica presente en los textos (Perez-Carballo y Strzalkowski, 2000; Hull et al., 1997), si bien su empleo en el caso del espa˜ nol ha sido poco estudiado hasta ahora (Alonso, Vilares, y Darriba, 2002; Vilares y Alonso, 2003). Estas t´ecnicas precisan de alg´ un tipo de analizador sint´actico, para lo cual es necesario contar con una gram´atica apropiada, por sencilla que sea. Sin embargo, a´ un cuando dicha informaci´on sint´actica pueda ser convenientemente extra´ıda del texto, persiste todav´ıa el problema de c´omo incorporar dicha informaci´on al sistema. La aproximaci´on m´as com´ un, consistente en una combinaci´on ponderada de Parcialmente financiado por el Ministerio de Educaci´ on y Ciencia y FEDER (TIN2004-07246-C03-02), y por la Xunta de Galicia (PGIDIT05PXIC30501PN, PGIDIT05PXIC10501PN, PGIDIT05SIN044E). ∗
t´erminos simples y t´erminos multipalabra — formados por t´erminos simples relacionados sint´acticamente—, no logra siempre resolver adecuadamente los problemas derivados de la sobrevaloraci´on que el sistema tiende a dar a los t´erminos complejos en detrimento de los t´erminos simples (Mitra et al., 1997). En este contexto, el empleo de t´ecnicas pseudo-sint´acticas basadas en distancias entre t´erminos se presenta como una alternativa pr´actica que evita dichos problemas, al no ser necesaria gram´atica o analizador alguno, y al integrar de modo consistente la informaci´on obtenida, tanto a nivel de la aparici´on de los t´erminos en s´ı, como de su proximidad, frecuentemente ligada a la existencia de una relaci´on sint´actica entre los mismos. En este art´ıculo proponemos la utilizaci´on de un modelo basado en localidad, sustentado sobre similaridades basadas en distancias, como complemento a las t´ecnicas cl´asicas de Recuperaci´on de Informaci´on basadas en la indexaci´on de t´erminos simples, con el fin de
altura
(a) Contribuciones individuales 25 coche rojo
Similaridad
20 15
ht
10
c t (0,d)
5 0
0
20
40
60 Posicion
80
100
120
−
(b) Curva de similaridad resultante 25
st
0 d alcance
+
st
coche, rojo
Similaridad
20
Figura 2: Funci´on de contribuci´on de similaridad ct de forma circular.
15 10 5 0
0
20
40
60 Posicion
80
100
120
Figura 1: Modelo basado en localidad: (a) posiciones del texto con aparici´on de t´erminos de la consulta y sus a´reas de influencia; y (b) curva de similaridad resultante incrementar la precisi´on de los documentos devueltos por el sistema.
2.
Recuperaci´ on de Informaci´ on Basada en Localidad 2.1. Modelo de Recuperaci´ on
En el modelo de recuperaci´on imperante en RI, denominado basado en documentos, el usuario solicita del sistema los documentos relevantes a su consulta o necesidad de informaci´on. Por otra parte, el modelo basado en localidad propuesto por de Kretser y Moffat (de Kretser y Moffat, 1999b; de Kretser y Moffat, 1999a) va un paso m´as all´a y busca las posiciones concretas del texto que pueden resultar relevantes al usuario. La Recuperaci´ on de Pasajes (Kaszkiel y Zobel, 2001) es una aproximaci´on intermedia que persigue identificar aquellas secciones del documento —pasajes— relevantes para la consulta. En este modelo, una vez que el documento original ha sido dividido en pasajes, ´estos son procesados y ordenados mediante t´ecnicas tradicionales. Sin embargo restan por resolver problemas acerca de c´omo definir el concepto de pasaje, su tama˜ no, grado de superposici´on, etc. (Llopis, 2003). Por el contrario, el modelo basado en localidad considera la colecci´on a indexar no como un conjunto de documentos, sino como una secuencia de palabras donde cada aparici´on de un t´ermino de la consulta ejerce una influencia sobre los t´erminos circundantes. Dichas influencias son aditivas, de forma que la contribuci´on de diferentes apariciones
de t´erminos de la consulta pueden sumarse, dando lugar a una medida de similaridad, tal y como muestra la figura 1. Aquellas a´reas del texto con una mayor densidad de t´erminos de la consulta, o con t´erminos de mayor peso, dar´an lugar a picos en la curva de influencia resultante, se˜ nalando posiciones del texto potencialmente relevantes. Todo ello sin necesidad de particionar artificialmente el documento como en el caso de la Recuperaci´on de Pasajes.
2.2.
C´ alculo de Similaridades
A continuaci´on, describiremos el modelo basado en localidad propuesto originalmente por de Kretser y Moffat (de Kretser y Moffat, 1999b; de Kretser y Moffat, 1999a). En este modelo la medida de similaridad o relevancia es calculada u ´nicamente sobre aquellas posiciones donde aparecen t´erminos de la consulta, reduciendo de este modo el coste computacional asociado. La contribuci´on a dicha similaridad por parte de un t´ermino de la consulta viene dada por una funci´ on de contribuci´ on de similaridad ct definida en base a los siguientes par´ametros (de Kretser y Moffat, 1999a): La forma de la funci´on, siendo la misma para todos los t´erminos. La altura m´ axima ht de la funci´on, que se da en la posici´on del t´ermino que ejerce la influencia. El alcance st de la funci´on, es decir, su radio de influencia. La distancia en palabras entre los dos t´erminos considerados, d = |x−l|, donde l es la posici´on del t´ermino de la consulta que ejerce la influencia y x la posici´on sobre la que se desea calcular la medida de similaridad.
Si bien en (de Kretser y Moffat, 1999a) se describen diversas formas de funci´on, experimentos previos mostraron un mejor comportamiento de la funci´on circular (cir ) en el caso del espa˜ nol. Dicha funci´on, cuya representaci´on gr´afica se muestra en la figura 2, se define mediante la ecuaci´on: ct (x, l) = ht ·
p
1 − (d/st
)2
(1)
con ct (x, l) = 0 para |x−l| > st , y equivalente a los cuadrantes de dos c´ırculos normalizados con centros en (ht , −st ) y (ht , st ). Por su parte, la altura m´axima ht asociada a un t´ermino t se calcula como funci´on inversa de su frecuencia en la colecci´on: N ht = fQ,t · loge
(2)
ft
donde N es el n´ umero total de t´erminos en la colecci´on, ft el n´ umero de apariciones del t´ermino t en la colecci´on y fQ,t la frecuencia del t´ermino t en la consulta Q. En lo que respecta al alcance st de la influencia de un t´ermino t, ´esta viene dada tambi´en por el inverso de su frecuencia en la colecci´on, pero normalizada en base a la frecuencia media: st =
n n N · = N ft ft
(3)
siendo n el n´ umero de t´erminos diferentes en la colecci´on, es decir, el tama˜ no del vocabulario. De este modo, la medida de similaridad CQ (x) asignada a la posici´on x del documento en la cual aparece un t´ermino de la consulta Q se calcula como: CQ (x) =
X
t∈Q
X
ct (x, l)
(4)
l∈It |l−x|≤st term(x)6=term(l)
donde It es el conjunto de posiciones donde ocurre un t´ermino t de la consulta Q, y donde term(w) denota el termino asociado a la posici´on w. En otras palabras, la medida de similaridad o relevancia asociada a una posici´on es la suma de las influencias ejercidas por los dem´as t´erminos de la consulta presentes en el documento y dentro de cuyo alcance se encuentra, exceptuando otras apariciones del t´ermino existente en la posici´on considerada (de Kretser y Moffat, 1999b). Finalmente, la medida de relevancia sim(D, Q) asignada a un documento D respecto a una consulta Q vendr´a dada en fun-
ci´on de las similaridades asignadas a las apariciones de t´erminos de la consulta que dicho documento contenga. Este punto se comenta en mayor detalle en el siguiente apartado.
2.3.
Adaptaciones del Modelo.
Dado que el modelo basado en localidad permite trabajar a un nivel de detalle mayor que las t´ecnicas cl´asicas de RI, al identificar no s´olo los documentos relevantes sino tambi´en concretar las posiciones de inter´es dentro de los mismos, hemos optado por emplear este modelo en nuestros experimentos. Para ello ha sido necesario realizar ciertas adaptaciones de acuerdo con nuestras necesidades, las cuales nos diferencian del planteamiento original del modelo. El planteamiento elegido a la hora de integrar la similaridad basada en distancias dentro de nuestro sistema de RI, ha sido el del postprocesado de los documentos previamente obtenidos mediante un sistema de recuperaci´on cl´asico basado en documentos, con intenci´on de incrementar la precisi´on de los primeros documentos devueltos. Este primer conjunto de documentos devuelto por el sistema es a continuaci´on procesado empleando el modelo basado en localidad, tomando la ordenaci´on final obtenida en base a distancias como aqu´ella a devolver al usuario. Otra de las principales diferencias respecto al modelo original es el del empleo de la lematizaci´on (Gra˜ na, Chappelier, y Vilares, 2001) en lugar del stemming a la hora de la normalizaci´on de consultas y documentos, dado su mejor comportamiento en el caso del espa˜ nol (Vilares et al., 2002). Por otra parte, debemos se˜ nalar que los par´ametros de altura m´axima ht y alcance st utilizados durante la reordenaci´on se calculan en base a los par´ametros globales de la colecci´on, y no en base a los par´ametros locales al subconjunto de documentos devueltos, para as´ı evitar los problemas derivados de la correlaci´on que esto conllevar´ıa.1 Finalmente, a la hora de calcular la relevancia sim(D, Q) de un documento D respecto a una consulta Q, en lugar del algoritmo iterativo del modelo original (de Kretser y Moffat, 1999a), nuestra soluci´on calcula dicha medida de relevancia como la suma de 1
Por ejemplo, el par´ ametro ft de n´ umero de apariciones de un t´ermino t es el n´ umero de apariciones de t en toda la colecci´ on, no el n´ umero de apariciones de t en el conjunto de documentos a reordenar.
las medidas de similaridad individuales de las apariciones de t´erminos de la consulta en dicho documento: sim(D, Q) =
X
CQ (x)
(5)
x∈D term(x)∈Q
3.
Resultados Experimentales con Distancias
Nuestra aproximaci´on ha sido probada sobre el corpus monoling¨ ue para espa˜ nol del CLEF2 , conformado por las siguientes colecciones de documentos y topics asociados a partir de los cuales generar las consultas: CLEF 2001-02·A: colecci´on de entrenamiento y estimaci´on de par´ametros, formada por 215.738 teletipos de la agencia espa˜ nola de noticias EFE3 correspondientes al a˜ no 1994, siendo sus topics asociados aqu´ellos de n´ umero impar empleados en las ediciones 2001 y 2002 del CLEF. CLEF 2001-02·B: colecci´on de evaluaci´on similar a la anterior, si bien emplea los topics de n´ umero par. CLEF 2003: colecci´on de evaluaci´on, formada por 454.045 teletipos de EFE correspondientes a los a˜ nos 1994 y 1995, y que usa los topics del CLEF 2003. Dichos topics est´an formados por tres campos: t´ıtulo, un breve t´ıtulo como su nombre indica; descripci´ on, una somera frase de descripci´on; y narrativa, un peque˜ no texto especificando los criterios de relevancia. Debemos precisar que aquellos topics con menos de 6 documentos relevantes fueron eliminados, ya que en dichos casos la modificaci´on en la posici´on de uno o dos documentos devueltos puede acarrear cambios muy marcados en los resultados obtenidos para dicha consulta, distorsionando as´ı los resultados globales (Hull et al., 1997). Asimismo se emplearon dos tipos de consultas, las denominadas consultas cortas, generadas a partir de los campos t´ıtulo y descripci´ on, y las denominadas consultas largas, que emplean la totalidad de los campos del topic. En el caso de las consultas largas, se ha doblado la relevancia asignada al campo 2 3
http://www.clef-campaign.org http://www.efe.es
t´ıtulo, al concentrar ´este la sem´antica b´asica de la consulta. En lo que respecta a la indexaci´on inicial de t´erminos lematizados (lem), se emple´o el conocido motor de indexaci´on vectorial SMART (Buckley, 1985), empleando un esquema de pesos atn·ntc (Salton y Buckley, 1988). Por otra parte, con objeto de mejorar en lo posible el rendimiento final del sistema resultante, se partir´a de un conjunto inicial de documentos tan bueno como sea posible. Para ello aplicaremos realimentaci´on mediante expansi´on de consultas con el algoritmo de Rocchio (Rocchio, 1971): Q1 = αQ0 + β
n1 X Rk
k=1
n1
−γ
n2 X Sk
k=1
n2
(6)
donde Q1 es vector de la consulta final, Q0 es el vector de la consulta inicial, Rk es el vector del k-´esimo documento relevante, Sk es el vector del k-´esimo documento no relevante, n1 es el n´ umero de documentos relevantes examinados, n2 es el n´ umero de documentos no relevantes examinados, y α, β y γ son, respectivamente, los par´ametros que controlan las contribuciones relativas de la consulta original, los documentos relevantes, y los documentos no relevantes. En concreto, expandiremos autom´aticamente la consulta inicial con los t=10 mejores t´erminos de los cinco primeros documentos devueltos (n1 =5), con unas contribuci´on relativas α=0.8, β=0.1, γ=0 para consultas cortas y α=1.2, β=0.1, γ=0 para consultas largas. Los resultados obtenidos se muestran en la tabla 1. El rendimiento del sistema se ha medido en base a los par´ametros recogidos en cada fila: n´ umero de consultas empleadas, n´ umero de documentos devueltos, n´ umero de documentos relevantes esperados, n´ umero de documentos relevantes devueltos, precisi´on media no interpolada para todos los documentos relevantes, precisi´on-R, precisi´on en los primeros niveles est´andar de cobertura, y precisi´on a los n documentos devueltos. La primera columna de cada grupo recoge los resultados de la l´ınea base, la indexaci´on de lemas con realimentaci´on (lem), mientras que la segunda columna muestra los resultados obtenidos tras la ordenaci´on de lem mediante distancias (cir ). Para cada par´ametro se han marcado en negrita los valores para los que se ha obtenido una mejora respecto a la l´ınea base.
corpus consulta
CLEF 2001-02·A cortas
CLEF 2001-02·B
largas
cortas
CLEF 2003
largas
cortas
largas
t´ ecnica
lem
cir
lem
cir
lem
cir
lem
cir
lem
cir
lem
cir
#consultas #docs. dev. #rlvs. esp. #rlvs. dev.
46 46k 3007 2767
= = = =
46 46k 3007 2779
= = = =
45 45k 2513 2376
= = = =
45 45k 2513 2406
= = = =
47 47k 2335 2240
= = = =
47 47k 2335 2223
= = = =
Pr. no int. Pr.-R
.5220 .4668 .4990 .4651
.5604 .4714 .5366 .4652
.4773 .4278 .4599 .4205
.5392 .4831 .5104 .4592
.5024 .3924 .4912 .3921
.5207 .4005 .4871 .3911
Pr. Pr. Pr. Pr. Pr. Pr.
a a a a a a
0% 10 % 20 % 30 % 40 % 50 %
.8221 .7490 .6866 .6573 .5997 .5456
.8835 .7870 .6883 .6148 .5267 .4656
.8895 .8028 .7352 .6996 .6541 .6005
.8979 .8143 .7017 .6066 .5372 .4728
.8210 .6861 .6319 .5688 .5289 .5017
.8233 .7197 .6378 .5464 .4827 .4322
.8710 .7619 .6929 .6497 .6202 .5733
.8678 .8084 .6808 .6000 .5438 .4987
.8145 .7369 .6632 .6019 .5638 .5410
.8230 .6626 .5663 .5098 .4439 .4077
.8301 .7421 .6758 .6304 .5975 .5479
.8415 .6518 .5737 .5030 .4400 .3956
Pr. Pr. Pr. Pr. Pr. Pr.
a a a a a a
5 docs. 10 docs. 15 docs. 20 docs. 30 docs. 100 docs.
.6609 .6457 .5884 .5630 .5225 .3507
.6913 .6391 .5899 .5446 .4848 .3052
.6957 .6848 .6435 .6043 .5580 .3598
.7261 .6522 .5971 .5674 .4971 .3048
.5956 .5600 .5274 .5011 .4444 .2940
.6000 .5444 .5111 .4822 .4215 .2780
.6844 .6178 .5822 .5533 .5081 .3191
.6533 .6089 .5556 .5189 .4733 .3022
.5872 .5596 .5305 .4883 .4433 .2770
.5532 .5064 .4624 .4181 .3702 .2400
.6213 .5872 .5504 .5266 .4667 .2853
.5574 .4979 .4652 .4277 .3780 .2404
Tabla 1: Resultados obtenidos mediante reordenaci´on por distancias (cir ) de la lematizaci´on con realimentaci´on (lem) Como muestran los resultados, la reordenaci´on por distancias ha producido una disminuci´on general del rendimiento del sistema, salvo para los primeros niveles de cobertura y primeros documentos devueltos, donde en algunos casos los resultados son similares o incluso mejores. Podemos concluir, pues, que esta primera aproximaci´on no ha demostrado ser de demasiado inter´es pr´actico.
4.
Fusi´ on de Datos mediante Intersecci´ on 4.1. Justificaci´ on Dado que el n´ umero de documentos relevantes devueltos es el mismo, la ca´ıda en el rendimiento del sistema en ´esta primera aproximaci´on s´olo puede deberse a una mala ordenaci´on de los resultados por el modelo basado en distancias. Por esta raz´on decidimos estudiar la variaci´on en la distribuci´on de documentos relevantes y no relevantes en los K primeros documentos devueltos. Comentaremos u ´nicamente los resultados obtenidos empleando consultas cortas para el corpus CLEF 2001-02·A, mostrados en la tabla 2, ya que los resultados obtenidos en dicho estudio son muy similares para los dem´as corpus y tipos de consultas. Cada fila muestra los resultados obtenidos al comparar los K primeros documentos devueltos por el sistema mediante inde-
xaci´on de lemas con realimentaci´on (lem) — conjunto de resultados L— con aqu´ellos devueltos tras su reordenaci´on mediante distancias (cir ) —conjunto de resultados D. Las columnas muestran los resultados obtenidos para cada uno de los par´ametros considerados: n´ umero medio de nuevos relevantes obtenidos mediante distancias (D \ L), n´ umero medio de relevantes perdidos con distancias (L \ D), n´ umero medio de relevantes que se mantienen (L ∩ D), coeficiente de superposici´on de relevantes (Rsup ), precisi´on de lem a los K primeros documentos (P r(L)), precisi´on a los K documentos tras la reordenaci´on por distancias (P r(D)), y precisi´on en los documentos comunes a ambas aproximaciones dentro de sus K primeros documentos (P r(L ∩ D)). En la parte derecha de la tabla se muestran sus equivalentes para el caso de los documentos no relevantes: n´ umero medio de no relevantes a˜ nadidos, perdidos y comunes, y grado de superposici´on de no relevantes. A partir de estos resultados se pueden extraer diversas conclusiones de importancia. En primer lugar, observamos que el n´ umero de documentos relevantes obtenidos por ambas aproximaciones dentro de sus K primeros documentos es muy similar —si bien algo menor para las distancias—, tal como se puede apreciar en las cifras absolutas de documentos relevantes entrantes y salientes y en
Docs. relevantes K
D \ L L \ D L ∩ D Rsup
P r(L) P r(D) P r(L ∩ D)
5 10 15 20 30 100 200 500
1.93 1.78 1.52 0.45 3.24 3.30 3.15 0.49 4.17 4.15 4.67 0.53 4.59 4.96 6.30 0.57 5.61 6.74 8.93 0.59 7.00 11.48 23.52 0.72 5.54 9.63 37.35 0.83 2.35 3.39 52.67 0.95
0.66 0.65 0.59 0.56 0.52 0.35 0.23 0.11
0.69 0.64 0.59 0.54 0.48 0.31 0.21 0.11
0.80 0.76 0.72 0.72 0.68 0.49 0.36 0.16
Docs. no relevantes L \ D L ∩ D Nsup
D\L
1.15 2.61 4.35 6.65 11.22 45.43 90.50 167.43
1.30 0.39 2.54 1.00 4.37 1.80 6.28 2.46 10.09 4.24 40.96 24.04 86.41 66.61 166.39 277.54
0.24 0.28 0.29 0.28 0.28 0.36 0.43 0.62
Tabla 2: Distribuci´on de documentos relevantes y no relevantes tras la reordenaci´on mediante distancias. Corpus CLEF 2001-02·A, consultas cortas las precisiones a los K documentos de ambas aproximaciones. Esto nos permite confirmar que se trata de un problema de mala ordenaci´on de los documentos. En segundo lugar debemos referirnos a los coeficientes de superposici´on de documentos relevantes (Rsup ) y no relevantes (Nsup ). Estos coeficientes, definidos en (Lee, 1997), indican el grado de superposici´on entre el conjunto de documentos relevantes o no relevantes de dos conjuntos de documentos devueltos. Para dos ejecuciones run1 y run2 , dichos coeficientes se definen como: Rsup =
Nsup =
2 |Rel(run1 ) ∩ Rel(run2 )| |Rel(run1 )| + |Rel(run2 )|
(7)
2 |N onrel(run1 ) ∩ N onrel(run2 )| (8) |N onrel(run1 )| + |N onrel(run2 )|
donde Rel(X) y N onrel(X) representan, respectivamente, el conjunto de documentos relevantes y no relevantes devueltos en la ejecuci´on X. Como podemos apreciar en la tabla 2, los factores de superposici´on de los documentos relevantes son considerablemente mayores que los de los no relevantes. De esta forma ambas aproximaciones devuelven un conjunto similar de documentos relevantes, pero un conjunto diferente de documentos irrelevantes. Se cumple, pues, la denominada propiedad de la superposici´ on desigual (Lee, 1997), que dice que diferentes ejecuciones deben devolver conjuntos similares de documentos relevantes a la vez que devolver conjuntos disimilares de no relevantes como primer indicador de la efectividad que tendr´ıa la fusi´on de datos de ambas. En tercer lugar, y en relaci´on al punto anterior, puede verse que la precisi´on en los documentos comunes a ambas aproximaciones dentro de sus K primeros documentos
(P r(L ∩ D)) es mayor que las precisiones alcanzadas tanto por lemas (P r(L)) como por distancias (P r(D)); o lo que es lo mismo, la probabilidad de que un documento sea relevante es mayor cuando es devuelto por ambas aproximaciones. Conforme a estas observaciones, se plante´o una nueva aproximaci´on para la reordenaci´on, esta vez basada en la fusi´on de datos.
4.2.
Descripci´ on del Algoritmo
La fusi´ on de datos es una t´ecnica de combinaci´on de evidencias consistente en la combinaci´on de resultados devueltos empleando diferentes representaciones de consultas o documentos, o mediante m´ ultiples t´ecnicas de recuperaci´on (Fox y Shaw, 1994; Lee, 1997). En nuestro caso hemos optado por una aproximaci´on basada no en la combinaci´on de puntuaciones en base a similaridades (Fox y Shaw, 1994; Lee, 1997) o rango (Lee, 1997), sino en un criterio booleano para el cual, una vez fijado un valor K, los documentos son devueltos en el siguiente orden: 1. En primer lugar, los documentos pertenecientes a la intersecci´on de los K primeros documentos de ambas aproximaciones: LK ∩ DK . El objetivo perseguido es el de incrementar la precisi´on en los primeros documentos devueltos. 2. A continuaci´on, los documentos pertenecientes a los K primeros documentos de ambas aproximaciones que no est´en en la intersecci´on: (LK ∪ DK ) \ (LK ∩ DK ). El objetivo es a˜ nadir a los primeros documentos devueltos aquellos documentos relevantes devueltos u ´nicamente mediante la aproximaci´on basada en distancias, sin perjudicar la ordenaci´on de aqu´ellos devueltos u ´nicamente por la indexaci´on de lemas.
3. Finalmente, los restantes documentos devueltos por los lemas: L \ (LK ∪ DK ). donde L es el conjunto de resultados devuelto por lem, LK el conjunto de K primeros resultados devuelto con lem, y DK el conjunto de K primeros resultados devuelto mediante la reordenaci´on por distancias. Con respecto a la ordenaci´on interna de los resultados, se tomar´a como referencia, por sus mejores resultados, la ordenaci´on obtenida mediante la indexaci´on de lemas (lem). De esta forma cuando se devuelva un subconjunto S de resultados, los documentos que lo conforman se devolver´an en el mismo orden relativo que exist´ıa entre ellos cuando eran devueltos por lem.4
5.
Resultados Experimentales con Fusi´ on de Datos
Tras experimentos previos de puesta a punto, se opt´o finalmente por emplear un valor K = 30 en el caso de consultas cortas y K = 50 en el caso de las largas. La tabla 3 recoge los resultados obtenidos para la nueva aproximaci´on. Al igual que antes, la primera columna de cada grupo muestra los resultados para la l´ınea base, la indexaci´on de lemas con realimentaci´on (lem), mientras que la segunda columna muestra los resultados obtenidos tras su ordenaci´on mediante fusi´on por intersecci´on (cir ). Podemos apreciar que las mejoras obtenidas con la reordenaci´on mediante fusi´on son consistentes, especialmente en el caso de la precisi´on a los n documentos devueltos —tal como se pretend´ıa—, si bien dichas mejoras tambi´en se extienden al resto de par´ametros estudiados, siendo algo menores en el caso del corpus CLEF 2003.
6.
Conclusiones y Trabajo Futuro
A lo largo de este art´ıculo se ha planteado la utilizaci´on de un modelo de recuperaci´on basado en distancias entre palabras, o basado en localidad, para tratar el problema de la variaci´on ling¨ u´ıstica de car´acter sint´actico presente en los textos. Se han considerado dos aproximaciones, ambas enfocadas a la reordenaci´on de resultados, en este caso obtenidos mediante inde-
xaci´on de lemas de palabras con contenido. La primera aproximaci´on, que asum´ıa el orden obtenido mediante la aplicaci´on del modelo basado en localidad como el orden final a devolver, no obtuvo buenos resultados. Tras analizar el comportamiento del sistema se opt´o por emplear una aproximaci´on basada en la fusi´on de datos, y que emplea la intersecci´on de los conjuntos de documentos devueltos por ambos sistemas como gu´ıa para la reordenaci´on. Esta segunda aproximaci´on result´o fruct´ıfera, obteniendo una mejora consistente y general. En lo que respecta al trabajo futuro, pretendemos dar capacidad al sistema para el tratamiento de variantes morfosint´acticas de una expresi´on (Jacquemin y Tzoukermann, 1999), as´ı como de relaciones de sinonimia ponderada (Fern´andez-Lanza, Gra˜ na, y Sobrino, 2003).
Bibliograf´ıa Alonso, M. A., J. Vilares, y V. M. Darriba. 2002. On the usefulness of extracting syntactic dependencies for text indexing. En vol. 2464 de Lecture Notes in Artificial Intelligence. Springer-Verlag, p´ag. 3–11. Buckley, C. 1985. Implementation of the SMART information retrieval system. Technical Report TR85-686, Department of Computer Science, Cornell University. de Kretser, O. y A. Moffat. 1999a. Effective document presentation with a localitybased similarity heuristic. En Proc. of SIGIR ’99, Berkeley, USA, p´ag. 113–120. de Kretser, O. y A. Moffat. 1999b. Localitybased information retrieval. En Proc. of 10th Australasian Database Conference (ADC ’99), Auckland, New Zealand, p´ag. 177–188. Fern´andez-Lanza, S., J. Gra˜ na, y A. Sobrino. 2003. Introducing FDSA (Fuzzy Dictionary of Synonyms and Antonyms): Applications on Information Retrieval and Stand-Alone Use. Mathware & Soft Computing, 10(2-3):57–70. Fox, E. A. y J. A. Shaw. 1994. Combination of multiple searches. En The 2nd Text REtrieval Conference (TREC2), Gaithersburg, USA, p´ag. 243–252.
4
Es decir, si la secuencia original en lem era d2-d3d1 y se toma un subconjunto {d1,d2} a devolver, los documentos se obtendr´ıan en el mismo orden relativo original: d2-d1.
Gra˜ na, J., J.-C. Chappelier, y M. Vilares. 2001. Integrating external dictionaries into stochastic part-of-speech taggers. En
corpus consulta
CLEF 2001-02·A cortas
CLEF 2001-02·B
largas
cortas
CLEF 2003
largas
cortas
largas
t´ ecnica
lem
cir
lem
cir
lem
cir
lem
cir
lem
cir
lem
cir
#consultas #docs. dev. #rlvs. esp. #rlvs. dev.
46 46k 3007 2767
= = = =
46 46k 3007 2779
= = = =
45 45k 2513 2376
= = = =
45 45k 2513 2406
= = = =
47 47k 2335 2240
= = = =
47 47k 2335 2223
= = = =
Pr. no int. Pr.-R
.5220 .5327 .4990 .5126
.5604 .5589 .5366 .5433
.4773 .4768 .4599 .4551
.5392 .5497 .5104 .5188
.5024 .4977 .4912 .4737
.5207 .5167 .4871 .4865
Pr. Pr. Pr. Pr. Pr. Pr.
a a a a a a
0% 10 % 20 % 30 % 40 % 50 %
.8221 .7490 .6866 .6573 .5997 .5456
.8386 .7758 .7193 .6844 .6164 .5644
.8895 .8028 .7352 .6996 .6541 .6005
.9091 .8256 .7528 .6922 .6610 .6026
.8210 .6861 .6319 .5688 .5289 .5017
.8248 .7191 .6426 .5818 .5470 .4909
.8710 .7619 .6929 .6497 .6202 .5733
.8751 .7740 .7188 .6784 .6460 .5996
.8145 .7369 .6632 .6019 .5638 .5410
.8163 .7283 .6737 .6015 .5672 .5359
.8301 .7421 .6758 .6304 .5975 .5479
.8257 .7540 .6834 .6391 .5876 .5327
Pr. Pr. Pr. Pr. Pr. Pr.
a a a a a a
5 docs. 10 docs. 15 docs. 20 docs. 30 docs. 100 docs.
.6609 .6457 .5884 .5630 .5225 .3507
.6739 .6761 .6188 .5826 .5225 .3502
.6957 .6848 .6435 .6043 .5580 .3598
.7217 .7065 .6449 .6185 .5652 .3539
.5956 .5600 .5274 .5011 .4444 .2940
.6178 .5756 .5393 .5089 .4444 .3011
.6844 .6178 .5822 .5533 .5081 .3191
.6933 .6400 .6000 .5722 .5148 .3304
.5872 .5596 .5305 .4883 .4433 .2770
.6298 .5745 .5390 .5074 .4433 .2789
.6213 .5872 .5504 .5266 .4667 .2853
.6553 .5979 .5560 .5170 .4716 .2809
Tabla 3: Resultados obtenidos mediante reordenaci´on por fusi´on con intersecci´on (cir ) de la lematizaci´on con realimentaci´on (lem) Proc. of RANLP 2001, Tzigov Chark, Bulgaria, p´ag. 122–128 Hull, D. A., G. Grefenstette, B. M. Schulze, E. Gaussier, H. Sch¨ utze, y J. O. Pedersen. 1997. Xerox TREC-5 site report: Routing, filtering, NLP, and Spanish tracks. En The 5th Text REtrieval Conference (TREC-5), Gaithersburg, USA, p´ag. 167–180. Jacquemin, C. y E. Tzoukermann. 1999. NLP for term variant extraction: synergy between morphology, lexicon and syntax. En Natural Language Information Retrieval, vol. 7 de Text, Speech and Language Technology. Kluwer Academic Publishers, p´ag. 25–74. Kaszkiel, M. y J. Zobel. 2001. Effective ranking with arbitrary passages. Journal of the American Society of Information Science, 52(4):344–364. Lee, J. H. 1997. Analyses of multiple evidence combination. En Proc. of SIGIR ’97, Philadelphia, USA, p´ag. 267–276. ACM Press. Llopis, F. 2003. IR-n: Un sistema de Recuperaci´ on de Informaci´ on basado en Pasajes. PhD. Thesis, Universidad de Alicante. Mitra, M., C. Buckley, A. Singhal, y C. Cardie. 1997. An analysis of statistical and
syntactic phrases. En Proc. of RIAO-97, 5th International Conference “Recherche d’Information Assistee par Ordinateur”, Montreal, Canada, p´ag. 200–214. Perez-Carballo, J. y T. Strzalkowski. 2000. Natural language information retrieval: progress report. Information Processing and Management, 36(1):155–178. Rocchio, J.J., 1971. The SMART Retrieval System–Experiments in Automatic Document Processing, cap´ıtulo Relevance feedback in information retrieval, p´ag. 313– 323. Prentice-Hall. Salton, G. y C. Buckley. 1988. Termweighting approaches in automatic retrieval. Information Processing & Management, 24(5):513–523. Vilares, J., M. A. Alonso, F. J. Ribadas, y M. Vilares. 2002. COLE experiments at CLEF 2002 Spanish monolingual track. En Working Notes for the CLEF 2002 Workshop, Rome, Italy, p´ag. 153–160. Vilares, J. y M. A. Alonso. 2003. A grammatical approach to the extraction of index terms. En Proc. of RANLP 2003, Borovest, Bulgaria, p´ag. 500–504.