IBERAMIA-SBIA 2000 Open Discussion Track Proceedings, p. 217-226, Atibaia - Sao Paulo (Brasil), November 19-22 2000.
Clustering of Similar Values, in Spanish, for the Improvement of Search Systems Sergio Luján-Mora & Manuel Palomar Department of Languages and Information Systems University of Alicante, Spain
Dpto. de Lenguajes y Sistemas Informáticos Universidad de Alicante (España)
1
Contents • Introduction • Taxonomy of different values • The solution • The clustering algorithm • Results • Conclusions Dpto. de Lenguajes y Sistemas Informáticos Universidad de Alicante (España)
2
1
Introduction • Information systems Î Rapid and precise access • Databases Î Find information • Inconsistency: a term represented by different values
Dpto. de Lenguajes y Sistemas Informáticos Universidad de Alicante (España)
3
Introduction • Term – Universidad de Alicante
• Different values found in databases: – Universidad Alicante – Unibersidad de Alicante – Universitat d’Alacant – University of Alicante Dpto. de Lenguajes y Sistemas Informáticos Universidad de Alicante (España)
4
2
Introduction • The problem: – Data redundancy Î Inconsistency – Integration of different databases into a common repository (e.g. data warehouses): • different criteria Î data redundancy Î Inconsistency Dpto. de Lenguajes y Sistemas Informáticos Universidad de Alicante (España)
5
Introduction • We use clustering within an automatic method for reducing on inconsistency 1. Values that refer to a same term are clustered 2. All values are replaced by the cluster sample Dpto. de Lenguajes y Sistemas Informáticos Universidad de Alicante (España)
6
3
Contents • Introduction • Taxonomy of different values • The solution • The clustering algorithm • Results • Conclusions Dpto. de Lenguajes y Sistemas Informáticos Universidad de Alicante (España)
7
Taxonomy of different values • Omission or inclusion of the written accent: Asociación Astronómica Asociacion Astronomica
• Lower-case / upper-case: Departamento de Lenguajes y Sistemas Departamento de lenguajes y sistemas Dpto. de Lenguajes y Sistemas Informáticos Universidad de Alicante (España)
8
4
Taxonomy of different values • Abbreviations and acronyms: Dpto. de Derecho Civil Departamento de Derecho Civil
• Word order: Miguel de Cervantes Saavedra Cervantes Saavedra, Miguel de Dpto. de Lenguajes y Sistemas Informáticos Universidad de Alicante (España)
9
Taxonomy of different values • Different denominations: Unidad de Registro Sismológico Unidad de Registro Sísmico
• Punctuation marks: Laboratorio Multimedia (mmlab) Laboratorio Multimedia - mmlab Dpto. de Lenguajes y Sistemas Informáticos Universidad de Alicante (España)
10
5
Taxonomy of different values • Errors (misspelling, typing or printing errors):
Gabinete de imagen Gavinete de imagen
• Different languages: Universidad de Alicante University of Alicante Dpto. de Lenguajes y Sistemas Informáticos Universidad de Alicante (España)
11
Contents • Introduction • Taxonomy of different values • The solution • The clustering algorithm • Results • Conclusions Dpto. de Lenguajes y Sistemas Informáticos Universidad de Alicante (España)
Dpto. de Lenguajes y Sistemas Informáticos Universidad de Alicante (España)
13
Contents • Introduction • Taxonomy of different values • The solution • The clustering algorithm • Results • Conclusions Dpto. de Lenguajes y Sistemas Informáticos Universidad de Alicante (España)
14
7
The clustering algorithm • Similarity: – Edit distance or Levenshtein distance (LD) – Invariant distance from word position (IDWP) Universidad de Alicante Alicante, Universidad de Dpto. de Lenguajes y Sistemas Informáticos Universidad de Alicante (España)
Dpto. de Lenguajes y Sistemas Informáticos Universidad de Alicante (España)
16
8
The clustering algorithm Input: C: Sorted strings in descending order by frequency (c1…cm) Output: G: Set of clusters (g1…gn) STEPS 1 Select ci, the first string in C, and insert it into the new cluster gk 2 Remove ci from C Dpto. de Lenguajes y Sistemas Informáticos Universidad de Alicante (España)
17
The clustering algorithm 3. For each string cj in C If LEND(ci, cj) < αLEND(ci, cj) then If TID(ci, cj) < αTID(ci, cj) then If LD(ci, cj) < αLD(ci, cj) then Insert cj into cluster gk Remove cj from C Else If IDWP(ci, cj) < αIDWP(ci, cj) then Insert cj into cluster gk Remove cj from C Dpto. de Lenguajes y Sistemas Informáticos Universidad de Alicante (España)
18
9
Contents • Introduction • Taxonomy of different values • The solution • The clustering algorithm • Results • Conclusions Dpto. de Lenguajes y Sistemas Informáticos Universidad de Alicante (España)
19
Results Indexes for measuring the cluster complexity
CI: Consistency Index FCI: File Consistency Index
∑∑ LD(x , x ) n
CI =
n
i
i =1 j =1
n
∑ i =1
m
j
xi
Dpto. de Lenguajes y Sistemas Informáticos Universidad de Alicante (España)
FCI =
∑ CI i =1
i
m
20
10
Results • File A
• File B – Without
– Without
• FCI: 1.72
• FCI: 0.31
– With
– With
• FCI: 1.11
• FCI: 0.12
Dpto. de Lenguajes y Sistemas Informáticos Universidad de Alicante (España)
21
Results • Evaluation measures: – ONC: optimal number of clusters – NC: number of clusters generated – NCC: number of completely correct clusters – NIC: number of incorrect clusters – NES: number of erroneous strings Dpto. de Lenguajes y Sistemas Informáticos Universidad de Alicante (España)
22
11
Results • Precision: NCC / ONC • Error: NIC / ONC
Dpto. de Lenguajes y Sistemas Informáticos Universidad de Alicante (España)
23
Results • File A
• File B
– Without
– Without
• Precision: 70.7%
• Precision: 67.4%
• Error: 7.6%
• Error: 8.7%
– With
– With
• Precision: 84.8%
• Precision: 72.8%
• Error: 0%
• Error: 6.5%
Dpto. de Lenguajes y Sistemas Informáticos Universidad de Alicante (España)
24
12
Contents • Introduction • The problem: causes • The solution • The clustering algorithm • Results • Conclusions Dpto. de Lenguajes y Sistemas Informáticos Universidad de Alicante (España)
25
Conclusions • Achieves good results: improves on data quality • Review obtained clusters • Expansion of abbreviations • Parameters
Dpto. de Lenguajes y Sistemas Informáticos Universidad de Alicante (España)
I believe that it is through this way of acting, conscious, responsible commitment of governments, scientists and public opinion, that it will be possible to realize a ...
tween the self and the target of empathy, but this shared representation net- .... tive to evaluate their beliefs or imagine their feelings or their pain, the right pari-.
7 may. 2002 - mals and birds (Rhinosporidium seeberi), and most produce uniflagellated zoospores. Fish pathogens also are found in ... The Ichthyophonida species do not produce flagellated cells, but many produce amoeba-like cells. This review .....
1 oct. 1996 - tigación de un head hunter ha pues- to de relieve que “los CEO son con- tratados por su capacidad intelec- tual y su experiencia comercial y.
de la relación es el gobernante (núcleo), mientras que la otra (satélite) aporta cierta ..... Gobierno Vasco, y OPENMT-2 Traducción automática híbrida y.
Political Development 21, 02. COONEY, Sean (2007): “China's Labour Law,. Compliance and Flaws in Implementing. Institutions”. Journal of Industrial Relations ...
La escala temporal: aspectos de ecología histórica. La mayor parte de los paleobiólogos estarán de acuerdo en que el bioma mediterráneo europeo tiene su ...
Neale Anthony Tillin1,2 and David Bishop1,3. 1 School of Human ...... Baker D, Nance S. The relation between strength and power in professional rugby league ...
53. Annu. Rev. Psychol. 2002.53:53-81. Downloaded from arjournals.annualreviews.org ... modern memory theory is that items do not have “strength,” or special ...
por escusar las prisiones, los gastos, pleitos y afrentes, y ver deste yugo essentas de tantas obligaciones nuestras familias, que ya a tal miseria han llegado,.
5 ene. 2009 - Roman Jovey contributed to the design and clinical relevance of the ...... pain/ or bone pain/ or metatarsalgia/ or schnitzler syndrome/ or burning ...
Ciencia y Tecnología bajo el proyecto TIC2002-. 04309-C02-02. Referencias. [Amor03] M. ... [Sakai02] S. Sakai, y otros. “An integrated distance learning system ...
The definition of a Walrasian equilibrium is now stated. Definition 1 (Walrasian Price Equilibrium). A price vector p. ∗ ∈ Rl. + is a Walrasian equilibrium price.
K & Misono H (2001) Physiological and biochemical characteristics of poly gamma-glutamate synthetase complex of Bacillus subtilis. Eur J Biochem 268: 5321–5328. Bezzate S, Aymerich S, Chambert R, Czarnes S, Berge O & Heulin. T (2001) Disruption of th
PROGRAMA NACIONAL DE CONTROL DE CALIDAD. EN BACTERIOLOGIA. INEI-ANLIS ... Nacional de Referencia, LNR) ha confirmado el primer hallazgo de colonización por enterobacteria productora de una .... Antimicrobianos, Instituto Nacional de Enfermedades Infe
sailing in the Adriatic Sea, skiing in the French Alps, reggae festivals, strange hip hop clubs and so on, this process would have been much more difficult to endure. All members of my large and loud family, here and abroad. Farfar Göte, because you
Text and Talk. An Interdis- ciplinary Journal of Language, Discourse. & Communication Studies, 31(2):247–269. Taboada, Maite, Julian Brooke, Milan Tofi-.
in the latest stable release (Debian 3.0) and more than 8,000 source packages in the .... In the following sections these three steps are described in more detail.
We find that collapsing perturbations reach the turnaround point much earlier than ... rate from the homogeneous one can be as high as 28% at an underdensity, ...
with Macbeth's or Raskolnikov's. Literature allows us, through vicarious experience, understand how other people feel when they have committed a crime, with or without repentance, and how they deal with guilt; it also allows us to project our own emo
Seri (ISO 639-3 sei) is a linguistic isolate spoken in northwestern Mexico that has been considered part of the controversial Hokan family. For more basic ...