T´ ecnicas de representaci´ on de textos para clasificaci´ on no supervisada de documentos Germ´ an Cobo, Xavier Sevillano, Francesc Al´ıas y Joan Claudi Socor´ o Departamento de Comunicaciones y Teor´ıa de la Se˜ nal Enginyeria i Arquitectura La Salle, Universitat Ramon Llull na) Po. Bonanova no 8 08022 - Barcelona (Espa˜ {gcobo, xavis, falias, jclaudi}@salle.url.edu Resumen: En este art´ıculo se estudia el impacto de la representaci´on del texto en el ´ambito de la clasificaci´ on no supervisada (CNS) de documentos. Tomando como referencia una representaci´on basada en un modelo de espacio vectorial de t´erminos, se analizan diferentes t´ecnicas de representaci´on de los datos sobre espacios de menor dimensionalidad (obtenidas mediante t´ecnicas de extracci´on de t´erminos como el An´ alisis de Sem´antica Latente, la Factorizaci´ on en Matrices No Negativas y el An´ alisis en Componentes Independientes) con el objetivo de mejorar la CNS de un corpus de documentos. El rendimiento ofrecido por cada una de estas t´ecnicas de representaci´on de textos se analiza sobre diferentes corpus de documentos y problemas de clasificaci´on, evaluando tanto el coste computacional de los algoritmos, como los resultados de la clasificaci´on conseguidos mediante distintas m´etricas de evaluaci´ on. Palabras clave: Clasificaci´on no supervisada de documentos, modelo de espacio vectorial, LSA, NMF, ICA. Abstract: This paper analyzes the influence of text representation in the document clustering problem. Taking a term-based vector space model representation as a reference, several low-dimensionality data representation techniques are analyzed (derived by means of terms extraction techniques such as Latent Semantic Analysis, Non-negative Matrix Factorization and Independent Component Analysis) in order to improve clustering results. The performance of these text representation techniques is analyzed over different text corpora and several classification tasks, evaluating their computational cost and classification efficiency by means of different performance metrics. Keywords: Document clustering, vector space model, LSA, NMF, ICA.
1.
Introducci´ on
de documentos no etiquetados, ya que esto implica no conocer a priori la correspondencia entre los documentos y las categor´ıas a las que pertenecen, por lo que nos encontramos ante un problema de CNS (Jain, Murty, y Flynn, 2002).
La gesti´on autom´ atica de documentos de texto basada en su contenido suscita un gran inter´es en el seno de la comunidad cient´ıfica. Esto es debido al continuo crecimiento, tanto en n´ umero como en tama˜ no, de las bases de datos textuales existentes en la actualidad. La literatura sobre el an´alisis de textos cubre un amplio espectro de aplicaciones tales como la clasificaci´on supervisada, la recuperaci´ on de informaci´ on o la clasificaci´ on no supervisada (CNS), objeto del presente trabajo. La mayor´ıa de las t´ecnicas propuestas en este ´ambito se basan en el paradigma del aprendizaje artificial (Sebastiani, 2002). Uno de los pilares en los que reposa su correcto funcionamiento es el uso de representaciones de los documentos que reflejen los rasgos distintivos de su contenido de la mejor manera posible. Esta cuesti´on resulta especialmente relevante cuando se trabaja con colecciones
En este contexto, una de las representaciones textuales m´as elementales es la basada en el Modelo del Espacio Vectorial (MEV) (Salton, 1989), que representa cada documento como un vector en un espacio multidimensional en base a los t´erminos que lo forman. No obstante, existen en la literatura diversas t´ecnicas de extracci´on de t´erminos que permiten transformar el espacio vectorial de partida en otro de baja dimensionalidad, mediante t´ecnicas de extracci´on de caracter´ısticas, tales como: i) el An´ alisis de Sem´antica Latente (Latent Semantic Analysis ´ o LSA) (Deerwester et al., 1990), ii) el An´ alisis en Componentes Independientes (Independent Compo329
Germán Cobo, Xavier Sevillano, Francesc Alías y Joan Claudi Socoró
posibilidades, tales como pesos binarios, pesos que consideran el n´ umero de apariciones del t´ermino en el documento (term frequency - tf ) o pesos que ponderan la singularidad del t´ermino respecto del resto de t´erminos del diccionario (inverse document frequency - idf ). En este art´ıculo se emplea la ponderaci´on tf×idf :
nent Analysis ´ o ICA) (Kolenda, Hansen, y Sigurdsson, 2000), y iii) la Factorizaci´ on en Matrices No Negativas (Non-Negative Matrix Factorization ´ o NMF) (Lee y Seung, 1999). Las dimensiones de este nuevo espacio describen mejor las caracter´ısticas distintivas de las tem´aticas a las que pertenecen los documentos. Este trabajo se centra en analizar el impacto del uso estas t´ecnicas de extracci´on de t´erminos en el ´ambito de la CNS de documentos de texto. Para ello, se comparan los algoritmos en t´erminos de i) bondad de la clasificaci´ on y ii) coste computacional (del propio proceso de extracci´on de t´erminos y de su impacto en la ejecuci´on del algoritmo de CNS). A modo de sumario, en este art´ıculo se describen las t´ecnicas de representaci´on de documentos previamente mencionadas (secci´on 2). A continuaci´ on, se eval´ ua la bondad de la clasificaci´ on obtenida por un algoritmo cl´asico de CNS (secci´on 3) en base a diversas m´etricas (secci´on 4) y a lo largo de distintos experimentos realizados sobre dos corpus de documentos (secci´on 5). Finalmente, se exponen las conclusiones y l´ıneas de futuro de este trabajo (secci´on 6).
2.
wij = tfij · idfi = tfij · log
, ∀ ni > 0
(1) siendo tfij el tf del t´ermino i del documenumero total del apariciones del to j y ni el n´ t´ermino i en todo el corpus.
2.2.
An´ alisis de Sem´ antica Latente (LSA)
Esta t´ecnica de extracci´on de t´erminos realiza una reducci´ on de dimensiones del espacio de representaci´on mediante la proyecci´on de los documentos sobre un espacio ortogonal de baja dimensionalidad (M