ANÁLISIS EXPLORATORIO DE DATOS ESPACIALES AL SERVICIO DEL GEOMARKETING1
Coro Chasco Yrigoyen Instituto Lawrence R. Klein Universidad Autónoma de Madrid
[email protected]
ABSTRACT: El análisis exploratorio de datos espaciales (AEDE) es una disciplina del análisis exploratorio de datos, también denominado “data mining”, que ha sido diseñada para el tratamiento específico de los datos espaciales o geográficos. Este análisis se utiliza para identificar relaciones sistemáticas entre variables cuando no existen expectativas claras sobre la naturaleza de estas relaciones. Esto último resulta muy habitual en el ámbito de los estudios del mercado geográfico (geomarketing), donde se suele trabajar con grandes bases datos cuya estructura no siempre es bien conocida. En esta ponencia se presentan las principales técnicas del AEDE, que combinan el análisis estadístico con el gráfico, haciendo posible el estudio de las distribuciones espaciales y sus valores atípicos, esquemas de asociación espacial, agrupamientos espaciales y puntos calientes/fríos de negocio (“hot spots”). En los últimos años, los esfuerzos desarrollados por la investigación en este campo se han venido centrando en la conexión de los GIS disponibles en el mercado con paquetes estadísticos tradicionales o específicos de AEDE. Actualmente, existe en el mercado un nuevo programa informático, GeoDa, concebido como un producto autosuficiente que no requiere de un sistema específico de GIS y funciona en cualquiera de los sistemas operativos de Windows y Mac. GeoDa ha sido desarrollado por el Profesor Luc Anselin de la Universidad de Illinois, y tiene la ventaja de ser, hasta el momento, un producto “opersource”, es decir, de libre acceso en Internet. Palabras clave: Análisis exploratorio de datos espaciales, autocorrelación espacial, GIS, geomarketing, GeoDa.
1
Ponencia presentada en el III Seminario sobre Nuevas Tecnologías en la Investigación, el Marketing y la Comunicación. e-Participación.
1. INTRODUCCIÓN Este artículo pretende llamar la atención de los investigadores sociales sobre la importancia de llevar a cabo un adecuado análisis estadístico de los datos geográficos. En efecto, aunque la investigación de mercados suele trabajar con información de carácter espacial (referida a unidades geográficas), en pocas ocasiones estos datos suelen ser tratados de forma específica y diferente del análisis de series temporales, utilizando técnicas adecuadas para el análisis estadístico-gráfico-cartográfico. Estas herramientas han sido bautizadas con el nombre de análisis exploratorio de datos espaciales (AEDE) y se conciden como una disciplina dentro del más general análisis exploratorio de datos (AED), también denominado “data mining”, que ha sido diseñado para el tratamiento específico de los datos espaciales o geográficos. El AEDE se utiliza para identificar relaciones sistemáticas entre variables cuando no existen expectativas claras sobre la naturaleza de estas relaciones. Esto último resulta muy habitual en el ámbito de los estudios del mercado geográfico (geomarketing), donde se suele trabajar con grandes bases datos cuya estructura no siempre es bien conocida. Por esto, en este artículo se presentan las principales técnicas del AEDE, que es considerado como una técnica novedosa que supone la unión de dos tecnologías informáticas muy poderosas: los GIS (sistemas de información geográfica) y los paquetes estadísticos propios del análisis de datos espaciales. Es decir, las herramientas del AEDE combinan el análisis estadístico con el gráfico, haciendo posible el estudio de las distribuciones espaciales y sus valores atípicos, esquemas de asociación espacial, agrupamientos espaciales y puntos calientes/fríos de negocio (“hot spots”). En los últimos años, los esfuerzos desarrollados por la investigación en este campo se han venido centrando en la conexión de los GIS disponibles en el mercado con paquetes estadísticos tradicionales o específicos de AEDE. Actualmente, existe en el mercado un nuevo programa informático, GeoDa, concebido como un producto autosuficiente que no requiere de un sistema específico de GIS y funciona en cualquiera de los sistemas operativos de Windows y Macintosh. GeoDa ha sido desarrollado por el Profesor Luc Anselin de la Universidad de Illinois y tiene la ventaja de ser, hasta el momento, un producto “opersource”, es decir, de libre acceso en Internet. Tras esta introducción, en el Apartado 2, se define el concepto más general del AED, en concreto, aquellas funcionalidades que mantiene en común con el AEDE, que se define más ampliamente en el Apartado 3. En el Apartado 4, se presentan algunas de las técnicas más importantes del AEDE, ilustradas con ejemplos que permiten exponer con mayor claridad el interés de estas herramientas dentro del análisis socioeconómico y, en particular, de la investigación de mercados. Un Apartado 5 de conclusiones y la bibliografía cierran esta exposión.
2. ANÁLISIS EXPLORATORIO DE DATOS (AED) El origen del análisis exploratorio de datos espaciales se encuentra en el llamado análisis exploratorio de datos (AED) o minería de datos (“data mining”). El
clásico AED podría definirse como “el conjunto de herramientas gráficas y descriptivas utilizadas para el descubrimiento de patrones de comportamiento en los datos y el establecimiento de hipótesis con la menor estructura posible”. Esta definición fue propuesta por Tukey (1977), que hizo posible la extensión de este tipo de análisis multivariante y del “software” estadístico moderno. De este modo, es posible obtener una estructura explicativa de los datos a través de unas técnicas que combinan herramientas de la estadística básica (descriptivos, correlaciones, tablas de frecuencias o de correlación cruzada) con análisis multivariante avanzado, especialmente diseñado para identificar formas en grandes bases de datos (análisis cluster, escalas multidimensionales, análisis logit, correlación canónica, análisis de correspondencias, árboles de clasificación, etc.). Las técnicas de AED suelen estar acompañadas de métodos de visualización gráfica capaces de identificar conexiones, tendencias o sesgos presentes en las bases de datos inicialmente desestructuradas. Una de las más conocidas técnicas propias del AED es el “cepillado” o “brushing”, un método interactivo que permite la selección en pantalla de un determinado número de datos para la identificación de características comunes o el examen de efectos o relaciones entre variables relevantes. Estas relaciones entre variables suelen visualizarse mediante el ajuste de funciones (líneas, en un plano de dos dimensiones o superficies tridimensionales) y sus intervalos de confianza, de forma que, por ejemplo, puedan examinarse los cambios que producen sobre dichas funciones la eliminación o añadido (temporal) de un determinado número de datos. Figura 1
Ejemplo de herramientas de AED: matrices de correlación (izda.) y análisis multivariante (dcha.)
Fuente: Elaboración propia a partir de Statsoft (2000).
Otras técnicas gráficas del AED incluyen el ajuste y representación gráfica de funciones, alisado de datos, superposición o fusión de múltiples “vistas” (“views”), añadido de datos en gráficos, identificación y señalización de subconjuntos de datos que cumplen determinadas condiciones, representación gráfica de intervalos o áreas de confianza, técnicas de reducción de imágenes, etc. La exploración de los datos es sólo un primer paso y sus resultados deben ser considerados como una etapa previa a su “confirmación” (modelización). Si los resultados de la fase exploratoria sugieren la utilización de un modelo determinado, entonces su validación puede
verificarse aplicando dicho modelo a un nuevo conjunto de datos y contrastando el ajuste, es decir, su capacidad predictiva. Es decir, los modernos métodos de AED hacen hincapié en la interacción existente entre el conocimiento humano y la informática en forma de gráficos estadísticos dinámicos que permiten al usuario la manipulación directa de diversas “vistas” de los datos. Algunos programas clásicos de AED, como Matlab, SPSS, SAS han ido incorporando mapas como nuevas “vistas” integradas de forma dinámica con el resto de información, a través de sus extensiones Mapping Toolbox, SPSS Mapas y SAS Bridge for ESRI, respectivamente. Sin embargo, la importancia concedida por ellos al espacio se reduce prácticamente al tratamiento de la localización como un simple plano de coordenadas X-Y, dado que las herramientas propias del AED no suelen ser diseñadas para el tratamiento específico de datos geográficos, ignorando totalmente los efectos espaciales de dependencia y heterogeneidad. Por este motivo, surge el análisis exploratorio de datos espaciales (AEDE), como disciplina dentro del AED, para el tratamiento específico de los datos geográficos.
3. ANÁLISIS EXPLORATORIO DE DATOS ESPACIALES (AEDE) Y GEODA.
El AEDE puede definirse como el conjunto de técnicas que describen y visualizan las distribuciones espaciales, identifican localizaciones atípicas o “atípicos espaciales” (“spatial outliers”), descubren esquemas de asociación espacial, agrupamientos (“clusters”) o puntos calientes (“hot spots”) y sugieren estructuras espaciales u otras formas de heterogeneidad espacial (Anselin, 1999). Por tanto, el AEDE se correspondería con los métodos de estadística descriptiva espacial. De manera particular, cuando no existe un marco formal o teoría previa acerca del fenómeno que se analiza, deben de utilizarse las técnicas del AEDE. Esta situación se plantea muy a menudo en el campo de las ciencias sociales, cuando se analizan grandes bases de datos geográficos cuya distribución no se conoce a priori. Por ejemplo, parece obvio que la distribución del nivel de instrucción en las provincias españolas sigue una tendencia de norte (mayor nivel) a sur (menor nivel). Sin embargo, esta distribución suele ser más desconocida cuando se analiza este fenómeno para el ámbito de secciones censales en el interior de un municipio. En los últimos años, el AEDE ha sido introducido en algunas aplicaciones de economía regional (por ejemplo, Moreno y Vayá, 2000), así como en los ejercicios de predicción-extrapolación de datos (Chasco, 2003). Sin embargo, son prácticamente nulas las aplicaciones realizadas en el campo del marketing. El AEDE combina el análisis estadístico con el gráfico, dando lugar a lo que podría denominarse una “visualización científica” (Haining et al., 2000) que, a los contrastes estadísticos sobre los efectos espaciales de dependencia y heterogeneidad, une un amplio marco de gráficos o “vistas” múltiples y dinámicas sobre la información geográfica (Unwin, 2000). Por eso, estos métodos de visualización científica son mucho más que simples mapas o gráficos estáticos de representación, como podrá apreciarse con mayor detalle en el Apartado siguiente, siendo fundamental el papel jugado por los paquetes informáticos especializados.
En los últimos años, los esfuerzos desarrollados por la investigación en este campo del AEDE se han venido centrando en la conexión de los GIS disponibles en el mercado (Grassland, ESRI, MapInfo) con paquetes estadísticos tradicionales (SPLUS, SPSS, Matlab, SAS) o específicos de AEDE. De este modo, a la potente capacidad de visualización y análisis de los GIS se le une la especialización propia del análisis espacial estadístico y gráfico (ver Bao et al., 2000). En el momento presente, junto a estos módulos de enlace, existe también un esfuerzo creciente por elaborar programas de AEDE en entornos de “opensouce” como R, Java y Python, que se encuentran libremente disponibles en Internet y cuya “fuente abierta” hace posible su constante renovación por parte de todo el que lo desee. Muchos de estos programas pueden consultarse en la página web del Center for Spatially Integrated Social Science, CSISS: http://www.csiss.org/clearinghouse/. Según Cressie (1993), el AEDE puede ser abordado desde dos puntos de vista, según que se trate de un análisis desarrollado por la geoestadística o por la econometría espacial. El objeto del análisis geoestadístico se encuentra, por lo general, en el entorno de las ciencias medioambientales (física, geología, hidrología, etc.) y se centra en una muestra de datos puntuales procedentes de distribuciones geográficas continuas (por ejemplo, precipitación atmosférica, humedad de la tierra, altura del océano, etc.). Por su parte, la econometría espacial analiza localizaciones geográficas discretas de puntos o polígonos (provincias, municipios, etc.). Es lo que se denomina perspectiva de retícula o “lattice”, y se encuentra mucho más centrado en el análisis de los fenómenos socioeconómicos (distribución de la renta, clientes, votantes, etc.). En la Tabla 1, se presentan algunos programas de AEDE reticular (“lattice”) en entorno “amigable”. Tabla 1: Paquetes informáticos de AEDE reticular en entorno “amigable” Paquete informático cdv, Cartographic Data Visualizer
Empresa/autor
Página web
Jason Dykes
www.geog.le.ac.uk/jad7/cdv/
ClusterSeer
Terraseer
http://www.terraseer.com/products/ clusterseer.html
CrimeStat Spatial Statistics Program
Ned Levine & Associates
http://www.icpsr.umich.edu/ NACJD/crimestat.html
Flow Mapper GeoDa SAS/GIS STARS, Space Time Analysis of Regional Systems STIS, Space Time Intelligence System WinGslib, Geostatistical Software Library Fuente: Elaboración propia.
http://csiss.ncgia.ucsb.edu/
Waldo Tobler & David Jones clearinghouse/FlowMapper/ Luc Anselin, Universidad de http://sal.agecon.uiuc.edu/geoda main.php Illinois (USA) http://www.sas.com/products/gis/ SAS Institute Inc. Sergio Rey
http://stars-py.sourceforge.net/
Terraseer
http://www.terraseer.com/products/ stis/stis_features.html
Statios, LLC
http://www.statios.com/WinGslib/
Del grupo de programas de AEDE reticular, destaca GeoDa, que incluye también un módulo dedicado al análisis de regresión espacial. GeoDa es muy fácil de utilizar de forma visual e interactiva y su uso no exige un conocimiento previo de la tecnología GIS, mucho más compleja. En este artículo, nos valemos de este programa, que ha sido desarrollado por el Profesor Luc Anselin, de la Universidad de Illinois, para presentar la capacidad y posibilidades del AEDE. La versión más reciente del programa, 0.9.5-i5, data de Agosto de 2004 y está siendo muy bien recibida por todo tipo de usuarios, especialmente los dedicados al mundo académico y de la investigación, en general (en septiembre de 2004, GeoDa tenía registrados a 3.500 usuarios, que se incrementan en una tasa de 150 nuevos cada mes. Esta versión está disponible en Internet, http://sal.agecon.uiuc.edu/geoda_main.php y es de acceso libre. En esta página web, hay diversos materiales de apoyo así como una película del programa “Quicktime” en la que se hace una demostración de las características principales de este programa. La versión actual de GeoDa utiliza la tecnología MapObjetcts LT2 de ESRI, que permite el acceso a datos geográficos, su representación geográfica y la obtención de nuevas variables mediante funciones de “query”. Por este motivo, el único formato aceptado para la cartografía digital es el proporcionado por ESRI, con la extensión “shp” (“shapefile”). En términos generales, las diferentes funciones de GeoDa podrían ser clasificadas en 6 cateogorias: tratamiento de datos geográficos, transformación de datos, representación gráfica en mapas, gráficos estadísticos, dependencia espacial y regresión espacial. Como se aprecia en la Figura 2, estas funciones pueden ser activadas a través del menú superior o directamente, tecleando en los iconos de la barra de herramientas. En cada una de las secciones principales existen varias subaplicaciones relacionadas. Figura 2
GeoDa: vista principal con funciones del menú y barra de herramientas
Fuente: Elaboración propia a partir de GeoDa.
En el apartado siguiente, se presentan los principales métodos de AEDE con ayuda de GeoDa. Para ello, se proponen algunos ejemplos ilustrativos de las capacidades de estas técnicas para el análisis socioeconómico.
4. MÉTODOS GRÁFICOS DEL AEDE En los últimos años, se han propuesto gran cantidad de métodos gráficos para el AEDE aunque, como ponen de manifiesto Haining et al. (2000), existen pocos estudios que valoren la utilidad y efectividad de todos ellos. En línea con Wise et al. (1999), tal como propone Tukey (1977) para el AED, podría afirmarse que un buen método gráfico de AEDE es aquél capaz de analizar y representar dos características fundamentales en toda distribución espacial: tendencia y puntos atípicos. En el ámbito de las variables geográficas, la tendencia es de carácter geográfico y tiene un sentido global, es decir, referido a todo el mapa (y no a una parte del mismo). En cuanto a los atípicos espaciales (“spatial outliers”), se trata de especiales concentraciones de datos cuyo valor se encuentra a cierta distancia de la tendencia general (mediana): por ejemplo, bajo/sobre el primer/tercer cuartil de un diagrama de caja. Esta propiedad tiene un carácter local, pues suele producirse en determinadas zonas del mapa general, normalmente en forma de agrupaciones (o “clusters”) de valores muy altos/bajos comparativamente con el entorno. En la Tabla 2, se presentan las principales técnicas del análisis exploratorio de datos reticular incluidas en el programa GeoDa agrupadas, según los dos citados elementos de tendencia (global) y puntos atípicos (local)2. Tabla 2: Métodos de análisis exploratorio en GeoDa
AED general
AEDE reticular
Tendencia espacial Histograma de frecuencias Diagrama de dispersión Gráfico de coordenadas paralelas Gráfico de dispersión en 3D Mapas temáticos Mapa dinámico Gráficos condicionales Diagrama de dispersión de Moran Diagrama de dispersión de Moran multivariante
Atípicos espaciales Diagrama de caja
Mapa de caja Mapa de percentiles Cartograma Gráficos LISA Gráficos LISA multivariantes
Fuente: Elaboración propia.
4.1. Métodos de representación de la tendencia espacial global Como ya se ha indicado, la tendencia espacial es de carácter geográfico y tiene un sentido global, es decir, referido a todo el mapa (y no a una parte del mismo). Por eso, las técnicas del AEDE que analizan esta componente son herramientas de representación cartográfica para las que lo fundamental no es tanto el mapa en sí mismo, cuanto la representación gráfica de los estadísticos básicos. En la primera columna de la Tabla 2 se exponen los métodos más destacados, según que sean 2
Un análisis más detallado de algunas de estas técnicas se encuentra en Anselin (2003, 2004) y Anselin et al. (2004A, 2004B).
métodos generales del AED o métodos explícitos del AEDE reticular. En ambos casos, se presentarán no sólo técnicas univariantes, sino también multivariantes. 4.1.1. Histograma de frecuencias El histograma de frecuencias es un gráfico estadístico clásico en el AED. GeoDa calcula histogramas de frecuencias de las variable geográficas para distintas clasificaciones, aunque el número por defecto es 7. Cada una de las barras del histograma tiene un color y es posible realizar una selección en el histograma para ver sobre el mapa las observaciones a las que corresponde. Esto es lo que sucede en la Figura 3, en donde se han seleccionado las 4 barras del histograma de frecuencias con mayor tasa de extranjería en 2003 (en amarillo), de forma que quedan destacados en el mapa los barrios de Madrid a los que corresponde (barrios del interior del municipio, por lo general). Figura 3
Histograma de frecuencias de la tasa de extranjería en los barrios de Madrid
Fuente: Elaboración propia a partir de GeoDa.
4.1.2. Diagrama de dispersión Este gráfico forma parte del AED general y tiene un carácter bivariante, dado que representa sobre los 2 ejes cartesianos la distribución de 2 variables geográficas cuya relación se desea conocer. GeoDa superimpone la recta de regresión ajustada por el método de mínimos cuadrados ordinarios y adjunta el valor de la pendiente de la misma. Este gráfico se puede también calcular para los valores estandarizados de las variables, de forma que la pendiente de la recta de regresión se corresponda con el coeficiente de correlación de Pearson. Además, el análisis de los 4 cuadrantes del diagrama de dispersión permite identificar las localizaciones con valores superiores o inferiores a la media en ambas variables o al contrario, valores superiores a la media en una variable e inferiores a la media en otra. Así, en la Figura 4 se presenta el diagrama de dispersión de la tasa de instrucción superior (personas con título universitario y de bachiller) y la tasa de paro, con alta correlación de signo negativo (r=-0,6). Se han destacado aquellos barrios con valores superiores a la media en tasa de paro e inferiores a la media en
tasas de instrucción superior y, como puede apreciarse en el mapa, se localizan en barrios del sur de la capital. Figura 4
Diagrama de dispersión de la tasa instrucción superior y tasa de paro
Fuente: Elaboración propia a partir de GeoDa.
4.1.3. Otros gráficos de AED multivariante Entre los muchos gráficos propuestos por el AED clásico para el análisis multivariante, en general, mencionaremos aquéllos que son útiles para el estudio de distribuciones geográficas: gráfico de coordenadas paralelas y gráfico de dispersión 3D (en 3 dimensiones). Gráfico de coordenadas paralelas Este gráfico está especialmente diseñado para explorar relaciones entre 2 ó más variables. Las variables son representadas como líneas paralelas, sobre las cuales se representan, a modo de coordenadas, los valores de las variables. Para cada observación se unen los puntos correspondientes en cada línea, de forma que el resultado final es un conjunto de tantas líneas como observaciones. Este tipo de gráfico resulta útil para captar agrupamientos (“clusters”) entre observaciones cuando sus correspondientes líneas presenten una forma similar (por ejemplo, estén agrupadas de forma diferente en el gráfico). Además, es posible también detectar grupos de observaciones con pendientes comunes en las líneas de conexión intervariables, poniendo de relieve una determinado tipo de correlación entre dichas variables (positiva, negativa o nula). Así, por ejemplo, en la Figura 5 (izquierda) se han representado los valores de 3 variables (tasa de paro, nivel de instrucción superior y tasa de infancia) para el total de barrios del municipio de Madrid y, como puede observarse, existe una tendencia común de forma que los barrios con menores tasas de infancia suelen coincidir con aquéllos con mayor nivel de instrucción superior y media tasa de paro.
Sobre este gráfico es posible seleccionar aquellos barrios con comportamientos y correlaciones distintas. Figura 5
Gráfico de coordenadas paralelas (izda.) y gráfico de dispersión 3D (dcha.) de la tasa de paro, instrucción superior e índice de infancia
Fuente: Elaboración propia a partir de GeoDa.
Gráfico de dispersión en 3D La exploración de información espacial multivariante puede también llevarse a cabo mediante el gráfico de dispersión en 3 dimensiones, que permite movimentos de rotación, traslación y acercamiento/alejamiento (“zooming”). También permite las habituales funciones de enlace y cepillado (“linking” y “brushing”). En la Figura 5, se han representado los valores de las variables de tasa de paro, tasa de instrucción superior e índice de infancia correspondientes a los barrios del municipio de Madrid.
4.1.4. Mapas temáticos Los mapas temáticos, en general, consisten en la representación cartográfica de una variable geográfica. Esta representación en un mapa de la variable puede llevarse a cabo mediante símbolos y colores que pongan de manifiesto el valor de una variable en cada una de las unidades geográficas consideradas (países, regiones, etc.). Puede utilizarse un color/símbolo diferente para cada valor o para cada intervalo de valores de la variable. Dentro del AEDE reticular, los mapas temáticos más importantes para la representación de la tendencia espacial de una variable son el mapa de cuantiles y el mapa de la desviación típica. Mapa de cuantiles. En este tipo de mapas, los datos se dividen y agrupan en una serie de categorías (cuantiles) con igual número de observaciones. Por ejemplo, este mapa será un mapa de cuartiles si la distribución se divide en 4 grupos con igual número de unidades territoriales. En el ejemplo de la Figura 6 (izquierda), el número de categorías se ha establecido en 5, para construir un mapa de quintiles de la variable tasa de personas con título universitario y de bachiller para el conjunto de barrios del
municipio de Madrid. Como puede observarse, en la leyenda se indica, entre paréntesis, el número de observaciones de cada categoría, 25 ó 26. Este tipo de mapa no es útil en casos en los que la variable en cuestión contenga un gran número de observaciones con valores parecidos (por ejemplo, en el caso de variables de sucesos raros, cuando muchas observaciones tienen valor cero). El motivo es obvio: muchos cuantiles no podrán ser definidos al no poder asignar un mismo número de observaciones a los diferentes grupos. Figura 6
Mapa de quintiles (izda.) y mapa de la desviación típica (dcha.)
Fuente: Elaboración propia a partir de GeoDa.
Mapa de la desviación típica Este mapa agrupa las observaciones según que sus valores caigan dentro de un rango estandarizado, entendido éste como un número determinado de unidades de la desviación típica a partir de la media. Se trata de un mapa temático en el que las categorías en las que se divide la variable se corresponden con múltiplos de las unidades de la desviación típica. En la Figura 6 (derecha) se ha representado el mapa de la desviación típica de la tasa de paro de los barrios de Madrid. GeoDa divide la variable en 7 intervalos, de forma que el intermedio (nº 4) coincide con el valor de la media y los 6 restantes vienen determinados por 1, 2 y 3 unidades de la desviación típica. Por ejemplo, el intervalo 5º (10,93 a 13,21) está constituido por los 40 barrios cuya tasa de paro se encuentra entre la media (10,93) y una unidad de la desviación típica (2,28=13,21-10,93). 4.1.5. Mapa dinámico El mapa dinámico (“map movie”) es una forma de animación del mapa que consiste en la iluminación, sobre el mismo, de las distintas unidades geográficas según su orden respecto del valor que adoptan en una variable (siempre de menor a mayor). GeoDa permite la visualización de este mapa de forma simple (las unidades se iluminan una vez, cuando les corresponde, y se apagan a continuación) o acumulativa (las unidades permanecen iluminadas hasta que el mapa entero queda iluminado. Por ejemplo, en la Figura 7 puede apreciarse cómo la variable tasa de
instrucción superior adopta los menores valores en los barrios de la periferia de Madrid. Figura 7
Mapa dinámico acumulativo: inicio (izda.) y pausa (dcha.)
Fuente: Elaboración propia a partir de GeoDa.
4.1.6. Gráficos condicionales El principio que subyace este tipo de gráficos es la utilización de 2 variables condicionales que dividen a la muestra de datos en diferentes grupos (categorías). Se trata de dibujar, para una tercera variable, un gráfico o mapa diferente para cada grupo o categoría. El programa GeoDa considera, para cada una de las 2 variables condicionales, 3 grupos o categorías, por lo que se producirá un total de 9 gráficos o mapas. Este programa permite variar los intervalos que determinan cada categoría. En concreto, con el programa GeoDa se pueden diseñar 4 tipos de gráficos condicionales: mapas, diagramas de caja, histogramas condicionales y diagramas de dispersión condicionales. En el caso del diagrama de dispersión condicional, se necesitará de un cuarto eje: el 3º será para la variable dependiente (eje vertical del diagrama de dispersión) y el 4º será para la variable explicativa (eje horizontal). Así, por ejemplo, en la Figura 8 se ha representado el mapa condicional del índice de infancia, condicionado a la tasa de paro y tasa de instrucción superior. Como puede observarse, sólo hay 1 barrio situado en la categoría de bajo valor de las variables condicionales de paro e instrucción superior (Cuatro Vientos), cuyo índice de infancia es de los más elevados del municipio (color rojo oscuro). Por el contrario, el barrio de Valdemarín, con también alto índice de infancia, es el único situado en la categoría de baja tasa de paro y alto nivel de instrucción. En el otro extremo (alta tasa de paro y baja/alta tasa de instrucción superior) no hay ningún barrio, por lo que los mapas correspondientes están en blanco. Aunque con alta tasa de paro y nivel medio de intrucción superior hay varios barrios en la zona sureste de la capital que presentan un nivel medio en el índice de infancia. Por último, con alta tasa de instrucción superior y nivel medio en la tasa de paro hay un importante número de barrios, ocupando todo el centro y parte de la periferia, con niveles medio/bajo en el índice de infancia.
Figura 8
Mapa condicional del índice de infancia condicionado a la tasa de paro y tasa de instrucción superior.
Fuente: Elaboración propia a partir de GeoDa.
4.1.7. Análisis exploratorio de la dependencia espacial global La dependencia o autocorrelación espacial consiste en la existencia de una relación funcional entre lo que ocurre en un punto determinado del espacio y lo que sucede en lugares cercanos o vecinos al mismo. Es decir, una variable estará espacialmente autocorrelacionada cuando los valores observados en un punto o región dependan de los valores observados en regiones vecinas, de forma que se produzca una cierta continuidad geográfica en la distribución de esta variable, por ejemplo, sobre un mapa. La principales técnicas de asociación espacial en el AEDE reticular son el diagrama de dispersión de Moran y gráficos LISA (mapa/diagrama de caja), así como sus correspondientes versiones multivariantes. En este apartado, se presentan los diagramas de dispersión de Moran (univariante y bivariante) al tratarse de técnicas de representación de la tendencia espacial, dejando los gráficos LISA para el Apartado 4.2. Diagrama de dispersión de Moran Se trata de un diagrama de dispersión que representa en el eje X la variable previamente estandarizada y en el eje Y se representa el retardo espacial de dicha variable estandarizada. Se entiende por retardo espacial el promedio ponderado de
los valores que adopta una variable en el subconjunto de observaciones vecinas a una dada. Por ejemplo, el retardo espacial de la variable renta per cápita de la provincia de Madrid podría obtenerse como una media aritmética simple de los valores de renta per cápita en las provincias limítrofes (Segovia, Ávila, Toledo, Cuenca y Guadalajara). En este tipo de diagrama de dispersión, en el que se relacionan, para cada observación, el valor de la variable en la misma y el valor promedio en sus correspondientes observaciones vecinas, la pendiente de la recta de regresión es el valor del denominado estadístico I de Moran de autocorrelación espacial global3. Así, cuanto mayor sea el valor de este estadístico, es decir, el ángulo que forme la recta de regresión con el eje de abscisas, más fuerte será el grado de autocorrelación espacial en la variable, y viceversa. En los ejemplos de la Figura 9, la variable tasa de paro de los barrios madrileños tiene un mayor grado de dependencia espacial que la variable población. Este diagrama de dispersión suele dividir el tipo de asociación espacial en cuatro categorías: dos para autocorrelación espacial positiva (valores altos de una variable rodeados de valores altos o valores bajos rodeados de valores bajos) y dos para autocorrelación espacial negativa (valores altos rodeados por valores bajos, y viceversa). Las categorías de asociación espacial positiva se corresponden con los cuadrantes I y III. Por ejemplo, en la Figura 5 (gráfico izquierdo) en los cuadrantes I y III se presentan aquellos barrios que, con una tasa de paro superior/inferior a la media municipal (valor estandarizado positivo/negativo de la variable) se encuentran rodeados de barrios que también disponen de tasas de paro superiores/inferiores a la media municipal (retardo espacial positivo/negativo), respectivamente. Por el contrario, las categorías de asociación negativa vienen dadas por los cuadrantes II y IV de este diagrama, en los que se representan los barrios con valores bajos/altos de tasa de paro rodeadas por barrios con valores altos/bajos de dicha variable, respectivamente. Debe advertirse, además, que la regresión del retardo espacial sobre la variable correspondiente se realiza con todas las hipótesis clásicas del análisis de regresión. Así, la interpretación del test I de Moran claramente permite conocer el grado en que este estadístico resume la estructura global de asociación lineal existente en un fenómeno espacial que, en el caso que se expone en la Figura 5, para el total de la distribución, sería del 39% para la variable tasa de paro (valor del estadístico I de Moran en términos porcentuales) y 15% para la población. Dado que los valores de la variable se encuentran estandarizados, es posible conseguir información tanto de la asociación espacial global (pendiente de la recta de regresión) como de la asociación espacial local. De este modo, los valores en el diagrama de dispersión de Moran situados a más de dos unidades del origen (valor 0) pueden considerarse como puntos atípicos en el diagrama de dispersión de Moran, es decir, importantes “agujeros” locales de no estacionariedad espacial. Así, para la variable tasa de paro, habría 3 barrios con valores atípicamente bajos en la tasa de paro, rodeados por barrios con también bajas tasas de paro (La Piovera, El Plantío y Villamarín), así como barrios en entornos con tasas de paro atípicamente altas (Orcasur y San Cristóbal). 3
Una revisión más extensa de las medidas estadísticas de autocorrelación espacial se encuentra, entre otras referencias, en Chasco (2003).
Figura 9
Diagrama de dispersión de Moran: univariante (izda.) y bivariante (dcha.)
Fuente: Elaboración propia a partir de GeoDa.
Diagrama de dispersión de Moran bivariante Se trata de un diagrama de dispersión de Moran en el que se representa en el eje vertical Y el retardo espacial de la variable que se desea explicar y en el eje X la variable explicativa. Ambas variables deben estar previamente estandarizadas, de tal forma que la media de ambas sea cero y la desviación típica sea uno. Es decir, se trata de ver la relación que existe, en cada punto de la muestra, entre los valores de una variable y el valor medio de otra variable en el entorno de dicho punto. La pendiente de la línea de regresión muestra el grado de relación lineal existente entre la variable del eje horizontal y los valores de la variable del eje vertical en los puntos vecinos a uno dado. Este análisis resulta de gran utilidad en fenómenos socioeconómicos en los que se da un fenómeno de difusión espacial de forma que, por ejemplo, un cambio en las tasas de instrucción superior en un punto provocan un cambio en las tasas de paro de los lugares vecinos a dicho punto. Éste es precisamente el ejemplo que se presenta en la Figura 9 (derecha) para los barrios del municipio de Madrid. Como puede observarse, el valor del estadístico I de Moran (-0,32), que coincide con la pendiente de la recta de regresión, es medianamente elevado y negativo. Es decir, los barrios con mayores/menores tasas de instrucción superior son los que tienen, a su vez, un entorno vecino con menores/mayores tasas de paro, respectivamente. Sin embargo, hay dos barrios con valores especialmente bajos en la tasa de instrucción superior que pueden estar condicionando el valor de la pendiente o estadístico I de Moran. El programa GeoDa es un programa dinámico que permite prescindir de dichas observaciones y recalcular el valor de dicho estadístico de Moran que, como puede observarse, aumenta en términos absolutos a –0,44.
4.2. Métodos de representación de los atípicos espaciales Estos métodos exploratorios analizan la existencia de concentraciones de observaciones cuyo valor se encuentra a cierta distancia de la tendencia general (mediana). Esta propiedad tiene un carácter local, pues suele producirse en determinadas zonas del mapa general, normalmente en forma de agrupaciones (o “clusters”) de valores muy altos/bajos comparativamente con el entorno. En la Tabla 2, se presentaban las principales técnicas de AEDE reticular destinadas al análisis de esta propiedad local: gráficos de caja (diagrama y mapa), mapa de percentiles, cartograma y gráficos LISA de dependencia espacial local. Estas técnicas poseen la propiedad de poder detectar valores significativos atípicamente altos o bajos que se determinan a partir de criterios estadísticos. 4.2.1. Gráficos de caja Los gráficos de caja constituyen un método de representación univariante. El diagrama de caja es una representación muy común de AED general, cuya construcción parte del cálculo de los cuartiles y la media de una variable, así como de la obtención de las llamadas cotas o valores adyacentes superior e inferior, que se obtienen, a su vez, como el producto de los valores del tercer (primer) cuartil por 1,5 veces el recorrido intercuartílico. De esta forma, se consideran como valores atípicos aquéllos situados por encima (o por debajo) de dichas cotas (en la Figura 10, se trata del diagrama de la variable tasa de extranjería). Un criterio un poco más estricto que el anterior consistiría en multiplicar por tres el recorrido intercuartílico para la fijación de las cotas. En el ejemplo de la Figura 10, se ha representado el diagrama de caja de la tasa de extranjería de los barrios de Madrid y, para el criterio menos estricto se han identificado 3 puntos atípicos correspondientes a los barrios de Embajadores, Sol y Universidad (destacados en la parte superior del gráfico). El mapa de caja es una derivación, propia del AEDE, a partir del diagrama de caja. En este mapa se representan con distintos colores las unidades geográficas cuyos datos en una variable coinciden con la mediana, el rango intercuartílico y los valores atípicos (altos y bajos). Figura 10 Gráficos de caja de la tasa de extranjería: diagrama (izda.) y mapa (dcha.)
Fuente: Elaboración propia a partir de GeoDa.
4.2.2. Mapa de percentiles El mapa de percentiles es un caso particular del mapa de cuantiles, es decir, un mapa temático. Pero, a diferencia del mapa de cuantiles, este mapa permite la detección de puntos atípicos en la distribución espacial. Las categorías se diseñan de modo que queden acentuados los valores extremos de la variable. El programa GeoDa crea, en concreto, se crean 6 categorías correspondientes a los siguientes percentiles4: 99. En la Figura 11, se presenta el mapa de percentiles de la variable índice de vejez. Como puede observarse, hay 3 barrios con valores atípicamente altos: El Goloso y Hellín (San Blas), mientras que sólo un barrio tiene un valor atípicamente bajo: Horcajo (Moratalaz). Figura 11 Mapa de percentiles (izda.) y cartograma del índice de vejez (dcha.)
Fuente: Elaboración propia a partir de GeoDa.
4.2.3. Cartograma El cartograma es un mapa en el que los valores de la variable que representa no se diferencian con diferentes colores, sino mediante el tamaño de la superficie de las unidades geográficas (países, regiones, barrios). Las representación gráfica de las unidades geográficas a través de polígonos irregulares es reemplazada por un círculo, que estará situado en la misma localización y cuyo tamaño será mayor o menor según sea el valor de la variable. Aunque en GeoDa el color por defecto para los círculos es el verde, existen otros colores para destacar determinados valores, como los negativos (negro), ceros (blanco) y valores atípicamente altos (rojos) o bajos (azul). Los valores atípicos son identificados por el cartograma del mismo modo que en los gráficos de caja, a partir de cotas definidas por encima o por debajo del valor medio, como proporciones del recorrido intercuartílico (1,5 y 3). Así, en la Figura 11 se muestra el cartograma de la variable índice de vejez, para el que se ha aplicado el criterio de detección de puntos atípicos menos exigente. Como puede observarse, el cartograma destaca los mismos dos barrios con valores atípicamente altos que el mapa de percentiles: El Goloso y Hellín (San Blas), mientras que, también como el
4
El paréntesis cuadrado indica que ese extremo se incluye en el intervalo y el curvo indica que no se incluye.
citado mapa, sólo un barrio tiene un valor inferior a la media menos 1,5 veces el recorrido intercuartílico: Horcajo (Moratalaz). 4.2.4. Análisis exploratorio de la dependencia espacial local El estadístico I de Moran y el gráfico de dispersión de Moran son métodos que permiten analizar el fenómeno de dependencia o autocorrelación espacial desde un punto de vista global. Es decir, no son capaces de detectar la presencia de bolsas significativas de no-estacionariedad (“zonas calientes/frías”) que se desvían de la tendencia general de una variable. Es cierto que el diagrama de dispersión de Moran es capaz de detectar ciertos aspectos locales de una distribución señalando aquellos puntos especialmente alejados de la media (superiores al valor 2). Pero no puede determinar sobre la existencia de especiales “concentraciones” o “ausencia de concentración” de valores altos/bajos de dicha variable. Para ello, se han diseñado los gráficos LISA de dependencia espacial local que ofrecen una indicación del grado de concentración de valores similares (altos o bajos) en torno a cada unidad geográfica. Mapa LISA Las letras LISA significan “Local Indicator of Spatial Asociation”. El mapa LISA es un mapa en el que se representan las localizaciones con valores significativos en determinados indicadores estadísticos de asociación espacial local (Getis y Ord, 1992; Anselin, 1995; Ord y Getis, 1995; Unwin, 1996). En concreto, los gráficos LISA incluidos en GeoDa se basan en el estadístico I de Moran de asociación local. Se trata de un estadístico que, a diferencia del estadístico I de Moran anteriormente expuesto, no se calcula de forma global para todas las observaciones del mapa, sino que adquiere un valor diferente para todas y cada una de ellas. Efectivamente, este estadístico mide el grado de concentración de valores altos/bajos de una variable en el entorno geográfico de cada una de las observaciones de la muestra. Para cada valor del estadístico es posible realizar una inferencia para evaluar el nivel de significatividad estadística de rechazo de la hipótesis nula de ausencia de similitud o disimilitud de valores en una localización geográfica. De este modo, se pone de manifiesto la presencia de puntos calientes (“hot spots”) o atípicos espaciales, cuya mayor o menor intensidad dependerá de la significatividad asociada de los citados estadísticos. En la Figura 12, se ha representado el mapa LISA de agrupamientos espaciales (“spatial clusters”) de la tasa de extranjería. Como puede observarse, a través de una gradación de colores, este mapa representa las zonas calientes de concentraciones de barrios con alto valor (color rojo) y bajo valor (azul) en la tasa de extranjería. La zona caliente de barrios con una significativa concentración de tasas altas de extranjería está formada por los 6 barrios del distrito Centro de Madrid, así como en los barrios céntricos de Chopera, Palos de Moguer, Recoletos, Trafalgar, Almagro y Moscardó. En el extremo opuesto, la concentración de bajas tasas de extranjería se produce, en general, en barrios de los distritos periféricos de Fuencarral-El Pardo, Hortaleza, San Blas, Vicálvaro, Moratalaz, Puente de Vallecas y Pacífico. El mapa destaca también aquellos barrios en los que se producen discontinuidades significativas en los valores de la variable. Por ejemplo, el caso de San Fermín y La Piovera, en los que la tasa de extranjería es especialmente alta, pero se encuentran rodeados por barrios con tasas especialmente bajas o el caso de
los barrios de Imperial, Acacias, Atocha, Jerónimos y Vallehermoso que, con tasas de extranjería especialmente bajas, se encuentran rodeados por barrios con tasas especialmente altas. Figura 12 Gráficos LISA: mapa (izda.) y diagrama de caja (dcha.)
Fuente: Elaboración propia a partir de GeoDa.
Diagrama de caja LISA Se trata de un diagrama de caja que representa los valores del estadístico I local de Moran de asociación espacial. En la Figura 12, se ha representado también el diagrama de caja de los estadísticos locales de Moran, uno para cada barrio de Madrid. De todos ellos, los que han resultado estadísticamente más significativos (mayor valor del estadístico) son los que se encuentran encima de la caja y se han destacado en amarillo. Como puede observarse, aunque el mapa pone de manifiesto la presencia significativa en los barrios de concentraciones de valores altos y bajos de la tasa de extranjería, así como algunas disimilitudes de valores altos/bajos y bajos/altos, el diagrama de caja indica que sólo los 6 barrios del distrito Centro (Palacio, Embajadores, Cortes, Justicia, Universidad y Sol) y Palos de Moguer destacan por su especialmente alta y significativa concentración de extranjeros en el municipio. Gráficos LISA bivariantes Por último, se presenta la versión multivariante de los gráficos LISA: el mapa y diagrama de dispersión LISA bivariantes. En el caso univariante, el estadístico LISA de asociación espacial comparaba los valores de una variable en cada unidad geográfica con los valores de su correspondiente retardo espacial (variable con los valores medios de las unidades vecinas a una dada). De este modo, es posible determinar la existencia o no de concentraciones significativas de una variable en torno a una unidad geográfica. En el caso bivariante, el estadístico LISA tiene en cuenta para cada unidad geográfica, los valores de una variable y el retardo espacial de otra variable diferente. Por ejemplo, en el caso de la Figura 13, para cada barrio de Madrid se calcula un estadístico LISA. Este estadístico mide el grado de asociación entre la tasa de paro, en un barrio, y la tasa de instrucción superior media en sus correspondientes barrios vecinos. De este modo, el mapa LISA bivariante
destaca pocos casos de asociación local positiva: alta concentración de valores altos de ambas variables (Sol y Legazpi) y de valores bajos (Bellas Vistas y El Pardo). Sin embargo, predominan las concentraciones de valores disimilares en ambas variables como es el caso de alta instrucción en vecinos/baja tasa de paro que se produce en gran parte de los barrios de los distritos del centro-norte (Salamanca, Chamartín, Moncloa-Aravaca). Sin embargo, la mayor parte de los casos contrarios de significativa concentración de valores diferentes (baja instrucción en vecinos/alta tasa de paro) se producen en barrios de los distritos del sur (Puente de Vallecas, Usera, Villaverde) y centro este (San Blas) de la capital. Figura 13 Gráficos LISA bivariantes: mapa (izda.) y diagrama de caja (dcha.)
Fuente: Elaboración propia a partir de GeoDa.
5. CONCLUSIÓN El AEDE debe constituir la etapa previa a todo análisis modelizador y decisor en el campo de la investigación socioeconómica. En este artículo se han presentado las principales técnicas del AEDE, que combinan el análisis estadístico con el gráfico, haciendo posible el estudio de las distribuciones espaciales y sus valores atípicos, esquemas de asociación espacial, agrupamientos espaciales y puntos calientes/fríos (“hot spots”). Para ello, se ha utilizado un nuevo programa informático, GeoDa, que tiene como grandes ventajas el haber sido concebido como un producto autosuficiente, que no supone para el usuario el conocimiento de un sistema específico de GIS, funciona en cualquiera de los sistemas operativos de Windows y Mac y es actualmente un producto de libre acceso en Internet. Efectivamente, el análisis de las series geográficas requiere de herramientas propias, que van más allá de las convencionales técnicas del AED o minería de datos y, por tanto, de un “software” específico. Estas herramientas deben estar dirigidas al análisis de 2 elementos fundamentales: tendencia espacial y puntos atípicos, entendiendo esto último no sólo como la determinación de valores significativamente altos/bajos de una variable, sino como “concentración” de valores similares o disimilares en torno a una unidad geográfica (dependencia espacial). GeoDa es un programa que combina técnicas del AED convencional con las más novedosas herramientas del AEDE, en un entorno dinámico que permite conexiones y arrastrado (“linking” y “brushing”) entre diferentes vistas.
6. BIBLIOGRAFÍA . ANSELIN, L. (1995), “Local Indicators of Spatial Association-LISA”. Geographical Analysis, vol. 27(2); pp. 93-115. . ANSELIN, L. (1999), “The future of spatial analysis in the social sciences”. Geographic Information Sciences, 5 (2); pp. 67-76. . ANSELIN, L. (2003), “GeoDaTM 0.9 user’s guide”. Página web del “Spatial Analysis Laboratory”: http://sal.agecon.uiuc.edu/stuff_main.php#tutorials . . ANSELIN, L. (2003), “GeoDaTM 0.9.5-i release notes”. Página web del “Spatial Analysis Laboratory”: http://sal.agecon.uiuc.edu/stuff_main.php#tutorials . . ANSELIN, L., Y.W. KIM e I. SYABRI (2004A), “Web-based analytical tools for the exploration of spatial data”. Journal of Geographical Systems (próxima publicación). . ANSELIN, L, I. SYABRI y Y. KHO (2004B), “GeoDa: An introduction to spatial data analysis”. Geographical Analysis (próxima publicación). . BAO, S., L. ANSELIN, D. MARTIN y D. STRALBERG (2000), “Seamless integration of spatial statistics and GIS: the S-Plus for ArcView and the S+Grassland links”. Journal of Geographical Systems 2 (3), pp. 287–306. . CHASCO, C. (2003), “Econometría espacial aplicada a la predicción-extrapolación de datos microterritoriales”. Consejería de Economía e Innovación Tecnológica de la Comunidad de Madrid. . CRESSIE, N. (1993), “Statistics for spatial data..Revised edition”. New York: Wiley. . GETIS, A. y J. ORD (1992), “The analysis of spatial association by use of distance statistics”. Geographical Analysis, 24; pp. 189-206. . HAINING, R., S. WISE y P. SIGNORETTA (2000),“Providing scientific visualization for spatial data analysis: Criteria and an assessment of SAGE”. Journal of Geographical Systems, 2; pp.121-140. . MORENO, R. y E. VAYÁ (2000), “Técnicas econométricas para el tratamiento de datos espaciales: la econometría espacial”. Edicions Universitat de Barcelona, colecció UB 44, manuals. . ORD, J.K. y A. GETIS (1995), “Local spatial autocorrelation statistics: distributional issues and an application”. Geographical Analysis, 27.4; pp. 286-306. . STATSOFT Inc. (2000), “Electronic Text Book Statsoft”. www.statsoft.com . TUKEY, J.W. (1977), “Exploratory Data Analysis”. Reading: Addison-Wesley. . UNWIN, A. (1996), “Exploratory spatial analysis and local statistics”. Computational Statistics, 11; pp. 387-400. . UNWIN, A. (2000), “Using your eyes- making statistics more visible with computers”. Computational Statistics & Data Analysis, 32; pp. 303-312.