INEGI
Estratificador INEGI Manual de usuario
ÍNDICE
I. Introducción II. Estratificación III. Descripción del Estratificador INEGI a. Selección del número de grupos b. Selección del nivel de desagregación geográfica c. Selección de los indicadores a usar d. Selección del método a utilizar IV. Resultados a. Mapas b. Burbujas c. Centroides d. Proyecciones a primeras componentes principales e. Exportación de resultados numéricos V. Comparación entre resultados alternativos a. Historial Apéndice Técnico.
Estratificador INEGI
Manual de usuario
INTRODUCCIÓN Consciente de la creciente necesidad que tienen los tomadores de decisiones, y los usuarios en general, de contar con información de calidad, oportuna y adecuada, así como de la evolución experimentada por los procedimientos de estratificación y por las infraestructuras de cómputo, el INEGI pone hoy a su disposición una nueva versión del presente servicio con la finalidad de permitirles construir agrupaciones o estratificaciones de áreas geográficas que se adecuen a sus necesidades, con base en información estadística que refleje semejanzas y diferencias entre dichas áreas. En general, es posible decir que el propósito principal de los métodos de estratificación1 es el de formar grupos o estratos claramente diferenciados de unidades tan homogéneas al interior y tan distintas entre grupos como sea posible, a partir de información cuantitativa que toma la forma de una o más mediciones realizadas en todas y cada una de ellas. La asignación2 de las unidades a los estratos se realiza con base en procedimientos numéricos que utilizan esa información. Ahora bien, el logro del propósito planteado dependerá de diversos factores como son la misma información de la que se parte, o los recursos computacionales al alcance, o los métodos y procedimientos disponibles, entre otros, así como de las combinaciones entre todos ellos. El sistema que se presenta concede al usuario, entre otras facilidades, la libertad, por un lado, de seleccionar aquellas variables que muestran mayor afinidad con el tema de su interés y, por el otro, de elegir uno o más procedimientos de estratificación; de este modo será posible disponer de dos o más estratificaciones alternativas. El servicio incluye, asimismo, una serie de ayudas gráficas que permitirán al analista realizar comparaciones y decidir cuál de todas las combinaciones de datos y métodos satisface de la mejor manera sus objetivos. Lo anterior, por supuesto, no cancela la posibilidad de que usuarios con mayor experiencia decidan aplicar un único método a la información seleccionada y trabajar con el resultado de tal decisión.
1 http://en.wikipedia.org/wiki/Cluster_analysis y las referencias que ahí aparecen. 2 En este momento, para el sistema, solamente municipios o estados. Pueden ser personas, hogares, viviendas, manzanas, localidades, municipios, entidades federativas, etc.
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
3
Estratificador INEGI
Manual de usuario
ESTRATIFICACIÓN Con fines interpretativos, el territorio de un país o de una entidad federativa, o las manzanas dentro de una localidad, pueden ser vistos como la superposición de los territorios de varios "archipiélagos" cada uno de los cuales está formado por unidades geográficas o administrativas pertenecientes al mismo estrato y que, por esa razón, comparten una realidad que es diversa a la de las unidades pertenecientes a otros "archipiélagos", sin consideración a su vecindad geográfica. En consecuencia, cada una de esas realidades requiere, por ejemplo, de acciones diversas para dar atención a sus carencias relativas. En efecto, una pareja de grupos puede mostrar semejanzas en algunos indicadores y diferencias significativas en otros, en tanto que una segunda pareja puede mostrar el comportamiento inverso. Por lo anterior, la reducción de las desigualdades en cada caso requerirá de esfuerzos no sólo cuantitativa sino cualitativamente diferentes. En otras palabras, las acciones requeridas son diversas no solamente a causa de la magnitud del esfuerzo correspondiente, como puede parecer si se mira al ejercicio a través de un resumen en una sola dimensión (ej., “Marginación”), sino también a causa de los distintos entornos a los que habrá que dedicar esfuerzos diferenciados, como corresponde cuando se está en presencia de un problema multidimensional. Sin lugar a dudas, los estudios sobre el tema de la marginación elaborados en México por CONAPO3 representan una de las aplicaciones mejor conocidas y más significativas en el país, de los procedimientos orientados a la formación de clases, grupos, conglomerados o estratos bien diferenciados, conformado cada uno de ellos por unidades homogéneas. El innegable impacto de los trabajos de CONAPO en la elaboración e instrumentación de la política social mexicana en apoyo a pobladores de unidades territoriales clasificadas en los estratos de “ALTA” y “MUY ALTA MARGINACIÓN” difícilmente se hubiera alcanzado de no haber sido basados en un sólido acervo de información estadística como la aportada por los censos y conteos de población de los últimos veintitantos años y en un procedimiento que, siendo ya viable en los equipos de cómputo de aquellas épocas, representó en su momento una importante innovación. Por otro lado, basar en dicho resumen una estratificación, univariada a fin de cuentas, puede “empeorar” el resultado. Todo ello, aunque el indicador sintetice la información de múltiples variables y el procedimiento univariado de estratificación sea “óptimo”, en un sentido no siempre entendido del todo 4 . En la medida en que se alcance “mejor” el propósito de un ejercicio multivariado de
3 http://www.conapo.gob.mx/es/CONAPO/Indices_de_Marginacion 4 El procedimiento univariado de Dalenius-Hodges (Dalenius, T. and Hodges, J. L., JR. (1959). Minimum variance stratification. J. Amer. Statist. Assoc. 54 88-101), que es el usado por CONAPO y del cual no hay una versión multivariada, busca la estratificación que conducirá a la estimación muestral más precisa (o de menor varianza, y este es el sentido en el que es óptima) del promedio poblacional de la variable de estratificación. Ello cuando la selección de muestra se lleva a cabo de manera estratificada, con afijación de la muestra proporcional al tamaño de cada estrato y con selección aleatoria simple de unidades al interior de los estratos. Cabe preguntarse con qué frecuencia quienes diseñan la política social buscan la estimación óptima del promedio
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
4
Estratificador INEGI
Manual de usuario
estratificación, será posible acceder además a una descripción detallada de la estructura del conjunto de datos que permita identificar las causas significativas de las desigualdades entre grupos e instrumentar, en su caso, acciones convenientes de política social. De aquí la importancia de disponer de procedimientos multivariados de estratificación que aprovechen toda la información disponible, y de criterios claros y con consenso que permitan identificar cuando una estratificación es mejor que otras, y en qué sentido.
DESCRIPCIÓN DEL ESTRATIFICADOR
Fig. 1.- Pantalla inicial del estratificador.
La pantalla inicial del Estratificador está dividida en cuatro secciones. En primer lugar se tiene al encabezado desde el cual es posible recuperar el manual de uso del sistema así como actualizar la versión del propio sistema cuando se introduzcan mejoras en el mismo (Última Versión), mejoras que pueden dar lugar a comportamientos inesperados. Otra sección, que es aquella a la que el usuario deberá acudir al iniciar su trabajo, se ubica en la esquina inferior derecha de la pantalla y la identifica la palabra “Consulta”. Haciendo uso de sus
poblacional de la primera componente principal (o de variables altamente correlacionadas con ella) como para estar interesados en encontrar la estratificación óptima para ese fin.
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
5
Estratificador INEGI
Manual de usuario cuatro secciones, y bajo su responsabilidad, el usuario decidirá las condiciones bajo las cuales se generarán sus resultados eligiendo, para los ejercicios que serán considerados: 1.
Variables de clasificación
5
: de entre 112
indicadores, organizados en 11 temas y expresados en términos relativos6; 2.
El número de grupos a formar;
3.
El nivel de desagregación geográfica que alcanza
hasta manzanas dentro de localidad; 4.
En su caso, las transformaciones de las variables
y el método de estratificación a usar de entre los tres que, por ahora, se proponen. La selección de variables se lleva a cabo seleccionando uno a uno tantos temas como se desee de entre los 11 contemplados y, al interior de estos, marcando las cajas correspondientes a las variables deseadas. Para los ejemplos que se muestran enseguida el siguiente grupo de 19 variables fue seleccionado:
1.
% Población nacida en otra entidad
2. % Población de 5 años y más residente en otra entidad en junio de 2005 3. % Población de 3 años y más que habla alguna lengua indígena y no habla español 4. % Población de 5 años y más que habla alguna lengua indígena y no habla español 5.
% Población de 3 a 5 años que no asiste a la
escuela
6.
% Población de 6 a 11 años que no asiste a la
escuela
7.
% Población de 15 años y más analfabeta
8.
% Población de 15 años y más sin escolaridad
9. % Población de 15 años y más con primaria incompleta
5 Variables de Clasificación: conjunto de indicadores en que se basará un ejercicio de estratificación. Al hacer clic en el botón “Variables” se despliega la lista de los ahora disponibles. 6 Debe ejercerse cuidado con la selección de variables y con la interpretación de sus resultados ya que en el conjunto incluido las hay “positivas”, para las cuales “mayor es mejor”, como “% Población de 18 a 24 años que asiste a la escuela” y “negativas”, cuando “mayor es peor”, como “% Población de 8 a 14 años que no saben leer ni escribir”.
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
6
Estratificador INEGI
Manual de usuario
10. % Población desocupada 11. % Población sin derecho-habiencia a servicios de salud 12. % Pobladores en viviendas con piso diferente al de tierra 13. % Pobladores en viviendas que disponen de luz eléctrica 14. % Pobladores en viviendas que disponen de agua entubada en el ámbito de la vivienda 15. % Pobladores en viviendas que disponen de excusado o sanitario 16. % Pobladores en viviendas que disponen de computadora 17. % Pobladores en viviendas que disponen de línea telefónica fija 18. % Pobladores en viviendas que disponen de teléfono celular 19. % Pobladores en viviendas que disponen de internet
Grupos: permite seleccionar el número de grupos o estratos a formar de entre la lista de opciones que se despliega.
Fig. 2.- Cuadro de diálogo para fijar el número de grupos a formar.
Acto seguido es posible seleccionar el Nivel de desagregación geográfica deseado: Nacional (todas las entidades o todos los municipios del país), Municipios en: (todos los municipios dentro de un subconjunto de estados) o por manzanas dentro de una localidad seleccionada.
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
7
Estratificador INEGI
Manual de usuario
Fig. 3.- Cuadro de diálogo para la elección del nivel de desagregación geográfica.
Métodos de Clasificación: Finalmente, es posible decidir si se trabaja con las variables originales o con sus versiones estandarizadas y, para cada caso, con algunas o todas sus componentes principales. Además se elegirá el procedimiento de estratificación que se aplicará enseguida con base en las elecciones realizadas hasta ahora. En este momento los métodos disponibles son:
Fig. 4.- Cuadro de diálogo para fijar transformaciones y métodos a usar.
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
8
Estratificador INEGI
Manual de usuario
1.
K-medias7
2.
Mulvar8
3.
Mclust9
10
, al seleccionar esta opción se iniciará el proceso de búsqueda de la “mejor”
combinación de número de grupos y de restricciones a imponer sobre las estructuras locales de covarianzas de los datos (ver apéndice metodológico).
Fig. 5.- Gráfica del criterio Bayesiano de Información (BIC).
El sistema producirá una gráfica del criterio Bayesiano de información (BIC, por sus siglas en inglés) que penaliza el uso de un mayor número de parámetros, y que ayudará a decidir la mejor
7 http://en.wikipedia.org/wiki/K-means_clustering 8 Producto: http://www.inegi.org.mx/est/contenidos/espanol/sistemas/regsoc/default.asp?s=est&c=11723, Metodología: http://sc.inegi.org.mx/niveles/datosnbi/reg_soc_mexico.pdf 9 C. Fraley and A. E. Raftery, Model-based clustering, discriminant analysis, and density estimation, Journal of the American Statistical Association, Vol. 97, pages 611-631 (2002). 10 C. Fraley and A. E. Raftery, MCLUST Version 3 for R: Normal Mixture Modeling and Model-based Clustering, Technical Report No. 504, Department of Statistics, University of Washington, September 2006 (revised July 2010).
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
9
Estratificador INEGI
Manual de usuario
combinación, según el mencionado criterio, para ser usada con el método mclust. El procedimiento compara combinaciones y sugiere aquellas a considerar. En la sección de “Métodos” del Estratificador es posible seleccionar el o los modelos elegidos al hacer uso del procedimiento “Mclust” como se muestra enseguida. Una vez que se ha decidido cuáles variables usar, cuántos grupos formar, qué nivel de desagregación geográfica considerar y el método a utilizar en el primer ejercicio, solamente resta pulsar la tecla “Realizar estratificación”, localizada hasta abajo en la sección Consulta. En caso de que se desee explorar estratificaciones
alternativas
solamente
será
necesario hacer los ajustes correspondientes en cada una de las 4 secciones comentadas. Para
navegar
entre
todas
las
estratificaciones
alternativas realizadas en la misma sesión se incluye la segunda sección a la derecha de la pantalla del estratificador. Consiste de 3 pestañas: Variables Historial Usuario
1.1 Variables: esta pestaña refleja las condiciones bajo las cuales se obtuvieron los resultados: las variables usadas, identificadas por sus mnemónicos; el número de grupos considerado; el nivel de desagregación geográfica al que corresponde; y el método usado, indicando el uso de versiones estandarizadas de las variables y/o de algunas o todas sus componentes principales. 1.2 Historial: Cuando se accede a esta pestaña se despliegan botones que representan a cada una de las estratificaciones realizadas a lo largo de una INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
10
Estratificador INEGI
Manual de usuario sesión, ordenadas de izquierda a derecha y de arriba a abajo. Al seleccionar alguna de ellas, la pestaña “variables” mostrará los respectivos indicadores, el número
de
grupos
y
el
método
utilizados.
Simultáneamente, la ventana de resultados mostrará la o las gráficas correspondientes a la estratificación seleccionada. 1.3 Usuario: Un listado con la asignación de cada unidad geográfica a alguno de los estratos puede ser exportado en un archivo con formato de valores separados por comas (CSV) producido por el sistema y que se recupera usando el vínculo situado en la esquina inferior izquierda de la pantalla, denominado “Datos”. Archivos con este formato pueden ser leídos por alguna hoja de cálculo y desplegados como se muestra enseguida.
RESULTADOS La sección anterior indicó todo lo que es necesario a manera de preparación para llevar a cabo un ejercicio de estratificación. Resta ahora decidir si el resultado obtenido es satisfactorio y puede ser usado para basar en él diversas decisiones. Por ello, los resultados de cada estratificación realizada, como se indicó con anterioridad, son desplegados de manera gráfica en la sección izquierda de la pantalla del Estratificador. Esta sección está a su vez subdividida en 3 ventanas que pueden ser maximizadas para una mejor visualización. Las gráficas de resultados pueden ser consultadas en alguna de ellas. Dichas ventanas, que pueden ser expandidas hasta ocupar la totalidad de la pantalla, se denominan: 1.
Mapas
2.
Centroides/Criterios
3.
Gráfica de dispersión/Gráfica de componentes
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
11
Estratificador INEGI
Manual de usuario
Fig. 6.- Pantalla del estratificador con resultados.
En primer lugar, el sistema desplegará de manera cartográfica los resultados obtenidos coloreando todas y cada una de las unidades geográficas, con información, en el plano que se despliega en la esquina superior izquierda de la pantalla. Por supuesto, las unidades que se muestran en el mismo color pertenecen al mismo estrato. La banda que se despliega en la esquina inferior izquierda del mapa señala el color con que se identifica a cada estrato. La figura 7 muestra el despliegue a pantalla completa del resultado de estratificar las manzanas de la localidad Aguascalientes. Se regresa a la configuración inicial al activar el botón “Restaurar ventanas” ubicado en la parte superior izquierda de la pantalla. Girando la rueda del ratón es posible lograr acercamientos (“zoom in”) que muestren un mayor detalle. El botón azul con un signo “+”, ubicado en la esquina superior derecha del mapa, permite incluir o excluir elementos del mapa tales como los nombres de las calles o la identificación de las manzanas (Toponimia).
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
12
Estratificador INEGI
Manual de usuario
Fig. 7.- Estratificación de manzanas de la localidad Aguascalientes, datos del censo 2010. Fig. 8.- Acercamiento a zona céntrica de la localidad de Aguascalientes con nombres de calles e
identificación de manzanas.
Las situaciones más extremas son representadas por colores oscuros, rojo y verde. En general, las condiciones más favorables se asociarán a éste pero la presencia de indicadores con sentidos opuestos puede dar lugar a otros resultados, lo que se desprende de la gráfica denominada “centroides”. En ella, líneas del color que identifica a cada estrato unen los valores promedio para el estrato de cada indicador; en general, se observará dominancia casi perfecta de uno de los estratos sobre uno o más. Con el fin de permitir una más sencilla interpretación de esta gráfica, las líneas quebradas correspondientes a uno o más estratos pueden ser “apagadas” con solo hacer click sobre el círculo del color correspondiente. INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
13
Estratificador INEGI
Manual de usuario
Fig. 9.- Gráfica de centroides
Además de la ordenación, o casi, de los estratos, esta gráfica permite identificar a los indicadores más importantes en la discriminación entre grupos mediante valores promedio que exhiben diferencias importantes; a diferencia de lo que ocurre en otros casos en los cuales las diferencias entre grupos son imperceptibles. Los indicadores cuyos promedios muestran valores más heterogéneos contribuyen de manera más importante en la definición de los estratos. Cuando estos valores son casi coincidentes para todos los estratos debe tenerse que los indicadores correspondientes no hacen una contribución significativa al mismo fin por lo que podrían ser ignorados para ejercicios subsecuentes. Por su parte, los casos intermedios permiten identificar aquellas dimensiones que hacen diferentes a dos o más grupos y, en consecuencia, permiten asimismo identificar los temas y, en consecuencia, la naturaleza de los esfuerzos que deben ser realizados para reducir la desigualdad entre ellos. Otra gráfica útil para la visualización de resultados es la que resume la información del ejercicio de estratificación en una proyección sobre un plano definido por 2 de los indicadores y que se denomina “Gráfica de dispersión”. En realidad, esta gráfica incluye además información sobre una 3ª dimensión a la que representa como el tamaño de las burbujas; de hecho, es la única gráfica en la que se permite hacer uso de la variable “Tamaño total de la población” en esta calidad. Es posible elegir al indicador que será representado en el eje “X”, en el “Y” y la que será usada a manera de Tamaño en la esquina superior derecha de esta gráfica. INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
14
Estratificador INEGI
Manual de usuario
Fig. 10.- Gráfica de dispersión consecuencia de la estratificación de manzanas.
En este caso también es posible “prender” o “apagar” estratos haciendo click sobre la o las barras de color que se ubican en la parte superior de la gráfica. De este modo, por ejemplo sería posible aislar a las 56 manzanas de la localidad de Aguascalientes ubicadas en el 5º estrato. Por supuesto, dada la nomenclatura usada por INEGI para identificarlas, resulta difícil conocer la ubicación de las mismas. Por esta razón se ha incorporado la facilidad de relacionar a cada una de las burbujas con los elementos correspondientes en el mapa. Sobre el mapa de la localidad aparecerá un globo naranja en el punto en el que se localiza la unidad de interés. Mediante acercamientos sucesivos será posible ubicar con precisión la unidad deseada, como lo muestra la figura EE.
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
15
Estratificador INEGI
Manual de usuario
Fig. 11.- Ejemplo de ubicación de unidades geográficas
Por supuesto, dependiendo del número de indicadores seleccionados, el número de gráficas que es posible elaborar puede ser excesivamente grande. Por ello, y con el fin de mostrar una representación “canónica”, se incluye además la gráfica de dispersión cuando en el eje horizontal se representa a la 1ª componente principal (CP), semejante al índice de marginación de CONAPO, y en el vertical a la 2ª. En cada caso, se señala además la proporción de la varianza generalizada que cada CP representa.
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
16
Estratificador INEGI
Manual de usuario
Fig. 12.- Proyección sobre las dos primeras componentes principales.
Cuadro 1. Resumen de las condiciones bajo las cuales se llevaron a cabo 3 estratificaciones alternativas de manzanas para la localidad de Aguascalientes.
La gráfica de criterios solamente adquiere sentido cuando se llevan a cabo dos o más estratificaciones. En ella, a través de 5 criterios propuestos en la literatura, se comparan los diversos INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
17
Estratificador INEGI
Manual de usuario
resultados de estratificaciones alternativas. En todos los casos, el valor menor del criterio es el más deseable. Para ilustrar su uso se realizaron 3 estratificaciones adicionales de las manzanas de la localidad de Aguascalientes, usando las mismas variables que en el ejemplo anterior pero usando como insumo para el método de las k-medias a la primera, a las 3 primeras y a las 8 primeras componentes principales, respectivamente, según se muestra en el cuadro 1.
Estrato Estratificación
1
2
3
4
5
1
1573
2163
2084
1539
56
2
946
1270
1750
2017
1432
3
1607
2170
1513
2062
63
4
1422
932
1746
1302
2013
Cuadro 2.- Número de manzanas ubicadas en cada uno de 5 estratos a través de 4 ejercicios alternativos de estratificación.
Estratificación 1
Estratificación 2
Estratificación 3
Estratificación 4
Mapas de las manzanas de la localidad de Aguascalientes según 4 estratificaciones.
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
18
Estratificador INEGI
Manual de usuario
La comparación de los 4 mapas obtenidos bajo las anteriores circunstancias, ordenados de izquierda a derecha y de arriba abajo, muestra coincidencias importantes (zona norponiente o el oriente de la localidad) pero también es ilustrativo de las dificultades que representa asignar automáticamente un orden a los estratos resultantes. Por ejemplo, cuando en la estratificación 3 se intercambian los estratos 3 (amarillo) y 4 (rojo claro) la aparente discrepancia disminuye sin ser eliminada por completo. Por lo que toca a las gráficas de centroides, los resultados se presentan en la figura FF, mostrando importantes coincidencias y discrepancias entre los 4 resultados. Por ejemplo, las estratificaciones 1 y 3 muestran muy importantes similitudes a pesar de la diferencia en el número de indicadores directamente involucrados (19 y 3, respectivamente; indirectamente, los 19 están involucrados en ambos ejercicios). Por lo que toca a los otros dos ejemplos, se tiene que ocultan algunas diferencias importantes entre manzanas, como es el caso de las variables referidas a servicios en la vivienda con lo que queda la impresión de que las diferencias más importantes entre las manzanas de Aguascalientes se encuentran en solamente rubros referidos al acceso a la tecnología.
Gráficas de Centroides para las 4 estratificaciones del ejemplo Las gráficas de dispersión tienen en general el propósito de facilitar la detección de asociaciones funcionales entre parejas de variables; cuando la asociación es del tipo lineal se hablaría de INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
19
Estratificador INEGI
Manual de usuario
correlaciones entre variables. En el Estratificador estas gráficas resumen información sobre 4, no 2, variables. Por un lado es posible escoger aquellas 2 variables que se asociarán a los ejes “X” y “Y”; además se permite escoger otra variable que será representada como el área (tamaño) de la burbuja que representa a cada unidad11; finalmente, el color de la burbuja identifica el estrato al que ha sido asignada esa unidad. Para el ejemplo, para los ejes se usaron las variables “Porcentaje de pobladores que residen en viviendas con agua entubada en el ámbito de la vivienda (agua_dv)”y “Porcentaje de pobladores que disponen de luz eléctrica (p_c_elec)”. El tamaño de las burbujas se asoció a la variable “Porcentaje de pobladores sin derechohabiencia a servicios de salud (psinder)”. Aunque se aprecia una correlación importante entre las variables de los ejes, como era de esperarse, es de llamar la atención que los grupos más numerosos sin derechohabiencia se encuentran en los vértices.
Gráficas de dispersión para las 4 estratificaciones del ejemplo Toca el turno a las gráficas de proyección sobre los ejes definidos por las dos primeras componentes principales. Como ya se indicó a cada CP se le asocia la proporción de la “varianza generalizada” (definida ésta como la suma de las varianzas de los 19 indicadores iniciales; es decir, ignorando las correlaciones entre ellos) que ella explica. En el ejemplo, la 1ª CP explica 61% y la 2ª
Este es el único caso en el que se permite el uso de una variable, “Tamaño de la Población Total” (POBTOT), no expresada en términos relativos, de modo que pueda hacer referencia al tamaño de la población en la unidad geográfica. 11
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
20
Estratificador INEGI
Manual de usuario
CP, 12%. En otras palabras, la 2ª aporta tanto como 20% en información adicional (ya que se construyen sin correlación entre ellas) a la aportada por la 1ª.
Gráficas de proyección sobre los 2 primeros ejes principales para las 4 estratificaciones del ejemplo La primera de este grupo de gráficas nos dice que las condiciones empeoran a medida que las unidades se encuentran más a la derecha, y en esto coincide con todos los otros casos salvo, tal vez, el último que dice además que abajo es peor que arriba aunque hay compensaciones (más a la derecha pero más arriba puede ser mejor que abajo y poco a la izquierda). La segunda gráfica refleja el hecho de que en la estratificación, ignorando información adicional, se hizo uso de un solo índice: la 1ª CP. Como quiera que sea, salvo por la 2ª estratificación, todos los ejercicios parecen indicar que la dirección vertical aporta pues permite distinguir entre grupos que podrían ser confundidos si se usa sólo la 1ª CP. Las gráficas 1 y 3 son casi idénticas cuando se intercambian los colores amarillo y rojo claro, ratificando que hay dos grupos cuyo valor para la 1ª CP es similar pero que se distinguen en cuanto a lo mostrado por la 2ª y, probablemente, en cuanto a la solución de sus carencias como podría ser exhibida, parcialmente pues no hay una medición de su dispersión alrededor de los centroides, por la gráfica de centroides para la 3ª estratificación (3 CPs) en la que los estratos 1, 2 y 5 han sido apagados, en la figura 13.
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
21
Estratificador INEGI
Manual de usuario
Fig. 13.- Gráficas de centroides para los estratos 3 y 4 para la 3ª estratificación.
De acuerdo con la gráfica denominada “Criterios”, mostrada enseguida, para el ejemplo, las estratificaciones 1 (todos los indicadores elegidos y k-medias) y 3 (3 primeras CPs y k-medias) resultaron óptimas en términos de todos menos uno de los 5 criterios estadísticos definidos en la tabla siguiente. La 2ª estratificación (1ª CP y k-medias) es óptima en términos de uno solo de los criterios. Finalmente, la 4ª (8 primeras CPs y k-medias) es óptima según el 5º criterio, empatando en este sentido a la 1ª y a la 3ª. Queda a criterio del investigador la ponderación de estos resultados con el fin de elegir la mejor alternativa. Puede basar su decisión en unos solo de ellos o asignar pesos a algún subconjunto de su preferencia.
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
22
Estratificador INEGI
Manual de usuario
Fig. 14.- Comparación de resultados de cuatro estratificaciones alternativas a través de 5 criterios.
La definición de los criterios utilizados, junto con las referencias en las que fueron propuestos, se muestran enseguida. Para un mayor detalle favor de referirse al apéndice técnico.
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
23
Estratificador INEGI
Manual de usuario
APÉNDICE TÉCNICO
El primero de los tres procedimientos es uno de los mejor conocidos y de mayor uso en la práctica. Ello se debe a que el procedimiento puede ser expresado de una forma sencilla y clara: con base en los valores de los p indicadores seleccionados, asigne cada unidad geográfica a aquel de los K grupos cuyo punto central le sea más cercano. En otras palabras, a aquel grupo cuya distancia (Euclidiana) con el punto que representa a la unidad, en un espacio de p dimensiones, sea mínima. Por supuesto, la distancia entre un grupo y un punto puede definirse de diversas formas; las más usuales son las identificadas como “vecino más próximo”, “vecino más distante” y “al centroide”. En particular, k-medias hace uso del último en esa lista. Cuando la distancias se minimizan, debe tenerse que además la suma (de cuadrados) de las distancias entre las unidades y sus centroides alcanza su valor mínimo. Es decir, la estratificación óptima es la que minimiza ese criterio12. Por su parte, el segundo de los mencionados métodos, el que ha sido denominado MULVAR en el estratificador, es el usado en los ejercicios denominados "Niveles de Bienestar" que fueron elaborados por el INEGI a partir de información recolectada por los censos de 1990 y de 2000. El procedimiento fue propuesto en Jarque (1981) 13 como un intento por extender la estratificación univariada óptima de Dalenius-Hodges a un contexto multivariado. La esencia del método puede resumirse como la aplicación del procedimiento de K-medias a una versión estandarizada de los indicadores seleccionados; la mencionada estandarización se realiza usando las desviaciones típicas de los estimadores muestrales del promedio poblacional de cada indicador. Ha sido habitual suponer un tamaño de muestra equivalente al 10% del tamaño de la población y así ha sido instrumentado en el Estratificador INEGI.
12 Este procedimiento ilustra también la complejidad que enfrentan los procedimientos de estratificación multivariada. Antes de llevar a cabo cualquier estratificación, los valores de los centroides son desconocidos; en consecuencia, no es posible calcular a priori las distancias entre las unidades y ellos. Alternativamente, puede pensarse en proponer una asignación arbitraria de las unidades a K grupos, para después calcular los centroides correspondientes y finalmente las distancias entre éstos y los puntos del grupo. Dos asignaciones tales pueden ser comparadas con base en las sumas de distancias para determinar cuál es “mejor”. Procediendo de este modo, después de hacer una enumeración completa, cabe esperar que sería sencillo identificar la óptima. Sin embargo, cuando el número de unidades es relativamente grande, resulta materialmente imposible enumerar todas las posibles estratificaciones para encontrar la que sería considerada óptima; por ejemplo, para el caso de los más de 2450 municipios mexicanos se tiene que el número de todas sus estratificaciones en cinco grupos rebasa el valor 5 2450 o, lo que es casi lo mismo, a un 10 seguido de 1711 ceros. Si el tiempo que toma la asignación de unidades a grupos, más el que toma el cálculo de centroides, más el que toma calcular las distancias de éstos a las unidades, consumiera en total 1 segundo, todavía tomaría más de 10 1700 siglos hacer una enumeración completa para tener la certeza de que se encontró la solución óptima. Por lo anterior se han desarrollado estrategias que permiten encontrar soluciones aproximadas en tiempos razonables. Una de ellas, instrumentada en el Estratificador, consiste en seleccionar aleatoriamente K unidades para que hagan las veces de centroides iniciales. Cada vez que una unidad es asignada a un grupo, el centroide correspondiente es recalculado hasta que todas las unidades han sido asignadas. El proceso se repite usando ahora como centroides iniciales los que resultan de la iteración anterior hasta que ninguna unidad cambia de estrato. Es claro que aún cuando se use el mismo conjunto de indicadores y el mismo número de grupos así como el mismo procedimiento, los resultados pueden variar dependiendo de las selecciones iniciales en cada aplicación; sin embargo, se espera que no difieran mucho. 13 C. M. Jarque, A Solution to the Problem of Optimum Stratification in Multivariate Sampling, JRSS, Series C (Applied Statistics), Vol. 30, No. 2 (1981), pp. 163-169.
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
24
Estratificador INEGI
Manual de usuario
El tercero de los procedimientos se incluye buscando corregir una limitación de los primeros dos y que se refiere a aquellas circunstancias en que es necesario tomar en cuenta a las correlaciones exhibidas entre indicadores para evitar que redundancias entre ellos sesguen los resultados en alguna dirección. Esta es también la razón por la cual el Estratificador contempla el uso de componentes principales; es decir, permite que los métodos que no aprovechan la estructura de correlación sean aplicados a variables construidas de modo que no exhiban correlación alguna al menos globalmente, ya que de manera local este puede no ser el caso. La atención del inconveniente dada por MCLUST tiene un costo ya que supone que los datos fueron generados a partir de una mezcla de distribuciones, según se ejemplifica en las siguientes dos gráficas, lo que impone una restricción adicional ya que tal supuesto puede cumplirse cabalmente, o sólo de manera aproximada o, de plano, no cumplirse. Como es usual, en la medida en que los supuestos detrás de los métodos sean satisfechos por los datos, los resultados obtenidos mejorarán. Con fines de ejemplificación de la situación que se pretende corregir, considere un caso extremo dado por la inclusión repetida, un número grande de veces, de la información referida a un mismo indicador, lo que daría lugar a una correlación perfecta entre sus réplicas. Los procedimientos hasta ahora descritos, cuyo desarrollo no contempló circunstancias como la que se describe, producirían estratificaciones para las cuales el indicador redundante tiene mucha mayor influencia en el resultado que las restantes, tomadas estas individual o aún colectivamente. En la práctica ocurren circunstancias menos evidentes como cuando una variable es la suma, o casi, de otras dos o más por lo que no aporta información adicional; es decir, es también redundante. Para la aplicación de este método se incluye un procedimiento, que se activa al elegir MCLUST por primera vez, momento en el que aparece la leyenda “GENERANDO GRAFICA BIC”en la esquina inferior derecha de la pantalla, y que evalúa (ver una descripción detallada del método, más abajo) diversas combinaciones de número de estratos a usar, entre 1 y 10, y de modelos locales para la estructura de covarianza, dentro de cada estrato, denotados por hasta 10 combinaciones de 3 letras14. La primera posición de la combinación se refiere al tamaño de las nubes de puntos (o al volumen de los elipsoides de concentración; E cuando son iguales o V cuando pueden variar); la segunda a su forma (I para todas esferas, E para todas elipsoides y V para mezclas); y la tercera a la orientación de los ejes principales (I para esferas o sin orientación definida, E para igual orientación de todos los elipsoides y V para orientaciones diversas). De este modo, el modelo EII resulta ser el
14 Esta parte del procedimiento puede consumir varios minutos dependiendo del número de variables y de unidades consideradas. Por ejemplo, para la ejemplificación numérica (mas de 9300 manzanas y 19 variables) fueron requeridos casi dos minutos. Un botón animado en la esquina inferior derecha de la pantalla indicará que la elaboración de la gráfica está en proceso. El servicio puede seguir siendo usado para realizar otras funciones mientras esto ocurre.
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
25
Estratificador INEGI
Manual de usuario
más restrictivo y el VVV, el más libre y, por ello, aquel al que se asocia una mayor cantidad de parámetros a estimar. Esta situación se ilustra en la siguiente figura.
Fig. A1.- Ejemplos de estructuras locales de covarianzas para un caso bi-variado.
CRITERIOS Determinante de la suma de las matrices locales de sumas de cuadrados y de productos cruzados (Ward)
W
Suma de cuadrados de las distancias Euclidianas de cada punto al centroide de su grupo (SC)
tr W wii
Suma ponderada del logaritmo de trazas de matrices locales de covarianzas (SLT)
nk log tr k
Suma ponderada del logaritmo de determinantes de matrices locales de covarianzas (SLD)
K K nk log k log k k 1 k 1
Promedio ponderado de las relaciones entre determinantes locales y globales (DEff)
K n k k k 1 n
h
i 1
K
k 1
nk
En el cálculo de estos criterios se hace uso de las siguientes definiciones:
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
26
Estratificador INEGI
Manual de usuario
Definiciones de parámetros utilizados en el cálculo de los criterios Poblacionales n es el tamaño de la población h, la dimensión de cada vector K, el número de estratos o clases Media
Matriz de varianzas y covarianzas
x
1 n xi n i 1
1 n x i x T x i x n i 1
Para el k-ésimo estrato, donde nk es el tamaño de la población,
Media o centroide
Matriz de sumas de cuadrados y de productos cruzados de desviaciones con respecto al centroide del estrato
1 xk nk Wk k
nk
x
ik
i 1
x
iEk
x k x ik x k wij( k ) T
ik
1 Wk nk
Matriz local de varianzas y covarianzas
Adicionalmente Suma de las matrices locales de sumas de cuadrados y de productos cruzados
W Wk wij
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
K
k 1
27