MUESTREO EN POBLACIONES FINITAS Antonio Morillas

Se ha visto a lo largo de la asignatura como la ciencia estadística es una herramienta fundamental ... Los pasos a seguir dentro de un proceso de muestreo son:.
383KB Größe 27 Downloads 155 vistas
A. Morillas: Muestreo en poblaciones finitas

MUESTREO EN POBLACIONES FINITAS Antonio Morillas1

1 Conceptos estadísticos básicos 2 Etapas en el muestreo 3 Tipos de error 4 Métodos de muestreo 5 Tamaño de la muestra e inferencia 6 Muestreo en poblaciones finitas 6.1 Muestreo aleatorio simple 6.2 Muestreo aleatorio estratificado

1

Estos apuntes de clase incorporan diversas sugerencias realizadas por los profesores M. Aguilar, A. Caparrós y B. Díaz. En sus primeras páginas, especialmente, se recogen lugares comunes acerca del muestreo tratados en diversos manuales.

1

A. Morillas: Muestreo en poblaciones finitas

Muestreo en poblaciones finitas

1. Conceptos estadísticos básicos A lo largo del curso se ha estudiado como hacer inferencia acerca de la población partiendo de la información suministrada por la muestra. Pero casi nada se ha dicho aún sobre dos aspectos importantes del proceso de inferencia: •

como seleccionar los elementos u observaciones de una muestra.



como proceder en esa selección y cuál es su tamaño adecuado, si la población no es tan grande como se ha venido admitiendo hasta ahora (infinita).

Se ha visto a lo largo de la asignatura como la ciencia estadística es una herramienta fundamental en la investigación económica y empresarial, dado que permite conocer las características de poblaciones concretas, contrastar hipótesis sobre ellas o realizar predicciones sobre su evolución. Dentro de este proceso un componente de gran ayuda para el investigador, que aún no se ha estudiado, es la realización de encuestas. Este va a ser el objeto básico de la presente lección. No obstante, antes de meternos en ello, es conveniente recordar algunos conceptos básicos:

a) Población. Colectivo objeto del estudio formado por un conjunto de elementos con características similares y sobre el que se pretenden inferir regularidades. b) Muestra. Subconjunto de la población o colectivo que se investiga. Debe ser representativa del conjunto de la población. c) Individuos. Cada uno de los elementos que forman la población. Los individuos pueden ser: -

Personas físicas: por ejemplo, un cliente de una empresa.

-

Personas jurídicas o sociedades: por ejemplo, una empresa hotelera.

-

Unidades familiares: por ejemplo, una familia de turistas.

d) Variables cuantitativas. Caracteres que se observan en los individuos y que son susceptibles de tener valores numéricos: por ejemplo, edad y gasto mensual del encuestado.

2

A. Morillas: Muestreo en poblaciones finitas

e) Atributos. Son variables cualitativas, que no son susceptibles de tomar valores y se expresan mediante modalidades: por ejemplo, sexo del encuestado, medio de transporte al destino, nivel de estudios.

2. Etapas en el muestreo. Antes de preguntarnos de qué manera se toma una muestra de una población, quizás debíamos de cuestionarnos sobre la necesidad de trabajar con muestras. La alternativa sería tratar de obtener la información para todos y cada uno de los elementos de la población, es decir, trabajar con censos más bien que con encuestas. Pero recordemos que hay, al menos, tres buenas razones para que una muestra sea generalmente preferida a un censo: •

El coste, ya que un censo será mucho más caro y, a veces, incluso, prohibitivo.



El tiempo disponible, cuando en muchos casos la información se necesita de forma más o menos urgente.



La precisión que presumiblemente se ganaría con un censo no compensa la pérdida en tiempo y dinero, pudiéndose alcanzar un nivel razonable de precisión con un adecuado método de muestreo.

Los pasos a seguir dentro de un proceso de muestreo son: 1.-Definir la información que se necesita. Esto supone en la práctica la búsqueda de un equilibrio entre las preguntas acerca de la cuestión principal o motivo de la encuesta y lo que puede ser complementario, introducido con afán de aprovechar el esfuerzo económico y de dedicación que supone una encuesta. 2.-Determinar la población a muestrear y comprobar si existe un listado. Hay que definir la población de referencia de forma adecuada, pues, aunque el método seguido sea correcto, las conclusiones no serán válidas si la población no ha sido elegida de forma adecuada. Por ejemplo, encuestas de opinión entre los turistas procedentes de Holanda, no se pueden extrapolar para definir la opinión del conjunto de los potenciales turistas de toda la Unión Europea. Como se ha dicho anteriormente, el paso previo a la realización de cualquier proceso de muestro se centra en la concreción de los objetivos del estudio, definiendo así, implícitamente, las características y la naturaleza de la población a analizar. Esta parte de la investigación requiere una definición de las variables a utilizar en el ámbito poblacional, sus características y su periodo de referencia. Así, por ejemplo, si se quieren estudiar las características de la demanda turística de las familias procedentes en un determinado país de la UE, es evidente que la población objeto de estudio es exclusivamente la formada por las familias residentes en el mismo.

3

A. Morillas: Muestreo en poblaciones finitas

De acuerdo con los objetivos establecidos en la investigación, debe obtenerse toda la información correspondiente a esas familias, así como los movimientos turísticos realizados por ellas. Por tanto, las variables a las que se referirá el estudio serán una serie de características sociodemográficas, económicas y culturales relativas a esas familias. Del mismo modo, se debe definir la cobertura o ámbito de objeto del estudio, tanto temporal (periodo en que es interesante el estudio), como geográfica (delimitación geográfica del trabajo). Cuando la población está bien definida es relativamente fácil obtener una muestra representativa. El problema surge cuando la población no está bien delimitada o no es conocida. Por ejemplo, esto ocurriría si el objetivo del estudio fuera la población futura de visitantes a un parque temático que se acaba de construir. En este caso es evidente que se desconoce la posible población, así como las características que la definen. Por ello, el trabajo de obtención de la muestra resulta más complejo, y sería imposible de realizar si no fuera con la inclusión de determinados supuestos en el análisis. La definición de las unidades de estudio es un paso necesario en esta etapa del proceso. Las unidades de estudio pueden ser los individuos (los turistas que llegan a un balneario) o bien grupos de individuos con algunas características comunes (las familias u hogares de un determinado país, los jóvenes, los matrimonios sin hijos...). El resultado del estudio, como se ha dicho, depende en gran medida de la adecuación de la muestra a los objetivos y al marco de la investigación. Es por ello que en esta fase se deben recoger explícitamente todos los posibles casos poblacionales que se pretenden analizar. Por ejemplo, si lo que se quiere estudiar son las características de la demanda potencial de un determinado destino turístico es evidente que no se puede obtener una muestra sólo de los turistas que viajan a ese destino. Esto supondría dejar de lado una parte importante de información que proporcionarían otros turistas que estarían dispuestos a viajar a ese destino, si las condiciones variaran. Por el contrario, si el objeto del estudio es analizar las circunstancias que permiten la fidelización de los turistas a un destino concreto, la muestra debería ser tomada exclusivamente entre aquellos que hayan visitado más de una vez dicho destino. 3.-Definición del método a seguir para tomar la muestra y su tamaño. No hay un método óptimo de llevar a cabo la selección de los elementos de la muestra. Dependerá, generalmente, del problema que nos ocupa y de los recursos disponibles. El más conocido es el muestreo aleatorio simple, en el que cada uno de los n elementos de la muestra tiene la misma probabilidad de ser elegido. Sin embargo, hay circunstancias en que pueden ser mas indicados otros tipos de muestreo. Por ejemplo, si deseamos recabar información acerca de la opinión de los visitantes de un destino turístico, no sería lógico hacer un muestreo aleatorio simple, sino que lo más razonable sería hacer un muestreo por estratos, teniendo en cuenta características diferenciadoras como podrían ser la edad, el país de origen o el nivel de renta.

4

A. Morillas: Muestreo en poblaciones finitas

Otro aspecto importante, que veremos más adelante, será el tamaño de la muestra, que dependerá del grado de fiabilidad requerido y del coste. 4.-Diseño adecuado de la forma de obtener la información (cuestionario). Los cuestionarios son la serie de preguntas que constituyen el tema de la encuesta. La elaboración de un cuestionario adecuado resulta fundamental para la obtención de la información necesaria para llevar a cabo el estudio. Las características de un buen cuestionario han de ser: -

Objetividad: el entrevistador nunca debe influir en la opinión del entrevistado.

-

Claridad: es importante utilizar un lenguaje fácilmente asimilable por el entrevistado.

-

Precisión: hay que definir bien las cuestiones y evitar ambigüedades para obtener la información que se busca.

-

Corrección: ha que evitar preguntas que por su contenido o su lenguaje puedan molestar al entrevistado.

-

Duración limitada: hay que reducir el tamaño del cuestionario lo máximo posible, evitando preguntas repetidas o excesivamente largas, para impedir el cansancio y la monotonía en las respuestas del entrevistado.

Las tipologías de preguntas que nos podemos encontrar son: -

Pregunta abierta: el entrevistado tiene libertad para contestar.

-

Pregunta cerrada: el entrevistado debe contestar seleccionando una o varias opciones de las que se le proponen. La pregunta cerrada facilita la tabulación posterior de las respuestas.

-

Pregunta mixta: por ejemplo, una pregunta cerrada donde una de las opciones es una pregunta abierta de respuesta libre.

Las diferentes formas de realizar la entrevista son: -

Entrevista personal: el entrevistador y el entrevistado mantienen un trato directo.

-

Entrevista telefónica.

-

Entrevista postal: envío del cuestionario por correo.

-

Entrevista virtual (uso de Internet).

Desde el punto de vista de la inferencia estadística, hay que tratar de asegurar dos aspectos claves: •

Que el número de no respuestas no sea alto, para evitar que los cuestionarios de los que responden dejen de ser representativos del conjunto de la población. El número de preguntas y la forma en que se realiza la encuesta (entrevista personal, correo, teléfono, etc.) tiene mucho que ver con la tasa de no respuesta. Conviene analizar la falta de respuesta con objeto de ver la

5

A. Morillas: Muestreo en poblaciones finitas

representatividad que podemos seguir adjudicando a la muestra (características o patrón de comportamiento de los elementos no observados por falta de respuesta). •

Que las respuestas sean honestas y precisas. La técnica (arte) en el diseño del cuestionario y en la realización de la entrevista, o forma de hacer la pregunta, es esencial en este punto.

5.-Uso de la muestra para hacer inferencia. Se comienza con la preparación y análisis de los datos: codificación, depuración y análisis descriptivo inicial. Posteriormente, se entra en la inferencia, de la que ya se han estudiado diversas formas de realizarla. A lo largo de esta lección, no obstante, trataremos algunos métodos de inferencia para tipos particulares de muestreo. 6.-Obtención de conclusiones acerca de la población. Se trata de resumir y presentar la información obtenida: estimación por intervalos, tablas resumen, presentaciones gráficas, etc. Una vez destacadas las conclusiones del estudio, puede argumentarse como actuar y, posiblemente, sugerir la obtención posterior de nueva información de interés aparecida a lo largo del estudio. En este sentido, muchas veces, la aparición de cuestiones importantes no previstas en el proceso, puede servir de estímulo para posteriores estudios de la población.

3. Tipos de error Nunca sabremos, ciertamente, cuál es el verdadero valor de cualquier parámetro poblacional. Una fuente posible de error procede del hecho de que no observamos toda la población, y le llamamos error de muestreo, de azar o de estimación. Este tipo de error es inevitable, ya que siempre habrá diferencia entre los valores medios de la muestra y los valores medios de la población. La magnitud de este error depende del tamaño de la muestra (a mayor tamaño de muestra menor error) y de la dispersión o desviación estándar del estimador (a mayor dispersión mayor error).La Estadística estudia de qué forma se puede tratar ese tipo de error o, al menos, cómo se puede incorporar en el proceso de inferencia (intervalos de confianza, nivel de significación, etc.). Sin embargo, hay otras posibles fuentes de error que no pueden ser tratadas de la misma forma. Los llamaremos errores ajenos al muestreo y algunos de ellos son: •

Definición incorrecta de la población de referencia.



Respuestas imprecisas o falsas. Normalmente proceden de falta de claridad en el cuestionario y de la formulación de preguntas delicadas para el entrevistado.



Falta de respuesta. Este hecho puede producir estimaciones sesgadas, ya que los que respondieron pueden no representar fielmente a la población. Por eso, en este caso, conviene analizar las características de los que no lo hicieron (posible sesgo) y compararlas con los que sí lo hicieron, para ver si son homogéneos o no ambos grupos.

6

A. Morillas: Muestreo en poblaciones finitas



Sesgo en la selección de los elementos de la muestra. Por ejemplo, cambio de un vecino por otro ausente, desatendiendo el proceso de muestreo estipulado.



Errores de manipulación, tabulación y cálculo.

No existe un procedimiento general para evitar y analizar tales errores. Pero el investigador debe tenerlos muy presentes para tratar de minimizarlos. Es preciso recabar toda la información disponible. Puede hacerse una encuesta previa para detectar posibles fallos.

4. Métodos de muestreo Los métodos de muestreo pueden ser de dos tipos: aleatorios y no aleatorios, dependiendo del método de obtención de la muestra. En los primeros, la selección de los elementos de la muestra es aleatoria e independiente de la opinión de cualquier persona (investigador o entrevistador). En los segundos, esta condición no siempre se cumple. En ambos casos, pueden seleccionarse elementos de la población (por ejemplo, empleados) o grupos de elementos (por ejemplo, familias). De esta forma, podemos establecer la siguiente clasificación de los métodos de muestreo:

Figura 1. Principales métodos de muestreo

Muestreos aleatorios

Unidad muestral elemental

Muestreo aleatorio simple

Muestreo aleatorio sistemático

Unidad muestral grupo

Muestreo aleatorio estratificado

Muestreo por áreas y conglomerados

Muestreo por etapas

Muestreos no aleatorios Muestreo por cuotas

Muestreo de juicio u opinión

Muestreo intencional

Muestreo por bola de nieve

7

A. Morillas: Muestreo en poblaciones finitas

Una clasificación general de estos métodos puede verse en la Figura 1. A continuación, vamos a realizar un breve recorrido de los mismos, pero centrándonos fundamentalmente en los definidos como aleatorios. 1) Muestreo aleatorio. Muestreo aleatorio simple. Se caracteriza porque cada elemento de la población tiene la misma probabilidad de ser elegido. Si se dispone de una lista de los elementos de la población, la selección de una muestra aleatoria simple es muy sencilla. Supongamos que numeramos los elementos de la población de 1 a N, una muestra aleatoria simple puede obtenerse colocando N bolas numeradas en una caja, mezclándolas, y extrayendo n de ella, o bien, también puede utilizarse una tabla de números aleatorios, ordenador o simple calculadora de mano (tecla RANDOM – RND). Muestreo aleatorio sistemático. Si existe una lista de los elementos de la población en la que aparecen ordenados y el orden existente no es un factor distorsionante de la aleatoriedad para el tema bajo estudio (de ser así habría sesgo en la selección) se utiliza con mayor frecuencia el muestreo sistemático. Se trata de seleccionar un primer elemento al azar (arranque aleatorio) entre 1 y p, siendo p=N/n, y, si este elemento es el k-ésimo, los demás se obtienen sumándole p al inmediato anterior: k, k+p, k+2p, ....... El método garantiza que aparezcan elementos de todas las clases, por lo que genera muestras más representativas que el aleatorio simple. Este procedimiento exige, como el anterior, numerar todos los elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno. El riesgo de este tipo de muestreo está en los casos en que se dan periodicidades en la población ya que al elegir a los miembros de la muestra con una periodicidad constante (p) podemos introducir una homogeneidad que no se da en la población. Imaginemos que estamos seleccionando una muestra sobre diferentes listas de 10 individuos en los que los 5 primeros son varones y los 5 últimos mujeres, si empleamos un muestreo aleatorio sistemático con p=10 siempre seleccionaríamos o sólo hombres o sólo mujeres, no podría haber una representación de los dos sexos. Otro ejemplo: si seleccionamos una muestra de ocupación hotelera basada en una serie de datos mensuales para distintos años y p=12, siempre se obtendría la observación correspondiente al mismo mes, por lo que la muestra estaría afectada por el sesgo propio del factor estacional encontrado en el arranque aleatorio (al alza en meses de alta ocupación, a la baja en el resto) Muestreo estratificado. Hace referencia a poblaciones con características diferentes, en las que existen estratos (grupos) homogéneos con respecto al carácter que se investiga y que, por tanto, deben ser analizados de forma diferente, ya que pueden obtenerse estimaciones más precisas (menos errores) tomando una muestra 8

A. Morillas: Muestreo en poblaciones finitas

aleatoria en cada estrato y, además, se garantiza que todos los estratos (subpoblaciones, en definitiva) estén representados. Cada estrato tiene elementos que son homogéneos entre sí y heterogéneos respecto a los demás estratos. Por ejemplo, si se quieren estudiar características de los hoteles de una determinada provincia, se tienen como estratos los hoteles de 5 estrellas, de 4 estrellas, de 3 estrellas, etc. y se utilizará un muestreo estratificado que nos asegure una adecuada representación de todos los estratos. Muestreo por conglomerados y por áreas. En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la población que forman una unidad, a la que llamamos conglomerado (familias, empresas, municipios, etc.). El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto número de conglomerados (el necesario para alcanzar el tamaño muestral establecido) e investigar después todos los elementos pertenecientes a los conglomerados elegidos. En el caso particular de que los conglomerados sean áreas geográficas –bastante frecuentehablaremos de muestreo por áreas. Muestreo polietápico o por etapas. El muestreo polietápico es una generalización del muestreo por conglomerados en el que se intenta reducir el coste al mínimo. En la primera etapa se selecciona un número determinado de conglomerados (unidades primarias de muestreo), por ejemplo, provincias. En la segunda se seleccionan conglomerados más pequeños pertenecientes a los anteriores (unidades secundarias de muestreo), por ejemplo, municipios. Y así sucesivamente (procedimiento de “embudo”) hasta llegar a los elementos de la población que van a ser observados (unidades últimas). Sólo necesitamos, por tanto, contar con un listado de los elementos de esta última etapa. Como ejemplo práctico, la Encuesta de Población Activa (EPA), una investigación por muestreo de periodicidad trimestral realizada por el INE desde 1964 dirigida a analizar la actividad laboral, utiliza un muestreo en dos etapas con estratificación en la primera etapa. El INE selecciona como unidades muestrales primarias alrededor de 3.000 secciones censales de entre las más de 30.000 en que esta dividida España2. En cada una de estas secciones censales se entrevistan un promedio de 20 viviendas familiares (unidades muestrales secundarias), obteniéndose una muestra de aproximadamente 64.000 viviendas para las que se recoge información para todos sus miembros, lo que produce una muestra final en torno a las 200.000 personas. Como resumen, en términos generales, las ventajas e inconvenientes de los distintos tipos de muestreo aleatorio se presentan en la Tabla 1:

2

Una sección censal es una unidad territorial que se establece con criterios operativos para el trabajo de campo en las operaciones estadísticas, mediante la subdivisión de los distritos de los municipios atendiendo fundamentalmente al volumen de población. En esta etapa el diseño de la EPA estratifica las secciones censales utilizando un doble criterio: geográfico y socioeconómico.

9

A. Morillas: Muestreo en poblaciones finitas

Tabla 1: Ventajas e inconvenientes de los diferentes tipos de muestreo aleatorio CARACTERISTICAS

Se selecciona una muestra de tamaño n de Aleatorio simple una población de N unidades, cada elemento tiene una probabilidad de inclusión igual y conocida de n/N.

Sistemático

Estratificado

VENTAJAS

Sencillo y de fácil comprensión.

INCONVENIENTES

Requiere que se posea de antemano un listado completo de toda la población. Caro.

Se necesita un listado de los N elementos de Fácil de aplicar. Cuando la población está ordenada la población. Tras determinar el tamaño siguiendo una tendencia muestral n, se define un valor p= N/n. Se conocida, asegura una cobertura elige un número aleatorio, k, entre 1 y p (k= arranque aleatorio) y se seleccionan los de unidades de todos los tipos. elementos de la lista que ocupan los lugares k, k+p, k+2p, ....

Si la constante de muestreo está asociada con el fenómeno de interés, las estimaciones obtenidas a partir de la muestra pueden contener sesgo de selección

En ciertas ocasiones resultará conveniente estratificar la muestra según ciertas variables de interés. Para ello debemos conocer la composición estratificada de la población.

Tiende a asegurar que la muestra represente adecuadamente a la población en función de las variables seleccionadas. Estimaciones más precisas. Su objetivo es conseguir una muestra lo más semejante posible a la población en lo referente a las variables estratificadoras.

Se ha de conocer la distribución en la población de las variables utilizadas para la estratificación.

Es muy eficiente cuando la población es muy grande y dispersa. No es preciso tener un listado de toda la población, sólo de las unidades últimas de muestreo. Menor coste.

El error estándar es mayor que en el muestreo aleatorio simple o estratificado. El cálculo del error estándar es complejo.

Se seleccionan aleatoriamente cierto Conglomerados- número de conglomerados y se investigan todos los elementos de cada uno de ellos. El Etapas muestreo por etapas es una generalización, que va de más grandes a más pequeños. Se realizan varias fases de muestreo sucesivas.

2) Muestreo no aleatorio A veces, para estudios exploratorios, el muestreo aleatorio resulta excesivamente costoso y se acude a métodos no aleatorios, aun siendo conscientes de que no son adecuados para realizar generalizaciones, pues no se tiene certeza de que la muestra extraída sea representativa, ya que no todos los sujetos de la población tienen la misma probabilidad de se elegidos. Sólo comentaremos aquí el muestreo por cuotas y el de opinión. Muestreo por cuotas. También denominado en ocasiones "accidental". Se asienta generalmente sobre la base de un buen conocimiento de los estratos de la población y/o de los individuos más "representativos" o "adecuados" para los fines de la investigación. Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél.

10

A. Morillas: Muestreo en poblaciones finitas

En este tipo de muestreo se fijan unas "cuotas" que consisten en un número de individuos que reúnen unas determinadas condiciones (variables de control), por ejemplo: 20 individuos de 25 a 40 años, de sexo femenino y residentes en Málaga. Siempre que se ajuste a las cuotas fijadas, el entrevistador tiene libertad para elegir a los entrevistados. Este método se utiliza mucho en las encuestas de opinión. Muestreo de juicio o de opinión. Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras "representativas" mediante la inclusión en la muestra de grupos supuestamente típicos. Para la obtención de una muestra mediante este método se puede acudir a criterios específicos de los investigadores o bien requerir las opiniones de expertos en la materia. Por ejemplo, cuando el interés del estudio se centra en comparar las características diferenciadoras de los clientes que han presentado cierta insatisfacción en el servicio respecto a aquellos otros que no, se determina a juicio del investigador un número predeterminado de encuestas a los clientes satisfechos y otro número de encuestas a clientes insatisfechos.

5. Tamaño de la muestra e inferencia. La muestra debe reproducir las características del universo o población. Hay dos cuestiones básicas: la primera, sobre la cantidad de elementos que debe incluir la muestra y, la segunda, hasta qué punto puede generalizarse a la población el resultado obtenido en ella. Ambas cuestiones conducen al problema de la exactitud o precisión de la estimación del parámetro desconocido. El objetivo es no incurrir en errores a la hora de obtener los resultados. Pero como los errores son inevitables, lo importante entonces es minimizarlos. Una vez especificadas las características que ha de tener la muestra, hay que determinar su tamaño (n), de forma que sea suficientemente representativa de la población y que asegure, para un nivel de confianza (1-α) dado, un error muestral (ε) máximo permitido. La población puede ser infinita (a veces, suele considerarse infinita cuando tiene más de 100.000 elementos) o de tamaño finito N, que es lo más general. Vamos a ver, como introducción general al caso más real de poblaciones finitas, la forma en que se puede tratar este tema cuando la población se supone infinita. Caso de la media: El error muestral se define como la diferencia entre el verdadero valor del parámetro y el arrojado por su estimador para la muestra en cuestión:

ε = µ−x Recordemos que un intervalo de confianza del 100(1-α) % para la media, en caso de normalidad, vendría dado por:

11

A. Morillas: Muestreo en poblaciones finitas

x − z1−α / 2σ x ≤ µ ≤ x + z1−α / 2σ x

µ − x ≤ z1−α / 2σ x → σ x =

σ n

Se desprende de la anterior expresión que siempre son el nivel de confianza y el error estándar o desviación típica del estimador del parámetro desconocido los que determinan la amplitud del error que cometemos al estimar dicho parámetro con una muestra de tamaño n. El error máximo para una muestra de tamaño n, cuando se estima la media en una población normal con una confianza del 100(1-α) %, sería, por tanto:

ε = µ − x = z1−α / 2

σ n

En esta expresión, σ es la desviación típica poblacional, x la media de la muestra y µ la media poblacional. Obsérvese una cuestión que va a ser muy importante desde un punto de vista conceptual: dado un nivel de confianza (z, en definitiva), otorgar un determinado valor al error máximo que se puede cometer, equivale exactamente a fijar la varianza del estimador. Despejando, resulta que el tamaño de la muestra viene dado por la siguiente expresión:

n=

z12−α / 2σ 2

ε2

Recordemos que z1-α/2 es un valor (percentil) de la distribución normal tipificada que acumula a su izquierda una probabilidad de (1-α/2), o lo que es igual, α/2 a su derecha. Este valor es de 1,96 para un nivel de confianza del 95 %. Es bastante frecuente redondear los valores del percentil de Z a z =2 y a z =3, siendo entonces del 95,5% y 99,5%, respectivamente, los correspondientes niveles de confianza. Para el primer caso, por ejemplo, el tamaño de la muestra vendría dado por la expresión:

n=

4σ 2

ε2

En la mayoría de los casos se desconoce el valor de σ, por lo que es necesario establecer un proceso de muestreo previo con información más reducida (muestra piloto) y a partir de ahí estimar la varianza σ, o bien utilizar los resultados obtenidos en otro estudio.

12

A. Morillas: Muestreo en poblaciones finitas

Ejemplo: Para llevar a cabo el análisis de un destino turístico con alta afluencia de turistas (200.000, en concreto) se desea realizar una encuesta para determinar el gasto medio por turista. Se ha decidido aceptar un error máximo en el gasto medio de 30 euros. Suponiendo una desviación estándar de la población de 200 euros y un nivel de confianza del 95%, obtenga el tamaño adecuado de la muestra.

Solución: Al ser una población mayor de 100.000 elementos, vamos a tratar el tema, por ahora, como si se tratase de una población infinita, tal y como se ha dicho anteriormente. Así, la fórmula para obtener el tamaño de la muestra es:

n=

z12−α / 2σ 2

ε2

=

1,962 × 2002 = 170, 74 ≈ 171 302

Caso de la proporción: Cuando se estima una proporción, caso frecuente de respuestas dicotómicas, la varianza del estimador de la proporción es, como se recordará:

σ p2ˆ =

pq n

El error máximo vendría dado, de acuerdo con lo que acabamos de ver, por:

ε = p − pˆ = z1−α / 2

pq n

El tamaño de la muestra se obtendrá, como anteriormente, despejando n de esta expresión:

n=

z12−α / 2 pq

ε2

Generalmente, los valores poblacionales de la proporción buscada (p) y de su complementario (q=1-p) se desconocen. Pero en este caso, en vez de obtenerlos mediante una muestra piloto, pueden sustituirse por p=q=0,5, lo que conduce al máximo valor exigible de n, ya que cualquier otra combinación de valores de p y q, al multiplicarlos, daría una valor inferior a 0,25. Obsérvese además que si se considera una confianza del 95,5%, el valor de nmax queda sólo en función del error:

nmax =

4 pq

ε

2

=

4 × 0, 25

ε

2

=

1

ε2

13

A. Morillas: Muestreo en poblaciones finitas

Ejemplo Para completar el análisis del anterior destino turístico, se desea realizar utilizar la encuesta para determinar la proporción de visitantes de origen europeo. Se ha decidido aceptar un error máximo del 5%, y un nivel de confianza del 95,5%. Obtener el tamaño de la muestra.

Solución: Con esta información, puesto que no sabemos nada acerca del valor poblacional de p, el tamaño de la muestra sería:

nmax =

4 pq

ε

2

=

4 × 0, 25 = 400 (0, 05) 2

La respuesta a por qué en estudios de mercado y encuestas de opinión se utiliza a menudo un tamaño muestral de 400, 1110 ó 2500 está en esta fórmula: se asume un desconocimiento total de la proporción en la población, por lo que se considera p=0.5, se usa un nivel de confianza del 95.5% y la imprecisión máxima admisible (error) se suele fijar en el 5, 3 ó 2%, respectivamente.

Caso del total: Por último, el tercer parámetro en el que podemos estar interesados es por el total o suma de todos los valores de la variable, que en una población, como se recordará, viene dado por N µ . Evidentemente, si estamos hablando de conocer N, la población ha de ser finita, cosa que no hemos supuesto en los dos casos anteriores. Pero vamos a continuar desarrollando este caso sólo con el objeto de cerrar el tratamiento de la búsqueda del tamaño muestral, cuando se pretende hacer inferencia sobre los tres parámetros más comunes. Ya veremos, sin embargo, como para poblaciones finitas todas estas expresiones del tamaño de la muestra cambian. Pero, como hemos dicho anteriormente, sigamos el argumento como simple ejercicio, para más adelante puntualizarlo debidamente. Por ejemplo, se puede estar interesado en el gasto total anual de los turistas que visitan una cierta zona. Es fácilmente comprensible que, en este caso, el mejor estimador de ese total vendría dado por Nx . Y, puesto que N es constante, la varianza del total será: 2 σ Nx = Var ( Nx ) = N 2σ x2 → σ Nx = N σ x

El error para el total, por tanto, será el de la media multiplicado por N:

ε T = N µ − Nx = z1−α / 2 N

σ n

= Nε

14

A. Morillas: Muestreo en poblaciones finitas

Simplificando N en los dos últimos miembros de esta igualdad, se comprueba fácilmente que el tamaño de la muestra debería de ser exactamente igual que para el caso de la media.

Ejemplo: Para completar el análisis del destino en estudio se desea conocer también el gasto total que los turistas realizarán en la zona. Se ha decidido aceptar un error máximo en el gasto total de 6 millones de euros. Suponiendo un nivel de confianza del 95%, obtener el tamaño adecuado de la muestra.

Solución:

ε T = z1−α / 2 N n=

σ n

→n=

z 21−α / 2 N 2σ 2

ε T2

1,962 × 2000002 × 2002 = 170,74 ≈ 171 60000002

Obsérvese que, como era de esperar, se obtiene exactamente el mismo número de observaciones que para el caso de la media, ya que el error del total se ha elegido a propósito multiplicando por N el de la media. De esta forma se ha mantenido el especificado anteriormente para la media:

εT = Nε → ε =

εT N

=

6000000 = 30 200000

Una vez fijado el tamaño de la muestra, y obtenida ésta mediante el procedimiento adecuado, la mejor estimación por puntos del gasto medio será la media de la muestra. La de la proporción, la observada en la muestra y la del total, la media de la muestra multiplicada por N. Los correspondientes intervalos de confianza, que nos dan una idea de la horquilla en que se mueve el verdadero valor del parámetro, se construirán para cada uno de los casos, según lo visto anteriormente, como sigue:

Media : ( x − z1−α / 2σ x ≤ µ ≤ x + z1−α / 2σ x ) Proporción : ( pˆ − z1−α / 2σ pˆ ≤ p ≤ pˆ + z1−α / 2σ pˆ ) Total : ( Nx − z1−α / 2 Nσ x ≤ N µ ≤ Nx + z1−α / 2 Nσ x ) Es decir, una vez seleccionados los elementos de la muestra, se obtendrán, respectivamente, las correspondientes estimaciones por puntos de la media, proporción y total. Con estos datos como centro del intervalo, para un nivel de confianza dado y conocida la varianza del estimador, quedarían determinados los correspondientes intervalos para los parámetros desconocidos.

15

A. Morillas: Muestreo en poblaciones finitas

6. Muestreo en poblaciones finitas. Si el tamaño de la población o universo es conocido, la elección del tamaño de la muestra, aunque siguiendo los argumentos expuestos en el epígrafe anterior, tiene ciertas especificidades, que veremos a continuación. Las diferencias se basan fundamentalmente en el hecho (relativamente probable para el caso de una población finita, pero imposible para una de tamaño infinito) de que nos podemos encontrar con situaciones en las que el número de elementos de la muestra puede llegar a ser una proporción apreciable de los de la población. En tal situación, puede entenderse fácilmente que la precisión de la estimación sería superior, al estar mejor representada el conjunto de la población. En concreto, para el caso de poblaciones finitas, puede demostrarse que la varianza del estimador (de la media, proporción o total) propia de poblaciones infinitas, tal como la hemos visto anteriormente, ha N -n⎞ de corregirse por un factor. Este factor de corrección sería ⎛⎜ ⎟ , por lo que para el caso de la ⎝ N -1 ⎠

media su fórmula de cálculo quedaría como sigue:

σ x2 =

σ2 ⎛ N -n⎞ ⎜ ⎟ n ⎝ N -1 ⎠

Si nos fijamos en el numerador del factor de corrección, comprenderemos que no se puede valorar de forma absoluta al tamaño de una muestra, sino que hay que confrontarlo con el de la población de la que se extrae3. Si observamos dos poblaciones, siendo la muestra de la primera más pequeña que la de la segunda, puede llegar a dar más precisión (menor varianza) si el tamaño de la población de la que procede es proporcionalmente menor. Esto, dicho así, parece algo complicado cuando resulta obvio: en igualdad de condiciones, una muestra de tamaño 100 nos informa mucho mejor sobre las características de una población de tamaño 200, dónde representa la mitad de sus elementos, que otra de tamaño 200 en una población de 20.000, que representa sólo el 1% de sus elementos. Por tanto, independientemente del número de elementos que contenga, cuanto mayor sea el tamaño de la muestra (n) en relación al de la población (N), mayor garantía tendremos en las estimaciones, como se observa en la fórmula anterior. En el caso extremo de que N=n la varianza del estimador se hace nula. Estaríamos, evidentemente, en presencia de una observación exhaustiva de la población, propia de la estadística descriptiva, y no en un caso de inferencia estadística. Por el contrario, cuando el tamaño de la muestra sea mínimo, de una sola observación (n=1), la varianza (precisión) del estimador coincidiría con el caso de una población de tamaño infinito.

Obsérvese que si en dicha fórmula se considera que (N-1) ≈ N, la expresión del factor de corrección quedaría bien expresada como la razón de estos dos tamaños, el de la muestra y el de la población, pues (N-n)/N = 1- n/N. Cuanto mayor es la proporción de la muestra respecto a la población, más se reduce la varianza del estimador.

3

16

A. Morillas: Muestreo en poblaciones finitas

Teniendo en cuenta esta particularidad, se presenta a continuación la forma en que se debe de obtener el tamaño de la muestra para el caso de poblaciones finitas y para los cada uno de los dos tipos de muestreos aleatorios más utilizados, el aleatorio simple y el estratificado.

6.1. Muestreo aleatorio simple. Caso de la media: Como se dijo anteriormente, dado un determinado nivel de significación, fijar el tamaño del error equivale a predeterminar la propia varianza del estimador. Es decir, varianza del estimador y error máximo permitido son dos caras de una misma moneda, siendo el tamaño de la muestra el resultado del supuesto que hagamos acerca de cualquiera de ambos. Por tanto, dicho tamaño se puede obtener a partir de la definición del error o de la fórmula de la varianza del estimador. Obsérvese que, fijado el valor de z por el nivel de confianza, el error es igual a la desviación estándar del estimador multiplicado por una constante (para el caso del 95% el valor sería 1,96 ):

ε = z1−α / 2σ x → ε = 1, 96σ x Si elevamos al cuadrado e introducimos el valor de la varianza del estimador, tendremos:

ε 2 = z2 α σ 2 = z2 α 1− / 2

x

1− / 2

σ2 ⎛ N −n⎞ n ⎝⎜ N − 1 ⎠⎟

A partir de esta expresión, si se suponen conocidos la varianza (σ) y el tamaño de la población (N), y fijados el tamaño del error (ε) y el nivel de confianza que determina el valor de z1-σ/2, podemos obtener el correspondiente tamaño de la muestra (n). Esta es la forma en que generalmente se obtiene el tamaño adecuado de la muestra. Haremos este ejercicio una sola vez, ya que en adelante omitiremos cálculos similares para el resto de los casos. Operando en la igualdad anterior:

n( N − 1)ε 2 = z12−α / 2σ 2 ( N − n ) = z12−α / 2σ 2 N − z12−α / 2σ 2n n( N − 1)ε 2 + z12−α / 2σ 2 n = z12−α / 2σ 2 N ⎡ ( N − 1)ε 2 + z 2 σ 2 ⎤ n = z 2 σ 2 N 1−α / 2 1− α / 2 ⎣ ⎦

n=

Nz12−α / 2σ 2

( N − 1)ε 2 + z12−α / 2σ 2

→ ε 2 = z12−α / 2σ x2

17

A. Morillas: Muestreo en poblaciones finitas

Si en la fórmula obtenida para n sustituimos el error por la expresión del mismo que ya conocemos, entonces obtendremos esta otra expresión para el tamaño de la muestra cuando se desea estimar una media en poblaciones finitas:

ε 2 = z 2 α σ x2 → n = 1− / 2

Nσ 2 ε2 2 σ ← = x z12−α / 2 ( N − 1)σ x2 + σ 2

Esta expresión es exactamente la que se hubiera obtenido si se toma directamente la fórmula de la varianza del estimador de la media en poblaciones finitas para despejar de ella el valor de n, cuestión que dejamos como ejercicio para el alumno. En resumen, conocidos el tamaño y la varianza de la población, por estudios anteriores o por una encuesta piloto desarrollada para el caso, se observa claramente en la expresión anterior que fijar el error o la varianza del estimador son procesos equivalentes, pudiéndose utilizar cualquiera de las dos expresiones de n que se acaban de mostrar.

Ejemplo (mismo caso de poblaciones infinitas): Para llevar a cabo el análisis de un destino turístico con alta afluencia de turistas (200.000) se desea realizar una encuesta para determinar el gasto medio por turista. Se ha decidido aceptar un error máximo en el gasto medio de 30 euros. Suponiendo una desviación estándar de la población de 200 euros y un nivel de confianza del 95%, obtener el tamaño adecuado de la muestra. Solución fórmula 1:

n=

Nz12−α / 2σ 2

( N − 1)ε 2 + z12−α / 2σ 2

=

200.000 × (1, 96) 2 × ( 200) 2 = 170, 59 ≈ 171 ( 200.000 − 1) × ( 30) 2 + (1, 96) 2 × ( 200) 2

Solución fórmula 2:

n=

Nσ 2 = ( N − 1)σ x2 + σ 2

200.000 × ( 200) 2 2

⎛ 30 ⎞ 2 ( 200.000 − 1) × ⎜ ⎟ + ( 200) , 1 96 ⎝ ⎠

= 170, 59 ≈ 171

Como puede observarse, el tamaño muestral resultante es el mismo que cuando supusimos que la población era infinita. Ello es debido al gran tamaño de la misma. Intervalo para la media: Una vez obtenida la muestra, se puede calcular un intervalo de confianza para el parámetro (media) poblacional. Normalmente, la varianza poblacional es desconocida, por lo que el intervalo que se definió anteriormente debe dejar paso a este otro, en el que se sustituye la varianza desconocida por su estimador insesgado en poblaciones finitas, que llamaremos σˆ x2 :

18

A. Morillas: Muestreo en poblaciones finitas

x − z1−α / 2σˆ x ≤ µ ≤ x + z1−α / 2σˆ x

σˆ x2 =

sˆ 2 ( N - n) n N

De esta forma, con los datos de la muestra se puede obtener un intervalo de confianza para el verdadero valor del parámetro desconocido, con el error y el nivel de confianza predeterminados a la hora de obtener el tamaño adecuado de la muestra. Ejercicio: Supongamos que la media y la desviación estándar obtenidas en la muestra de los 171 turistas del ejercicio anterior son, respectivamente, de 450 y 320 euros. Determinar el intervalo de confianza del 95% para el verdadero valor del gasto medio por turista. Solución: Comenzaremos por obtener el estimador de la varianza:

σˆ x2 =

sˆ 2 ( N - n ) ( ns 2 / n − 1) ( N - n ) (171 × 3202 /170) (200.000 − 171) = = = 601,84 n N n N 171 200.000

Por tanto, tendremos que σˆ x = 24,53 y el correspondiente intervalo de confianza vendría dado por:

x − z1−α / 2σˆ x ≤ µ ≤ x + z1−α / 2σˆ x

450 − 1,96 × 24,53 ≤ µ ≤ 450 + 1,96 × 24,53

401,92 ≤ µ ≤ 498,08

µ ∈ (450 ± 48,08) En esta última expresión se da el intervalo, tomando como pivote del mismo la estimación por puntos del parámetro (media de la muestra) y fijando el error máximo cometido a izquierda y derecha del mismo (producto del valor de z, o sea 1,96, por la desviación estándar del estimador, que es 24,53).

Caso de la proporción: Como ya hemos comentado, para obtener el tamaño adecuado de la muestra en el caso de estar realizando inferencia sobre la proporción se procede de forma similar al caso anterior. La varianza del estimador es ahora:

σ p2ˆ =

pq ⎡ N − n ⎤ n ⎢⎣ N − 1 ⎥⎦ 19

A. Morillas: Muestreo en poblaciones finitas

Despejando n, se llega a obtener la siguiente expresión de cálculo para el tamaño de la muestra, cuando se hace inferencia acerca de una proporción:

n=

Npq ( N − 1)σ p2ˆ + pq

Volviendo a tomar la ya conocida relación entre error y varianza del estimador, σ p2ˆ =

ε2 z12−α / 2

, una

segunda fórmula de cálculo es la siguiente:

n=

Nz12−α / 2 pq ( N − 1)ε 2 + z12−α / 2 pq

Generalmente, no se conoce el valor de p, por lo que habrá que estimarlo mediante una encuesta piloto o tomando información procedente de investigaciones anteriores. La alternativa más inmediata es optar por tomar el tamaño muestral máximo, considerando pq=0,25.

Ejemplo (mismo caso de poblaciones infinitas): Para completar el análisis del anterior destino turístico, se desea realizar utilizar la encuesta para determinar la proporción de turistas de origen europeo. Se ha decidido aceptar un error máximo del 5%, y un nivel de confianza del 95%. Obtener el tamaño de la muestra.

Solución fórmula 1: Como no se tiene información sobre la proporción en la población, optaremos por obtener el n máximo:

n=

0, 25N = ( N − 1)σ p2ˆ + 0, 25

0, 25 × 200.000 2

⎛ 0,05 ⎞ (200.000 − 1) × ⎜ ⎟ + 0, 25 ⎝ 1,96 ⎠

= 383, 43 ≈ 384

Solución fórmula 2:

n=

Nz12−α / 2 pq 200.000 × 1,962 × 0, 25 = = 383, 43 ≈ 384 ( N − 1)ε 2 + z12−α / 2 pq (200.000 − 1) × 0,052 + 1,962 × 0, 25

Puede comprobarse de nuevo como el hecho de tener como referencia a una población de gran tamaño, no cambia prácticamente el tamaño de la muestra.

20

A. Morillas: Muestreo en poblaciones finitas

Ejemplo: En un hotel saben que el nivel de satisfacción de sus clientes ronda el 90% y quieren realizar un estudio para ver si la nueva gestión de limpiezas ha sido de su agrado. ¿Cuál sería el tamaño necesario para la muestra, si el total de clientes del hotel es de 10.000? Suponga un nivel de confianza para los resultados del estudio del 95% y un error máximo permitido del 5%. Solución:

n=

Nz12−α / 2 pq 10.000 × 1,962 × 0,90 × 0,10 = = 136, 42 ≈ 137 ( N − 1)ε 2 + z12−α / 2 pq (10.000 − 1) × 0,052 + 1,962 × 0,90 × 0,10

Luego, el tamaño necesario de la muestra sería de 137 clientes.

Intervalo para la proporción: El intervalo de confianza para la proporción se puede obtener de forma similar, sin más que aplicar la correspondiente expresión para el mismo:

pˆ − z1−α / 2σˆ pˆ ≤ p ≤ pˆ + z1−α / 2σˆ pˆ Ahora, la varianza desconocida de la proporción muestral se estima mediante el siguiente estimador insesgado:

σˆ p2ˆ =

ˆ ˆ ( N − n) pq ( n − 1) N

Ejemplo: En la muestra de 142 clientes, se ha obtenido que 105 están satisfechos con la limpieza. Obtenga un intervalo de confianza para el verdadero valor de la proporción de clientes satisfechos.

Solución: La proporción en la muestra es el estimador por puntos y será el pivote utilizado para establecer el intervalo: pˆ =

105 = 0,7394 142

La varianza del estimador será:

σˆ p2ˆ =

ˆ ˆ ( N − n ) 0,7394 × (1 − 0,7394) (10.000 − 142) pq = = 0,001347 ( n − 1) N (142 − 1) 10.000

La desviación estándar, por tanto, es 0,0367 y el intervalo queda como sigue:

21

A. Morillas: Muestreo en poblaciones finitas

pˆ − z1−α / 2σˆ pˆ ≤ p ≤ pˆ + z1−α / 2σˆ pˆ 0,7394 − 1,96 × 0,0367 ≤ p ≤ 0,7394 + 1,96 × 0,0367 0,6675 ≤ p ≤ 0,8113

p ∈ (0,7394 ± 0,0719) Es decir, el porcentaje de clientes satisfecho está entre el 66,75% y el 81,13%, con una confianza del 95%. El error al estimar la proporción puede llegar a ser de ± 0,0719 (± 7,19%). Aproximadamente, siete puntos arriba o abajo del 74%.

Caso del total: El tamaño de la muestra a la hora de hacer inferencia sobre el total o suma de todos los valores de una población, como ya se comentó, es exactamente el mismo que para la media, ya que la varianza para poblaciones finitas sería la siguiente, que en nada cambia los cálculos para obtener n:

Var ( Nx ) = N 2σ x2 = N 2

σ2 ⎛ N -n⎞ ⎜ ⎟ n ⎝ N -1 ⎠

Sólo ha de tenerse en cuenta esta expresión y que el error del total sería N veces el error de la media, como ya vimos en su momento. El intervalo de confianza es el de la media multiplicado por N, evidentemente. Las fórmulas de cálculo, por tanto, serían:

n=

n=

Nz12−α / 2σ 2

( N − 1)ε 2 + z12−α / 2σ 2

←ε2 =

ε T2 N

Nσ 2 Var ( Nx ) ← σ x2 = 2 2 ( N − 1)σ x + σ N2

Ejercicio (mismo de poblaciones infinitas): En el estudio sobre el gasto total en la zona por los turistas se aceptó un error máximo en el gasto total de 6 millones de euros. Suponiendo que la desviación estándar poblacional es de 200 euros y un nivel de confianza del 95%, obtenga el tamaño muestral adecuado. Si de la muestra obtenida se obtuviese un gasto medio de 450 euros con una desviación estándar de 320 euros, diga cuál es el intervalo para el gasto total.

22

A. Morillas: Muestreo en poblaciones finitas

Solución: Evidentemente, el resultado para n va a ser el mismo que para el caso de la media. Lo único que hemos de hacer es pasar del error del total al error de la media:

n=

Nz12−α / 2σ 2

( N − 1)ε 2 + z12−α / 2σ 2

Nz12−α / 2σ 2

=

( N − 1)

ε T2 N

+ z1−α / 2σ 2

= 170, 59 ≈ 171 2

El intervalo de confianza no vale la pena volver a calcularlo, pues ya sabemos que es el mismo de la media, pero multiplicado por N: ( 80.576.000 ≤ N µ ≤ 99.924.000 ) Es decir, el gasto total estaría entre algo más de 80 millones y algo menos de 100 millones de euros, con una confianza del 95%.

6.2. Muestreo aleatorio estratificado. Como paso previo al cálculo del tamaño de la muestra para cada uno de los tres parámetros con los que venimos trabajando y a la obtención de los intervalos de confianza, vamos a proponer el uso de la siguiente nomenclatura: •

Población dividida en k estratos:

N1 + N2 + …. + Nk = N



Tamaños muestrales de los estratos:

n1 + n2 + …… + nk = n



Medias poblacionales en los estratos:

µ1 µ2 …… µk



Medias muestrales en los estratos:

x1 x2 ….. xk



Proporciones muestrales en los estratos:

pˆ 1 pˆ 2 ….. pˆ k



En cada estrato, se hará un muestreo aleatorio simple en el que se definen los siguientes estimadores insesgados: o

Para la media de cada estrato µi : xi

o

Para la proporción de cada estrato pi : pˆ i

o

Para las varianzas de las xi : σˆ x2 =

sˆi2 ( N i - ni ) ni Ni

o

Para las varianzas de las pˆ i : σˆ p2ˆ =

pˆ i qˆi ( N i - ni ) ( ni -1) N i

i

i

23

A. Morillas: Muestreo en poblaciones finitas

Para determinar el tamaño de una muestra por estratos se siguen dos etapas. En primer lugar, se calcula el tamaño total de la muestra que se debe obtener, y posteriormente se estudia el número de elementos que hay que asignar a cada uno de los estratos. A este reparto o asignación de los elementos de la muestra a los distintos estratos se le denomina afijación, pudiéndose realizar según los siguientes métodos o criterios: •

Criterio uniforme: se trata de una forma muy simple de reparto, asignando el mismo número de elementos a cada estrato.



Criterio proporcional: reparto de elementos entre los estratos de la muestra en la misma proporción en que se presentan en la población:

N i ni N = Æ ni = i n N N n •

Criterio óptimo: reparto en función de la varianza de cada estrato, con la idea que a menor varianza será precisa menor cantidad de información y viceversa. Si las varianzas de los estratos fuesen iguales, coincidiría con el proporcional: •

Media y total: ni =

N iσ i K

∑ N iσ i

n Æ σi encuesta piloto

i =1



Proporción:

ni =

N i pi qi K

∑ N i pi qi

n Æ p encuesta o n máxima

i =1

En realidad, el primer método carece de interés, siendo los más utilizados el segundo (el más frecuente) y el tercero, en caso de estar especialmente interesados en la precisión de los estimadores.

Caso de la media y del total: A partir de la idea inicial desarrollada para el muestreo aleatorio simple, pero haciendo algunas simplificaciones para poder llegar a una solución, se obtiene la siguiente fórmula de cálculo: K





∑ N iσ i

2

; con σ =

ε2

Asignación proporcional:

n=

Asignación óptima:

2 1 K ∑ N iσ i ε2 ; con σ x2 = 2 n = N i =1 K 1 z1-α / 2 N σ x2 + ∑ N iσ i2 N i =1

i =1

N σ x2 +

(

1 K 2 ∑ N iσ i N i =1

2 x

z1-2α / 2

)

24

A. Morillas: Muestreo en poblaciones finitas

Caso de la proporción: K





Asignación proporcional:

Asignación óptima:

n=

∑ N i pi qi

i =1

Nσ p2ˆ +

(

1 K ∑ N i pi qi N i =1

; con σ p2ˆ =

ε2 z12−α / 2

)

2 1 K ∑ N i pi qi ε2 ; con σ p2ˆ = 2 n = N i =1 K 1 z1−α / 2 Nσ p2ˆ + ∑ N i pi qi N i =1

Ejemplo: El parque hotelero de una determina zona turística consta de 4.200 hoteles. Se sabe que 1.150 de estos hoteles son de 4 y 5 estrellas, 2.120 son de 3 estrellas y 930 de menos de 3 estrellas. Se pide: 1. Obtenga el tamaño de la muestra para estimar la facturación media semanal de los hoteles, con un error máximo de 500 euros y con una confianza del 95,5%. Supondremos que por estudios anteriores se sabe que la desviación estándar en cada uno de los estratos es de 4.000, 6.000 y 8.000 euros, respectivamente. 2. Determine el total de encuestas que habría que realizar para estimar el grado de ocupación, con un error máximo del 5% y con una confianza del 95%. 3. Suponga ahora que, por estudios anteriores, se estima que el grado de ocupación fue, respectivamente, del 70%, 90% y 60%. ¿cuál sería el correspondiente tamaño muestral? 4. Diga, finalmente, cuál debe ser el tamaño definitivo de la muestra y obtenga el número de formularios que habría que asignar a cada uno de los tres grupos mencionados, utilizando tanto el criterio proporcional como el óptimo.

Solución 1: El tamaño muestral adecuado para hacer inferencia sobre la media y sobre el total, utilizando un criterio proporcional de reparto entre estratos, sería el siguiente: K

n=

∑ N iσ i

2

i =1

N σ x2 +

1 K 2 ∑ N iσ i N i =1

=

(1150 × 40002 + 2120 × 60002 + 930 × 80002 ) = 497, 47 ≈ 498 5002 1 2 2 2 + 4200 (1150 × 4000 + 2120 × 6000 + 930 × 8000 ) 1,962 4200

Si consideramos ahora un reparto óptimo de las observaciones de la muestra entre los diferentes estratos, el tamaño adecuado para garantizar el error y el nivel de confianza que se ha propuesto, sería el siguiente:

25

A. Morillas: Muestreo en poblaciones finitas

(

)

2 1 K 1 2 ∑ N iσ i (1150 × 4000 + 2120 × 6000 + 930 × 8000 ) 4200 n = N i =1 K = = 470,79 ≈ 471 2 1 500 1 2 2 2 2 2 N σ x + ∑ N iσ i 4200 (1150 4000 2120 6000 930 8000 ) + × + × + × N i =1 1,962 4200

Luego hay una diferencia de 27 cuestionarios entre utilizar una u otra forma de asignar los elementos de la muestra entre los tres estratos contemplados. Solución 2: Comenzaremos determinando el tamaño de la muestra para estimar el grado de ocupación (proporción). Como no se sabe nada acerca de las proporciones muestrales en los diferentes estratos, buscaremos el n máximo: K

n=

K

∑ N i pi qi

i =1

Nσ p2ˆ +

K

1 ∑ N i pi qi N i =1

0, 25∑ N i

= N

ε

i =1

2

z12−α / 2

+

0, 25 K ∑ Ni N i =1

0, 25 N

→ nmax = N

ε2 z12−α / 2

+ 0, 25

Como se puede observar, al no distinguir entre las diferentes proporciones poblacionales de los estratos, lo que implica varianzas iguales en todos ellos, la expresión del tamaño de la muestra coincide prácticamente con el caso de muestreo aleatorio simple y, por supuesto, el resultado es idéntico para ambos tipos de asignación (proporcional u óptima). Obteniéndolo por el proporcional, se tiene:

0, 25 N

nmax = N

ε

2

zα2 / 2

+ 0, 25

=

0, 25 × 4.200 = 351,97 ≈ 352 0, 052 4.200 × + 0, 25 1, 962

Solución 3: Si suponemos que por anteriores investigaciones se sabe que la ocupación fue, respectivamente, del 70%, 90% y 60%, los cálculos arrojarían este otro resultado para el criterio de asignación proporcional: K

n=

∑ Ni pi qi

i =1

1 K Nσ p2ˆ + ∑ Ni pi qi N i=1

=

1150 × 0,70 × 0,30 + 2120 × 0,90 × 0,10 + 930 × 0,60 × 0,40 = 226,87 ≈ 227 0,052 1 + × × + × × + × × 4.200 × 1150 0,70 0,30 2120 0,90 0,10 930 0,60 0,40 ( ) 1,962 4.200

Evidentemente, los resultados nos indican que, al tener mayor información sobre las varianzas de los estratos, la precisión del estimador aumenta y la cantidad de elementos necesarios para hacer inferencia sobre la población resulta más pequeña. Si consideramos ahora el criterio de asignación óptima, el resultado sería el siguiente:

26

A. Morillas: Muestreo en poblaciones finitas

(

)

(

)

2 2 1 K 1 1150 0,7 × 0,3 + 2120 0,9 × 0,1 + 930 0,6 × 0, 4 ∑ N i pi qi i =1 N 4200 = = 215,89 ≈ 216 n= 2 1 K N σ p2ˆ + ∑ N i pi qi 4200 0,052 + 1 (1150 × 0,7 × 0,3 + 2120 × 0,9 × 0,1 + 930 × 0,6 × 0, 4 ) N i =1 1,96 4200

Luego se necesitarían 11 cuestionarios menos con este tipo de distribución del tamaño de la muestra entre los distintos estratos. Veamos ahora exactamente cuantos debemos asignar a cada uno. Solución 4: La primera pregunta que hay que hacer es con qué tamaño de muestra hemos de trabajar finalmente, si deseamos llevar a cabo en paralelo las dos investigaciones, sobre la facturación media y sobre el grado de ocupación. Evidentemente, la respuesta no puede ser otra: hay que seleccionar el tamaño muestral adecuado para conservar en el más desfavorable de los casos el grado de fiabilidad y el error que se han propuesto. Es decir, tomaremos el tamaño exigible para hacer inferencia sobre la media, que es el que arroja un mayor número de observaciones: 498 para el reparto proporcional y 471 para el óptimo. Con ese tamaño aseguramos la precisión de la inferencia sobre la facturación media y sobre la ocupación, mejorando en este último caso el error si se mantiene fijo el nivel de confianza. Veamos: •

Asignación proporcional:

n1 = ni =

Ni n N

n2 =

N1 1150 n= 498 = 136, 4 ≈ 137 N 4200 N2 2120 n= 498 = 251, 4 ≈ 252 N 4200

N 930 n3 = 3 n = 498 = 110,3 ≈ 111 N 4200



Tamaño final 500 (redondear por exceso)

Asignación óptima: o

Caso de la media y del total: n1 =

ni =

N iσ i K

∑ N iσ i

i =1

n

n2 =

1150 × 4000 471 = 87,5 ≈ 88 24760000 2160 × 6000 471 = 246,5 ≈ 247 24760000

930 × 8000 n3 = 471 = 141,5 ≈ 142 24760000

Tamaño final 477 (redondear por exceso)

27

A. Morillas: Muestreo en poblaciones finitas

Como puede observarse, el reparto difiere significativamente, ampliando especialmente el número de cuestionarios del grupo 3, que es el de mayor variabilidad y, por tanto, más difícil de predecir el valor del parámetro a estimar, y reduciendo el del grupo 1, con menor dispersión. El incremento de información en el mismo, a costa de una disminución de los que tienen menor variabilidad, muy especialmente del primero, hace que la estimación sea más precisa.

Intervalos para la media, el total y la proporción: El procedimiento para obtener los intervalos de confianza sigue siendo básicamente el mismo, como es lógico. Una vez hechas las correspondientes estimaciones por puntos, el problema será calcular las correspondientes estimaciones de las varianzas de cada uno de los estadísticos. Para la media y la proporción, se llega fácilmente a las siguientes expresiones: • Media (estimador y su varianza):

Población: µ =

K

1 N

∑ N i µi → Estimador: x = i =1

Var ( x ) = Var (

1 N

K

∑N x i =1

i i

1 K 1 K 2 2 2 ∑ N i xi ) = σˆ x = 2 ∑ N i σˆ xi N i =1 N i =1

siendo σˆ x2i =

sˆi2 N i − ni ni N i

• Proporción (estimador y su varianza):

Población: p =

1 N

K

∑N p

Var ( pˆ ) = Var (

i

i =1

i

→ Estimador: pˆ =

1 N

K

∑ N pˆ i =1

i

i

1 K 1 K 2 2 2 ∑ N i pˆ i ) = σˆ pˆ = 2 ∑ N i σˆ pˆi N i =1 N i =1

siendo σˆ p2ˆ = i

pˆ i qˆi ( N i - ni ) (ni -1) N i

Una vez obtenidos los valores de las varianzas para la media muestral o para la proporción, los intervalos se establecen exactamente igual que en muestreo aleatorio simple. Se toma la estimación por puntos (media o proporción en la muestra obtenida) como pivote del intervalo y se le suma y resta el error; es decir, el producto de z (por ejemplo, 1,96 para una confianza del 95%) por la desviación estándar del estadístico correspondiente ( σˆ xi o σˆ pˆi , respectivamente). El intervalo para el total es el de la media multiplicado por N, como siempre. Los cálculos son algo más farragosos, puesto que hay que estimar previamente las varianzas para un muestreo simple en cada uno de los estratos, pero, en

28

A. Morillas: Muestreo en poblaciones finitas

esencia, se trata del mismo procedimiento. Las fórmulas de dichos intervalos serán, al fin y al cabo, las mismas que para el muestreo aleatorio simple, pero tomando en consideración la diferente forma en la que hay que obtener la varianza del estimador, tal como se ha expuesto en el párrafo anterior.

Ejercicio: Tomando el reparto proporcional, establecer un intervalo de confianza para la facturación media, suponiendo que en la muestra finalmente seleccionada las medias y correspondientes desviaciones típicas, así como las proporciones en la muestra para los estratos fueron las siguientes:

N1 = 1.150; N 2 = 2.120; N 3 = 930; N = 4.200 x = 16.628; x = 21.593; x = 32.711 1 2 3 s = 4.187; s = 6.195; s = 8.243 1 2 3 pˆ1 = 0,80; pˆ 2 = 0,85; pˆ 3 = 0, 70

Solución:

Para comenzar, se obtiene la estimación puntual de la media:

x=

1 N

K

∑N x

i i

i =1

=

1 (1.150 × 16.628 + 2.120 × 21.593 + 930 × 32.711) = 22.695,38 4200

Como segundo paso, se calculan las estimaciones de las desviaciones típicas para cada uno de los estratos: σˆ x =

(1 3 7 × 4 1 8 7 2 ) / 1 3 6 (1 1 5 0 - 1 3 7 ) = 3 3 6, 9 7 137 1150

σˆ x =

(252 × 6195 2 ) / 251 (2120 - 252 ) = 367, 05 252 2120

σˆ x =

(1 1 1 × 8 2 4 3 2 ) / 1 1 0 ( 9 3 0 - 1 1 1) = 737, 55 111 930

1

sˆ 2 ( N i - ni ) σˆ = i ni Ni 2 xi

2

3

Y la varianza del estimador de la media será, por tanto:

29

A. Morillas: Muestreo en poblaciones finitas

σˆx2 =

1 K 2 2 1 N σˆ = (11502 ×336,972 +21202 ×367,052 +9302 ×737,552) =69.510,64 2 ∑ i xi N i=1 42002

Así, pues, la desviación estándar del estimador de la media es σˆ x = 263,65. Con este dato, el intervalo de confianza del 95% sería:

x − z1−α / 2σˆ x ≤ µ ≤ x + z1−α / 2σˆ x

22695,38 − 1,96 × 263,65 ≤ µ ≤ 22695,38 + 1,96 × 263,65 22178,63 ≤ µ ≤ 23212,13

µ ∈ (22695,38 ± 516,75)

La facturación media está entre los 22.178,63 y 23.212,13 euros con una confianza del 95%. Por último, digamos que el intervalo para la proporción sigue el mismo esquema del que acabamos de ver para la media (para el del total, bastaría con multiplicar el de ésta por N). La única complicación que puede presentar es la laboriosidad que hemos visto implica su cálculo.

30