Muestreo sistemático con intervalo de selección variable

Holland. SYSTEMATIC SAMPLING WITH VARIABLE SAMPLING INTERVAL. SUMMARY. This document proposes a new procedure in order to select sam-.

Descargar PDF

Imágenes PNG

193KB Größe 126 Downloads 125 vistas

comentario

Informe

ESTADÍSTICA ESPAÑOLA Vol. 40, Núm. 143, 1998, págs. 5 a 31

Muestreo sistemático con intervalo de selección variable por GONZALO SÁNCHEZ-CRESPO BENITEZ Delegación del INE en Cantabria Teléfono: 942-216638 Correo electrónico: [email protected]

RESUMEN Este documento propone un nuevo sistema para seleccionar muestras probabilísticas utilizando muestreo sistemático con intervalo de muestreo variable. Para ello, se define formalmente el procedimiento clásico de selección, utilizando intervalo de muestreo constante. Se incluye un ejemplo, resuelto con hoja de cálculo, con datos sencillos para comprender mejor el procedimiento. Después se introduce, en términos similares, el procedimiento propuesto de selección con intervalo de muestreo variable. Entroncando con ciertos procedimientos de selección existentes en la literatura sobre Muestreo en Poblaciones Finitas, se realiza una aplicación de diferentes métodos al marco de la Encuesta de Hoteles en la Comunidad Autónoma de Cantabria, bajo la perspectiva de los denominados “modelos de superpoblación”. Por último, se hace una referencia a un nuevo programa de ordenador, “POSDEM”(1), que hemos realizado, entre otros fines, para auxiliar en el proceso de diseño de encuestas por muestreo probabilístico en poblaciones finitas. (1) Programa para Optimizar la Selección en el Diseño de Encuestas por Muestreo. En su versión Windows este programa se ha desarrollado en colaboración entre Alberto Lezcano y el autor de este artículo.

6

ESTADÍSTICA ESPAÑOLA

Palabras clave: Muestreo sistemático. Intervalo variable. Modelo de superpoblación. Métodos de selección de muestras. Aplicación informática: POSDEM. Clasificación AMS: 62D05

1. MUESTREO SISTEMÁTICO CON INTERVALO CONSTANTE El muestreo sistemático tiene como objetivo conseguir, con un método sencillo de aplicación, un efecto similar al obtenido con la estratificación y extender la muestra a toda la población. Se puede observar como en la práctica de las encuestas por muestreo se aplica con frecuencia la técnica del muestreo sistemático. Esto es debido a las ventajas operacionales que presenta este método y a ciertas propiedades que verifica bajo determinadas supuestos. Sus principales ventajas son: su facilidad de aplicación; recoge un posible efecto de estratificación; extiende la muestra a toda la población; si las unidades de muestreo se ordenan conforme a una variable conocida y relacionada estructuralmente con la variable de estudio, se pueden obtener grandes ganancias en precisión. Para que este método sea efectivo necesita que los elementos de la población se puedan ordenar con un criterio relevante para la investigación y no introducir regularidades ocultas. Con esta técnica se obtienen tantos estratos o grupos como elementos se quieran incorporar a la muestra. La muestra estará formada en este caso con un elemento de cada estrato. Esta muestra se puede considerar como un conglomerado. Este método consiste en, una vez ordenadas las unidades de la población, dividir la población en n grupos iguales de tamaño k, de forma que N/n=k. Después, seleccionar aleatoriamente un elemento del primer grupo y los sucesivos elementos que ocupen la misma posición. Como ejemplo utilizaremos una población marco, esto es, la recopilación de toda la información relevante sobre la población que deseamos investigar con una encuesta por muestreo, donde los valores de la variable en cada unidad coincide con el valor que las identifica. Sean las unidades U(i) = i donde X(i) = i con i = 1,...N y N=12. Se puede considerar, para introducir la aplicación que se realizará a datos de la Comunidad Autónoma de Cantabría, que cada unidad, U(i), representada por un número correlativo, es un establecimiento hotelero de más de dos estrellas de plata y menos de cien habitaciones. Y que el valor de la variable medida en cada unidad, X(i), representa

MUESTREO SISTEMÁTICO CON INTERVALO DE SELECCIÓN VARIABLE

7

el número de plazas declaradas. Las unidades están ordenadas conforme al valor de la variable número de habitaciones. Si fijamos un tamaño de muestra de 4 unidades, se procederá de la siguiente forma: para dividir la población en grupos se obtiene el valor k = 12/4 = 3 período que se utiliza para dividir la población en n=4 grupos iguales. Esto es, el número de unidades de la población dividido por el número de unidades de la muestra. Se selecciona en el primer grupo uno de los 3 elementos con probabilidad 1 1 = k 3 Por ejemplo, si el aleatorio entre 1 y 3 es el valor 2, éste condicionará el resto de la muestra, que estará configurada por aquellos elementos que ocupan, en los otros grupos, la misma posición relativa. Así, la muestra quedaría compuesta por los siguientes elementos: 2, 5, 8, 11. Se han seleccionado las unidades U( 2 ) , U( 2+k ) , U( 2+ 2k ) , U( 2+3k )

// 1 2 3 // // 4 5 6 //

// 7 8 9 // // 10 11 12 //

El método de selección sistemática con intervalo de muestreo constante puede definirse de una manera formal utilizando la siguiente notación: la selección se lleva a cabo obteniendo un número aleatorio entre 1 y k, que denominaremos i. Este número permite determinar la primera unidad que figurará en la muestra. Las n-1 unidades restantes se seleccionan de forma que: zc= i+ (j-1) k Donde zc = Valor que identifica las unidades seleccionadas con intervalo constante i = Número aleatorio de selección. Entre 1 y k j = Número correlativo entre 1 y n. Donde n es el tamaño de muestra. k = Tamaño de los grupos formados para la selección. k= N/ n

8

ESTADÍSTICA ESPAÑOLA

Se puede seguir un ejemplo, en el anexo 1, utilizando una hoja de cálculo. En este ejemplo se forma el espacio muestral, se estiman las principales características de cada muestra y sus errores de muestreo. Este método tiene la ventaja de extender la muestra a toda la población. También recoge el posible efecto de estratificación. Por otra parte, este método tiene el inconveniente de que, con los datos de una sola muestra, se plantea un problema para estimar el error debido al muestreo. En el caso del muestreo aleatorio sin reposición, la varianza debida al muestreo viene dada por la expresión: n  S2  = 2.16 V( xˆ sr ) = 1 −  N n  En el caso de muestreo sistemático, la varianza viene dado por la expresión: k 2 ∑ ( xˆ i − X) = 0.67 V( xˆ sis ) = i = 1 k

Donde i representa la muestra i-ésima. Por otra parte, es también interesante la comparación del muestreo sistemático con el muestreo estratificado aleatorio con una unidad por estrato. Para obtener la varianza del estimador media, en el caso de que la selección de las unidades que forman la muestra se obtengan mediante un procedimiento de muestreo estratificado con una unidad por estrato, se puede utilizar la expresión:  N − n  S2st = 0,16 V( xˆ str ) =    N  n Donde S2st =

(

n k 1 ∑ ∑ xij − x⋅ j n(k − 1) j = 1i = 1

)

2

con j representando el estrato j-ésimo. En resumen tenemos, en este ejemplo, que el método más preciso es el muestreo estratificado con una unidad por estrato, seguido del muestreo sistemático con intervalo constante y por último el muestreo sin reposición. Este resultado era

MUESTREO SISTEMÁTICO CON INTERVALO DE SELECCIÓN VARIABLE

9

previsible y puede verse un desarrollo más formal en la obra de Cochran, 1977, para el caso de poblaciones con tendencia lineal. Únicamente se ha llevado a cabo con el ánimo de introducir en la sección siguiente el procedimiento propuesto de intervalo variable y poder realizar una ilustración comparativa de los resultados. Por otra parte, en el anexo 1, también podemos observar el problema que se presenta de estimación de varianzas al aplicar muestreo sistemático. Mientras que la varianza de la media es 0.67, cuya raíz cuadrada es el error de muestreo, la media de las varianzas sobre todas las muestras, de haber aplicado el supuesto de orden aleatorio y haber calculado el error en base al muestreo aleatorio sin reposición, hubiese proporcionado un valor de 2.5. Un método más ajustado a los datos que se están manejando en este ejemplo es mediante la denominada técnica del lazo, que consiste en unir dos unidades próximas como parte de una muestra estratificada de tamaño dos. Para este caso, la media de las varianzas pasaría a ser del valor 2.5 al valor 0.75, más próximo al valor objetivo de 0.67. En la literatura sobre teoría del muestreo en poblaciones finitas se pueden encontrar otros métodos para resolver el problema de la estimación en el muestreo sistemático.

2. MUESTREO SISTEMÁTICO CON INTERVALO VARIABLE Entre los inconvenientes del muestreo sistemático con intervalo constante se citan la posibilidad de pérdidas en precisión debidas a periodicidades ocultas, siendo especialmente sugeridas precauciones en el caso de la existencia de ciclos en la población. Este tipo de poblaciones(2) son más frecuentes de lo que se piensa en la práctica de las encuestas por muestreo. Un ejemplo de esta situación es cuando el marco de unidades es producto de una operación censal y dentro de los hogares figuran sus miembros en padres e hijos por orden de edad. Si los grupos son de una tamaño similar y el intervalo de muestreo coincide con esta periodicidad, el muestreo sistemático sería muy ineficaz. En este trabajo hemos planteado un método que tiende a eliminar, no sólo el efecto tendencia, que estaba ya en la literatura sobre muestreo (ver muestreo sistemático centrado de Madow, correcciones de Yates, muestreo sistemático equilibrado y muestreo modificado) sino que tiende a eliminar también el efecto cíclico, de forma que para corregirlo no es necesario conocer a priori su existencia o sus características. El muestreo sistemático con intervalo variable es un método que persigue aumentar la heterogeneidad interna de la muestra. Esto es, aumentar la variabilidad interna de la muestra. Este método consiste en seleccionar la muestra con un inter-

(2)

Ver Murthy M.N., 1967 pg.157

10

ESTADÍSTICA ESPAÑOLA

valo de muestreo variable que tenga como consecuencia un efecto de movilidad dentro de cada estrato. Se pretende compensar las posibles distorsiones introducidas al utilizar, en el esquema de intervalo constante, el mismo lugar relativo. Ahora podemos introducir el método con intervalo variable con una regla para seleccionar las n-1 unidades restantes de la muestra. Así, con una notación similar a la empleada anteriormente: zv= i+ (j-1)(k+1) - c k zv= Valor de la unidad muestral seleccionada con intervalo variable Donde, por definición, los valores que toma c vienen dados por las siguientes situaciones: • Si zv=jk no ha sucedido nunca c=0 • Si zv=jk ha ocurrido una vez c=1 • Si zv=jk ha ocurrido dos veces c=2 .... Así, c= 0,1,2 ... de acuerdo con el número de veces que ha ocurrido que el valor de zv ha sido igual al producto de j por k . Este método aplicado a datos del tipo Xi =i donde i=1,2,...N, con N cualquier número natural, presenta un caso de muestras equilibradas cuando el tamaño de muestra es igual a la raíz cuadrada del tamaño de población. En este caso, el error debido al proceso de muestreo es cero. Esto es, sea cual sea la muestra seleccionada, la estimación de la media coincide con la media poblacional. En el anexo 1 se pueden observar los resultados de este método aplicado a los datos del ejemplo con intervalo constante, utilizando el mismo esquema de hoja de cálculo empleado antes. Para comprender mejor el método de selección propuesto, se incluye, en el anexo 2, un ejemplo con una población un poco mayor que la utilizada en la ilustración de la hoja de calculo. En precisión destaca una mejora importante, puesto que de una varianza del estimador de 0.67 se ha pasado a un valor de 0.04. Por contra, la estimación esperada en base a la información proporcionada por cada muestra mediante la técnica del lazo empeora puesto que de 0.75 pasa a 0.97. El problema de la estimación de la varianza en base a los datos de una sola muestra sistemática y las distintas alternativas de actuación no se van a tratar de en este artículo, formarán parte de una segunda entrega.

MUESTREO SISTEMÁTICO CON INTERVALO DE SELECCIÓN VARIABLE

11

3. COMPARACIÓN ENTRE DIFERENTES MÉTODOS Existe un gran número de métodos de selección de muestras inspirados en los principios del muestreo sistemático, en función de las diferentes variantes que se pueden considerar al establecer la regla de relación entre las unidades seleccionadas. Siguiendo a Bellhouse y Rao (1975:694-697) hemos llevado a cabo un análisis del comportamiento de diferentes métodos de selección de unidades muestrales ante cambios en las especificaciones de los modelos. La evaluación se ha realizado sobre diferentes procedimientos sistemáticos de selección en el caso de modelos de superpoblación polinómicos de grado entre uno y tres, calculando los valores esperados del error cuadrático medio del estimador sobre un conjunto de realizaciones aleatorias. Nuestro foco de atención se ha orientado al comportamiento errático observado en el método centrado cuando aumenta el tamaño de muestra y a la cuestión de no tener que diferenciar entre valores pares o impares del número de grupos, k=N/n , que se forman en la población. Hasta el momento sólo el método corregido en los extremos de Yates eliminaba la tendencia lineal para valores pares o impares del tamaño de muestra o del número de grupos en la población. El método centrado de Madow no elimina la tendencia cuando k es par. Hemos comprobado, también, que cambios en la especificación del término de error pueden suponer que los métodos centrados sean inestables frente a los restantes métodos considerados. En este apartado vamos a considerar los siguientes métodos: estratificado con una unidad por estrato (M_St_nh=1); sistemático con intervalo de selección constante (S_isc); centrado de Madow (C_isc); corregido en los extremos de Yates (Corr_extr.); sistemático equilibrado;y sistemático modificado. A estos métodos clásicos se han incorporado dos novedades: el primero es un método que hemos definido como sistemático con intervalo de muestreo variable (S_isv); y, el segundo, y verdadero objeto de esta comunicación, que consiste en aplicar el anterior al método centrado propuesto por Madow, a este método lo hemos denominado: sistemático centrado con intervalo variable Únicamente aclarar que el método «C_isv» limita el espacio muestral, cuando k es par, a las dos muestras centrales con probabilidad un medio cada una, y en el caso k impar a las tres centrales, con probabilidad un tercio. Esta es la primera diferencia con el método «C_isc», la segunda, y más importante es que la selección se realiza aplicando un algoritmo de intervalo variable, que mantiene las probabilidades de cada unidad y que proporciona al método una mayor coherencia en cuanto a precisión y estabilidad. Para valores de k=2 y k=3 el método C_isv coincide con con el método S_isv.

12

ESTADÍSTICA ESPAÑOLA

Una descripción de los restantes métodos y sus implicaciones en modelos de superpoblación bajo diferentes supuestos sobre la forma de la población puede encontrarse en el libro de P.R. Krishnaiah y C.R. Rao, y en el artículo de D.R. Bellhouse y J.N.K Rao citados en las referencias. Dejamos para otro momento la comparación entre el método centrado con intervalo variable y los métodos con probabilidades proporcionales al tamaño. Adelantamos que es posible realizarla, en los mismo términos que la actual, utilizando la aplicación POSDEM. También es posible analizar el comportamiento de los métodos considerados en presencia de poblaciones con variaciones cíclicas, diferencias en los términos de error y presencia de heterocedásticidad de la perturbación aleatoria.

4. RESULTADOS A TRAVÉS DE MODELOS DE SUPERPOBLACIÓN Utilizando la aplicación POSDEM vamos a modelar el comportamiento de una población para estudiar el error cuadrático medio del estimador y su propia variabilidad para diferentes métodos respecto del modelo. Este enfoque surge de la necesidad de inferir resultados más allá de lo que representa el análisis de una única población natural, consecuencia de una determinada realización. En este artículo nos vamos a interesar por el comportamiento de los diferentes métodos, no para cada caso aislado, sino para la situación en la cual las especificaciones, que hacemos sobre el grado del polinomio o el tamaño de muestra, puedan no ser estrictamente correctas. En la medida que, al apartarnos de una determinada especificación, el método sea más inestable nos encontraremos con métodos menos robustos. La población marco esta formada por 264 unidades, establecimientos hoteleros, correspondientes a la Comunidad Autónoma de Cantabría, caracterizados y ordenados según el número de habitaciones, la variable de estudio ha sido la capacidad del hotel según número de plazas. Esta población se ha considerado para ajustar diferentes modelos polinómicas de grado entre uno y tres. Nuestra intención es comprobar como afectan al error cuadrático medio los cambios en la especificación del modelo o los cambios en el tamaño de muestra. Con la aplicación POSDEM podemos estimar los parámetros de un modelo de superpoblación con el modulo que hemos denominado «cálculo de estructuras de población».

MUESTREO SISTEMÁTICO CON INTERVALO DE SELECCIÓN VARIABLE

13

Figura 1

MÓDULO PARA EL CÁLCULO DE ESTRUCTURAS DE POBLACIÓN EN POSDEM. MODELOS DE SUPERPOBLACIÓN

En primer lugar vamos a obtener los valores de los parámetros y del término de error que mejor se ajustan a la población que estamos estudiando. Así tendremos: Xi= a0 + a1 i1+ a2 i2+ a3 i3 + ei donde i representa las unidades de la población y en este caso toma los valores de 1 a 264. ai con i=1,2, y 3 son los parámetros de la ecuación calculados inicialmente por mínimos cuadrados, pero que pueden ser definidos con otros procedimientos. ei es el término de error aleatorio que en este modelo se ha definido distribuido normal con parámetros: media cero y desviación típica dos.

14

ESTADÍSTICA ESPAÑOLA

Em(ei) = 0; Em(ei2) =σ2; Em (ei ej ) = 0 el operador Em denota la esperanza respecto del modelo. Con esta ecuación podemos simular un conjunto de poblaciones finitas similares a la población original y calcular para cada una de ellas el error cuadrático medio del estimador para cada método de selección utilizado. En la siguiente tabla tenemos la esperanza sobre el modelo del error cuadrático medio calculado sobre un conjunto de doscientas poblaciones finitas generadas mediante una ecuación polinómica de grado tres y un componente aleatorio distribuido normal.

Tabla 1 ESPERANZA DEL ERROR CUADRÁTICO MEDIO n=2

n=3

n=4

n=12

n=22

n=44

n=66

n=132

M_St_nh=1

226,603.50

378.20 101.20

52.70

16.00

S_isc

324,073.50 150,973.00 86,567.40 9,872.90 3,046.60 762.00

313.20

70.70

S_isv

320,827.10 145,310.60 79,823.30 3,273.80

77,403.10 34,714.00 1,624.50

87.90

39.60

14.70

3,613.90

1,786.54

376.80

241.70 112.30

99.70

70.70

12,411.80

3,545.70

1,680.67

329.00

165.40

79.40

46.70

14.70

53,339.20

14,426.60

5,934.09

398.90

184.10

74.40

44.50

12.60

Equilibrado

123,466.20

63,178.00

8,698.90

396.40

176.10

75.70

46.40

14.70

Modificado

123,466.20

19,622.90 30,014.80 3,440.20 1,143.50 305.20

144.20

37.40

C_isc

12,264.60

C_isv Corr_extr.

277.50

Dejamos para más adelante el comentario de los métodos equilibrado y modificado. En los gráficos siguientes observamos como el método centrado de Madow (para k par) y el método corregido de Yates presentan un comportamiento diferente según el tamaño de muestra: para muestras pequeñas «C_isc» es preferible a «Corr_extr.» y cuando la muestra aumenta esta relación se invierte. Aquí destacamos como el método «C_isv» se ajusta en cada caso al mejor de los dos.

15

MUESTREO SISTEMÁTICO CON INTERVALO DE SELECCIÓN VARIABLE

Gráfico 1 ESPERANZA RESPECTO DEL MODELO DEL ERRROR CUADRÁTICO MEDIO

En segundo lugar vamos a observar la varianza respecto del modelo del error cuadrático medio. En la siguiente tabla tenemos el error cuadrático medio obtenido en cada población finita, su valor esperado, su varianza y un indicador de la cota superior del error que hemos definido como la esperanza mas dos veces la desviación respecto del modelo.

Tabla 2 ESPERANZA Y VARIANZA DEL ERROR CUADRÁTICO MEDIO PARA UNA DESVIACIÓN DE LA PERTURBACIÓN ALEATORIA IGUAL A DOS Y UN TAMAÑO DE MUESTRA IGUAL A CUATRO E

V

I=E+2*D

Pf1

Pf2

...

Pf200

C_isc

1,786.54 2,579.44

4,998.67

1,534.43

984.14

...

1,971.18

C_isv

1,680.67 2,800.78

5,027.78

1,234.21

248.46

...

3,734.82

6,940.80

6,379.52

6,781.69

...

5,578.48

Corr_extr. 5,934.09

253.36

Podemos observar en el siguiente gráfico como la dispersión respecto de su valor esperado es superior en los métodos centrados que en el método de Yates. Esto explica que en algunas de las poblaciones finitas consideradas se produzcan resultados erráticos. Para tener en cuenta la posibilidad de estos comportamientos es por lo que se propone en este artículo utilizar como indicador del error de muestreo una cota superior del mismo que tenga en cuenta no sólo los valores esperados sino también su varianza respecto del modelo.

16

ESTADÍSTICA ESPAÑOLA

Gráfico 2 ERROR CUADRÁTICO MEDIO SOBRE UN CONJUNTO DE 200 POBLACIONES FINITAS REALIZADAS ALEATORIAMENTE CON LA MISMA ESTRUCTURA POBLACIONAL BASADA EN UN MODELO POLINÓMICO DE GRADO TRES

En tercer lugar vamos a observar cual es el comportamiento de los indicadores que estamos utilizando cuando cambian las especificaciones del término de error. Así hemos considerado en principio un término de error con distribución normal de parámetros cero y dos porque se ajustaba bien a los datos que estamos considerando. Ahora si aumentamos la desviación del error e introducimos en el modelo un componente de heterocedásticidad tendremos una nueva población representada en el gráfico siguiente, que no tiene correspondencia con la original y que se ha introducido únicamente con fines ilustrativos.

17

MUESTREO SISTEMÁTICO CON INTERVALO DE SELECCIÓN VARIABLE

Gráfico 3 POBLACIÓN HIPOTÉTICA DE HOTELES SEGÚN CAPACIDAD ORDENADOS POR NÚMERO DE HABITACIONES

Aquí podemos observar como a pesar de que el valor esperado respecto del modelo permite definir como preferibles los métodos centrados al método de Yates, si bien la varianza respecto del modelo de los primeros provoca que en un gran número de poblaciones el error cuadrático medio del estimador obtenido este por encima del obtenido con el método de Yates. En la siguiente tabla podemos observar estos valores. Tabla 3 ESPERANZA Y VARIANZA DEL ERROR CUADRÁTICO MEDIO PARA UNA DESVIACIÓN DE LA PERTURBACIÓN ALEATORIA IGUAL A SIETE, HETEROCEDÁSTICIDAD Y UN TAMAÑO DE MUESTRA IGUAL A CUATRO E C_isc C_isv Corr_extr.

74.27154 69.72824 81.82519

V 5014.4383 4525.6562 216.88261

I=E+2*D 215.89694 204.27424 111.27906

Pf1 1.975495 13.19773 89.037626

Estos resultados pueden analizarse gráficamente.

Pf2 132.91205 151.38329 109.44578

... ... ... ...

Pf200 75.702003 73.30413 106.28774

18

ESTADÍSTICA ESPAÑOLA

Gráfico 4 ERROR CUADRÁTICO MEDIO SOBRE UN CONJUNTO DE 200 POBLACIONES FINITAS GENERADAS ALEATORIAMENTE CON LA MISMA ESTRUCTURA POBLACIONAL BASADA EN UN MODELO POLINÓMICO DE GRADO TRES, TÉRMINO DE ERROR ALEATORIO DE DESVIACIÓN SIETE Y HETEROCEDASTÍCIDAD 0.01

En cuarto y último lugar vamos a observar el comportamiento del valor esperado respecto del modelo del error cuadrático medio ante cambios en la especificación del grado del polinomio utilizado. En el gráfico podemos observar los tres ajustes que hemos realizado y los valores de los parámetros en la tabla siguiente.

19

MUESTREO SISTEMÁTICO CON INTERVALO DE SELECCIÓN VARIABLE

Gráfico 5 DISTINTOS MODELOS DE SUPERPOBLACIÓN AJUSTADOS

Núm. De plazas entre 10 y 150

Hoteles

Tabla 4 COEFICIENTES ESTIMADOS PARA CADA MODELO

a0 Modelo 1 Modelo 2 Modelo 3

-4.19E+00 +2.07E+01 +7.39E-00

a1 +3.91E-01 -1.71E-01 +4.28E-01

a3 +2.12E-03 -3.51E-03

a4 +1.42E-05

Hemos comprobado los cálculos que lleva a cabo el proceso de simulación con POSDEM mediante las ecuaciones siguientes: Los resultados obtenidos al aplicar estos modelos en la generación de poblaciones aleatorias pueden comprobarse, para el caso lineal, con los siguientes resultados teóricos: 1) Muestreo sistemático: Em Vp ( x sis ) = a1 2 (k2 - 1)/12 + σ 2 con σ 2 = σ 2 (k - 1)/nk

20

ESTADÍSTICA ESPAÑOLA

El primer componente es la varianza debida a la tendencia lineal; el segundo término es la debida al error aleatorio. 2) Muestreo aleatorio: Em Vp ( xˆ sr ) = a1 2 (k - 1) (nk + 1)/12 + σ 2 3) Muestreo estratificado con una unidad: se asume que la población consiste en n estratos formados por los conjuntos de unidades 1...k k+1,...2k ,...(n-1)k+1,...,nk. Una muestra aleatoria se toma de cada estrato. Em Vp ( x str ) = a1 2 (k2 - 1)/12n + σ 2 Se puede comprobar que en este caso: Em Vp ( x strat ) ≤ Em Vp ( x sis ) ≤ Em Vp ( x sr ) En el caso de utilizar un modelo parabólico de grado dos, el desarrollo teórico que hemos utilizado para confrontar nuestros resultados ha sido: Em(ecm(2)) - Em(ecm(5))= (c2/720)(k2-1)(19k2-31)>0 para k impar La tabla de resultados para los tres modelos permite cuantificar como a medida que la población se aleja de la forma de tendencia lineal los métodos equilibrado, modificado y corregido de Yates se comportan peor. Existe diferencia en cuanto al tamaño de muestra, así, a medida que esta aumenta la forma del modelo pierde importancia en cuanto al valor esperado del error. Con los resultados de esta tabla podemos observar como el método centrado con intervalo variable es preferible a los otros puesto que presenta un buen comportamiento independientemente de los cambios en la forma de la población o de los cambios en el tamaño de muestra.

21

MUESTREO SISTEMÁTICO CON INTERVALO DE SELECCIÓN VARIABLE

Tabla 5 ESPERANZA RESPECTO DE DIFERENTES MODELOS -P1,P2 Y P3- DEL ERROR CUADRÁTICO MEDIO

P1

n=2

n=3

n=4

n=12

n=22

n=44

n=66 n=132

113,315 34,216 14,837 833 252 86 48 16 M_St_nh=1 224,661 100,024 56,408 6,510 2,019 525 233 56 S_isc 219,633 94,081 50,352 1,611 184 75 45 15 S_isv 2,057 1,430 1,049 373 200 116 81 56 C_isc 1,994 1,320 1,008 288 147 71 45 15 C_isv 2,649 1,477 1,055 326 163 68 39 15 Corr_extr. 1,975 12,238 967 300 158 72 45 15 Equilibrado 1,975 12,307 978 311 167 68 40 15 Modificado P2 n=2 n=3 n=4 n=12 n=22 n=44 n=66 n=132 M_St_nh=1 S_isc S_isv C_isc C_isv Corr_extr. Equilibrado Modificado

173,327 54,556 231,284 101,451 227,090 96,966 11,312 2,944 11,301 3,023 47,951 10,421 122,912 13,849 122,912 11,929

23,809 56,998 52,508 1,670 1,620 3,891 8,527 29,671

1,184 6,567 3,012 361 292 357 410 3,467

305 2,007 249 220 191 171 180 1,079

93 540 77 120 73 80 78 292

50 246 45 95 48 49 45 154

16 55 16 55 16 15 16 29

En esta tabla podemos observar que los métodos equilibrado y modificado son sensibles a las especificaciones del modelo, tanto al orden del polinomio como a si el tamaño de muestra es par o impar. Los resultados para un modelo de ajuste polinómico de grado tres se han presentado en la tabla 1. La principal conclusión de este apartado es que, para este ejemplo con datos del marco de la encuesta de establecimientos hoteleros, el muestreo centrado con intervalo de selección variable reduce el error cuadrático medio, en términos generales, frente a otros métodos sistemáticos considerados. Esta reducción se lleva a cabo con robustez sobre parámetros que influyen decisivamente en el comportamiento de los otros métodos como son: el tamaño de muestra, el número de grupos en la población y sobre si estos son pares o impares. También hemos observado en este apartado la relación acusada entre el término de error aleatorio del modelo y el comportamiento errático del método centrado. Por ello se ha propuesto un indicador de la cota superior del error, que incorpora la información relativa a la representatividad del valor esperado, mediante la desviación respecto del modelo del error cuadrático medio.

22

ESTADÍSTICA ESPAÑOLA

5. PROGRAMA PARA OPTIMIZAR LA SELECCIÓN EN EL DISEÑO DE ENCUESTAS POR MUESTREO(3) Este programa viene motivado por la dificultad que supone el disponer de un instrumento que permita evaluar la población marco para estudiar si se verifican las hipótesis que se realizan sobre su estructura. Es necesario tener en cuenta que el error debido al muestreo en diseños sistemáticos, no sólo depende del tamaño de las muestras sino también del número de clases que se formen, y que los cálculos que se precisan no están disponibles mediante los programas estadísticos de uso general. Otra dificultad consiste en, una vez establecidos los supuestos sobre la estructura de la población y evaluadas las alternativas sobre tamaño de muestra y número de clases, evaluar los distintos métodos de selección que se consideren como alternativos. A este efecto es necesario considerar la población dentro de un enfoque de modelo de superpoblación que mejor se ajuste a esa determinada estructura poblacional que se esté considerando. El programa de ordenador POSDEM es un conjunto de instrucciones redactadas en un lenguaje de programación, Visual Basic, que permite al usuario seleccionar alternativas y obtener resultados en un campo concreto, en este caso en el diseño de encuestas por muestreo. Lleva a cabo tareas que por su repetición, complejidad de cálculo o dificultad no podrían llevarse a cabo de otro modo. Es un instrumento de productividad personal. A efectos de ilustración se presentan en la figura 2 dos de las principales pantallas de esta aplicación. La aplicación POSDEM se ha diseñado de forma que permite, en el diseño de encuestas por muestreo probabilístico, optimizar la selección de las unidades que van a formar parte de una muestra. Utiliza diferentes métodos de selección y poblaciones definidas por el usuario. Básicamente esta aplicación informática tiene tres propósitos o puede ser utilizada desde tres ópticas diferentes. Por una parte, se puede utilizar como un instrumento pedagógico. Bajo este punto de vista, permite resolver problemas de selección de unidades muestrales en el diseño de encuestas con cualquier tipo de datos. En la misma línea pedagógica, también permite trabajar con variables de una población objeto de estudio de la que se dispone de información auxiliar de tipo censal y que constituye el marco que se va utilizar. De esta forma es posible obtener el espacio muestral completo, ó bien una representación del espacio muestral; también permite obtener el espacio paramétrico y del error de muestreo, y resulta más sencillo comprender mejor ciertos aspectos de la teoría del muestreo en poblaciones finitas. Así, es posible (3)

Existe en este momento una versión de evaluación de este programa en internet.

MUESTREO SISTEMÁTICO CON INTERVALO DE SELECCIÓN VARIABLE

23

estudiar problemas donde, definido un cierto marco de unidades, se obtienen un conjunto de muestras probabilísticas con sus características, estimaciones y errores asociados, calculando, además, el estimador para cada muestra y los errores debidos al muestreo para diferentes métodos alternativos. En segundo lugar constituye un instrumento de investigación empírica. Permite determinar qué método de selección es preferible para una determinada estructura poblacional, y cuáles son las relaciones entre la estructura poblacional y los procedimientos de muestreo utilizados. La aplicación facilita el trabajar con modelos de probabilidades iguales, desiguales, modelos de superpoblación y diseños complejos bietápicos. En tercer lugar, se trata de una herramienta del trabajo de campo de una encuesta por muestreo. Dado un marco de unidades y una vez elegido el método de muestreo que mejor se ajusta a esa estructura poblacional, es posible determinar qué unidades de la población pertenecerán finalmente a la muestra que será investigada, y cuales serán visitadas en caso de ausencias, negativas u otras incidencias.

24

ESTADÍSTICA ESPAÑOLA

Figura 2 DOS PANTALLAS DE LA APLICACIÓN POSDEM(4)

(4) La aplicación POSDEM tiene más de cien opciones diferentes. Aquí sólo se representan dos de las pantallas más significativas.

MUESTREO SISTEMÁTICO CON INTERVALO DE SELECCIÓN VARIABLE

25

En resumen y desde esa triple óptica, este programa será de utilidad: a alumnos de un curso de teoría y práctica de muestreo en poblaciones finitas en sus dos posibles versiones de básico o avanzado; a profesores que deseen disponer de un instrumento para la investigación empírica del área de las encuestas por muestreo; y a empresas, oficinas centrales de estadística o profesionales de investigaciones por muestreo que deseen diseñar encuestas con una selección óptima de las unidades muestrales. Este instrumento, la aplicación POSDEM, permite realizar diseños de una manera personalizada a cada investigación e incorpora el conocimiento que el experto en muestreo tiene, no siendo necesario que la persona que efectivamente realiza el diseño tenga estos conocimientos. Vamos a resumir lo que permite hacer POSDEM: 1. El programa permite trabajar con bases de datos procedentes de ficheros externos en formatos Dbase, Paradox, Foxpro y Acces. También permite generar variables definidas a medida y generar poblaciones aleatorias bajo una amplia gama de posibilidades: aleatoriedad, dispersión, heterocedastícidad, tendencia y ciclo. De forma que es posible modelar una gran variedad de poblaciones que se pueden encontrar en la práctica de las encuestas por muestreo. Esta posibilidad se utiliza sobre todo dentro del enfoque de modelos de superpoblación. 2. El programa tiene incorporados diecisiete métodos de selección y veinte métodos de estimación distintos. Una vez elegido el método y obtenidas las muestras, calcula para cada muestra, el estimador del total, de la media, o de la proporción, según se trate de datos cualitativos o cuantitativos; la varianza del estimador, su desviación típica, los límites de confianza al 95% y el coeficiente de variación. Calcula también, para ciertas opciones, los momentos de segundo, tercer y cuarto orden. Todos estos cálculos se realizan para cada muestra obtenida, y se pueden listar bajo diferentes formatos, con salidas a pantalla, a impresora, a disco o al portapapeles de Windows. Para una población tipo de 800 unidades, calcula como resultado final y en una sola realización, sin tener en cuenta procesos intermedios o cálculos definidos específicamente, un total de 11.298 estimaciones diferentes. Dispone además de cien opciones específicas, todas ellas accesibles desde menú. Las más utilizadas dispuestas en teclas de función y teclas abreviadas (combinación de ctrl+letra). Presenta también una ayuda en línea de cada pantalla con su correspondiente glosario y ejemplos. Esta ayuda se presenta en formato hipertexto. 3. De los procedimientos de selección que utiliza la aplicación, tenemos un primer grupo con doce procedimientos que tienen en común que la selección se realiza con probabilidades iguales, y un segundo grupo de tres métodos con probabilidades desiguales, proporcionales al valor de una variable auxiliar, generalmente el tamaño.

26

ESTADÍSTICA ESPAÑOLA

4. Las muestras obtenidas se utilizan a su vez para calcular el error de muestreo. Esto es, el programa calcula la varianza, desviación típica, coeficiente de variación y límites de confianza para todos los estimadores calculados en cada muestra. Así, tenemos la posibilidad de estudiar la varianza de la media y también la varianza de la varianza o la varianza del momento de cuarto orden, entre otros parámetros. Hay que destacar también que con este procedimiento, en la línea de los procedimientos “bootstrap” es posible calcular la varianza para estadísticos más sofisticados que la media o el total, como por ejemplo una componente principal. 5. La aplicación utiliza por defecto variables cuantitativas, aunque también permite procesar datos cualitativos. Y en cuanto a estimadores, utiliza por defecto, cuando el método de selección es con probabilidades iguales, el estimador de la media y, cuando se refiere a métodos con probabilidades desiguales el estimador del total. Esto se ha mantenido así por similitud con los textos de muestreo. No obstante, es posible elegir el tipo de estimador que vamos a utilizar: la media de simple expansión, el total, la proporción, el total de clase o incluso, si se dispone de la información adecuada, es posible utilizar estimadores mejorados de regresión y de razón. 6. Dentro de la filosofía del programa, un punto básico es poder realizar comparaciones entre diferentes métodos de selección, para poder elegir el más conveniente a cierta estructura poblacional. El programa permite estudiar los resultados de cada experimento en forma de listados o gráficamente. En cuanto a la estructura de población, esta puede estar definida por una población ficticia, una población natural observada en la práctica, o una “superpoblación” producto de un modelo. 7. Los modelos de superpoblación es uno de los puntos fuertes del programa puesto que permite definir modelos complejos, por tramos, con distintas formas y características en cuanto a término de error, heterocedasticidad, concavidad, convexidad o componente cíclico. 8. Permite también realizar los cálculos necesarios para representar gráficamente el coeficiente de correlación intraclásica y la varianza, mediante un correlograma, definiendo los límites inferior y superior del tamaño de muestra. A su vez permite realizar una descomposición de la varianza, distinguiendo por fuente de variación entre muestras o dentro de muestras. 9. Para análisis de tipo multivariante, se ha incorporado un módulo de componentes principales que permite obtener la componente de un determinado conjunto de variables para su utilización en el diseño de la encuesta, bien como variable de estudio, bien como variable auxiliar o de ordenación, en función del diseño que se este realizando.

MUESTREO SISTEMÁTICO CON INTERVALO DE SELECCIÓN VARIABLE

27

10. Permite, por último realizar diseños polietápicos. Así, en primer lugar es posible obtener las unidades que formarán la muestra de unidades primarias sobre las que a su vez se realizará un nuevo muestreo, hasta conseguir determinar las unidades últimas de estudio. La aplicación tiene implementado un procedimiento para obtener el error de muestreo en diseños bietápicos.

6. ¿CÓMO SE ENCUADRA DENTRO DEL MARCO ESTADÍSTICO E INFORMÁTICO? Dentro del marco estrictamente informático, la simulación de situaciones estocásticas por ordenador para determinar soluciones óptimas de ciertos problemas tiene una utilidad innegable. En el campo de las encuestas por muestreo, desde el comienzo del cálculo computarizado, se ha prestado mucha atención al proceso de entrada de datos y posterior tratamiento de cálculo. Sin embargo, tradicionalmente ha existido una laguna precisamente en la fase anterior a la entrada de datos. Esto es, en el momento de determinar que unidades se van a estudiar, en definitiva, en procedimientos que simulasen el proceso de muestreo. Fundamentalmente se trata de utilizar el ordenador para un etapa previa a la entrada de datos, con el fin de determinar que unidades deben formar parte de una muestra probabilística. Por tanto, esta aplicación es previa a aquellas de entrada de datos, de tabulación y cálculo, o de análisis estadístico. En este sentido, permite seleccionar muestras probabilísticas a medida de la información marco correspondiente a determinada población. No obstante lo anterior, también permite estudios cuando la población es desconocida y después de haber obtenido una muestra el investigador precisa hacer inferencias de la población con una medida de su precisión. Por tanto, esta aplicación se ha diseñado con utilidades orientadas al momento anterior de la salida a campo, elaborando una ficha técnica y proporcionando el listado de unidades que deberán ser investigadas, y con utilidades orientadas al momento posterior del trabajo de campo, para poder analizar la información obtenida en cuanto a precisión de las inferencias.

7. CONCLUSIONES En primer lugar se propone un nuevo método de selección sistemático con intervalo de muestreo variable. Este método elimina la tendencia resultado de la ordenación de las unidades poblacionales, presenta el caso de varianza cero para poblaciones hipotéticas Xi=i con i=1,2,3...N cuando se verifica la condición de que el tamaño de muestra es igual a la raíz cuadrada de la población. En este caso

28

ESTADÍSTICA ESPAÑOLA

presenta importantes mejoras en precisión respecto del muestreo aleatorio simple y el muestreo sistemático con intervalo constante. En relación con los otros métodos considerados: equilibrado, modificado, centrado y corregido, presenta un comportamiento similar, con la condición de la raíz, que depende de la estructura concreta de la población. El caso donde el método supone una mejora importante respecto a estos últimos métodos citados es cuando se aplica al muestreo centrado propuesto por Madow. Ahi, en términos de error cuadrático medio, mejora al resto de los métodos sistemáticos con los que se ha comparado, en los estudios empíricos que hemos llevado a cabo. Resaltar que mejora el comportamiento del método centrado propuesto por Madow para k par y el sistema de correciones debido a Yates En segundo lugar, se proporciona un instrumento nuevo para determinar diseños de selección ajustados a estructuras poblacionales determinadas, bajo el enfoque de modelos de superpoblación. Esta materialización se concreta en el programa de ordenador POSDEM. Así, se incorpora a los estudios empíricos el esquema teórico de modelos de superpoblación. Es posible trabajar de forma empírica con diferentes tipos de modelos según sea el ajuste a los datos que se estén considerando. E incluso definir modelos por tramos de población y tratarlos de manera conjunta. Por tanto, como producto de este estudio, se proporciona un programa de ordenador con bastantes funcionalidades. Para otro artículo posterior dejaremos la comparación de los métodos que se han considerado aquí y de los métodos de probabilidades proporcionales al tamaño, concretamente con, sin reposición y con reposición parcial. Se deja también para esa ocasión mostrar las posibilidades de POSDEM para la realidad ante la cual el investigador se encuentra con una población desconocida sobre la que ha aplicado algún método probabilístico de selección y precisa obtener inferencias de la población y conocer alguna medida sobre la precisión de esas inferencias. Podemos adelantar que con POSDEM es posible realizar experimentaciones de muy distinto tipo como son semimuestras reiteradas, orden aleatorio, técnica del lazo, distintas variantes en la línea de las sugerida por John W.Tukey, y por José L.Sánchez-Crespo, junto con las citadas técnicas “Bootstrap” y “Jacknife”.

CVSM (6) 13% 18% 12%

LIM. S (5) 7,93 8,81 8,43

VARM DESM LIM.I (2) (3) (4) 4,57 4,19 5,07

0,71 1,33 0,71 0,92 0,09 0,29 32% 1,51 0,33 2,17

MED (1)

6,25 6,50 6,75

6,50 0,04 0,20 3% 6,91 6,09 6,50

1 5 9 10 2 6 7 11 3 4 8 12

1) 2) 3)

VALOR ESPERADO VARIANZA DESVIACION COEF.VAR LIMITE SUPERIOR LIMITE INFERIOR POBLACION (Orden aleatorio)

3,35 0,00 0,00 0% 3,35 3,35 3,45

3,35 3,35 3,35

DES (8)

15,00 0,00 0,00 0% 15,00 15,00 13,00

15,00 15,00 15,00

CUA (9)

3,87 0,00 0,00 0% 3,87 3,87 3,61

3,87 3,87 3,87

CUD (10)

4,61 0,13 0,36 8% 5,33 3,89 1,21

(1) MED Estimador de la media. (2) VARM Varianza del estimador media. (3) DESM Desviación del estimador. (4) LIM.I Límite inferior del intervalo de confianza al 95%. (5) LIM.S Límite superior. (6) CVSM Coeficiente de variación por el estimador medio en %. (7) VAR Varianza muestral.

0,95 0,02 0,15 16% 1,24 0,65 1,47

0,84 1,15 0,84 8,39 0,13 0,36 4% 9,11 7,67 1,10

11,88 1,32 1,15 10% 14,17 9,58 11,92

3,44 0,03 0,17 5% 3,78 3,10 3,45

3,56 3,20 3,56

DES (8)

15,83 2,35 1,53 10% 18,90 12,77 13,00

16,92 13,67 16,92

CUA (9)

3,97 0,04 0,20 5% 4,37 3,58 3,61

4,11 3,70 4,11

CUD (10)

61% 0% 4% 6% 69% 54% 55%

66% 57% 61%

CVS (11)

54,17 8,43 2,90 5% 59,97 48,36 54,17

51,7 52,5 58,2

M2 (12)

54,17 112,89 10,62 20% 75,42 32,92 54,17

41,50 53,50 67,50

M2 (12)

(8) DES Desviación muestral. (9) CUA Cuasivarianza. (10) CUD Cuasidesviación. (11) CVS Coeficiente de variación. (12) M2 Momento de segundo orden respecto al origen. (13) M3 “ tercer “ “ “ . (14) M4 “ cuarto “ “ “ .

15% 0% 2% 16% 19% 10% 23%

12,69 10,25 12,69

VAR (7)

61% 1% 8% 13% 76% 45% 55%

70% 60% 52%

CVS (11)

MUESTREO SISTEMÁTICO CON INTERVALO VARIABLE

11,25 0,00 0,00 0% 11,25 11,25 11,92

Unidades de cada muestra

14% 0% 2% 13% 17% 10% 23%

Nº de muestra

8,23 0,67 0,82 10% 9,87 6,60 1,10

0,75 0,00 0,00 0% 0,75 0,75 2,17

6,50 0,67 0,82 13% 8,13 4,87 6,50

VALOR ESPERADO VARIANZA DESVIACION COEF.VAR LIMITE SUPERIOR LIMITE INFERIOR POBLACION (Orden aleatorio)

4,77 0,67 0,82 17% 6,40 3,13 1,21

11,25 11,25 11,25

16% 13% 12%

7,23 8,23 9,23

3,77 4,77 5,77

0,87 0,87 0,87

0,75 0,75 0,75

5,50 6,50 7,50

1 4 7 10 2 5 8 11 3 6 9 12

1) 2) 3) 0,87 0,00 0,00 0% 0,87 0,87 1,47

VAR (7)

CVSM (6)

LIM. S (5)

LIM.I (4)

DES M (3)

MUESTREO SISTEMÁTICO CON INTERVALO CONSTANTE VAR M (2)

MED (1)

Unidades de cada muestra

Nº de muestra

Anexo 1

507,00 2888,00 53,74 11% 614,40 399,50 507,00

463,7 474,5 582,7

M3 (13)

507,00 17472,67 132,18 26% 771,37 242,63 507,00

352,00 494,00 675,00

M3 (13)

5059,17 774433,00 880,02 17% 6819,20 3299,13 5059,17

4296,75 4588,50 6292,25

M4 (14)

5059,17 2695043,56 1641,66 32% 8342,48 1775,85 5059,17

3164,50 4844,50 7168,50

M4 (14)

MUESTREO SISTEMÁTICO CON INTERVALO DE SELECCIÓN VARIABLE

29

30

ESTADÍSTICA ESPAÑOLA

Anexo 2 Se incluye un ejemplo con una población un poco mayor que la utilizada en la ilustración de la hoja de cálculo para comprender mejor el método propuesto: Tamaño de población N = 21. Tamaño de muestra n = 7. Número aleatorio para la primera selección i = 2. Tamaño de los grupos para la selección k = 3 A continuación tenemos la población y los valores muestrales seleccionados con este método:

Índice de cada unidad de la población

Número aleatorio

Correlativo

Número

i

j

Límite del grupo j.k

Condición Índice de cada unidad de la muestra c

z=i+ (j-1) (k+1)-ck

1

3

0 (*)

2+(1-1)(3+1)-(0)(3)= 2

6

2

6

0

2+(2-1)(3+1)-(0)(3)= 6

8

9

3

9

1 (**)

2+(3-1)(3+1)-(1)(3)= 7

10

11

12

4

12

1

2+(4-1)(3+1)-(1)(3)= 11

13

14

15

5

15

1

2+(5-1)(3+1)-(1)(3)= 15

16

17

18

6

18

2 (***)

2+(6-1)(3+1)-(2)(3)= 16

19

20

21

7

21

2

2+(7-1)(3+1)-(2)(3)= 20

1

2

3

4

5

7

2

(*) z=j.k No ha ocurrido que zv=jk, así c=0 (**) “ Ha ocurrido una vez que zv=jk, así c=1. (***) “ Es la segunda vez que ocurre que zv=jk, así c=2.

MUESTREO SISTEMÁTICO CON INTERVALO DE SELECCIÓN VARIABLE

31

REFERENCIAS AZORIN, F. Y SÁNCHEZ-CRESPO RODRIGUEZ, JL. (1986) «Métodos y aplicaciones del muestreo». Alianza Universidad Textos. Madrid BELLHOUSE,D.R.&RAO, J.N.K. (1975);Systematic sampling in the presence of a trend;Biometrika 62, 694-697; COCHRAN, W.G. (1977): «Sampling Techniques», 3rd edition, New York: Wiley MURTHY, M.N. «Sampling theory and Methods» (1967). Statistical Publishing Society, Calcutta IACHAN, RONALDO (1982) : «Systematic Sampling: A critical Review » International Statistical Review, 50, pp 293-303 KRISHNAIAH, P.R. Holland.

Y

RAO, C.R: «Sampling», (1988), Handbook of Statistics, North-

SYSTEMATIC SAMPLING WITH VARIABLE SAMPLING INTERVAL SUMMARY This document proposes a new procedure in order to select samples with systematic sampling with variable sampling interval. For this, it is defined formally the classical selection procedure, using constant interval. An example is resolved with simple data in order to understand better the procedure. Later it is introduced, in similar terms, the selection procedure proposed with variable sampling interval. With a frame data it is made a superpopulatión aproach with diferent sampling selection metods. Lastly, it is made a reference to a new computer program carried out in order to help the sampling survey design.

Key words: Systematic sampling. Variable sampling interval. Computer application: POSDEM. Superpopulation model. AMS classification: 62D05