Práctica 6: Contrastes de normalidad

23 mar. 2011 - 16. Normal Q−Q Plot. Theoretical Quantiles. Sample Quantiles. Para ver ... Bajad de Aula Virtual (Recursos) los ficheros dat1.txt, ..., dat6.txt. 2.
125KB Größe 4 Downloads 79 vistas
Pra´ctica 6: Contrastes de normalidad 23 de marzo de 2011 Resumen Hasta ahora hemos utilizado procedimientos para para una y dos muestras de datos que supon´ıamos segu´ıan una distribuci´ on normal. Pero esto no es un art´ıculo de f´e. Se puede valorar hasta qu´e punto es asumible la hip´ otesis.

1.

El problema Consideremos la siguiente muestra.

> round(x, 2) [1] [13] [25] [37] [49] [61] [73] [85] [97]

12.32 13.99 12.59 14.80 10.23 13.14 13.57 16.28 14.65

12.89 13.67 13.81 14.54 13.81 12.97 11.16 11.93 12.01

13.41 12.00 13.86 12.29 12.03 13.42 14.31 12.42 13.42

13.00 13.59 11.11 12.15 12.96 12.53 13.30 13.60 12.91

15.03 11.94 13.67 11.93 12.32 13.27 14.60 17.12

13.52 14.25 12.13 13.74 14.36 12.39 15.28 13.36

13.42 11.91 11.21 10.91 13.98 12.97 13.76 11.03

13.55 12.42 13.80 13.78 13.51 12.68 12.25 14.11

14.27 14.64 11.72 16.31 12.74 11.66 11.56 15.25

15.14 13.00 13.11 10.73 13.42 14.17 13.68 13.47

12.91 13.81 11.51 13.13 11.62 9.68 12.91 11.03

¿Podemos considerar que son datos con distribuci´on normal o que siguen una distribuci´ on normal?

2.

¿Qu´ e hip´ otesis nula estamos contrastando?

Tenemos unos datos x1 , . . . , xn . Muchos procedimientos estad´ısticos pierden su validez si los datos no pueden considerarse aproximadamente como datos normales. ¿Y c´ omo podemos saber si la hip´ otesis de normalidad es sostenible para un conjunto dado de datos? Nos encontramos ante un contraste de hip´otesis. En este caso el contraste lo podemos formular como: H0 : Los datos siguen una distribuci´on normal. H1 : Los datos no siguen una distribuci´on normal. Hay distintos procedimientos para contrastar estas hip´otesis. Adem´as de los contrastes de hip´ otesis tambi´en se ha popularizado el uso de los dibujos q-q (o cuantil-cuantil).

1

16.43 12.29 13.26 11.42 11.09 12.43 11.77 13.69

3.

Dibujos q-q

Elijamos una serie de valores entre 0 y 1. En concreto vamos a elegir un valor entero n (por ejemplo, n = 20) y vamos a considerar los valores k/(n + 1) con k = 1, . . . , n. > n = 20 > pval = (1:n)/(n + 1) Calculamos los percentiles o cuantiles de la muestra en estos valores. > (cuantiles.muestrales = quantile(x, probs = pval)) 4.761905% 9.52381% 14.28571% 19.04762% 23.80952% 28.57143% 33.33333% 38.09524% 11.02577 11.29755 11.67028 11.92996 12.08846 12.30158 12.41974 12.72199 42.85714% 47.61905% 52.38095% 57.14286% 61.90476% 66.66667% 71.42857% 76.19048% 12.93223 13.01398 13.26635 13.41582 13.51163 13.59973 13.72876 13.80769 80.95238% 85.71429% 90.47619% 95.2381% 14.00385 14.30295 14.64782 15.25905 Podemos determinar los percentiles para una normal est´andar en los para las mismas probabilidades. > (cuantiles.normal = qnorm(pval)) [1] -1.6683912 -1.3091717 -1.0675705 -0.8761428 -0.7124430 -0.5659488 [7] -0.4307273 -0.3029804 -0.1800124 -0.0597171 0.0597171 0.1800124 [13] 0.3029804 0.4307273 0.5659488 0.7124430 0.8761428 1.0675705 [19] 1.3091717 1.6683912 Y finalmente podemos representar unos frente a los otros. > plot(cuantiles.normal, cuantiles.muestrales)

15





14

● ●







13

● ●



● ● ●

12

● ● ● ●

11

cuantiles.muestrales

● ●



−1.5

−1.0

−0.5

0.0

0.5

cuantiles.normal

2

1.0

1.5

En principio, si los datos se comportan seg´ un una normal, debieramos de observar puntos sobre una l´ınea recta. No tienen porqu´e ser iguales lo que supondr´ıa que estar´ıan sobre la recta y = x, la bisectriz del primer cuadrante. Si, en lugar de los datos originales consideramos los datos centrados, esto es, en lugar de xi consideramos (xi − x ¯)/s entonces s´ı que debieramos de observar que los valores han de estar sobre la bisectriz. Ve´amoslo. > z = (x - mean(x))/sd(x) Y repetimos el dibujo con los nuevos datos. > (cuantiles.muestrales = quantile(z, probs = pval)) 4.761905% 9.52381% 14.28571% 19.04762% 23.80952% 28.57143% -1.52520571 -1.32409582 -1.04829374 -0.85614114 -0.73886153 -0.58116540 33.33333% 38.09524% 42.85714% 47.61905% 52.38095% 57.14286% -0.49372646 -0.27008007 -0.11451084 -0.05402251 0.13272625 0.24332583 61.90476% 66.66667% 71.42857% 76.19048% 80.95238% 85.71429% 0.31422174 0.37940779 0.47488821 0.53328698 0.67843787 0.89976080 90.47619% 95.2381% 1.15494852 1.60722677 > plot(cuantiles.normal, cuantiles.muestrales)

1.5





0.5

● ● ●







0.0

● ●





−0.5

cuantiles.muestrales

1.0



● ● ●

−1.0

● ●

−1.5

● ●

−1.5

−1.0

−0.5

0.0

0.5

1.0

1.5

cuantiles.normal

No necesitamos programar todo esto. La funci´on qqnorm nos hace el trabajo. > qqnorm(x)

3

Normal Q−Q Plot ● ●

14

●● ● ● ● ● ●●● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●● ●● ●● ● ●●

12

Sample Quantiles

16

● ●





●● ●●●●

10

● ●

−2

−1

0

1

2

Theoretical Quantiles

Para ver si est´ a sobre una l´ınea se suele a˜ nadir al dibujo la recta que pasa por los cuartiles inferior y superior, esto es, por los cuantiles de orden 0.25 y 0.75. > qqnorm(x) > qqline(x)

Normal Q−Q Plot ●

14 12





●● ● ● ● ● ●●● ● ●●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●● ● ●● ●● ● ● ●● ●●●●



10

Sample Quantiles

16

● ●



−2

−1

0

1

Theoretical Quantiles

4

2



¿Est´ an sobre una l´ınea recta? Parece que s´ı. En http://en.wikipedia.org/wiki/Q-Q plot se tiene una explicaci´on muy completa de este gr´ afico.

4.

Test de Kolmogorov-Smirnov El test de Kolmogorov-Smirnov lo podemos aplicar con el siguiente c´odigo.

> ks.test(x, "pnorm", mean(x), sd(x)) One-sample Kolmogorov-Smirnov test data: x D = 0.0758, p-value = 0.614 alternative hypothesis: two-sided Podemos ver que el p-valor observado es 0.6141. No rechazamos con un nivel de significaci´ on α = 0,05.

5.

Test de Shapiro–Wilk

Es otro test para determinar si podemos considerar unos datos normales Apliqu´emoslo a nuestros datos. > shapiro.test(x) Shapiro-Wilk normality test data: x W = 0.9857, p-value = 0.3572 Podemos ver que el p-valor observado es 0.3572 y por lo tanto no rechazamos con un nivel de significaci´ on α = 0,05. Ejercicio 1

1. Bajad de Aula Virtual (Recursos) los ficheros dat1.txt, . . ., dat6.txt.

2. Leer los datos de cada uno de los ficheros utilizando la funci´ on read.table. 3. Para cada uno de los ficheros se pide realizar un dibujo q-q y valorar la hip´ otesis de normalidad de un modo gr´ afico. 4. Para cada fichero, se pide contrastar, utilizando los tests de KolmogorovSmirnov y Shapiro-Wilk, la hip´ otesis de normalidad.

5