DECISIÓN ESTADISTICA. Pruebas de hipótesis - Yo quiero aprobar

Por ejemplo, se puede decidir, a partir de los datos del muestreo, si un fármaco nuevo es .... una distribución normal de media y desviación conocidos. Un año ...
99KB Größe 2 Downloads 3 vistas
DECISIÓN ESTADISTICA. Pruebas de hipótesis Se trata de utilizar los datos obtenidos a partir de una muestra para tomar una decisión sobre la población. Por ejemplo, se puede decidir, a partir de los datos del muestreo, si un fármaco nuevo es realmente efectivo, si un nuevo producto es mejor que el antiguo, si una moneda está o no trucada, etc... Estas decisiones se llaman decisiones estadísticas y se toman sobre una base probabilística. Los supuestos o conjeturas acerca de las poblaciones que se estudian y que pueden ser o no ciertos, se denominan hipótesis estadísticas. Hipótesis nula: es la hipótesis a contrastar, que se considera provisionalmente como verdadera y que es revisada tras haber recibido información de los datos muestrales. Se designa por H0. Hipótesis alternativa: es cualquier otra hipótesis que difiera de la hipótesis dada. Se designa por H1 En la toma de decisiones, cualquier hipótesis nula H0, ha de ir acompañada de una alternativa H1, que es la que aspira a desplazar a la nula. Para una hipótesis nula concreta, puede haber varias hipótesis alternativas. Según los tipos de contraste, las hipótesis se plantean de la siguiente forma   BILATERAL : H 0 ; µ = µ 0 → H 1 ; µ ≠ µ 0   MEDIA :  UNILATERAL : H 0 ; µ ≤ µ 0 → H 1 ; µ > µ 0     H 0 ; µ ≥ µ 0 → H 1 ; µ < µ 0  CONTRASTE :   BILATERAL : H 0 ; p = p 0 → H 1 ; p ≠ p 0   H ; p ≤ p 0 → H 1 ; p > p 0 PROPORCIÓN :  UNILATERAL :  0   H 0 ; p ≥ p 0 → H 1 ; p < p 0   Se llaman pruebas de hipótesis a los procedimientos que permiten decidir si una hipótesis se acepta o se rechaza, o determinar si las muestras observadas difieren significativamente de los resultados esperados. Otros nombres para las pruebas de hipótesis son: ensayos de hipótesis, test de significación, reglas de decisión. En el contraste de hipótesis hay dos tipos de errores: - Error de tipo I: la hipótesis nula es cierta, pero a la vista de la información muestral, la rechazamos. - Error de tipo II: aceptamos H0 según la información muestral, y sin embargo es falsa. Lo cual equivale a rechazar H1 siendo verdadera. Así tendríamos el siguiente cuadro resumen:

El nivel de significación Ns es un valor probabilístico muy pequeño que se establece con anterioridad a la obtención del resultado. Su función es la siguiente: • Se rechazará H0 a favor de H1, cuando la prueba estadística dé un valor cuya probabilidad de que ocurra bajo H0 sea menor que Ns Los valores que se utilizan para Ns son: 0,05 (5%); 0,01 (1%); 0,001 (0,1%) y reciben los nombres (respectivamente) de: nivel casi significativo, significativo, muy significativo.

Etapas de las pruebas de hipótesis -

Etapa 1: Enunciar la hipótesis nula (H0) y la alternativa (H1). Ambas deben ser excluyentes entre sí. H0 es la hipótesis que se desea contrastar y se formula con el propósito de ser rechazada. Cuando se consigue rechazarla se acepta H1. Según la formulación que recibe H1, la prueba puede ser unilateral o bilateral.

-

Etapa 2: Determinar la región crítica, prefijado el nivel de significación Ns y establecer la zona de aceptación y de rechazo.

El nivel de significación Ns y el nivel de confianza Nc están relacionados mediante Ns + Nc = 1. Así tendríamos la siguiente tabla: Nivel de confianza (Nc) Nivel de significación (Ns) Valores críticos Pruebas unilaterales (zc) Valores críticos Pruebas Bilaterales (zc)

90%

95%

99%

99,9%

10% -1,28 ó 1,28 -1,645 y 1,645

5% -1,645 ó 1,645 -1,96 y 1,96

1% -2,33 ó 2,33 -2,58 y 2,58

0,1% -3,09 ó 3,09 -3,295 y 3,295

Por ejemplo, para Ns = α%, tendríamos las siguientes zonas críticas

PRUEBAS UNILATERALES

PRUEBABILATERAL

La zona de rechazo ó región crítica, es el conjunto de valores tales que cuando H0 es verdadera, la probabilidad (Ns) de que la muestra dé un valor que se encuentre entre ellos es muy pequeña. El resto de la distribución muestral que no es zona de rechazo es la zona ó región de aceptación. -

Etapa 3: Tomar la decisión e interpretarla

CONTRASTE PARA LA MEDIA Estadístico de contraste: N(0,1) x − µ0 σ n Región de aceptación Intervalo H0 Z=

Hipótesis Hipótesis nula alternativa H0 H1 µ = µ0

µ ≠ µ0

 σ σ x ∈  µ 0 − Z α ⋅ , µ0 + Zα ⋅ 2 2 n n 

Región crítica o de rechazo

   

x > µ0 + Zα ⋅ 2

x < µ0 + Zα ⋅ 2

µ ≤ µ0

µ ≥ µ0

µ > µ0

µ < µ0

   

x > µ0 + Zα ⋅

  σ x ∈  µ 0 − Z α ⋅ ,+∞  2 n  

x < µ0 + Zα ⋅

 σ x ∈  − ∞, µ 0 + Z α ⋅ 2 n 

2

2

Gráfico Rallada la región crítica

σ n σ n σ n σ n

CONTRASTE PARA LA PROPORCIÓN Estadístico de contraste: N(0,1) Z=

Hipótesis Hipótesis nula H0 alternativ a H1

! p − po

po ⋅qo n Región de aceptación Intervalo H0

Región crítica o de rechazo po ⋅qo !  p > p0 + Zα2 ⋅ n   po ⋅ qo  ! p < p0 − Zα ⋅ n 2

p = po

p ≠ po

po ⋅qo po ⋅qo !  p ∈  p0 − Zα ⋅ , p0 + Zα ⋅  n n 2 2 

p ≤ p0

p > p0

 po ⋅qo p! ∈  − ∞, p 0 + Z α ⋅  n 

   

po ⋅ qo p! > p 0 + Z α ⋅ n

p ≥ p0

p < p0

  p ⋅q p! ∈  p 0 − Z α ⋅ o o ,+∞    n  

po ⋅qo p! < p 0 − Z α ⋅ n

Gráfico Rallada la región crítica

INTRODUCCIÓN AL CONTRASTE DE HIPÓTESIS En la experimentación científica, ya sea “observando” la realidad o “manipulándola” en el laboratorio, se presenta muchas veces una de las dos situaciones siguientes, a las que, a un nivel elemental, vamos a tratar de dar una respuesta mediante los conocimientos de muestreo que tenemos. Situación A: Un naturalista sabe que las aves de una especie que llegan a una determinada laguna en su ciclo anual de emigración, reposan en ella varios días. El número de días de estancia sigue una distribución normal de media y desviación conocidos. Un año controla una muestra de aves y observa que el tiempo medio de estancia difiere bastante del habitual. Vamos a darle un criterio para que él pueda decidir a la vista de los datos si lo observado entra dentro de lo habitual o si, por el contrario, es significativa, la diferencia observada y conviene estudiar qué causas pueden influir en el comportamiento de las aves. Concretando con un ejemplo, si el número de días de estancia es N (40,8), y en una muestra estudiada el tiempo medio de estancia es 38 ó 41 días no es de extrañar, pero sí parecería extraño si fuera 24 ó 53 ¿A partir de cuando debe preocupar? Necesitamos darle un criterio. Situación B: Los cirujanos que efectúan cierto tipo de operación han constatado que el tiempo medio para el alta sigue una distribución normal de media y sigma conocidos. Un equipo de cierto hospital está probando una nueva técnica menos traumática, decide probarla en una muestra de pacientes, y obtienen un tiempo medio de recuperación más corto. Para la comunidad científica es importante tener un criterio para saber si esta mejora es significativa, o entraría dentro de las fluctuaciones habituales que podemos observa al cambiar de muestra. En la situación A exploramos si nos hemos salido de lo habitual (por defecto o exceso). En B, si nos salimos de lo habitual por defecto. Para A utilizaremos un criterio llamado de contraste bilateral, en B un criterio de contraste unilateral. En ambos casos el investigador trata de decidir entre dos hipótesis, que se llaman “hipótesis nula” frente a la “hipótesis alternativa”. La hipótesis nula es la “conservadora”, “las cosas son como siempre, la variación es fruto de la casualidad estadística...”. La hipótesis alternativa es la de “cambio” “algo ha cambiado para que se os presente esta muestra..., investigamos qué”. Decidirse por la hipótesis nula o la alternativa, se llama contrastar la hipótesis. Se contrasta siempre con un nivel de significación α, que es un porcentaje muy reducido, habitualmente entre el 1 ó el 5%. ¿Qué significa trabajar con un nivel del 5%? En el contraste bilateral significa que como las muestras de amplitud n, tienen una media σ ) , puede construirse un intervalo donde estarán el 95% de las muestras (100-5)%. x (n), que es N (µ, n Aceptaremos la hipótesis alternativa si nuestra muestra cae fuera del intervalo (por exceso o por defecto). Si está en el intervalo aceptaremos la hipótesis nula “aquí no pasa nada”. Como veremos es un criterio muy exigente, pues para que la muestra nos haga meditar tiene que pertenecer a ese 5 % de muestras “exóticas”. Ejemplo A El tiempo de estancia es N (40, 8). Seguimos la pista a 25 aves y vemos que su tiempo medio de estancia es de 33 días. • La hipótesis nula es que entre dentro de lo habitual. H0: µ = 40 • La hipótesis alternativa que hay alguna causa influyendo. H1: µ ≠ 40 Contrastamos al nivel de significación del 5%.

Como ya sabemos un 95% de las muestras están en el intervalo: 8 8 (40 − 1´96 ,40 + 1´96 ) = (36´86,43´14) 25 25 intervalo de aceptación ó intervalo de H0. 33 días está fuera de ese intervalo, está en la región crítica, esto nos permite rechazar la hipótesis nula y aceptar la alternativa. “No es fruto de la casualidad esos 33 días”. En cambio 37 ó 42 días estaría dentro de lo habitual. En el contraste unilateral, podemos señalar en la campana de la N (µ,

σ

) , un valor v que parta n la campana en 95%+5%, ó 5%+95%, según el problema, situando nuestra muestra vemos si está en la zona del 95%, hipótesis nula, o en la zona del 5%, hipótesis alternativa. Ejemplo B Por ejemplo, si la técnica usual de cierta operación lleva a unos tiempos de convalecencia que siguen distribución N (15, 3), y un equipo ha utilizado una nueva técnica con 16 pacientes y el tiempo medio ha bajado a 12 días, tenemos: Hipótesis nula: los resultados entran dentro de lo habitual. H0: µ = 15 Hipótesis alternativa: la nueva técnica es significativamente mejor. H1: µ < 15 Contrastamos al nivel de significación del 5% Las muestras x (16) , siguen una distribución normal N (15,

3 16

) = N(15,0´75) . La región de

aceptación será:  σ   µ − Z α ⋅ x ,+∞  n  

sustituyendo:   3 15 − 1'65 ⋅ ,+∞  = (13'76,+∞ ) 16   Como nuestro valor está fuera de la región de aceptación, rechazamos la hipótesis nula, aceptamos la alternativa, el método nuevo es significativamente mejor (al nivel 5%), que es el tradicional. Otra forma de hacer el contraste es a partir de los valores de Z Ejemplo C Una encuesta a 64 profesionales de una institución, reveló que el tiempo medio de empleo en dicho campo era de 5 años, con una desviación típica de 4. Considerando un nivel de significación del 0,05 ¿sirven estos datos para afirmar que el tiempo medio de empleo de los profesionales de ésta institución está por debajo de los 6 años? Se supone que la población de profesionales se distribuye normalmente. Solución: Se comienza con una suposición a priori para la media poblacional µ µ ≠ cierto valor  La forma de plantear H 1 : µ < cierto valor , marca la dirección de la prueba µ > cierto valor  Se utiliza x (media de la muestra) para decidir si es probable la suposición sobre µ

 La hipótesis nula H 0 → µ = 6 En nuestro caso:  La hipótesis alternativa H1 → µ < 6

 Z ≤ Z c ⇒ se acepta la hipótesis nula Contraste:   Z > Z c ⇒ se acepta la hipótesis alternativa La prueba es unilateral, Ns = 0,05 → zc = 1,645 n = 64

σx =

4 64

= 0,5 X es N(6;0,5)

5−6 = −2, este valor obtenido cae dentro de la zona de rechazo ⇒ tomamos la decisión 0,5 de rechazar H0 ⇒ aceptamos H1 ⇒ aceptamos que el tiempo medio de los empleados está por debajo de los 6 años. para x = 5 → z =

Ejemplo D Un experto en temas electorales, basándose en resultados anteriores, sostiene que, si se celebran elecciones en la actualidad, tan sólo acudirá a votar el 48% del electorado. Sin embargo, en un sondeo electoral realizado 1500 personas 800 manifiestan su intención de votar. Plantea la prueba de hipótesis más adecuada para un nivel de significación del 0,05 y comenta el resultado. Solución: Se parte de una suposición o porcentaje poblacional La hipótesis alternativa H1 puede plantearse P ≠ una cierta proporción  H 1 = P < una cierta proporción P > una cierta proporción  800 8 de una muestra para comprobar la hipótesis sobre P. Después se usa la proporción p! = = 1500 15 H → P ≤ 0'48 En nuestro caso:  0  H 1 → P > 0'48 Que determinarlas regiones:

Zc = 1’96 (Por tabla) Z=

p! − P P ⋅Q n

=

8 − 0'48 15 = 4.13 0'48 ⋅ 0'52 1500

 Z ≤ Z c ⇒ se acepta la hipótesis nula Contraste:   Z > Z c ⇒ se acepta la hipótesis alternativa En este caso se rechaza la hipótesis nula y se acepta la hipótesis alternativa. En definitiva quiere decir que los resultados de la prueba difieren bastante de los planteamientos propuestos por el sociólogo como para poderlos atribuir a errores puramente estadísticos, debiendo plantearse que los hábitos respecto a la intención de voto de la población han variado.