AGRO 6600 BIOMETRÍA AVANZADA
Notas de clase 2012 Raúl E. Macchiavelli, Ph.D.
Estas notas complementan el material del libro de texto del curso
Contenidos 1. Introducción y repaso de notación del análisis de varianza .................................................................. 3 2. Diseños completamente aleatorizados y en bloques completos aleatorizados ..................................... 5 3. Supuestos del análisis de la varianza ...................................................................................................... 7 4. Determinación del número de repeticiones de un experimento ...........................................................11 5. Comparaciones múltiples ........................................................................................................................14 6. Contrastes.................................................................................................................................................23 7. Diseño de cuadrado latino .......................................................................................................................27 8. Experimentos factoriales con dos factores.............................................................................................31 9. Experimentos factoriales con tres o más factores .................................................................................39 10. Modelos de efectos aleatorios y mixtos ................................................................................................42 11. Diseños anidados ....................................................................................................................................47 12. Diseño de parcelas divididas .................................................................................................................51 13. Repaso de regresión lineal simple ........................................................................................................56 14. Regresión polinomial .............................................................................................................................60 15. Regresión lineal múltiple.......................................................................................................................64 16. Selección de variables en regresión múltiple .......................................................................................70 17. Análisis de covarianza ...........................................................................................................................83 18. Documentación y comunicación de resultados ....................................................................................90 Bibliografía...................................................................................................................................................92
2
1. Introducción y repaso de notación del análisis de varianza Cuando planeamos un estudio científico podemos realizar un experimento o un estudio observacional. En el experimento nosotros decidimos qué tratamiento recibe cada unidad, mientras que en el estudio observacional el tratamiento ya viene asignado a la unidad. Esto implica que en el experimento podemos hablar con mayor confianza de “causa-efecto”, mientras que en el estudio observacional es más difícil estar seguros de que nuestro tratamiento es la causa de lo que estamos observando. Consideremos este ejemplo (estudiado en el curso anterior) en el que nos interesa comparar el contenido de almidón en tallos de tomate bajo 3 regímenes diferentes de fertilización: A
22
20
21
18
16
B
12
14
15
10
9
C
7
9
7
6
14
Y1 111
Y1 18.5
Y2 60
Y2 12.0
Y3 29
Y3 7.25
Y 200 La notación que usaremos será la siguiente: tenemos t tratamientos (en este caso t 3 ), cada uno con ni repeticiones (en este caso n1 6, n2 5 y n3 4 ).
Yij denota la j ésima observación del i ésimo tratamiento . ni
Yi Yij , es la suma de todas las observaciones del tratamiento i. j 1 t
ni
t
Y Yij Yi , es la suma de todas las observaciones. i 1 j 1
i 1
Yi es la media de las observaciones del tratamiento i. Y es la media de todas las observaciones (media general): Y 200 /15 13.33
n ni =15 es la cantidad total de observaciones (nt si hay n observaciones en cada tratamiento). i
Las sumas de cuadrados se calculan de la siguiente manera: 2 Y2 SCTotal=SCTot Yij Y Yij2 n i, j i, j SCEntre=SCTratamientos=SCTrat ni Yi Y 2
i
i
Yi2 Y2 ni n
SCDentro=SCResidual=SCError=SCRes Yij Yi SCTot-SCTrat 2
i, j
3
SCTot Yij2 i, j
Y2
n
3062 200
2
15
395.3333
Yi2 Y2 1112 602 292 2002 317.0833 n 6 5 4 15 i ni SCRes SCTot-SCTrat=78.2500 SCTrat
Fuente de Variación
Suma de Cuadrados
Tratamiento Residual (Error) Total
317.0833 78.2500 395.3333
grados de libertad 2 12 14
Cuadrado Medio
F
Valor p
158.5417 6.5208
24.313
0.00006
H 0 : 1 2 ... t H a : al menos una i es diferente
Estadístico de la prueba: F 24.313 Región de rechazo (α=.05): F 3.89 ó pInferencia basada en una muestra> Prueba de Normalidad. Shapiro-Wilks (modificado) Variable RDUO_Rendimiento
n 20
Media D.E. 0.00 127.67
W* 0.96
p (una cola) 0.7824
En este ejemplo el supuesto de normalidad se acepta (p=0.7824>0.05). Para verificar el supuesto de homogeneidad de varianzas (homoscedasticidad) se pueden graficar residuales versus valores predichos, y esto permite visualizar si las varianzas son homogéneas o no. Si las varianzas no son homogéneas el gráfico muestra típicamente una estructura de “embudo” (a medida que los valores predichos son mayores, los residuos varían más. Otra condición que este gráfico también puede diagnosticar es la existencia de observaciones atípicas (“outliers”) que requieren verificación.
9
Ejemplo con varianzas heterogéneas Ejemplo con varianzas homogéneas
70 300
RDUO_Rendimiento
RDUO_PN
35
0
-35
150
0
-150
-70 18
31
44
57
70
-300 1750.0
PRED_PN
2187.5
2625.0
3062.5
3500.0
PRED_Rendimiento
Para este supuesto también se pueden realizar pruebas específicas. Entre las pruebas formales para verificar este supuesto tenemos la prueba de Hartley ( Fmax ), Levene, etc. Estas pruebas contrastan la hipótesis nula H 0 : 12 22 ... t2 con una alternativa general (“las varianzas no son iguales”). Ver en la sección 7.4 del libro de Ott los detalles de estas pruebas. La prueba de Levene consiste en realizar un análisis de varianza con el mismo modelo del original, pero usando como variable dependiente (Y) a los valores absolutos de los residuales. Es la única prueba que podemos aplicar en todos los diseños que estudiaremos en este curso. La prueba de Fmax consiste en realizar el cociente entre las varianzas máxima y mínima, comparando este cociente con un valor tabular (Tabla 12 en el libro). Solamente es válida para datos provenientes de un DCA. Si el valor de Fmax es mayor que el valor tabular, la hipótesis nula se rechaza (es decir, el supuesto no se cumple). Si se detecta que los supuestos no se cumplen algunas medidas comúnmente usadas son la transformación de datos, el análisis parcial (por ejemplo comparando sólo algunos de los tratamientos) y el uso de otros métodos específicamente diseñados para el problema particular (por ejemplo, métodos no paramétricos) Las transformaciones se usan regularmente para problemas de varianzas heterogéneas, falta de normalidad y/o falta de aditividad. Las más comúnmente usadas son la logarítmica, la raíz cuadrada y el arco-seno. La transformación logarítmica, Y log Y o Y log(Y 1) , se usa para datos que exhiben efectos multiplicativos (una forma de falta de aditividad) o cuyas varianzas son proporcionales al cuadrado de las medias.
10
La transformación raíz cuadrada, Y Y o Y Y 0.5 , se usa para datos con varianzas que cambian proporcionalmente a la media, como es frecuentemente el caso de recuentos de insectos u otros organismos. La transformación arco seno, Y arcsen Y , se usa para datos expresados como porcentajes. Los porcentajes deben estar basados en un denominador común (por ejemplo, porcentaje de germinación calculado a partir de 50 semillas bajo distintos tratamientos). Si todos los datos están entre el 30 y el 70% esta transformación no es necesaria. Para presentar resultados de análisis con datos transformados, todas las tablas estadísticas deben mostrar los análisis con los datos transformados. Además, se pueden agregar las medias y los límites de confianza retransformados a la escala original. Las varianzas, errores estándar y coeficientes de variación no se deben retransformar a la escala original.
4. Determinación del número de repeticiones de un experimento Recordemos que al realizar cualquier prueba de hipótesis existen dos tipos de errores que debemos considerar: Tipo I (rechazar la hipótesis nula cuando es cierta) y Tipo II (aceptar la hipótesis nula cuando es falsa). La probabilidad de cometer el error de tipo I la fijamos nosotros (es α, el nivel de significación de la prueba), mientras que la probabilidad de cometer error de tipo II (β) va a depender de cuán lejos esté el valor verdadero (por ejemplo, la diferencia entre dos medias) del valor que habíamos postulado en la hipótesis nula (0). Es importante notar que β (la probabilidad del error de tipo II) depende de los valores verdaderos de las medias. Por supuesto que queremos que el valor de esta probabilidad sea pequeño cuando hay diferencia entre las medias, y se haga aun más pequeño a medida que haya más diferencias entre las medias. Para el análisis de varianza, el libro de texto presenta algunas gráficas (Tabla 14) de valores de potencia (1 ) para distintos tamaños muestrales y efectos de tratamiento. El efecto de tratamiento se define como
n i2 t 2
i . Para simplificar, se Se puede observar que se deben formular todos los valores de i puede usar una forma equivalente en la que solamente se indica la alternativa de tener al menos un par de medias que son diferentes en D unidades (es decir, D es la diferencia mínima que se desea detectar con una potencia (1 ) dada:
nD 2 2t 2
En InfoStat, se pueden usar el menú “Cálculo del tamaño muestral” para dos muestras independientes y para análisis de varianza.
11
Para usar la Tabla 14, observemos que
211.52 1.72 , por lo que la potencia es 2 4 2
aproximadamente 0.81:
12
13
5. Comparaciones múltiples Recordemos que la hipótesis alternativa general del análisis de la varianza es “al menos una de las medias es diferente”. Cuando rechazamos la hipótesis nula estamos concluyendo que hay diferencias, pero no sabemos exactamente cuáles de las medias son diferentes. Una forma de responder a esta pregunta es planteando las siguientes hipótesis: H0 : 1 2 ; H0 : 1 3 ; H0 : 1 4 ; ... H0 : 3 4 Para probar cada una de estas hipótesis podemos usar un estadístico t para dos muestras independientes. Por ejemplo, para la primera, Y Y t 1 2 s p n11 n12 El problema de este enfoque es que se están realizando múltiples inferencias sobre los mismos datos, por lo que los errores de tipo I de cada una de las pruebas pueden acumularse. Es decir, para todo el experimento, la probabilidad de rechazar al menos una de estas hipótesis erróneamente va a ser mayor del 5%. En otras palabras, podemos detectar diferencias que no existen con mucha mayor frecuencia de lo esperado. Esta prueba se denomina de la diferencia mínima significativa (DMS, o LSD en inglés) de Fisher. Debido al problema de acumulación potencial de errores, se han desarrollado otras pruebas alternativas, y sólo se recomienda usar el DMS cuando en la prueba F global se ha rechazado la hipótesis nula. De esta manera, aunque sabemos que el es válido para cada comparación individual y no para el conjunto de todas las comparaciones, podemos aplicar esta prueba. Cuando los tamaños de muestra son iguales, esta prueba se simplifica. Vamos a declarar una diferencia significativa si t t 2 :
Yi Y j sp
1 ni
n1j
Yi Y j 2CME n
t
o 2
Yi Y j t
2
2CME DMS n
2CME , estaremos declarando la diferencia significativa si 2 n Yi Y j DMS . Podemos observar que este caso la diferencia mínima significativa es la
Si definimos DMS t
misma para todas las comparaciones. Vamos a aplicar este método a los datos del ejercicio 1 (lab.2). 1. El primer paso es calcular el DMS:
t15;.025 2.131, CME 26.3395, n 4, DMS 2.131
14
2 26.3395 7.7334 4
2. El siguiente paso es ordenar las medias de mayor a menor: Tratamiento Media
1 52.925
2 42.025
5 37.700
3 34.150
4 21.975
3. Ahora calculamos todas las diferencias, empezando por la más grande. Observemos que si una diferencia es menor que DMS, todas las más pequeñas también lo serán. 52.925-21.975=30.95 52.925-34.150=18.775 52.925-37.700=15.225 52.925-42.025=10.90 42.025-21.975=7.785 42.025-34.150=7.785 42.025-37.700=4.325 37.700-21.175=15.725 37.700-34.150=3.55 34.150-21.975=12.175
>DMS >DMS >DMS >DMS >DMS >DMS DMS DMS
4. Por último ponemos letras iguales a las medias que no son significativamente diferentes: Tratamiento Media
1 52.925 a
2 42.025 b
5 37.700 bc
3 34.150 c
4 21.975 d
Otro ejemplo (estudiado en el curso AGRO 5005) Vamos a considerar un segundo ejemplo en el que tenemos 6 tratamientos, cuyas medias aparecen en orden descendente a continuación. El valor de la diferencia mínima significativa es DMS=2.2. Tratamiento Trat. 3 Trat. 1 Trat. 5 Trat. 4 Trat. 2 Trat. 6
Y 35.7 34.0 33.9 25.1 24.7 22.8
a. El primer paso va a ser comparar la media del tratamiento 3 con todas las que le siguen (es decir, Y3 con Y1 , Y3 con Y5 , Y3 con Y4 , Y3 con Y2 , Y3 con Y6 ). Vamos a conectar con una línea las medias que no son significativamente diferentes (es decir, aquéllas cuya diferencia sea menor que DMS)
15
Tratamiento Trat. 3 Trat. 1 Trat. 5 Trat. 4 Trat. 2 Trat. 6
Y 35.7 34.0 33.9 25.1 24.7 22.8
b. Ahora compararemos Y1 con todas las medias que le siguen, y conectaremos con líneas las medias que no son significativamente diferentes de Y1 : Tratamiento Trat. 3 Trat. 1 Trat. 5 Trat. 4 Trat. 2 Trat. 6
Y 35.7 34.0 33.9 25.1 24.7 22.8
c. Cuando seguimos el proceso para Y5 , observamos que la media que le sigue, Y4 , tiene una diferencia mayor que DMS, y por lo tanto no podemos poner una línea que una Y5 con una media que está más abajo. d. Repetimos
el proceso para Y4 y Y2 : Tratamiento Trat. 3 Trat. 1 Trat. 5 Trat. 4 Trat. 2 Trat. 6
Y 35.7 34.0 33.9 25.1 24.7 22.8
e. Observar que hay una línea (uniendo las medias 1 y 5) que está de más, ya que las medias 1 y 5 ya aparecen unidas por la línea que va desde la media 3 hasta la media 5. Por lo tanto, eliminamos la línea redundante.
16
Tratamiento Trat. 3 Trat. 1 Trat. 5 Trat. 4 Trat. 2 Trat. 6
Y 35.7 34.0 33.9 25.1 24.7 22.8
f. Ahora podemos dejar las líneas, o cambiar las líneas por letras iguales: Tratamiento Trat. 3 Trat. 1 Trat. 5 Trat. 4 Trat. 2 Trat. 6
Y 35.7 34.0 33.9 25.1 24.7 22.8
a a a b bc c
g. Se debe observar que las medias que no están unidas por líneas verticales (o la misma letra) son significativamente diferentes entre sí. Tasas de error por comparación y por experimento Recordemos que la probabilidad de cometer error de tipo I se denominaba α. Cuando realizamos comparaciones de todos los pares posibles de medias, el error de tipo I sería declarar que un par de medias difiere significativamente cuando en realidad son iguales. Si consideramos cada comparación individualmente (es decir, como una hipótesis separada de las demás), el error de tipo I es concluir que esa comparación es significativa cuando en realidad esas medias no son diferentes. La probabilidad de cometer error de tipo I para esta comparación individual (promediada a través de todas las comparaciones y todos los experimentos posibles) es la “tasa de error por comparación”, I . Por otro lado, si consideramos a todas las comparaciones posibles como una sola hipótesis, entonces realizar error de tipo I es decir que por lo menos un par de medias es diferente cuando todas las medias son iguales. La probabilidad de cometer el error de tipo I para todas las comparaciones en conjunto se denomina “tasa de error por experimento”, E . Supongamos que estamos simulando un experimento en el cual estamos comparando 3 tratamientos A, B, C (por lo tanto tenemos 3 comparaciones de a pares: A vs. B, A vs. C, B vs. C). Supongamos además que no hay diferencias entre las medias (por lo tanto, cada vez que encontremos una diferencia estaremos cometiendo error de tipo I). Vamos a indicar con * los casos en los que encontremos diferencias significativas, y con NS los casos en los que no encontramos diferencias significativas. El experimento se simulará 20
17
veces, y cada vez realizaremos las comparaciones de a pares correspondientes. Los resultados se resumen en la siguiente tabla: Simulación 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Comparaciones A vs. B A vs. C B vs. C NS NS NS * NS NS NS NS NS NS * * NS NS NS * NS NS NS NS NS * * * NS * NS NS NS NS NS NS NS NS NS NS NS NS * NS NS NS NS NS NS NS NS NS NS NS NS NS * * NS NS NS NS NS NS
En este ejemplo tenemos un total de 60 comparaciones, y hemos cometido error de tipo I en 11 de ellas. Por lo tanto la tasa de error por comparación es 0.1833. Por otro lado, observamos que hay 20 “experimentos”, y hemos cometido error de tipo I en 7 de ellos. Por lo tanto la tasa de error por experimento es 0.35. En la práctica nunca el mismo experimento lo repetiremos 20 veces, pero las tasas de error tienen la misma interpretación: si no hay diferencias entre las medias y repitiéramos el experimento muchas veces, cometeremos error de tipo I cada vez que declaremos una diferencia significativa. La proporción de comparaciones que se encuentran significativas falsamente es la tasa de error por comparación, y la proporción de experimentos en los que se encuentran diferencias significativas falsamente es la tasa de error por experimento. Corrección de Bonferroni para la prueba de DMS Con el objeto de controlar la tasa de error para todo el experimento (es decir, todas las comparaciones), se pueden aplicar modificaciones a la prueba de DMS. La más sencilla consiste en corregir el nivel de significancia de la prueba para tener en cuenta la
18
multiplicidad de comparaciones que se están realizando. Si llamamos I al nivel de significancia para una comparación individual (que es el que consideramos en DMS), y E al nivel de significancia para todo el experimento (que es lo que querríamos controlar para no declarar demasiadas diferencias significativas falsamente), la desigualdad de Bonferroni nos dice que E m I , donde m es el número de comparaciones que nos interesa realizar en todo el experimento. Para todos los pares posibles, m t (t 1) / 2 . Por lo tanto, si queremos que la tasa de error para todo el experimento no sea mayor de 0.05 , por ejemplo, si hay t=5 tratamientos podemos realizar una prueba de DMS usando un nivel de significancia igual a / m 0.05/10 0.005 . Es decir, la fórmula de DMS para la prueba de Bonferroni ahora es
BON=t
2m
2CME 2CME t0.0025 n n
Prueba de Tukey Otra manera de evitar el problema de errores acumulados en las conclusiones del experimento es usar métodos alternativos a la prueba de DMS. La idea fundamental es que la probabilidad de cometer el error de tipo I (declarar falsamente diferencias significativas) se mantenga en el nivel especificado ( ) para todo el experimento, aunque esto implique que para cada comparación tomada individualmente la probabilidad disminuya. Es decir, hacemos cada prueba individual más conservadora, de manera que globalmente la probabilidad de cometer al menos un error de tipo I se mantenga razonablemente cerca del nivel especificado (usualmente 5%). La prueba de Tukey se desarrolla con esta idea en mente, y consiste en usar un nivel crítico mayor que el DMS. Este valor crítico es CME W q (t , ) , n donde q (t , ) se busca en la tabla 10 del libro con t tratamientos y grados de libertad en el cuadrado medio del error. Si los tamaños de muestra son desiguales, el método se llama prueba de Tukey-Kramer y el valor crítico es
Wij q (t , )
CME 1 1 . 2 ni n j
Si aplicamos la prueba de Tukey al mismo ejemplo considerado anteriormente obtenemos los siguientes resultados:
W q (t , )
CME 26.3395 4.37 11.21 n 4
19
52.925-21.975=30.95 52.925-34.150=18.775 52.925-37.700=15.225 52.925-42.025=10.90 42.025-21.975=20.05 42.025-34.150=7.785 42.025-37.700=4.325 37.700-21.175=15.725 37.700-34.150=3.55 34.150-21.975=12.175 Tratamiento Media
1 52.925 a
2 42.025 ab
5 37.700 b
>W >W >W W F
Model
5
2311.416667
462.283333
118.03
F
386.250000
128.750000
32.87
0.0004
1925.166667
962.583333
245.77