FACULTAD DE MEDICINA UNNE CARRERA DE MAESTRÍA EN MICOLOGÍA MÉDICA. BIOESTADÍSTICA
Mgter. Laura Zalazar
2013
1
INSTRUCTIVO Para bajar el Demo de Infostat: En el sitio http://www.infostat.com.ar/ 1 - Click sobre el rectángulo Versión español 2 - Ejecutar 3 - Aparece un cuadro de diálogo para instalar. Seleccionar Next en todas las pantallas, hasta que aparece la última, seleccionar Finish. 4 - Aparece una pantalla que advierte que la copia debe se activada, click en OK. 5 - En la siguiente pantalla, seleccionar Versión Libre.
Para bajar Epi Info: En el sitio http://wwwn.cdc.gov/epiinfo/ 1 - Click sobre el rectángulo Downloads 2 - Click sobre Epi Info previous versions 3 - En Epi Info 3.5.4. Click sobre Down load Epi Info 4 - Ejecutar 5 - Aparece un cuadro de diálogo para instalar. Seleccionar Next en todas las pantallas, hasta que aparece la última, seleccionar Finish.
2
INTRODUCCIÓN En todo proceso de investigación se registran los resultados provenientes de la observación de hechos o experimentos. La estadística es la ciencia y el arte de reunir, analizar, presentar e interpretar esos datos provenientes de una muestra representativa para inferir el comportamiento de la población a la que pertenece. Estas inferencias pueden servir para ayudar en la toma de decisiones o para explicar condiciones regulares o irregulares de algún fenómeno o estudio aplicado, de ocurrencia aleatoria o condicional. La estadística es una herramienta fundamental en la investigación científica, ya que mediante la formulación de hipótesis y la confrontación con los hechos, valida científicamente los resultados obtenidos. En el esquema básico de la metodología de investigación:
Cuestión
Diseño
Recolección
Respuestas
Análisis
La estadística cumple un rol fundamental en las etapas de Análisis y Respuestas. Durante el Análisis de los datos se procesa la información registrada con el objeto de describir y resumir las características más destacadas, mediante tablas, gráficos y la obtención de medidas de resumen. Esto se conoce como
Estadística Descriptiva. Durante la etapa de respuestas, la estadística actúa como árbitro imparcial a través de un método llamado Test de Hipótesis. Aplicando este método, se podrá decidir si las diferencias entre los resultados obtenidos y los resultados esperados, es pequeña como para atribuirla sólo al azar o si por el
3
contrario, es lo suficientemente grande como para atribuirla a la hipótesis en cuestión. Esto se conoce como Estadística Inferencial.
CONCEPTOS PREVIOS ESTADÍSTICA DESCRIPTIVA *Unidad de observación: Es el objeto sobre el cual se realiza una medición. Ésta es la unidad básica de observación, a veces llamada elemento o individuo. Ejemplos: pocillos, trampas, personas, hogares, etc. *Universo o Población objetivo: Es un conjunto de elementos acotado en un tiempo y en un espacio determinados, con alguna característica común observable o medible. Es el conjunto de todos los elementos sobre los cuales se desea hacer inferencia. Ejemplos: bacterias, hongos, población de un país, etc. *Muestra: Se entiende por Muestra a todo subconjunto de elementos obtenido de la población bajo estudio. Una
muestra
puede
ser
representativa
o
no
representativa.
Es
representativa cuando al estudiar el comportamiento de sus variables y estadísticos podemos confiar en que tendrán el mismo comportamiento que si se estudiaran sobre toda la población; caso contrario, será una muestra no representativa. Una buena muestra debe ser representativa de la Población Objetivo. *Variable: es una característica, propiedad o atributo que se observa o mide en los individuos de una población elegidos en una muestra. Dicha característica a observar debe ser la misma en cada individuo de la población y se espera que no asuma el mismo valor en cada uno de ellos. Sobre cada unidad de
4
observación se suelen recoger simultáneamente muchas variables y estas pueden ser del mismo o de distinto tipo. Clasificación de variables. Según la escala de medición, las variables pueden ser: 1)
cuantitativas:
cuando
se
pueden
contar
o
medir
y
expresar
numéricamente. Las variables cuantitativas, además, pueden ser:
Discretas: son las variables que presentan separaciones o interrupciones en los valores que puede tomar. Estas separaciones o interrupciones indican la ausencia de valores entre los distintos valores específicos que la variable pueda asumir, por ejemplo: el número de hijos, número de colonias en un pocillo, etc. Formalmente, se dice que una variable es discreta si toma un número finito o infinito numerable de valores.
Continuas: son las variables que pueden tomar cualquier valor dentro de un intervalo especificado de valores. Por ejemplo el peso o la altura, que solamente está limitado por la precisión del aparato medidor, pero en teoría permiten que siempre exista un valor entre otros dos valores distintos. Formalmente, se dice que una variable es continua si toma un número infinito no numerable de valores. 2) cualitativas: son las variables que expresan distintas cualidades, características o modalidad. Cada modalidad que se presenta se denomina atributo o categoría y la medición consiste en una clasificación de dichos atributos. Las variables cualitativas pueden ser dicotómicas cuando sólo pueden tomar dos valores posibles como sí y no, hombre y mujer o son politómicas cuando pueden adquirir tres o más valores, por ejemplo: religión, nacionalidad, etc. Dentro de ellas podemos distinguir:
Variable cualitativa ordinal: La variable puede tomar distintos valores ordenados siguiendo una escala establecida, aunque no es necesario que el 5
intervalo entre mediciones sea uniforme, por ejemplo: leve, moderado, grave.
Variable cualitativa nominal: En esta variable los valores no pueden ser sometidos a un criterio de orden como por ejemplo los colores o el lugar de residencia. Según la influencia que asignemos a unas variables sobre otras, las variables podrán ser: 1) Variables independientes: son las que el investigador escoge para establecer agrupaciones en el estudio, clasificando intrínsecamente a los casos del mismo. 2) Variables dependientes: son las variables de respuesta que se observan en el estudio y que podrían estar influenciadas por los valores de las variables independientes. Por ejemplo: Se quiere conocer si un fertilizante es favorable al rendimiento en la producción de tomates. Se realiza un experimento poniendo 0, 10, 20 y 30 gotas de fertilizante en distintos plantines de tomates. Se mide en kg. la producción de tomates en cada planta. La variable independiente es el fertilizante, medido en gotas y la variable dependiente es la producción de tomates de cada planta, medida en kg. *Espacio muestral: se llama espacio muestral al conjunto de todos los resultados posibles en un proceso experimental u observacional. Se lo denota con la letra griega omega . Por ejemplo: al arrojar un dado, el Espacio muestral es: {1,2,3,4,5,6}. *Probabilidad: el concepto clásico de probabilidad define la probabilidad de un suceso A, como P( A) casos favorables . El concepto frecuencial, define la casos posibles
probabilidad de un evento A con n A ocurrencias en N repeticiones independientes 6
del experimento, como
P( A) lim
N
nA N
. Finalmente la probabilidad según
Kolmogorov, se define como: Sea un espacio muestral. La función P(.), que asigna a cada evento de un número real del intervalo 0,1 , se llama medida de probabilidad si satisface
los siguientes axiomas: i.
P() 1
ii.
P( A) 0
iii.
Si
donde A es un evento cualquiera de
A1 , A2 ,... es una secuencia de eventos mutuamente excluyentes,
entonces: P U i Ai P( Ai ) i
*Variable aleatoria: Dado un espacio muestral , una variable aleatoria X, es una función real, definida de
en
que asigna a cada elemento del
espacio muestral un número real asociado a un evento aleatorio o estocástico. Por ejemplo: cantidad de caras obtenidas al arrojar 3 veces una moneda. Esperanza de una variable aleatoria Es el promedio de los valores asumidos por la variable aleatoria, ponderados por su probabilidad de ocurrencia. En una V.A.Discreta: E ( X ) xi f ( xi ) donde C es el conjunto de valores xi C
que puede tomar la V.A. Discreta y f(x) su función de probabilidad. Varianza de una Variable Aleatoria La esperanza de una variable aleatoria sólo nos da información parcial acerca de su distribución, ya que nos dice alrededor de qué valor se concentran las observaciones, pero no, cuan dispersas están respecto de ese valor. Quien nos da esta información es la varianza.
7
En una V.A.Discreta: Var ( X ) 2 xi 2 f ( xi )
donde C es el conjunto
xi C
de valores que puede tomar la V.A. Discreta, E ( X ) y f(x) su función de probabilidad. *Función de distribución Normal o de Gauss: La función de distribución Normal o de Gauss es un modelo teórico ideal referido a una variable aleatoria continua. Desempeña un papel preponderante en la teoría estadística, ya que muchos fenómenos son estudiados a partir de datos distribuidos de manera normal. Por ejemplo: peso, longitud, altura, temperatura, resistencia a la tracción, son todos fenómenos con distribuciones de frecuencias que se pueden aproximar muy bien a la función Normal. Por esta razón la función de densidad de la probabilidad de una función Normal, está tabulada en una tabla y utilizando esta tabla, se puede encontrar la probabilidad de cualquier suceso que se distribuya normalmente. La representación gráfica de la función de densidad normal es una curva simétrica con forma de campana, conocida como la campana de Gauss. El eje de simetría pasa por el parámetro y la amplitud de la campana está dada por 2 .
Los puntos de inflexión tienen absisas y . Las observaciones se distribuyen de la siguiente manera: 68,2% en el intervalo , 95,4% en el intervalo 2 , 2 99,6% en el intervalo 3 , 3 8
*Parámetro :
es
una
medida
de
resumen
que
describe
una
característica de toda la población. Ejemplos: Medidas de centralización: Media, Moda y Mediana; Proporción de un suceso, Medidas de dispersión: Varianza y Desviación Típica, etc. Los parámetros más usados son: 1) Media: es el promedio por unidad considerada. Por ejemplo: la media de edades de un grupo de individuos, media de los halos de inhibición para un determinado antibiótico, etc. Se llama X i a la variable medida y N al número de N
individuos. El promedio por unidad en la población, es:
X i 1
N
i
. Si bien la media
poblacional es una medida de centralización muy utilizada, es una medida que se ve muy afectada por los valores extremos o atípicos. 2) Moda: es el valor de la variable que ocurre con mayor frecuencia 3) Mediana: es el valor medio de un conjunto ordenado de datos. Se dice que es el valor de la variable que supera a no más de la mitad y que es superado por no más de la mitad de las observaciones. La mediana es una medida de tendencia central, que no se ve afectada por valores extremos o atípicos como la media, esto
9
hace que sea una medida especialmente útil en distribuciones con valores extremos o atípicos. 4) Cuantiles: Cuartiles, Deciles y Percentiles: dividen a las observaciones en cuatro, diez y cien partes iguales, respectivamente. El cuartil número 1, Q1 , deja el 25% de las observaciones por debajo de él y el 75% restante por encima de él. El decil número 6, D6 , deja el 60% de las observaciones por debajo de él y el 40% restante por encima de él. El percentil número 81, P81 , deja el 81% de las observaciones por debajo de él y el 19% restante por encima de él. 5) Proporción de un suceso en una población (también llamada prevalencia). Es la tasa de ocurrencia de cierta
característica en la población. Si P es la
proporción de un suceso en una población, se define X i =0 si el i-ésimo individuo no forma parte de ese suceso y X i =1 si el i-ésimo individuo forma parte de ese suceso. Siendo N el número total de individuos, la proporción de ocurrencia de un N
suceso, será: P
X I 1
N
i
. N
6) Varianza Poblacional 2
X i 1
i
N
2
, siendo N el número de elementos de la
población, X i la variable de interés sobre cada uno de los individuos de la población y la media poblacional. Este parámetro nos indica cuán dispersos están los datos respecto de la media poblacional. La varianza es siempre positiva o nula.
7) Desviación típica:
2 , nos indica cuán dispersos están los datos
respecto de la media poblacional en su misma unidad de medida.
10
8) Coeficiente de variación: es una medida relativa de dispersión que se calcula como el cociente entre la desviación típica y la media aritmética. Se utiliza fundamentalmente
cuando
se
pretende
comparar
la
dispersión
de
dos
distribuciones expresadas en unidades de mediadas diferentes. El coeficiente de variación muestra cuál de ellas presenta mayor o menor dispersión respecto de su media, o sea, cuál de ellas presenta mayor o menor homogeneidad respecto de su media, lo que en definitiva muestra la representatividad del promedio calculado para esos datos. CV ( X )
*Estimador ˆ : es una medida aleatoria de resumen que se calcula sobre la muestra, para describir o estimar una característica desconocida de la población (un parámetro). Es aleatoria, pues su resultado cambia de muestra en muestra, porque se trata de una función sobre las variables aleatorias consideradas. Cada parámetro puede tener más de un estimador y la forma en la que se calcula depende del método de muestreo que se utilice para obtener la muestra. 1) Por ejemplo, en el muestreo aleatorio simple, el estimador más común de n
N
la media poblacional
X i 1
i
es la media muestral:
x
N
x i 1
n
i
, donde n es
número de individuos de la muestra y xi es el valor que asume la variable aleatoria X en cada uno de los individuos de la muestra. n
2) Estimador de la Proporción de un suceso en una población: p n
3) Estimador de la Varianza Poblacional: S 2
x x i 1
i
n 1
4) Estimador de la Desviación Típica: S S 2 5) Estimador del Coeficiente de Variación: CV ( x) 11
S X
2
x I 1
n
i
En general, se escoge el estimador que posea mejores propiedades que los restantes. Dichas propiedades son: insesgadez (esperanza igual al parámetro), eficiencia (de menor varianza), consistencia (el estimador tiende al parámetro cuando n crece) y robustez (la alteración de los supuestos, no altera los resultados obtenidos). *Estadístico:
es
una
función
de
las
observaciones
muestrales
(generalmente de un estimador) y también de parámetros poblacionales. Por ejemplo:
x
es un estadístico, ya que es función de la media muestral, de la
n media poblacional y de la desviación típica poblacional.
*Representaciones gráficas. Si bien las medidas descriptivas como la media, moda, mediana, desviación típica, etc. sirven para describir de manera cuantitativa las características de una población o de una muestra, los recursos gráficos son especialmente útiles para presentar resultados, tanto para la exploración de dicho conjunto de datos como para su fácil entendimiento en la divulgación. Los gráficos más utilizados son: 1) Diagrama circular o de torta: Este tipo de gráfico sólo puede usarse cuando se conoce el total de los datos, ya que permite visualizar las partes del todo.
Afección según franja etárea 0-25 26-50 51-75 75 o más
12
2) Diagrama de barras: Este tipo de gráficos se utiliza mucho para representar frecuencias de las distintas categorías en las que pueden clasificarse las unidades observacionales.
Afección según franja etárea 60% 40% 20% 0%
0-25
26-50
51-75
75 o más
3) Diagrama de dispersión Este tipo de diagrama es muy útil cuando se estudia la asociación entre dos variables. Por ejemplo si se desea estudiar la asociación entre el rendimiento de un cultivo y el número de aplicaciones de un antifúngico:
Rendimiento (Tn) en función del número de aplicaciones de antifúngico 10 5
Rendimiento (Tn)
0 0
2
4
6
4) Q-Q Plots Este gráfico permite la comparación de la distribución de frecuencias de una variable cualquiera con una distribución teórica. Si por ejemplo se compara con la distribución Normal, en cuyo caso se llamará Q-Q Plot Normal, en él se representarán los cuantiles de la distribución empírica versus los cuantiles de la 13
distribución normal. Si la variable en cuestión tiene distribución Normal, entonces los puntos del gráfico se alinean en una recta a 45º. Por ejemplo, el gráfico siguiente corresponde a las longitudes de los pétalos de 50 flores.
ESTADÍSTICA INFERENCIAL *Test de hipótesis. Una hipótesis es una creencia sobre una población, que se enuncia a través de alguno de sus parámetros. Una hipótesis se pone a prueba comparando sus predicciones con la realidad: si coinciden, dentro de un margen de error admisible, mantendremos la hipótesis; en caso contrario, la rechazamos. El test de Hipótesis es una metodología que permite hacer inferencias acerca de un parámetro poblacional, analizando las diferencias entre los resultados observados (o sea el estimador muestral) y los resultados que se esperan obtener si en realidad se cumple una hipótesis. El objetivo de un Test de Hipótesis es decidir, sobre la base de una muestra extraída de la población, si una hipótesis es verdadera o no. En general, una prueba de hipótesis comienza con una aseveración relativa a cierto parámetro de una población. Se llama hipótesis nula, H 0 , a la hipótesis que se contrasta y es la hipótesis que mantendremos, a menos que los datos indiquen su falsedad. La H 0 nunca se considera demostrada, aunque sí puede ser rechazada por los datos. En este último caso, se aceptará una hipótesis especificada de antemano, que se llama hipótesis alternativa, H1 , y que propone 14
como posibles valores del parámetro en cuestión el conjunto de valores complementarios al propuesto en la hipótesis nula. La hipótesis nula H 0 puede ser verdadera o falsa y a través del test de hipótesis, se la puede rechazar o no rechazar. Existen dos errores que se pueden cometer al realizar un test: rechazar la hipótesis nula H 0 cuando en realidad es verdadera o no rechazar la hipótesis nula H 0 cuando en realidad es falsa, llamados errores de Tipo I y Tipo II, respectivamente. En un estudio de investigación, el error de tipo I, con
probabilidad de
ocurrencia, es equivalente a encontrar un resultado falso positivo, porque el investigador llega a la conclusión de que existe una diferencia entre las hipótesis y la realidad, cuando en verdad no existe.
se llama nivel de significación.
En un estudio de investigación, el error de tipo II, con probabilidad de ocurrencia, es equivalente a la probabilidad de un resultado falso negativo, ya que el investigador llega a la conclusión de que ha sido incapaz de encontrar una diferencia entre la hipótesis y la realidad, cuando en verdad existe.
H 0 verdadera Error Tipo I ( )
Se rechaza
y
1- Error Tipo II ( )
1-
No se rechaza
Los valores de
H 0 falsa
los puede manejar el investigador, en función de
los márgenes de errores que esté dispuesto a tolerar. Muchas veces es más perjudicial equivocarse por no detectar un error, que dar una falsa alarma. En caso de dar una falsa alarma, se profundiza el estudio con una muestra mucho mayor, con lo cual finalmente, se comprenderá que hubo una falsa alarma. En cambio, si no se detecta un error real, se puede dar lugar a un perjuicio más importante y 15
peligroso a las conclusiones del investigador, pues se interpreta que el experimento ha tenido éxito cuando en realidad fracasó. Ejemplo: Se desea probar si una nueva variedad de soja lograda con un proceso de mejoramiento genético supera la base de 20 qq/ha. 1) Planteo la hipótesis estadística:
H 0 : 0 (20 qq / ha) H1 : (20 qq / ha)
2) Para probar la hipótesis, se planifica una experiencia que consiste en repetir el cultivo de la nueva variedad de soja en 30 parcelas de ¼ de hectárea cada una y registrar sus rendimientos a cosecha. 3) Elección de la función que involucre estimadores muestrales (W) Se tomará el estadístico de Wald : W ( X 1 , X 2 ,... X n )
X 0 S2 n
Para 0 y bajo el supuesto de normalidad para la variable en estudio, el estadístico W se distribuye como una T de Student con n-1 grados de libertad. 4) Se fija el nivel de significación , por ejemplo en 0,05. Por lo tanto el nivel de confianza será : 1- = 0,95. 5) Se establecen las zonas de rechazo y no rechazo de la H 0 , para lo cual es necesario fijar un punto crítico (PC) en función del nivel de significación elegido. El PC para W (que es una T de Student con n-1 grados de libertad) es el cuantil 0,95 de la distribución T y se lo denota como: T n1;0,95 . De acuerdo a los
planificado, hay 30 repeticiones del experimento, por lo tanto n-1=29, en la tabla de distribución T, al cuantil 0,95 con 29 grados de libertad le corresponde el valor 1,699. Las zonas de rechazo (ZR) y no rechazo (ZNR) ,serán: ZNR ;1, 699
ZR 1, 699;
16
6)
El
X 25 qq / ha.
resultado y
de
la
cosecha
en
el
experimento
tiene:
S 4 qq / ha.
7) Se calcula W y se observa a cuál de los dos intervalos ZR o ZNR pertenece. W ( x1 ,...xn )
25 20 6,847 4 30
Como W ZR se concluye que se rechaza la hipótesis nula, por lo tanto la nueva variedad supera el rendimiento de 20 qq/ha. IMPORTANTE!!!!! Cuando los problemas se resuelven utilizando un paquete estadístico, se utiliza un nuevo elemento, el p-valor. El valor p es la probabilidad de obtener el resultado de la muestra o uno con mayor discrepancia, suponiendo verdadera la hipótesis nula. Como usualmente se dice, el p-value es la probabilidad, bajo hipótesis nula, de obtener una discrepancia igual o mayor a la obtenida en la muestra. Este valor de p se compara con el fijado al comenzar la prueba. Si p es menor que entonces debemos rechazar la H 0 , de lo contrario no la rechazamos. Dicho de otro modo, cuanto menor sea p, menor es la probabilidad de aparición de una discrepancia como la observada y menor será la credibilidad de la H0 .
*Las pruebas Las pruebas
2 (Chi-cuadrado) de Pearson.
2 se utilizan para el estudio de los denominados Métodos No
Paramétricos. Estos métodos se caracterizan por realizar inferencias no sólo
17
respecto de los parámetros poblacionales, sino también respecto de otras situaciones como por ejemplo: 1) Probar si dos variables cualitativas están o no asociadas (Pruebas de Independencia) 2) Probar si la distribución de cierta característica es similar en varias poblaciones (Pruebas de Homogeneidad) 3) Probar si la forma de la distribución poblacional de cierta variable es Normal, Piosson o si responde a cierta forma específica (Pruebas de Bondad de Ajuste). El procedimiento de prueba es el que se vio en Test de Hipótesis, o sea, se formula una hipótesis, se la compara con los datos efectivamente obtenidos, se cuantifican las diferencias y se decide si son o no estadísticamente significativas. Para realizar este juicio, Karl Pearson propuso el estadístico de prueba Chicuadrado y de allí su nombre.
ANAVA Se desea estudiar la sensibilidad de distintas especies de Candida frente a Fluconazol: Candida albicans(CA), Candida tropicalis(CT), Candida parapsilosis(CP), Candida glabrata(CG), Candida krusei(CK), Candida guilliermondii(CGM). Para cada especie de candida, en 12 placas de antifungigrama se dispone un disco de fluconazol. Transcurridas 24 horas se miden en mm. los halos de inhibición. En experimentos como el anterior, con fines comparativos, se realiza la aplicación de varios tratamientos a un conjunto de unidades experimentales para comparar las respuestas obtenidas bajo cada tratamiento. Matemáticamente se busca ver si hay diferencias significativas entre las medias de las respuestas a cada tratamiento. El Análisis de la Varianza (ANAVA), permite contrastar hipótesis 18
referidas a los parámetros de posición
de dos o más distribuciones. La
hipótesis que se testea para a tratamientos, es:
H 0 : 1 2 ....... a
con i 1,...., a
Vs
H1 : al menos un par de medias difiere La técnica de ANAVA supone que los datos observados son independientes unos de otros y que las observaciones bajo cada tratamiento tienen distribución normal (centrada en i ) y varianza 2 idéntica para todas las distribuciones (homogeneidad de varianza). El no cumplimiento de estas propiedades, conocidas como supuestos, invalidan la inferencia que se realiza a partir de esta técnica. Elementos involucrados en el ANAVA. En términos del diseño experimental:
Unidad experimental: es la mínima porción del material experimental sobre el cual se realiza un tratamiento. (En el ejemplo: Cada uno de los discos).
Factores: son toda fuente de variación reconocida a priori por el investigador. Cada uno de los valores que asume un factor, se denomina nivel. Cada uno de estos niveles son llamados tratamientos. En definitiva, tratamiento es el conjunto de acciones o procesos que se aplican a las unidades experimentales para observar la reacción de la variable respuesta. Cuando se estudia la aplicación de un solo factor sobre la unidad experimental, se dice que el experimento es unifactorial. Si existen dos o más factores, los tratamientos serán la combinación de los distintos niveles de estos factores y el experimento se llama multifactorial. (En el ejemplo: los tratamientos son cada una de las seis especies).
Repetición: es cada una de las realizaciones independientes de un tratamiento y se llama corrida o réplica a la realización de una repetición de todos los tratamientos. (En el ejemplo hay 12 repeticiones de cada tratamiento). 19
Control es la unidad experimental con ausencia de tratamiento.
Testigo es la unidad experimental con tratamiento tradicional (si existiera).
Diseño experimental: puede entenderse como una estrategia de combinación de las estructuras de tratamientos con la estructura de la unidad experimental, de manera tal que la variabilidad de la variable respuesta, pueda ser atribuida solamente a la acción de los tratamientos, excepto por errores aleatorios. Así es posible contrastar medias de tratamientos con el menor “ruido” posible. Algunos
diseños
clásicos
para
aplicación
de
ANAVA,
son:
Diseño
Completamente Aleatorizado (DCA), donde la UE no tiene estructura; Diseño en Bloques Completamente Aleatorizados (DBCA) donde las UE homogéneas se agrupan en un mismo bloque y los bloques son heterogéneos en relación al factor de clasificación; Diseño Cuadrado Latino (DCL) donde las UE se agrupan en bloques heterogéneos en relación a dos factores de clasificación independientes; entre otros. En cualquier caso, la asignación de tratamientos a las UE, se realiza en forma aleatoria. Cabe mencionar que en este curso sólo estudiaremos el DCA. En términos de variables:
Variable independiente o de clasificación, son los tratamientos aplicados a las unidades experimentales. (Distintos antimicóticos)
Variable dependiente o respuesta, es la que se observa y mide para hacer comparaciones entre los diferentes tratamientos. (halos de inhibición)
Estamos en condiciones de definir el modelo de ANAVA: Las medias de las respuestas a los tratamientos pueden ser iguales o diferentes. La diferencia entre las medias, es llamada variabilidad. El ANAVA descompone la variabilidad total de la muestra en dos componentes, la variación causada o explicada por el tratamiento y la variación no explicada por el tratamiento o debida a la aleatoriedad. 20
La técnica del análisis de la varianza, presupone un modelo lineal para explicar la variación en la variable respuesta. Cuando se estudia un solo factor con a niveles, o sea a tratamientos, se dice que el análisis de la varianza es a un criterio de clasificación, si se realizan n repeticiones, el modelo de efectos queda definido de la siguiente manera:
Yij i ij
con i 1,..., a y j 1,..., n
donde:
Yij
es la j-ésima respuesta en el i-ésimo tratamiento.
es la media poblacional de la variable respuesta.
i
es el efecto del i-ésimo tratamiento
ij es el término de error aleatorio de la j-ésima respuesta en el i-ésimo tratamiento. La media general , es la media de todas las medias resultantes de cada uno de los tratamientos, es un parámetro fijo y su valor es constante en todas las observaciones. El efecto de tratamiento i es la diferencia entre la media poblacional del tratamiento considerado y la media general ; en el modelo ANAVA de efectos fijos, se los considera valores constantes desconocidos. El término de error asociado a la observación ij, ij , es la diferencia entre dicha observación y la media poblacional del tratamiento correspondiente. Bajo los supuestos del muestreo de modelos ideal (MMI) los términos de error asociados a cada una de las observaciones se suponen independientes, con distribución normal 2 de esperanza 0 y varianza i, j o sea de varianza constante.
21
Gráficamente:
Fundamentos del análisis de la varianza de efectos fijos. Si se toma una muestra aleatoria simple de cada una de las a distribuciones con idéntica varianza, el promedio ponderado de las a varianzas muestrales es un buen estimador de 2 . Por otro lado, si además de idénticas varianzas, se pide idénticas medias (o sea H 0 de ANAVA) se puede obtener otra estimación de 2 a partir de las varianzas de las medias muestrales. En consecuencia, si el supuesto de idéntica varianza y la hipótesis nula de igualdad de medias son ciertos, a partir de una muestra se obtienen dos estimadores muy semejantes de la varianza poblacional. Si por el contrario, la hipótesis nula de igualdad de medias no es cierta, entonces la varianza estimada a partir de las medias incluirá una fuente de variación debida a la diferencia entre las medias de los distintos tratamientos. O sea, la comparación de las varianzas obtenidas a partir de las varianzas muestrales y a partir de las varianzas de las medias muestrales es la clave de este método y de allí su nombre. Cuando la hipótesis de igualdad de medias falla, la varianza obtenida a partir de la varianza de las medias muestrales es mayor que la otra y
22
sirve para detectar la desigualdad de las medias de las distribuciones que se comparan o sea la desigualdad en los tratamientos que se comparan. Retomando el ejemplo con el que iniciamos ANAVA, los resultados obtenidos fueron los siguientes: Placa
Placa
Placa
Placa
Placa
Placa
Placa
Placa
Placa
Placa
Placa
Placa
1
2
3
4
5
6
7
8
9
10
11
12
CK
21
24
24
25
24
21
24
23
22
22
21
24
CG
26
25
23
25
23
22
25
25
21
22
22
24
CP
30
32
30
28
30
28
30
28
30
28
30
34
CGM
28
28
30
30
30
25
27
29
24
26
26
29
CT
28
28
30
28
30
24
28
27
24
29
28
25
CA
30
34
32
33
32
28
30
31
30
30
30
32
Tratamiento
O sea, hay 6 tratamientos y 12 repeticiones para cada uno, por lo tanto a=6 y
n=12. Para el ANAVA, utilizaremos el Software Infostat. Lo primero que se debe realizar es una tabla con los datos:
Instrucciones para Infostat: 1-Menú: Archivo Enter
Nueva Tabla
doble click en columna 2
doble click en columna 1 Halo
Especie
Enter.
2-Ingresar por fila la especie con su respectivo halo de inhibición. Se agregan filas simplemente dando Enter. 3-Guardar la tabla con el nombre ANAVA-CAN
23
Medidas de Resumen Instrucciones para Infostat: (Abrir el archivo ANAVA-CAN) 1-Menú: Estadísticos
Medidas de resumen
clasificación:
Especie
está tildado
Aceptar.
Aceptar
Variable: Halo
Criterio de
Lleva a una nueva ventana, dejar lo que
Medidas resumen Especie CT CGM CP CA CG CK
Variable Halo Halo Halo Halo Halo Halo
n 12 12 12 12 12 12
Media 27,42 27,67 29,83 31,00 23,58 22,92
D.E. 2,07 2,06 1,80 1,65 1,62 1,44
Mín 24,00 24,00 28,00 28,00 21,00 21,00
Máx 30,00 30,00 34,00 34,00 26,00 25,00
Se realiza un ANAVA sobre los datos, la hipótesis nula que se contrasta es:
H 0 : 1 2 3 4 5 6
o sea que las medias de todos los tratamientos
son iguales. Vs.
H1 : al menos un par de medias difiere Se realiza el Análisis de la Varianza utilizando Infostat. Instrucciones para Infostat: 1-Menú: Estadísticas
Análisis de la varianza
flecha a Variables dependientes Variables de Clasificación
Seleccionar Halo y llevarlo con la
Seleccionar Especie y llevarlo con la flecha a
Aceptar
Nos lleva a otra ventana de Análisis de la
Varianza, en la pestaña Modelo, tildar: Residuos, Predichos y Abs(residuos) Aceptar.
24
Resultados Análisis de la varianza Variable N R² R² Aj CV Halo 72 0,75 0,73 6,61 Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo 635,57 5 127,11 39,75