Organización: Cátedra de Ecología General, Fac. de Ciencias Naturales e IML
Estadística Aplicada a Ecología
Docente disertante: Agosto 2013
Dra Mariela del Carmen Alderete
Cambiar “amor por la naturaleza” por “amor al patrón” (Gottelli & Ellison, 2004) Surgen preguntas: ¿Cómo cuantificar patrones de abundancia de plantas y animales? Si caminamos por un bosque,¿Cuál es el mejor estimador de la densidad de colonias de la especie de hormiga A en este bosque? Es 1 colonia/m2? 10 colonias/m2?¿Cómo la densidad de esta especie varía en diferentes partes del bosque?¿Qué mecanismos o hipótesis podrían cuantificar tal variación? ¿Qué experimentos y observaciones podrían realizarse para tratar de testear las hipótesis?
Contenido, Estadística inicial 1- Hipótesis ecológica e hipótesis estadística. 2- Estudio observacional y estudio experimental. 3- Variables: tipos. Escala de medición. 4- Estadística Descriptiva: - gráficos de frecuencias y Box plot. - medidas de posición (media, mediana, moda) y dispersión (rango, ango intercuartil, varianza). - Probabilidad: definición y axiomas. Distribuciones de cuantía y de variables continuas. Distribución normal y normal estándar. - Estimación puntual de parámetros. - Estimación por intervalo de confianza de parámetros. 5- Estadística inferencial: - Test de hipótesis - Comparación de dos muestras independientes - ANAVA, comparación de más de dos muestras independientes. - Correlación y regresión
Introducción a la estadística
Esquema metodológico general del contraste de hipótesis. Adaptado de Wiens (1989).
Estudio observacional
Escaso o nulo control de factores ambientales
VALORACIÓN EMPÍRICA DE LA HIPÓTESIS
Estudio experimental
Control de factores ambientales
Selección de variables
Variable: propiedades o caracteres que pueden medirse, controlarse o manipularse y toman distinto valor de unidad en unidad de observación.
Cualitativas Según el tipo de medición Clasificación de variables Según la hipótesis propuesta
cuantitativas
Variables dependientes o respuestas
Variables independientes
DEPENDIENTES o RESPUESTA: Son las que el investigador mide para cuantificar el fenómeno estudiado, y comprobar si efectivamente son las variables independientes las responsables de dicho fenómeno. En investigación, nos interesan los cambios ocurridos en una variable “respuesta” o dependiente ante variaciones de una o más variables (o atributos) independientes. INDEPENDIENTES: Son las que el investigador considera responsables del fenómeno que se estudia (factores). En diseño experimental una variable (o atributo) independiente se denomina factor y a los distintos valores de esa variable se conocen como niveles del factor.
Según la escala de medición de la variable
Hay que tener en cuenta el tipo de escala de medición de la variable para poder ejecutar algún tipo de método estadístico
Escala nominal: clasificaciones cualitativas. Indica a cual categoría de la variable pertenece la observación, no se puede cuantificar ni ordenar. Por ejemplo color, tipo de dieta, etc. Variables dummy (sólo dos categorías: sexo, género). Escala ordinal: permite ordenar las unidades que medimos de menor a mayor pero no “cuanto más”. Por ejemplo el daño (nulo, pequeño, mediano, grande). Escala de intervalo: ordena los objetos o unidades pero también cuantifica y compara la diferencia entre ellos. Aquí el cero no es verdadero. Por ejemplo, la temperatura sea cero no significa que no hay temperatura sino que se llegó al punto de congelamiento. Escala de razón o proporción. Similar al de intervalo pero el cero es absoluto y verdadero. Por ejemplo, N° de hijos, el cero es la ausencia de hijos.
Distribución de una variable Primer paso en análisis estadístico Estadística descriptiva
Graficar los datos observados.
Los datos de los valores observados de una variable pueden representarse mediante un gráfico de distribución de frecuencias. a cada valor de la variable le corresponde el número de unidades observadas durante la observación o ensayo.
La representación gráfica de la distribución de frecuencias absolutas en una variable discreta se denomina diagrama de barras. En una variable continua se denomina histograma de frecuencias donde se agrupan los valores de la variable en clases y luego se cuantifica la cantidad de unidades que caen dentro de cada clase.
tudiantil
Versión Estudiantil Versión Estudiantil Versión Estud Ajuste: Normal(15.821,9.002) Versión 0.26 Estudiantil Versión Estudiantil Versión Estudiantil Ver tudiantil Versión Estudiantil Versión Estudiantil Versión Estud
Tabla de frecuencias Clase
LI
LS
MC
FA
FR
FAA
FRA
Ver
1
6.9
9.24
8.07
3
0.05
3
0.05
tudiantil Versión Estudiantil Versión Estudiantil Versión Estud 0.20 Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver
2
9.24
11.58
10.41
7
0.11
10
0.16
tudiantil
frecuencia relativa
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estud
3
11.58
13.91
12.75
13
0.2
23
0.36
Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver tudiantil0.13 Versión Estudiantil Versión Estudiantil Versión Estud
4
13.91
16.25
15.08
21
0.33
44
0.69
Versión Estudiantil
5
16.25
18.59
17.42
15
0.23
59
0.92
6
18.59
20.93
19.76
5
0.08
64
1
tudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Ver
Versión Estud
Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver 0.07 tudiantil Versión Estudiantil Versión Estudiantil Versión Estud
Gráfico de la distribución de la variable temperatura tudiantil Versión Estudiantil Versión Estudiantil Versión Estud media en la temporada 1998 (octubre a mayo) en Tafí Versión 0.00 Estudiantil Versión Estudiantil Versión Estudiantil Ver 8.07 9.79 11.5013.21 14.93 16.6418.36 20.07 21.79 del Valle (Tucumàn, programa infostat). tudiantil Versión Estudiantil Versión Estudiantil Versión Estud Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
di
il
Versión Estudiantil
temp. Med
ió
di
il
Versión Estudiantil
ió
di
il
ió
Ver
Ver d
tudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil 0.79 Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión E tudiantil
Versión Estudiantil
Versión Estudiantil
tudiantil0.59 Versión Estudiantil
frecuencia relativa
Versión Estudiantil tudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión E Versión E
Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión E 0.39 tudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil tudiantil
Versión Estudiantil
Versión 0.20 Estudiantil tudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión E Versión E
Versión Estudiantil
Versión Estudiantil
Versión E
di
il
ió
total
Versión Estudiantil di
il
ió
Versión Estudiantil di
il
ió
Clase
LI
LS
MC
FA
FR
FAA
FRA
1
0
15.17
7.58
50
0.78
50
0.78
2
15.17
30.33
22.75
5
0.08
55
0.86
3
30.33
45.5
37.92
3
0.05
58
0.91
4
45.5
60.67
53.08
2
0.03
60
0.94
5
60.67
75.83
68.25
2
0.03
62
0.97
6
75.83
91
83.42
2
0.03
64
1
Distribución de la abundancia de total de individuos inmaduros de N. oligospilus (Hymenoptera: Tenhredinidae) Versión E en la temporada 1998 en Tafí del Valle.
tudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión 0.00 Estudiantil Versión Estudiantil Versión Estudiantil Versión E -9.10 9.10 27.30 45.50 63.70 81.90 100.10 tudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Tabla de frecuencias
di
il
Qué significa probabilidad? Probabilidad es sinónimo de incertidumbre. Existe incertidumbre porque existe variación. No se puede comprender conceptos de Ecología sin apreciación de la variación en la naturaleza. Planta carnívora (Sarracenia purpurea) Planta captura insectos al caer en su base y toma nutrientes después de su descomposición. Hay insectos que visitan la planta pero pueden escapar. ¿Cómo estimar la probabilidad que un insecto visite la planta y resulte en una captura exitosa? Evento o suceso : proceso con inicio y fin:
visitar una planta
Universo: todos los resultados que produce el evento: escapar o captura. Espacio muestral (S): enumerar los resultados del evento Visitar= {(captura), (escape)} Ensayo: cada insecto que visita una planta Experimento: conjunto de ensayos
Experimento: se registraron 30 capturas de presas de 3000 visitas: Número de capturas = Cantidad de visitas
30
= 0.01
3000
P = cantidad de salidas cantidad de ensayos 0.0 < P < 1.0 Se debe decidir como tomar las muestras y cuantificar la frecuencia con la cual ocurren los eventos
Teoría de Probabilidad La probabilidad de un evento se define como el número (o frecuencia) de realización de este evento, relativo al número total posible de realización. P varia siempre entre 0 y 1. P(x) = número de posibilidades favorables a ocurrencia de x número total de posibilidades P(hombre) = Número de hombres en la sala Número total de persona en la sala
Dado un experimento aleatorio con un espacio muestral S y un suceso o evento A perteneciente a S. Se llama probabilidad de A, P(A), A un número que cumpla estas condiciones o Axiomas: a) La suma de probabilidad de salidas dentro de un espacio muestral es=1
P(S ) = 1 b) La probabilidad del evento A es siempre mayor o igual a 0 y menor a 1.
P ( A) ≥ 0 c) La probabilidad de un evento complejo es igual a la suma de las probabilidad des salidas de esos eventos.
P ( A ∪ B ) = P ( A) + P ( B ) siA ∩ B = 0
Histograma. Resultados de un año de muestreo. 52 observaciones semanales. X: nº insectos registrados/semana. Y: frecuencia, cantidad de ensayos con una salida particular
Patrones que presentan los histogramas Distribuciones a) y b) son simétricas. a) con un solo máximo o moda , unimodal (un solo valor más frecuente en la variable). b) bimodal, grupos heterogéneos y estudiar por separado. Distribuciones c y d asimétricas. c) Asimetría a la derecha o positiva, mayor frecuencia en valores bajos de la variable. d) asimétrica a la izquierda o negativa, mayor frecuencia en valores altos de la variable.
Transformación de variables para obtener simetría: Distribución de estados inmaduros de N. oligospilus es asimétrica. Se realizó transformación a log. ,
tudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil 0.79 Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión E tudiantil
Versión Estudiantil
Versión Estudiantil
tudiantil0.59 Versión Estudiantil
frecuencia relativa
Versión Estudiantil tudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil Versión Estudiantil
Versión Estudiantil
Versión E
Versión Estudiantil Versión E
Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión E 0.39 tudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil tudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión E
Versión Estudiantil
Versión 0.20 Estudiantil Versión Estudiantil Versión Estudiantil Versión E tudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión E
tudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión 0.00 Estudiantil Versión Estudiantil Versión Estudiantil Versión E -9.10 9.10 27.30 45.50 63.70 81.90 100.10 tudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil d
l
ó
total
Versión Estudiantil d
l
ó
Versión Estudiantil d
l
tudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil 0.33 Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión E tudiantil
Versión Estudiantil
Versión Estudiantil
tudiantil0.25 Versión Estudiantil
frecuencia relativa
Versión Estudiantil tudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil Versión Estudiantil
Versión Estudiantil
Versión E
Versión Estudiantil Versión E
Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión E 0.16 tudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil tudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión E
Versión Estudiantil
Versión 0.08 Estudiantil Versión Estudiantil Versión Estudiantil Versión E tudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión E
tudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión 0.00 Estudiantil Versión Estudiantil Versión Estudiantil Versión E -0.20 0.20 0.59 0.98 1.37 1.77 2.16 tudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil di
il
ió
log total
Versión Estudiantil di
il
ió
Versión Estudiantil di
il
ió
Versión E di
il
Ejemplo 2: distribución del log de individuos inmaduros de N. oligospilus (Hymenoptera: Tenhredinidae) en la temporada 1998 en Tafí del Valle.
ó
Versión E d
l
Medidas de posición y dispersión
Números que sintetizan conjuntos de valores de una variable y podemos comparar muestras.
Medidas de posición Media aritmética: promedio de los valores de una variable
x1 + x 2 + x3 + ......... x n i = n xi =∑ X = n i =1 n Mediana: una vez ordenados los valores de la variable en orden, se llama mediana a aquel valor (u observación) central que divide al grupo en dos subgrupos y representa el 50 % de los datos. Si n es par, el valor central o mediana será el promedio de las dos observaciones centrales Serie par ordenada: 3, 4, 4, 5, 6, 8, 8, 9
⎛n⎞ ⎛n ⎞ X ⎜ ⎟ + X ⎜ + 1⎟ 2 ⎝2 ⎠ Me = ~ x= ⎝ ⎠ 2
= 5.5
Moda o modo: es el valor que ocurre con mayor frecuencia en una serie de observaciones (picos), es el valor más común y puede no existir o no ser único.
Usar la media cuando: • Las observaciones está distribuidas simétricamente alrededor de un punto central. • Se desea la medida de tendencia central con más estabilidad. • Haya que calcular otros estimadores (desviación típica, coeficiente de variación) basados en la media.
Usar la mediana cuando: • Se desea conocer el punto medio exacto de la distribución correspondiente al 50 % de las observaciones. • Existen valores extremos que afectan a la media (la media puede cambiar pero la mediana no). Usar la moda cuando: • Todo lo que se desea obtener es una medida de tendencia central rápida y aproximada. • La medida de tendencia central fuese el valor más típico.
Relación entre la media, mediana y moda: En las distribuciones de frecuencia que siguen la ley de la curva normal en forma de campana: X
= Me = M0
2) Medidas de dispersión
Una medida de posición debe ir acompañada de una de dispersión que mida el grado de variabilidad en los datos. Rango: diferencia entre valores mínimo y máximo de la muestra Amplitud intercuartil no se relaciona con una medida de tendencia central pero se analiza el 50% medio de la distribución dentro de la muestra (caja del box plot), el 25% de las observaciones en el extremo inferior y el 25% en el extremo superior son excluidos y forman los bigotes de la caja del box plot . Se calculan los Q1 y Q3. Q2 es la mediana. Se pueden observar outliers o valores extremos
Box plot. La caja incluye 50% de los datos desde el percentil 25 hasta el 75%. Linea vertical desde el percentil 10 al percentil 90. Permite evaluar simetría de datos y valores outliers o extremos.
tudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estud
Versión Estudiantil
Ver
tudiantil18.23 Versión Estudiantil Versión Estudiantil Versión Estud Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver
temp. Med
tudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estud
Versión Estudiantil
Ver
tudiantil14.93 Versión Estudiantil Versión Estudiantil Versión Estud Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver tudiantil Versión Estudiantil Versión Estudiantil
Versión Estud
Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver tudiantil11.63 Versión Estudiantil Versión Estudiantil Versión Estud Versión Estudiantil Versión Estudiantil
Versión Estudiantil
tudiantil Versión Estudiantil Versión Estudiantil
Ver
Versión Estud
Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver tudiantil 8.33 Versión Estudiantil Versión Estudiantil Versión Estud Versión Estudiantil Versión Estudiantil di
il V
ió E
di
il V
ió E
Versión Estudiantil di
il
V
ió E
Ver d
Temperatura media en T Valle en 1998
tudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estud
Versión Estudiantil
Ver
tudiantil16.28 Versión Estudiantil Versión Estudiantil Versión Estud Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver tudiantil
Versión Estudiantil
Versión Estudiantil
HUEVOS
tudiantil Versión Estudiantil Versión Estudiantil Versión Estud 21.53 Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver
tudiantil Versión Estudiantil Versión Estudiantil Versión Estud 22.05 Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver
Versión Estudiantil
Versión Estudiantil
Versión Estud
Versión Estudiantil
Ver
tudiantil10.50 Versión Estudiantil Versión Estudiantil Versión Estud Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver tudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estud
Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver tudiantil 4.73 Versión Estudiantil Versión Estudiantil Versión Estud Versión Estudiantil tudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil
tudiantil -1.05 Versión Estudiantil Versión Estudiantil di
il
V
ió E
il
V
ió E
il
Ver
Versión Estud
Versión Estudiantil di
Ver
Versión Estud
Versión Estudiantil
Versión Estudiantil
Versión Estudiantil di
Versión Estudiantil
Versión Estudiantil
V
ió E
Ver d
Cantidad de huevos de N. oligospilus en T valle (1998). Distribución asimétrica.
Varianza y desviación estándar La búsqueda de una medida de variabilidad, que tome en cuenta todos los valores observados y su ubicación con respecto a la medial conduce a calcular la varianza poblacional (σ2 ) y la varianza muestral (S2). n n σ2 = ∑ (xi – μ)2 = S.C. S2 = ∑ (xi –ֿx)2 = S.C. i=1 n G.L. i=1 n - 1 G.L. Donde SC es la suma de cuadrados y GL son los grados de libertad Desvío estándar es la raiz cuadrada de la varianza
tres distribuciones con el mismo tamaño de muestra (misma cantidad de datos) y el mismo valor de media presenta un patrón de dispersión diferente y eso influye en el tipo de análisis estadístico. Un análisis estadístico paramétrico necesita que la distribución sea simétrica y con una baja dispersión de los datos.
P ( A) ≥ 0
Desviación estándar mide la variabilidad de una medida individual con respecto a la media. Error estándar es igual a desviación estándar dividida por √n. Siempre error estándar es menor a desvación estándar.
La distribución de probabilidad de una variable aleatoria se describe por un modelo matemático. • Distribución de probabilidad de variable discreta: funciones de cuantía • Distribución de probabilidad de variable contínua: función de densidad de probabilidad Funciones de cuantía: Distribución binomial (variable aleatoria con dos estados, dicotómico, dummy, por ej. Presencia o ausencia, sano o enfermo). Distribución Poisson: número de individuos registrados en cada unidad muestral. Funciones de densidad: Distribución normal Distribución exponencial Distribución log normal
Variables aleatorias discretas Ensayo Bernoulli: una especie de planta rara (A). La ocurrencia de A es una variable aleatoria Bernouli que toma dos posibles valores: X=1 (A prsente), X=0 (A ausente) La probabilidad que A este presente, P(X=1)=p=0.02. Probabilidad que A esté ausente en alguna ciudad de la región=(1-p)=0.98 Cada evento (ocurrencia en 200 ciudades por ejemplo), es un ensayo Bernoulli independiente de otro. Y probabilidad de ocurrencia en dos ciudades es: 0.02 x 0.02 =0.0004 Distribución binomial Muchos ensayos bernoulli = variable aleatoria binomial X~Bin (n,p) La probabilidad de obtener X salidas exitosas (X=1) en n ensayos bernoulli independientes y donde la p de un éxito es =p
n! p X (1 − p) n− X P( X ) = X!(n − X )!
Función de distribución probabilidad, porque es una función (regla) que provee un valor numérico (P) de cada salida en el espacio muestral
Distribución binomial Distribución simétrica. Propiedad especial cuando p=(1-p)=0.5
Distribución asimétrica cuando p=0.8
La forma exacta de la distribución binomial depdende de n y p
P ( x) =
λX X!
e −λ
Variables aleatorias Poisson •Las semillas de orquideas están aleatoriamente distribuidas en una región y se cuentan la cantidad de semillas en cuadrículas de muestreo de tamaño fijo. •Contar la cantidad de aves observadas en un período de tiempo fijo. Variable aleatoria Poisson X, es la cantidad de ocurrencias de un evento registrado en una muestra de intervalo de tiempo o área fijo. Se asume que las ocurrencias de cada evento es independiente de otro. X ~Poisson ( λ ) El parámetro λ es el valor promedio de ocurrencias de un evento en cada intervalo. Si λ es = 0.75 4 0 . 75 P (4 semillas ) = e −0.75 = 0.0062 λ X −λ 4! P ( x) = e
X!
0.75 0 −0.75 P (0 semillas ) = e = 0.4724 0!
Familias de curvas Poisson, Cada histograma representa una distribución probabilidad con tasa diferente de parámetro λ. Cuanto mayor es λ la distribución tiende a ser simétrica.
Distribución de variables continuas Longitud de alas, concentraciones de pesticidas en tejidos de peces pueden tomar cualquier valor. En variables continuas no se puede identificar todos los posibles eventos o salidas porque hay infinitos valores dentro de un intervalo (0-1, por ejemplo). No se puede obtener una probabilidad para un valor particular. Distribución Normal
Histograma de 50 medidas de long de espina tibial en una muestra de arañas (Linyphiidae). Las observaciones agrupadas en “bins” (intervalos de 0.026 mm). •Distribución simétrica •Base teórica para regresión lineal y ANAVA.
Función de distribución de probabilidad de la distribución normal X~N(μ, σ)
1 f ( x) = e σ 2π
−1⎛ x − μ ⎞ ⎜ ⎟ 2⎝ σ ⎠
2
•Donde μ(promedio) y σ (desvío estandar) son parámetros de la distribución normal. Hay tantas distribuciones normales como valores de μ y σ. •Distribución Normal estandar (Z): μ=0 y σ=1
Distribuciones log normal y exponencial
Distribución normal La distribución normal es simétrica alrededor de su parámetro de posición. El área bajo la función (μ – σ) y (μ + σ) es aprox. = 66% del área total; el área entre μ – 2σ y μ + 2σ equivale aproximadamente al 95%. Existen tantas distribuciones normales como medias (μ) y varianzas paramétricas (σ2). Pero Se puede representar en una única sola llamada distribución normal estandarizada. La distribución normal estándar (Z) presenta los parámetros con media = 0 y su varianza = 1, N(0,1). Se estandariza la variable x a una nueva variable z ((x– μ)/ σ). Implica restar a valor de variable la media y esa diferencia dividirla en el desvío estándar.
Estimación puntual de parámetros (μ, σ, por ejemplo)
El óptimo estimador de un parámetro es el que no presenta sesgo y es eficiente. Ante dos estimadores insesgados del mismo parámetro, se preferirá aquel que tenga mayor eficiencia, es decir, que tenga el mínimo error en términos de varianza.
Población
Muestra
Las muestras seleccionadas deben ser representativas de la población que han sido extraídas para inferir acerca de la misma. A partir de los datos de muestra se obtienen estimadores: media, desviación típica (estadísticos) de los parámetros μ y σ, valores que caracterizan a la población. Insesgabilidad: un estimador es insesgado si la esperanza del estimador es igual al parámetro que se estima. La media aritmética es un estimador puntual insesgado pero la varianza muestral no y por eso el cálculo de varianza muestral es ≠ de varianza poblacional. Consistencia: Un estimador lo es si su valor se aproxima al valor del parámetro cuando el tamaño de la muestra crece. La media lo es pero la mediana no (sólo se calcula con valores centrales). Eficiencia: entre dos estimadores puntuales será más eficiente el que tenga menor varianza. Es la precisión que alcanzan los estadísticos es estimar parámetro. Más eficiente cuanto ménos varíe de muestra en muestra de la misma población.
Estimación de parámetro por intervalo de confianza Cada estimación puntual tiene asociado un error por la aleatoriedad de los valores recolectados. Dos muestras de distinto tamaño pueden tener igual parámetro poblacional pero diferente error. Surge la estimación por intervalo de confianza (IC). Variable aleatoria con distribución normal
La media muestral es una variable aleatoria con distribución normal
Estandarización de la variable media muestral. Z (N(0,1))
X ≈ N (μ ,σ )
M x ≈ N (μ ,σ / n )
( X − μ) Z= σ/ n
Intervalo de Confianza Si se coloca como error un 0.05 o 5% implica que el área bajo la curva de acierto debe ser de 95%. Recordar que dist Z es simétrica y errores /2. Z=-1.96 es valor de z que acumula 0.025 de prob a la izquierda. Z=+1.96 es el valor de z que acumula 0.975 de prob a la derecha.
P (−1.96