¿Qué es la Estadística

En el gráfico inferior se muestra el método científico en Ecología. No confundir ... Antes de un análisis estadístico que incluya tests de hipótesis se requiere.
1MB Größe 11 Downloads 77 vistas
Estadística y Ecología Autor: Alderete Mariela del Carmen Cátedra: Ecología General, UNT, Tucumán ¿Qué es la Estadística? Es una ciencia que constantemente proporciona métodos y técnicas para mejorar la calidad de las investigaciones y ayuda a la toma de decisiones acerca de problemas científicos específicos. En el gráfico inferior se muestra el método científico en Ecología. No confundir el hipótesis estadística con ecológica. En Ecología la obtención de datos empíricos implica el realizar muestreos de campo o experimentos, como muestra la Figura 1. La aceptación final de nuestra hipótesis implicará que nuestros resultados formarán parte de los antecedentes que otras personas habrán de consultar. El rechazo de la hipótesis, siempre que el diseño experimental, la toma y análisis de datos sean correctos, implica que hay que buscar una nueva hipótesis y valorarla con un nuevo experimento o muestreo. La estadística recién aparece en la etapa de análisis de los datos.

Figura de las fases del método científico en Ecología.

SELECCIÓN DE VARIABLES Los elementos que componen una población se denominan unidades estadísticas o unidades de observación. Tales unidades poseen propiedades o caracteres que pueden medirse, controlarse o manipularse y al variar de unidad en unidad o tomar distintos valores se denomina variable. Las variables se pueden clasificar principalmente de dos formas: Atendiendo al tipo de medida que se les puede aplicar:

Atendiendo al papel que cumplen en la hipótesis propuesta: DEPENDIENTES o RESPUESTA: mediciones de interés para el investigador. Nos interesan los cambios ocurridos en una variable “respuesta” o dependiente ante variaciones de una o más variables (o atributos) independientes. INDEPENDIENTES: Son las que el investigador considera responsables del fenómeno que se estudia. En diseño experimental una variable (o atributo) independiente se denomina factor y a los distintos valores de esa variable se conocen como niveles del factor. Existe un factor adicional que determina la cantidad de información que puede proveer un carácter o variable y es, la “escala de medición” que se usa para medir tal carácter o variable: a) Escala nominal: clasificaciones cualitativas. Sólo se indica a cual categoría de la variable pertenece la observación, no se puede cuantificar ni ordenar. Por ejemplo color, tipo de dieta, etc. Variables dummy (sólo dos categorías: por ejemplo, sexo, género). b) Escala ordinal: permite ordenar las unidades que medimos de menor a mayor pero no “cuanto más”. Por ejemplo el daño (bulo, pequeño, mediano, grande). c) Escala de intervalo: ordena los objetos o unidades pero también cuantifica y compara la diferencia entre ellos. Aquí el cero no es verdadero. Es decir, que la temperatura valga cero no significa que no hay temperatura sino que se llegó al punto de congelamiento. d) Escala de razón o proporción. Similar al de intervalo pero el cero es absoluto y verdadero. Por ejemplo, N° de hijos, el cero es la ausencia de hijos.

Hay que tener en cuenta el tipo de escala de medición de la variable para poder ejecutar algún tipo de método estadístico. Antes de un análisis estadístico que incluya tests de hipótesis se requiere un análisis exploratorio de los conjuntos de datos de variables medidas: ƒ

Representaciones gráficas. Distribución de frecuencias, diagrama de barras.

ƒ

Medidas de tendencia central: media, mediana, moda.

ƒ

Medidas de dispersión: rango, varianza, desvío estándar, error estándar.

.

Aplicación: Datos correspondientes a una plaga de sauces: Nematus oligospilus (Hymenoptera; Tenthredinidae), avispa sierra del sauce en el valle de Tafí. La tablas y gráficos inferiores muestran la distribución de la variable temperatura media (variable cuantitativa continua) durante la temporada 1998 en Tafí del Valle y la distribución de la abundancia de huevos de la avispa sierra recolectados en dicha temporada (variable cuantitativa discreta). Descripción de datos en programa excel e infostat (archivo muestra nematus clase 1).

a) b) Figuras de Nematus oligospilus en estado adulto (a) y estado larval (b).

Ejemplo 1: distribución de la variable temperatura media (temporada 1998) tudiantil

Versión Estudiantil Versión Estudiantil Versión Estud Ajuste: Normal(15.821,9.002) Versión Estudiantil Versión Estudiantil Ver

Versión 0.26 Estudiantil

tudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estud

Versión Estudiantil

Ver

frecuencia relativa

tudiantil Versión Estudiantil Versión Estudiantil Versión Estud 0.20 Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver tudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estud

Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver tudiantil0.13 Versión Estudiantil Versión Estudiantil Versión Estud Versión Estudiantil tudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Ver

Versión Estud

Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver 0.07 tudiantil Versión Estudiantil Versión Estudiantil Versión Estud Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Ver

tudiantil Versión Estudiantil Versión Estudiantil Versión Estud Versión 0.00 Estudiantil Versión Estudiantil Versión Estudiantil Ver 8.07 9.79 11.5013.21 14.93 16.6418.36 20.07 21.79 tudiantil Versión Estudiantil Versión Estudiantil Versión Estud Versión Estudiantil

temp. Med

Versión Estudiantil

Versión Estudiantil

Ver

di il di il ió di il ió d Gráfico deiótemperatura media de la temporada 1998 (octubre a mayo) en Tafí del Valle. Gráfico extraído del programa infostat.

Medidas resumen Variable n Media D.E. Var(n-1) E.E. CV Mín Máx median Q1 Q3 Temp M 32 15.82 3.00 9.00 0.58 18.9 68.932 20.93 16.04 13.43 18.29

Asimet -0.26

Kurtosis -0.62

Resultados de análisis de temperatura media en Tafí del Valle (temporada 1998) pero en programa Excel.

8 7 6 5 4 3 2 1 0

m 22 ay or . ..

y

18 20

14 16

8 10 12

120.00% 100.00% 80.00% 60.00% 40.00% 20.00% 0.00%

4

Frecuencia

Histograma de temperatura media

Clase

Frecuencia % acumulado

Clase 4 8 10 12 14 16 18 20 22 y mayor...

% Frecuencia acumulado 0 0.00% 0 0.00% 1 3.13% 3 12.50% 6 31.25% 6 50.00% 7 71.88% 6 90.63% 3 100.00% 0 100.00%

Medidas de posición y dispersión Columna1 Media Error típico Mediana Moda Desviación estándar Varianza de la muestra

15.8214286 0.53037857 16.0357143 11.7857143 3.00027429 9.00164582 0.62355558 Curtosis Coeficiente de asimetría 0.25682788 Rango 12 Mínimo 8.92857143 Máximo 20.9285714 Suma 506.285714 Cuenta 32 Nivel de confianza(95.0%) 1.08171423

Ejemplo 2: distribución de la abundancia de huevos de N. oligospilus en la temporada 1998 en Tafí del Valle. Resultados inferiores corresponden a salida en programa infostat Medidas resumen Variable n HUEVOS 32

Méd D.E. Var(n-1)E.E.CV Mín Máx Median 2.69 5.57 31.06 0.99 207.37 0.00 21.00 0.00

Q1 0.00

Q3 1.00

Asimetr Kurtosis 2.09 3.46

tudiantil Versión Estudiantil Versión Estudiantil Versión Estud 0.85 Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver tudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

tudiantil0.64 Versión Estudiantil

frecuencia relativa

Versión Estudiantil tudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estud

Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Ver

Versión Estud Ver

Versión Estud

Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver 0.43 tudiantil Versión Estudiantil Versión Estudiantil Versión Estud Versión Estudiantil tudiantil

Versión 0.21 Estudiantil tudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Ver

Versión Estud Ver

Versión Estud

Versión Estudiantil

Ver

tudiantil Versión Estudiantil Versión Estudiantil Versión Estud Versión 0.00 Estudiantil Versión Estudiantil Versión Estudiantil Ver -1.50 1.50 4.50 7.50 10.50 13.5016.50 19.50 22.50 tudiantil Versión Estudiantil Versión Estudiantil Versión Estud Versión Estudiantil

HUEVOS

Versión Estudiantil

Versión Estudiantil

Ver

di il di il ió di il ió Gráficos y ióresultados inferiores corresponden al dprograma Excel.

Histograma de huevos de N. oligospilus

Frecuencia

25

120.00% 100.00% 80.00% 60.00% 40.00% 20.00% 0.00%

20 15 10 5

2 ay 4 or .. . y

m

20

16

12

8

4

0

0

Clase

Clase 0 4 8 12 16 20 24 y mayor...

% Frecuencia acumulado 22 68.75% 4 81.25% 0 81.25% 3 90.63% 2 96.88% 0 96.88% 1 100.00% 0 100.00%

Columna1 Media

2.6875

Frecuencia % acumulado

Error típico Mediana Moda Desviación estándar Varianza de la muestra Curtosis Coeficiente de asimetría Rango Mínimo Máximo Suma Cuenta Nivel de confianza(95.0%)

0.9852107 0 0 5.57319333 31.0604839 3.45746834 2.08942362 21 0 21 86 32 2.00935046

La Figura inferior presenta de forma estilizada, algunos de los patrones que más frecuentemente presentan los histogramas. Las distribuciones (a) y (b) son simétricas alrededor de un valor central (media). El caso (a) presenta un único máximo – se dice que es una distribución unimodal (un solo valor más frecuente el el cjto de valores observados de la variable). La distribución (b) tiene dos máximos o modas – uno a cada lado del centro de simetría – Este patrón aparece cuando los datos responden a una mezcla de dos grupos heterogéneos y, siempre que sea posible, conviene estudiar ambos grupos por separado. Las formas que aparecen en (c) y (d) se denominan asimétrica a la derecha y a la izquierda, respectivamente, e indican la presencia de un número significativo de valores muy altos (c) y bajos (d) susceptibles de distorsionar los resultados de análisis estadísticos posteriores. En estos dos últimos casos, los coeficientes de asimetría son significativamente distintos de cero - positivo en el caso (c) y negativo en el caso (d).

Los gráficos de distribución de frecuencia de temperatura y abundancia de huevos registradas tienen distinta distribución. La de temperatura es casi simétrica mientras

que la de abundancia de huevos es asimétrica a la derecha. Hay muchas unidades de observación con cero huevos. tudiantil Versión Estudiantil Versión Estudiantil Versión Estud 21.53 Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver tudiantil tudiantil

Versión Estudiantil Versión Estudiantil Versión Estud 22.02 n= 32 r= 0.988 (temp. Med) Versión Estudiantil Versión Estudiantil Ver

Versión Estudiantil Versión Estudiantil Versión Estud Versión Estudiantil

Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver tudiantil

Cuantiles observados(temp. Med)

Versión Estudiantil

Versión Estudiantil

Versión Estud

tudiantil18.23 Versión Estudiantil Versión Estudiantil Versión Estud Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver Versión Estudiantil Versión Estudiantil Versión Estud Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver tudiantil18.75

temp. Med

tudiantil

Versión Estudiantil Versión Estudiantil Versión Estud Versión Estudiantil

Versión Estudiantil Versión Estudiantil Versión Estudiantil

Ver tudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Ver

Versión Estud

Estudiantil Versión Estudiantil Versión Estudiantil Ver tudiantil14.93 Versión Estudiantil Versión Estudiantil Versión Estud Versión 15.48 tudiantil Versión Estudiantil Versión Estudiantil Versión Estud Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver

tudiantil

Versión Estudiantil Versión Estudiantil Versión Estud

Versión Estudiantil

Versión Estudiantil

tudiantil

Versión Estudiantil

tudiantil

Versión Estudiantil

Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver Versión 12.20 Estudiantil tudiantil11.63 Versión Estudiantil Versión Estudiantil Versión Estud

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Ver

Versión Estud

Versión Estudiantil

Versión Estudiantil

Ver

Versión Estud

Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver Versión Estudiantil Versión Estudiantil Versión Estud tudiantil Versión Estudiantil Versión Estudiantil Versión Estud

tudiantil

8.93 Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver 8.93 12.20 15.48 18.75 22.02 tudiantil 8.33 Versión Estudiantil Versión Estudiantil Versión Estud tudiantil Versión Estudiantil Versión Estudiantil Versión Estud Cuantiles de una Normal(15.821,9.0016) Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver

a)di il V ió E di il V ió E di il V ió E d b) Gráficos para observar la distribución de la variable temperatura media (temporada 1998 en Tafí del Valle). A) Diagrama de caja o box plot donde se puede observar la posición de las medidas centrales y el tipo de distribución. b) gráfico QQ plot para observar si los datos se acercan a la distribución normal. di

il

V

ió E

di

il

V

ió E

di

il

V

ió E

d

tudiantil Versión Estudiantil Versión Estudiantil 52 Versión Estud 21.00 n= 32 r= 0.741 (HUEVOS) Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver

tudiantil

tudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estud

Versión Estudiantil

Ver

Cuantiles observados(HUEVOS)

tudiantil Versión Estudiantil Versión Estudiantil Versión Estud 22.05 Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver

Versión Estudiantil

Versión Estudiantil

tudiantil16.28 Versión Estudiantil Versión Estudiantil Versión Estud Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver

tudiantil13.54 Versión Estudiantil

tudiantil

tudiantil

Versión Estudiantil

HUEVOS

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estud

Versión Estudiantil

Ver

Versión Estudiantil

tudiantil

tudiantil

Versión Estud

tudiantil

Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver tudiantil 4.73 Versión Estudiantil Versión Estudiantil Versión Estud

tudiantil

Versión Estudiantil tudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

di

il

V

ió E

il

V

ió E

il

Ver

Versión Estud

Versión Estudiantil di

Ver

Versión Estud

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil di

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

tudiantil -1.05 Versión Estudiantil Versión Estudiantil

Versión Estudiantil

V

ió E

Ver d

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estud

Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Ver

Versión Estud Ver

Versión Estud

Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver 6.08 Versión Estudiantil Versión Estudiantil Versión Estud

tudiantil10.50 Versión Estudiantil Versión Estudiantil Versión Estud Versión Estudiantil Versión Estudiantil Versión Estudiantil Ver Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión -1.37 Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Ver

Versión Estud Ver

Versión Estud

Versión Estudiantil

Ver

tudiantil

Versión Estudiantil Versión Estudiantil Versión Estud Versión -8.83 Estudiantil Versión Estudiantil Versión Estudiantil Ver -8.83 -1.37 6.08 13.54 21.00 tudiantil Versión Estudiantil Versión Estudiantil Versión Estud

Cuantiles de una Normal(2.6875,31.06)

Versión Estudiantil di

il

V

ió E

Versión Estudiantil di

il

V

ió E

Versión Estudiantil di

il

V

ió E

Ver d

a) b) Gráficos para observar la distribución de la variable abundancia de huevos (temporada 1998 en Tafí del Valle). a) Diagrama de caja o box plot donde se puede observar la posición de las medidas centrales y el tipo de distribución. b) gráfico QQ plot para observar si los datos se acercan a la distribución normal.

Distribución de una variable en forma de caja o box plot. La caja contiene el 50% de los datos recogidos y cada bigote contiene el 25 % de los datos. Fuera de los bigotes se presentan los datos extremos o outliers o periféricos lejanos. Este gráfico permite observar los valores extremos y la posición de la mediana (valor centrado en caja implica distribución simétrica). Medidas de posición: Media, Moda, Mediana Después de recogidos los datos, agrupados en tablas o series es necesario sustituir toda la serie estadística por una medida o valor representativo del conjunto al que sustituye. Estas magnitudes son: el valor central y la dispersión de los elementos de la serie respecto del valor central. Las medidas de valor central se denominan medidas de posición. Media aritmética: se simboliza como ⎯X y se define como el promedio aritmético de las observaciones, es decir la suma de todos los valores de las observaciones dividida en el número total de observaciones. n ⎯X= x1 + x2 + x3+......xn = ∑i=n xi n n

X =

x1 + x2 + x3 + .........xn i = n xi =∑ n i =1 n

donde, x son los valores de las observaciones y n el número total de las mismas. Si los valores están dados en forma de distribución de frecuencias: k ⎯X = x1f1 + x2f2 + x3f3 + .....+ xkfk = ∑i=1xifi n n donde k es el número de valores distintos que toma la variable. Mediana: una vez ordenados los valores de la variable en sentido creciente o decreciente, se llama mediana a aquel valor (u observación) central que divide al grupo en dos subgrupos y representa el 50 % de los datos. Si n es par, el valor central o mediana será el promedio de las dos observaciones centrales.

Serie par ordenada: 3, 4, 4, 5, 6, 8, 8, 9 ⎛ n⎞ ⎛n ⎞ X ⎜ ⎟ + X ⎜ + 1⎟ 2 ⎝ 2 ⎠ = 5.5 Me = ~ x= ⎝ ⎠ 2 Ejemplo: serie impar: 3, 4, 4, 5, 6, 8, 8, 9, 10 ⎛ n + 1⎞ Me = ~ x = X⎜ ⎟ ⎝ 2 ⎠ N(impar)=9 la Md= 6 Moda o modo: es el valor que ocurre con mayor frecuencia en una serie de observaciones (picos), es el valor más común y puede no existir o no ser único.

Reglas para el uso de las medidas de posición: Usar la media cuando: 1) Las observaciones está distribuidas simétricamente alrededor de un punto central. 2) Se desea la medida de tendencia central con más estabilidad. 3) Haya que calcular otros estimadores (desviación típica, coeficiente de variación) basados en la media. Usar la mediana cuando: 1) Se desea conocer el punto medio exacto de la distribución correspondiente al 50 % de las observaciones. 2) Existen valores extremos que afectan a la media (la media puede cambiar pero la mediana no). Usar la moda cuando: 1) Todo lo que se desea obtener es una medida de tendencia central rápida y aproximada.

2) La medida de tendencia central fuese el valor más típico. Relación entre la media, mediana y moda: En las distribuciones de frecuencia que siguen la ley de la curva normal en forma de campana: ⎯X = Md( ~ x ) = Mo 2) Medidas de dispersión

Varianza y desviación estándar La búsqueda de una medida de variabilidad, que tome en cuenta todos los valores observados y una medida de tendencia central conduce a calcular la varianza poblacional (σ2 ) y la varianza muestral (S2). n n σ2 = ∑ (xi – μ)2 = S.C. S2 = ∑ (xi –ֿx)2 = S.C. i=1 n G.L. i=1 n - 1 G.L. donde S. C. se denomina suma de cuadrados y G.L. son los grados de libertad El gráfico inferior muestra como tres distribuciones con el mismo tamaño de muestra (misma cantidad de datos) y el mismo valor de media presenta un patrón de dispersión diferente y eso influye en el tipo de análisis estadístico. Un análisis estadístico paramétrico necesita que la distribución sea simétrica y con una baja dispersión de los datos.

Distribución normal La distribución normal es simétrica en torno a su parámetro de posición ( x = μ ) y el área bajo la función (μ – σ) y (μ + σ) es aprox. = 66% del área total; el área entre μ – 2σ y μ + 2σ equivale aproximadamente al 95%. Todas las distribuciones normales pueden representarse en una única sola llamada distribución normal estandarizada. La distribución normal estándar (Z) presenta los parámetros con media = 0 y su varianza = 1. Se estandariza la variable x a una nueva variable z ((x– μ)/ σ). Implica restar a la variable su media y esa diferencia dividirla en el desvío estándar.

Estimación por intervalo de confianza Z=

( X − μ) σ/ n

P (−1.96