La Estadística, conceptos y métodos básicos aplicados - Amazon Web ...

Varianza y desviación estándar. La búsqueda de una medida de variabilidad, que tome en cuenta todos los valores observados y una medida de tendencia ...
2MB Größe 9 Downloads 66 vistas
La Estadística, conceptos y métodos básicos aplicados La estadística es una ciencia que constantemente proporciona métodos y técnicas para mejorar la calidad de las observaciones científicas y ayuda a la toma de decisiones en problemas científicos específicos.

VARIABLES Los elementos que componen una población se denominan unidades estadísticas o unidades de observación. Tales unidades poseen propiedades o caracteres que pueden medirse, controlarse o manipularse y al variar de unidad en unidad o tomar distintos valores se denomina variable. Por otra parte, una vez hemos decidido cuál es la mejor manera de abordar nuestro problema ecológico (experimento o muestreo de campo), hemos de concretar qué variables hemos de considerar para responder más adecuadamente a nuestra pregunta. Las variables se pueden clasificar principalmente de dos formas: Atendiendo al tipo de medida que se les puede aplicar:

Atendiendo al papel que cumplen en la hipótesis propuesta: DEPENDIENTES o RESPUESTA: Son las que el investigador mide para cuantificar el fenómeno estudiado, y comprobar si efectivamente son las variables independientes las responsables de dicho fenómeno. En investigación, nos interesan los cambios ocurridos en una variable “respuesta” o dependiente ante variaciones de una o más variables (o atributos) independientes. INDEPENDIENTES: Son las que el investigador considera responsables del fenómeno que se estudia (factores). En diseño experimental una variable (o atributo) independiente se denomina factor y a los distintos valores de esa variable se conocen como niveles del factor. Ejemplos 1) suponer que se quiere comparar cuatro dietas para estudiar su efecto sobre el peso de individuos de la especie NN. Entonces, el peso de los individuos será la variable respuesta que “responderá” ante las diferentes composiciones alimentarías (4 niveles) del factor dieta. 2) Hipótesis ecológica: la vegetación reduce la desecación del suelo, y por tanto en zonas con vegetación habrá más humedad que en zonas sin ella. Variables: presencia/ausencia de vegetación (independiente, cualitativa con dos estados); humedad del suelo (dependiente, cuantitativa).

3) Hipótesis ecológica: la mayor disponibilidad de agua en el suelo hace que la vegetación crezca más, por lo tanto distintas cantidades de agua añadidas al suelo en forma de riego producirán distinta respuesta de crecimiento. Variables: niveles de riego (p.e. 0.5 l/día, 2 l./día y 5 l/día, independiente, cualitativa con tres estados); incremento en altura (dependiente, cuantitativa). Se debe destacar que las variables de tipo discreto asumen ciertos valores en un rango dado de la variable (número de crías por hembra); en tanto que una variable contínua puede asumir infinitos valores en un rango dado (diámetro total cefálico es de 3,5 cm). Existe un factor adicional que determina la cantidad de información que puede proveer un carácter y es la “escala de medición” que se usa para medir tal carácter o variable: a) Escala nominal: clasificaciones cualitativas. Sólo se indica a cual categoría de la variable pertenece la observación, no se puede cuantificar ni ordenar. Por ejemplo color, tipo de dieta, etc. Variables dummy (sólo dos categorías: por ejemplo, sexo, género). b) Escala ordinal: permite ordenar las unidades que medimos de menor a mayor pero no “cuanto más”. Por ejemplo el daño (bulo, pequeño, mediano, grande). c) Escala de intervalo: ordena los objetos o unidades pero también cuantifica y compara la diferencia entre ellos. Aquí el cero no es verdadero. Es decir, que la temperatura valga cero no significa que no hay temperatura sino que se llegó al punto de congelamiento. d) Escala de razón o proporción. Similar al de intervalo pero el cero es absoluto y verdadero. Por ejemplo, N° de hijos, el cero es la ausencia de hijos. Hay que tener en cuenta el tipo de escala de medición de la variable para poder ejecutar algún tipo de método estadístico. Todos los siguientes análisis de datos fueron realizados en el programa Infostat. Di Rienzo J.A., Casanoves F., Balzarini M.G., Gonzalez L., Tablada M., Robledo C.W. (2008). InfoStat, versión 2008, Grupo InfoStat, FCA, Universidad Nacional de Córdoba, Argentina. El software se encuentra en la página web www.infostat.com.ar

Lo primero que hay que hacer al tener un conjunto de datos de una variable medida es realizar un análisis exploratorio de los mismos. Dicho análisis cuenta con representaciones gráficas, medidas de tendencia central y medidas de dispersión. A continuación se presenta una tabla sintetizando el análisis exploratorio.

Distribución de una variable Los datos de los valores observados de una variable pueden representarse mediante un gráfico de distribución de frecuencias. Que se obtiene haciendo corresponder a cada valor de la variable el número de unidades observadas. La construcción de este tipo de gráfico es útil ya que permite reducir la cantidad de datos sin perder información. La representación gráfica de la distribución de frecuencias absolutas en una variable discreta se denomina diagrama de barras; mientras que en una variable continua se denomina histograma de frecuencias. En este último caso se debe agrupar los valores de la variable en clases y luego cuantificar la cantidad de unidades que caen dentro de cada clase. Uniendo las marcas de clase (punto medio) y proyectadas en cada barra del histograma se obtiene un polígono de frecuencias. Variable cuantitativa discreta: n° de integrantes en una familia

Ejemplo principal: Población de Nematus oligospilus (Hymenoptera: Tenthredinidae) en el Valle de Tafí Datos correspondientes a una plaga de sauces: Nematus oligospilus (Hymenoptera; Tenthredinidae), avispa sierra del sauce en el valle de Tafí. Ejemplo 1 muestra la distribución de la variable temperatura media, histograma (variable cuantitativa continua) durante la temporada 1998 en Tafí del Valle . Mientras que el ejemplo 2 muestra la distribución de la abundancia de huevos de la avispa sierra recolectados en dicha temporada, histograma (variable cuantitativa discreta).

Ejemplo 1: distribución de la variable temperatura media durante los muestreos de N. oligospilus en el valle de Tafí , temporada 1998. Versión Estudiantil

Versión Estudiantil

Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Ajuste:Estudiantil Normal(15.821,9.002) Versión Versión Estudiantil Versión Estudiantil

Versión 0.26 Estudiantil

Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

frecuencia relativa

Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil 0.20 Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil0.13 Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil 0.07 Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión 0.00 Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil 8.07 9.79 11.5013.21 14.93 16.6418.36 20.07 21.79 Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

temp. Med

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Ejemplo 2: distribución de la abundancia de huevos de N. oligospilus en la temporada 1998 en Tafí del Valle. Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil 0.85 Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil0.64 Versión Estudiantil Versión Estudiantil

frecuencia relativa

Versión Estudiantil

Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil 0.43 Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Versión 0.21 Estudiantil

Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión 0.00 Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil -1.50 1.50 4.50 7.50 10.50 13.5016.50 19.50 22.50 Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil

Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

HUEVOS

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Las tablas de frecuencias inferiores fueron realizadas en programa Excel para la variable temperatura media en Tafí del Valle y promedio de huevos de N. oligospilus durante la temporada 1998. En este programa uno creo los intervalos que considere necesarios para armar el histograma. Tabla para temperatura promedio Tafí del Valle (1998 Clase

Frecuencia

%

4 8 10 12 14 16 18 20 22 y mayor...

0 0 1 3 6 6 7 6 3 0

acumulado 0.00% 0.00% 3.13% 12.50% 31.25% 50.00% 71.88% 90.63% 100.00% 100.00%

Tabla de frecuencias para promedio de huevos de N. oligospilus en Valle de Tafí (1998) Clase 0 4 8 12 16 20 24 y mayor...

% Frecuencia acumulado 22 68.75% 4 81.25% 0 81.25% 3 90.63% 2 96.88% 0 96.88% 1 100.00% 0 100.00%

La Figura inferior presenta de forma estilizada, algunos de los patrones más Frecuentes encontrados en los histogramas. Estas curvas se construyen uniendo los puntos medios de los intervalos de clases. Las distribuciones (a) y (b) son simétricas alrededor de un valor central (media). El caso (a) presenta un único máximo – se dice que es una distribución unimodal (un solo valor más frecuente el el cjto de valores observados de la variable). La distribución (b) tiene dos máximos o modas – uno a cada lado del centro de simetría – Este patrón aparece cuando los datos responden a una mezcla de dos grupos heterogéneos y, siempre que sea posible, conviene estudiar ambos grupos por separado. Las formas que aparecen en (c) y (d) se denominan asimétrica a la derecha y a la izquierda, respectivamente, e indican la presencia de un número significativo de valores muy altos (c) y bajos (d) susceptibles de distorsionar los resultados de análisis estadísticos posteriores. En estos dos últimos casos, los coeficientes de asimetría son significativamente distintos de cero - positivo en el caso (c) y negativo en el caso (d).

Los gráficos de distribución de frecuencia de temperatura y abundancia de huevos registradas tienen distinta distribución. La de temperatura es casi simétrica mientras que la de abundancia de huevos es asimétrica a la derecha. Hay muchas unidades de observación con cero huevos. Muchos métodos estadísticos se basan en la hipótesis de normalidad de la variable objeto de estudio. De hecho, si la falta de normalidad de la variable es suficientemente fuerte, muchos de los contrastes utilizados en los análisis estadístico-inferenciales no son válidos. Una posibilidad de evaluar la normalidad consiste en realizar diagramas de cuantiles (Q-Q plots). Los diagramas de cuantiles comparan en un sistema de coordenadas cartesianas, los cuantiles muestrales (eje X) con los cuantiles esperados bajo la hipótesis normalidad. Si la distribución de partida es normal dichos diagramas tenderán a ser rectas que pasan por el origen. Cuanto más se desvíen de la recta menos normales serán los datos. En la Figura inferior se muestran posibles diagramas de cuantiles según la forma de la distribución de frecuencias. A posteriori se nuestra las posibles transformaciones de la variable para que presente una distribución normal.

Otra forma de observar la asimetría y distribución de los valores recolectados de una variable es en forma de un gráfico en forma de caja o box plot. La caja contiene el 50% de los datos recogidos y cada bigote contiene el 25 % de los datos. Fuera de los bigotes se presentan los datos extremos o outliers o periféricos lejanos. Este gráfico permite observar los valores extremos y la posición de la mediana (valor centrado en caja implica distribución simétrica). El gráfico inferior muestra las partes de un box plot.

Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Estudiantil Estudiantil Versión Versión Estudiantil VersiónVersión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil 21.53 Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Estudiantil VersiónVersión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil 22.02

n= 32 r= 0.988 (temp. Med) Versión Estudiantil

Versión Estudiantil Versión Estudiantil Versión Estudiantil Estudiantil Estudiantil Versión Versión Estudiantil VersiónVersión Estudiantil Versión Estudiantil

Cuantiles observados(temp. Med)

VersiónVersión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Versión Estudiantil VersiónVersión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Estudiantil Estudiantil 18.23 VersiónVersión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil 18.75 Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Estudiantil

temp. Med

Versión Versión Estudiantil VersiónVersión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Estudiantil Estudiantil

Versión Estudiantil Versión Estudiantil Versión Estudiantil

VersiónVersión Estudiantil Versión Estudiantil Versión Estudiantil Estudiantil Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión 15.48 Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil

Versión Estudiantil14.93 Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil

Versión 12.20 Estudiantil

Versión Estudiantil

Versión Estudiantil11.63 Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Estudiantil Versión EstudiantilVersión Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

8.93 Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Estudiantil Versión EstudiantilVersión Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil 8.93 12.20 15.48 18.75 22.02 Versión Estudiantil 8.33 Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Cuantiles de una Normal(15.821,9.0016) Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Estudiantil Versión EstudiantilVersión Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil

Versión Estudiantil Versión Estudiantil Versión Estudiantil a) b) Gráficos para observar la distribución de la variable temperatura media (temporada 1998 en Tafí del Valle). A) Diagrama de caja o box plot donde se puede observar la posición de las medidas centrales y el tipo de distribución. b) gráfico QQ plot para observar si los datos se acercan a la distribución normal.

Versión Estudiantil Versión Estudiantil VersiónVersión Estudiantil Estudiantil VersiónVersión Estudiantil Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil VersiónVersión Estudiantil Estudiantil VersiónVersión Estudiantil Estudiantil Versión Estudiantil 52 Versión Estudiantil Versión Estudiantil 22.05 21.00 n= 32 r= 0.741 (HUEVOS) Versión Estudiantil Versión Estudiantil Versión Estudiantil VersiónVersión Estudiantil Estudiantil VersiónVersión Estudiantil Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

VersiónVersión Estudiantil Estudiantil VersiónVersión Estudiantil Estudiantil

Cuantiles observados(HUEVOS)

Versión Estudiantil Versión Estudiantil

VersiónVersión Estudiantil Estudiantil VersiónVersión Estudiantil Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil Versión Estudiantil Versión Estudiantil VersiónVersión Estudiantil Estudiantil Versión Versión Estudiantil Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil 13.54 16.28 Versión Estudiantil Versión Estudiantil VersiónVersión Estudiantil Estudiantil VersiónVersión Estudiantil Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

HUEVOS

Versión Estudiantil

Versión Estudiantil10.50 Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

VersiónVersión Estudiantil Estudiantil VersiónVersión Estudiantil Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

VersiónVersión Estudiantil Estudiantil VersiónVersión Estudiantil Estudiantil

VersiónVersión Estudiantil Estudiantil VersiónVersión Estudiantil Estudiantil

Versión Estudiantil

Versión Estudiantil

VersiónVersión Estudiantil Estudiantil VersiónVersión Estudiantil Estudiantil

VersiónVersión Estudiantil Estudiantil VersiónVersión Estudiantil Estudiantil -1.37

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

VersiónVersión Estudiantil Estudiantil VersiónVersión Estudiantil Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil 4.73 Versión Estudiantil Versión Estudiantil

VersiónVersión Estudiantil Estudiantil VersiónVersión Estudiantil Estudiantil

VersiónVersión Estudiantil Estudiantil VersiónVersión Estudiantil Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil 6.08 Versión Estudiantil VersiónVersión Estudiantil Estudiantil VersiónVersión Estudiantil Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

-8.83 Versión Estudiantil Versión Estudiantil VersiónVersión Estudiantil Estudiantil VersiónVersión Estudiantil Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil -8.83 -1.37 6.08 13.54 21.00 Versión Estudiantil -1.05 Versión Estudiantil Versión Estudiantil VersiónVersión Estudiantil Estudiantil VersiónVersión Estudiantil Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil

Versión Estudiantil Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Cuantiles de una Normal(2.6875,31.06)

VersiónVersión Estudiantil Estudiantil VersiónVersión Estudiantil Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

VersiónVersión Estudiantil Estudiantil VersiónVersión Estudiantil Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil

Versión Estudiantil a) b) Gráficos para observar la distribución de la variable abundancia de huevos (temporada 1998 en Tafí del Valle). a) Diagrama de caja o box plot donde se puede observar la posición de las medidas centrales y el tipo de distribución. b) gráfico QQ plot para observar si los datos se acercan a la distribución normal.

Versión Estudiantil

Versión Estudiantil

Medidas de resumen descriptivos I) Medidas de posición: Media, Moda, Mediana Después de recogidos los datos, agrupados en tablas o series, es preciso extraer algo de ello que permita comparar entre sí dos o más variables. Es necesario sustituir toda la serie estadística por una medida o valor representativo del conjunto al que sustituye. Estas "magnitudes características" proporcionan información acerca del orden de magnitud de la serie o de las variables. Estas magnitudes son: el valor central y la dispersión de los elementos de la serie respecto del valor central. Las medidas de valor central se denominan medidas de posición. Media aritmética: se simboliza como X y se define como el promedio aritmético de las observaciones, es decir la suma de todos los valores de las observaciones dividida en el número total de observaciones.

X 

x1  x2  x3  .........xn i  n xi  n i 1 n

donde, x son los valores de las observaciones y n el número total de las mismas. Si los valores están dados en forma de distribución de frecuencias:

X

x1 f1  x2 f 2  x3 f3  .........xk f k i  n xi f i ,  n i 1 n

donde k es el número de valores distintos que toma la variable. Mediana: una vez ordenados los valores de la variable en sentido creciente o decreciente, se llama mediana a aquel valor (u observación) central que divide al grupo en dos subgrupos y representa el 50 % de los datos. Si n es par, el valor central o mediana será el promedio de las dos observaciones centrales. Serie par ordenada: 3, 4, 4, 5, 6, 8, 8, 9 n n  X    X   1 2 2  Me  ~ x   = 5.5 2

Ejemplo: serie impar: 3, 4, 4, 5, 6, 8, 8, 9, 10  n  1 Me  ~ x  X   2  N(impar)=9 la Md= 6

Moda o modo: es el valor que ocurre con mayor frecuencia en una serie de observaciones (picos), es el valor más común y puede no existir o no ser único. Reglas para el uso de las medidas de posición: Usar la media cuando: 1) Las observaciones está distribuidas simétricamente alrededor de un punto central. 2) Se desea la medida de tendencia central con más estabilidad. 3) Haya que calcular otros estimadores (desviación típica, coeficiente de variación) basados en la media. Usar la mediana cuando: 1) Se desea conocer el punto medio exacto de la distribución correspondiente al 50 % de las observaciones. 2) Existen valores extremos que afectan a la media (la media puede cambiar pero la mediana no). Usar la moda cuando: 1) Todo lo que se desea obtener es una medida de tendencia central rápida y aproximada. 2) La medida de tendencia central fuese el valor más típico. Relación entre la media, mediana y moda: En las distribuciones de frecuencia que siguen la ley de la curva normal en forma de campana: X = Md( ~x ) = Mo

2) Medidas de dispersión Un promedio o media aritmética puede ser engañoso a menos que vaya acompañado de otra información que nos diga como están ubicados los datos con relación a este promedio. Cuanto menor es la variación de los datos del promedio, mayor es la precisión de la estimación de la media de la población. Entonces, el promedio debe ir acompañado de los valores de la variable con un coeficiente que mida el grado de dispersión de los mismos. Amplitud intercuartil Esta medida de dispersión como la anterior no se relaciona con una medida de tendencia central pero si trata de tener en cuenta la dispersión dentro de la muestra ya que analiza el 50 % medio de la distribución (caja del box plot), el 25% de las observaciones en el extremo inferior y el 25% en el extremo superior son excluidos y forman los bigotes de la caja del box plot . Se calculcan los Q1 y Q3. Q2 es la mediana. Varianza y desviación estándar La búsqueda de una medida de variabilidad, que tome en cuenta todos los valores observados y una medida de tendencia central conduce a calcular la varianza poblacional (σ2 ) y la varianza muestral (S2). n

2 

 x    i 1

i

n

n

2



S .C. G.L.

S2 

 x  X  i 1

i

n 1

2



S .C. G.L.

donde S. C. se denomina suma de cuadrados y G.L. son los grados de libertad

El gráfico inferior muestra como tres distribuciones con el mismo tamaño de muestra (misma cantidad de datos) y el mismo valor de media presenta un patrón de dispersión diferente y eso influye en el tipo de análisis estadístico. Un análisis estadístico paramétrico necesita que la distribución sea simétrica y con una baja dispersión de los datos.

Coeficiente de variación Se puede comparar la variabilidad entre dos conjuntos de datos o entre dos o más variables si las respectivas varianzas y desvíos estándar estén en las mismas unidades y sus medias sean aproximadamente iguales. Si faltan estas condiciones, el coeficiente de variación ayuda a resolver esto ya que es una medida relativa de dispersión que permite también determinar cual muestra tiene mayor o menor varianza. C.V.%= (σ/μ) * 100 para la población y C.V.%= S√ֿx * 100 para la muestra Para experimentos en el medio natural se puede tener una dispersión: Baja: CV < 10% Moderada: 10% μ4 prueba de una cola

tobs 

II)

Nivel de significación: α: si aceptamos un 5% de error implica un intervalo de confianza del 95%.

III)

Estadístico: debe basarse en la distribución de los datos. Y el t crítico o t de tabla ((“t (1-α/2, na+nb-2”) se basa en Ho.

IV)

“t”, si el “tobs” calculado es mayor que el de tabla (“t (1-α/2, na+nb-2)) entonces se encuentra en la zona de rechazo en la curva de distribución de probabilidad , p