Nociones de Estadística

(b) ESTADISTICA INFERENCIAL. La Estadística inductiva o inferencial trata de las bases lógicas mediante las cuales se establecen conclusiones acerca de ...
147KB Größe 6 Downloads 123 vistas
Facultad de Ciencias Médicas Universidad Nacional de La Plata

CATEDRA DE EPIDEMIOLOGÍA

NOCIONES DE ESTADÍSTICA

AÑO 2009

MATERIAL ELABORADO POR EL CUERPO DOCENTE DE LA CÁTEDRA.

COORDINACIÓN: PROF. DRA.

GRACIELA ETCHEGOYEN

1

Facultad de Ciencias Médicas Universidad Nacional de La Plata

NOCIONES DE ESTADÍSTICA Lic. Fernanda Arrondo ESTADISTICA La estadística es el estudio de los métodos y procedimientos para recoger, clasificar, resumir y analizar datos (a) y para hacer inferencias científicas partiendo de tales datos (b). En la definición anterior, se observan DOS CATEGORÍAS de la estadística o método estadístico: (a) ESTADISTICA DESCRIPTIVA La estadística descriptiva sirve como método para organizar datos y poner de manifiesto sus características esenciales. Como se ha señalado, el objetivo de la estadística descriptiva, es la descripción de los datos y no la inferencia partiendo de los datos. (b) ESTADISTICA INFERENCIAL La Estadística inductiva o inferencial trata de las bases lógicas mediante las cuales se establecen conclusiones acerca de una población, a la luz de lo averiguado en un subconjunto o muestra representativa de dicha población. Como las inferencias no son del todo exactas aparece el lenguaje de las PROBABILIDADES al establecer las conclusiones. Por lo general, el estudio de la población implica una enorme cantidad de dinero, tiempo y gente que lo realice, por lo cual se suelen usar subgrupos o muestras. El relevamiento de una población se denomina censo, mientras que el de una muestra se llama muestreo. El tamaño de una población es “N”, mientras que el tamaño de la muestra es “n”. XXXXXXXXX XXXXXXXXX XXXXXX

XXXXX

POBLACIÓN (N = 24)

MUESTRA (n = 5)

2

Facultad de Ciencias Médicas Universidad Nacional de La Plata

Es necesario tener en consideración para que la inferencia sea adecuada: 1- El tamaño de la muestra: cuanto mayor es el tamaño de la muestra, más fuerte es la inferencia (n). 2- La variabilidad de la respuesta estudiada: cuanto menor sea la variabilidad, tanto más fuerte será la inferencia (). ………………………………………………………………………………………………………………… De las DOS CATEGORÍAS del método estadístico, mediante un ejemplo: “POMONA - RN”, profundizaremos en la ESTADÍSTICA DESCRIPTIVA e intentaremos explicar como se organizan y analizan un conjunto de datos. EJEMPLO PROYECTO DE INVESTIGACIÓN DE TIPO DESCRIPTIVO “POMONA - RN” 

OBJETIVO

Describir las características de la población y de la atención de salud que reciben los habitantes de la localidad de Pomona, provincia de Río Negro. 

OBJETIVOS ESPECIFICOS

1. Describir la población de de la localidad de Pomona, provincia de Río Negro 2. Describir la atención de la salud de la localidad de Pomona, provincia de Río Negro.  DEFINICIÓN DE LAS VARIABLES Supongamos que para poder cumplimentar el OBJETIVO de nuestro ejemplo se han definido las siguientes variables a analizar: o o o o o o o o o

Edad Género Estado civil Lugar de nacimiento Tiempo de residencia Consulta por problemas de salud agudos Internaciones en el último año Lugares habituales de atención Grado de satisfacción en la atención

3

Facultad de Ciencias Médicas Universidad Nacional de La Plata

Una Variable, es una característica de lo que se está observando (población y atención de salud de Pomona) y puede tomar un valor cualquiera de los comprendidos en un conjunto. Existen dos tipos de variables: o Variable cualitativa: Es aquella que expresa un atributo o característica, ejemplo: masculino o femenino; aunque posteriormente se lo pueda convertir en un número mediante un sistema de codificación, ejemplo: si es masculino 1, si es femenino 0. o Variable cuantitativa: Es aquella que podemos expresar directamente en números: edad, peso, Nº de hijos, etc. Esta a su vez la podemos subdividir en: - Variable cuantitativa discreta: aquellas que sólo pueden recibir valores enteros. Ej. Una mujer puede tener 2 o 3 hijos, nunca 2.5 hijos. Generalmente surgen de un recuento. - Variable cuantitativa continua: puede tomar los infinitos valores de un intervalo. Ej. El peso de una persona puede ser 70 Km., 71 Km., pero también 70,26 Kg. Generalmente surgen de una medición. 

DISEÑO DEL INSTRUMENTO PARA RECOGER LOS DATOS

La siguiente etapa consiste en recolectar los datos pertinentes sobre las variables involucradas en la investigación. Existen diversas técnicas de recolección y obtención de datos (encuestas, entrevistas, observación, referentes clave, test, recopilación documental, etc.) que se pueden utilizar según las características de la investigación y la naturaleza de los datos:

4

Facultad de Ciencias Médicas Universidad Nacional de La Plata

o Datos primarios: son los que el investigador o sus auxiliares recogen por si mismos en contacto con la realidad. o Datos secundarios: son registro escrito. Proceden también de un contacto con la practica, pero que ya han sido recogidos y muchas veces procesados por otros investigadores. Los instrumentos de recolección de datos pueden ser aplicados tanto en una población (universo) como en una muestra de ella.

En nuestro ejemplo sólo utilizaremos datos primarios y el instrumento de recolección será una ENCUESTA que contenga las variables detalladas anteriormente y será aplicada a toda LA POBLACIÓN de la localidad de Pomona, Provincia de Río Negro. 

RESUMEN DE LOS DATOS

Luego de aplicar el instrumento de recolección de datos (en nuestro ejemplo la encuesta a la población) y haber obtenido las observaciones y/o mediciones, se deberá intentar alguna forma de resumir las mismas, para facilitar su posterior análisis. 

En primer lugar se deben definir las CLASES o INTERVALOS DE CLASE (para las variables cuantitativas) y CATEGORIAS O ATRIBUTOS (para variables cualitativas) – Ver Tabla 1 y 2

Ejemplo: Variable cuantitativa

edad

INTERVALOS DE CLASE 0 a 4 años 5 a 9 años 10 a 14 años etc.

5

Facultad de Ciencias Médicas Universidad Nacional de La Plata

Variable cualitativa

género

CATEGORIA O ATRIBUTO FEMENINO MASCULINO



Posteriormente se debe establecer el número de OBSERVACIONES que pertenecen a cada INTERVALO DE CLASE O CATEGORIA DE VARIABLE, esto es hallar las FRECUENCIAS DE CLASE. – Ver Tabla 1 y 2



Determinada la FRECUENCIA que corresponde a cada INTERVALO DE CLASE O CATEGORIA DE VARIABLE, se hace necesaria su presentación en algún sistema simbólico. Los sistemas más utilizados son el tabular y el gráfico.

PRESENTACION TABULAR: DISTRIBUCIÓN DE FRECUENCIAS Una tabla es un cuadro que consiste en la disposición ordenada de las observaciones (frecuencias) obtenidas en el recuento de los datos, referentes a las categorías o dimensiones de una variable (Ver Tabla 1 y 2) o de varias variables relacionadas entre sí (Ver tabla 3). Las tablas sistematizan los resultados cuantitativos y ofrecen una visión numérica, sintética y global del fenómeno observado y de las relaciones entre sus diversas características o variables.

6

Facultad de Ciencias Médicas Universidad Nacional de La Plata

Tabla 1: Población de Pomona (RN) por edad - Año 2006 Edad f = Observaciones TOTAL 2138

Variable Cuantitativa

Intervalos de clase

0a4 5a9 10 a 14 15 a 19 20 a 24 25 a 29 30 a 34 35 a 39

116 156 155 199 189 146 110 123

40 a 44 45 a 49

112 114

50 a 54 55 a 59

132 116

60 a 64

107

65 a 69 70 a 74

97 110

75 a 79

85

80 a 84 85 y más

40 31

Total de observaciones = Sumatoria de frecuencias de cada intervalo de clase

Observaciones o frecuencias de cada intervalo de clase

Esta tabla nos dice que en Pomona, Provincia de Río Negro, hay 2138 personas y su distribución por grupos (intervalos) de edad. De la misma forma podemos presentar la población de Pomona por género:

Variable Cualitativa Categorías de la variable

Tabla 2: Población de Pomona (RN) por género Año 2006 f = Observaciones Género TOTAL 2138 1081 Femenino Masculino 1057

Total de observaciones = Sumatoria de frecuencias de cada categoría de variable Observaciones o frecuencias de cada categoría de variable

7

Facultad de Ciencias Médicas Universidad Nacional de La Plata

Además, a veces resulta necesario combinar dos variables en una misma tabla. Seguidamente combinaremos edad y género.

Tabla 3: Población de Pomona (RN) por edad y género, Año 2006 Género Edad Femenino Masculino Observaciones Observaciones Observaciones TOTAL 1081 1057 2138 0a4 5a9 10 a 14 15 a 19 20 a 24 25 a 29 30 a 34

49 71 77 85 94 77 54

67 85 78 114 95 69 56

116 156 155 199 189 146

35 a 39

62

61

40 a 44 45 a 49

53 61

59 53

123 112

50 a 54 55 a 59

74 63

58 53

60 a 64

54

53

65 a 69 70 a 74

57 65

40 45

75 a 79

43

42

80 a 84 85 y más

25 17

15 14

110

114 132 116 107 97 110 85 40 31

De esta forma podemos visualizar la cantidad de mujeres y varones por intervalo de edad.

TIPOS DE FRECUENCIA

Hay cuatro tipos de frecuencias: 

Frecuencia simple = f



Frecuencia simple relativa = fr

8

Facultad de Ciencias Médicas Universidad Nacional de La Plata



Frecuencia acumulada = F



Frecuencia acumulada relativa = FR

Volvamos a la Tabla 1 para comprender estos conceptos: Tabla 1 (ampliada): Población de Pomona (RN) por edad - Año 2006 Edad f= Observaciones F fr FR TOTAL 2138 100% 0a4 5a9 10 a 14 15 a 19 20 a 24 25 a 29 30 a 34

116 156 155 199 189 146 110

116 272 427 626 815 961 1071

5,4% 7,3% 7,2% 9,3% 8,8% 6,8% 5,1%

5,4% 12,7% 20,0% 29,3% 38,1% 44,9% 50,1%

35 a 39

123

1194 5,8%

55,8%

40 a 44 45 a 49

112 114

1306 5,2% 1420 5,3%

61,1% 66,4%

50 a 54 55 a 59

132 116

1552 6,2% 1668 5,4%

72,6% 78,0%

60 a 64

107

1775 5,0%

83,0%

65 a 69 70 a 74

97 110

1872 4,5% 1982 5,1%

87,6% 92,7%

75 a 79

85

2067 4,0%

96,7%

80 a 84 85 y más

40 31

2107 1,9% 2138 1,4%

98,6% 100%

Frecuencia simple (f): número de OBSERVACIONES que pertenece a cada INTERVALO DE CLASE o CATEGORÍA DE LA VARIABLE. La suma de todas las frecuencias simples es igual al NÚMERO TOTAL DE OBSERVACIONES o sea el tamaño de la población considerada (en nuestro ejemplo 2138)

9

Facultad de Ciencias Médicas Universidad Nacional de La Plata

Frecuencia acumulada (F): es la frecuencia simple (f) de cada INTERVALO DE CLASE o CATEGORÍA DE LA VARIABLE sumada a las frecuencias simples (f) de todos los intervalos o categorías anteriores. De esta forma la F del intervalo de clase 0 a 4 es igual a 116 + 0 = 116 La F del intervalo 5 a 9 es igual a 156 + 116 = 272 La F del intervalo siguiente 10 a 14 es igual a 155 + 272 = 427 La F del intervalo 15 a 19 es igual a 199 + 427 = 626 Y así sucesivamente hasta que en el último intervalo la F = 2138 (número total de observaciones o sea el tamaño de la población considerada) Frecuencia simple relativa (fr): es la frecuencia simple dividida el NUMERO TOTAL DE OBSERVACIONES. De esta forma la fr del intervalo de clase 0 a 4 es igual a 116/ 2138 = 0.054 o 5.4 %. La fr del intervalo de clase 5 a 9 es igual a 156/2138 = 0.073 o 7.3 % La fr del intervalo de clase 10 a 14 es igual a 155/2138 = 0.072 o 7.2 % Y así sucesivamente La suma de todas las fr = 1 o 100% Se ve entonces que la fr es una proporción, aunque en ocasiones también se la presente como un % (cuando a la frecuencia simple relativa se la multiplica por 100). Frecuencia acumulada relativa (FR): es la frecuencia simple relativa (fr) de cada INTERVALO DE CLASE o CATEGORÍA DE LA VARIABLE sumada a las frecuencias simples relativas (fr) de todos los intervalos o categorías anteriores. De esta forma la FR del intervalo de clase 0 a 4 = 0.054 + 0 = 0.054 o 5.4 % La FR del intervalo 5 a 9 = 0.073 + 0.054 = 0.127 o 12.7 %

10

Facultad de Ciencias Médicas Universidad Nacional de La Plata

La FR del intervalo siguiente 10 a 14 = 0.072 + 0.127 = 0.20 o 20 % La FR del intervalo 15 a 19 =0.093 + 0.20 = 0.293 o 29.3 % Y así sucesivamente hasta que en el último intervalo la FR = 1 o 100% Se ve entonces que la FR es una proporción, aunque en ocasiones también se la presente como un % (cuando a la frecuencia acumulada relativa se la multiplica por 100).

PRESENTACIÓN GRAFICA Un gráfico es una representación de la relación entre variables. Muchos tipos de gráficos aparecen en Estadística, según la naturaleza de los datos involucrados y el propósito del gráfico. Entre ellos citaremos los gráficos de barras, histograma, barras apiladas, circulares, líneas, etc. GRAFICO DE BARRAS Población de Pomona por edad 250 199 200 156 150

155

189 146

116

110

123

112

114

100

132

116

107

97

110 85 40

50

31

0

ás ym 85 4 a8 80 79 a 75 4 a7 70 9 a6 65 64 a 60 9 a5 55 4 a5 50 49 a 45 4 a4 40 9 a3 35 34 a 30 9 a2 25 4 a2 20 19 a 15 4 a1

4

a9

10

5

0a

edad

Se utiliza para frecuencias absolutas o relativas, acumuladas o no, de una VARIABLE DISCRETA. En el eje de abcisas (eje horizontal), situaremos los diferentes valores de la variable. En el eje de ordenadas (eje vertical) la frecuencia.

11

Facultad de Ciencias Médicas Universidad Nacional de La Plata

Levantaremos barras o columnas SEPARADAS de altura correspondiente a la frecuencia adecuada. HISTOGRAMA: Igual que el anterior en cuanto al tipo de frecuencias que se pueden utilizar. La diferencia: es para variables CONTINUAS. Si la amplitud del intervalo es la misma, elevaremos columnas UNIDAS, a altura la frecuencia correspondiente. Si la amplitud del intervalo es diferente, elevaremos columnas UNIDAS, pero el área del rectángulo columna será proporcional a la frecuencia representada. GRAFICO DE BARRAS APILADAS

Población de Pomona por edad y género 250 200 150

114 85

100

95

78

69

67 50 49

94

85

77

71

77

58

61

56

62

54

53

53

59

74

61

53

53

63

45

40

42 65

57

54

15 25

43

0

0

a

5 4

a

9

10

a

15 14

a

20 19

a

25 24

a

30 29

a

35 34

a

40 39

a

45 44

edad

a

50 49

a

55 54

a

60 59

a

65 64

a

70 69

a

75 74

a

80 79

14 17

a

85 84

y

m ás

MASCULINO FEMENINO

Compara entre categorías (masculino – femenino) el aporte de cada valor al total

12

Facultad de Ciencias Médicas Universidad Nacional de La Plata

GRÁFICO CIRCULAR Población de Pomona por género

Masculino; 1057; 49%

Femenino; 1081; 51%

El área de cada sector es proporcional a la frecuencia que se quiera representar, sea absoluta o relativa. GRAFICO DE LINEAS Población de Pomona por edad 250 200

199 189 156 155

150 100

146

116

123

110

132

112 114

116 107 97

110 85

50

40

31

0

85

80

75

70

65

60

55

50

45

40

35

30

25

20

15

y

a

a

a

a

a

a

a

a

a

a

a

a

a

a

m ás

84

79

74

69

64

59

54

49

44

39

34

29

24

19

14

9

4

a

a

a

10

5

0

edad

13

Facultad de Ciencias Médicas Universidad Nacional de La Plata



RESUMEN DE LOS DATOS

La distribución de las frecuencias de los valores de las VARIABLES CUANTITATIVAS puede sintetizarse mediante medidas de tendencia central y medidas de dispersión. MEDIDAS DE TENDENCIA CENTRAL Con frecuencia se desea describir a la VARIABLE CUANTITATIVA (por ejemplo edad de la población de Pomona) con un solo número. Para tal fin, desde luego, no se usará el valor más elevado ni el valor más pequeño como único representante, ya que solo simbolizan los extremos. Entonces sería más adecuado buscar un valor típico. Como los valores típicos tienden a situarse en el centro del conjunto de datos ordenados según su magnitud, se conocen como medidas de centralización. Se pueden definir varios tipos de medidas de centralización, las más comunes son las media aritmética, la mediana y la moda. Cada una de ellas tiene sus ventajas e inconvenientes. La aplicación de una u otra depende de los resultados que se pretendan obtener de los datos. Media aritmética (media o promedio) Medida de tendencia central más conocida. Es la suma de las observaciones dividido por el número total de observaciones. La fórmula de la media varía según se trate de datos sin agrupar o de datos agrupados en intervalos. Así, Para datos sin agrupar:

Para datos agrupados: n

n

x 



xi

i1

n

x i

x 

fi

i 1

n



fi

i 1

Ejemplo para datos sin agrupar: Una persona consumió las siguientes calorías por día: Día X1: 3000 calorías Día X2: 5000 calorías Día X3: 2000 calorías Día X4: 4000 calorías Día X5: 6000 calorías 14

Facultad de Ciencias Médicas Universidad Nacional de La Plata

n = 5 días Media = (3000+5000+2000+4000+6000) / 5= 4000 calorías Ejemplo para datos agrupados: Cuando los datos están agrupados en intervalos de clase, como en nuestro ejemplo de Pomona – RN, el cálculo se complica un poco, debiendo realizar cálculos adicionales: Volviendo a la Tabla 1 Población de Pomona por edad Edad marca de clase f x f*x TOTAL 2138 79851 0a4 116 2 232 5a9 156 7 1092 10 a 14 155 12 1860 15 a 19 199 17 3383 20 a 24 189 22 4158 25 a 29 146 27 3942 30 a 34 110 32 3520 35 a 39 123 37 4551 40 a 44 112 42 4704 45 a 49 114 47 5358 50 a 54 132 52 6864 55 a 59 116 57 6612 60 a 64 107 62 6634 65 a 69 97 67 6499 70 a 74 110 72 7920 75 a 79 85 77 6545 80 a 84 40 82 3280 85 a 89 31 87 2697

1) En primer lugar hay que calcular la marca de clase (representante) de cada intervalo y obtener las x de la fórmula. marca de clase = X = (limite inferior + límite superior) / 2

15

Facultad de Ciencias Médicas Universidad Nacional de La Plata

Así para el primer intervalo = X1= (0+4) / 2= 2 Para el segundo intervalo = X2= (5 + 9) / 2 =7 Y así sucesivamente, al último intervalo lo supondremos cerrado y de la misma longitud que los demás, para permitir el cálculo de la marca de clase. 2) Luego se multiplica la marca de clase de cada intervalo por la frecuencia correspondiente: Así para el primer intervalo = X1 * f 1= 2 * 116= 232 Para el segundo intervalo = X2 * f 2= 7 * 156 =1092 Y así sucesivamente. 3) Se suman los productos de todos los intervalos = 232+1092+………………………… = 79851, obteniendo el numerador de la fórmula. 4) Por último se realiza la división: Numerador = 79851 Denominador = 2138 total de observaciones (o sumatoria de frecuencias) Media = 79851 / 2138 = 37,35 Mediana Otra medida de tendencia central que se utiliza con mucha frecuencia es la mediana. En un conjunto de observaciones ordenadas por magnitud, la mediana es aquel valor que divide una serie de tal forma que por lo menos 50 % de los valores son iguales o menores a él y el 50 % de los valores son iguales o mayores a él. El cálculo de la mediana varía según se trate de datos sin agrupar o de datos agrupados en intervalos. Ejemplo para datos sin agrupar: Una persona consumió las siguientes calorías por día: Día X1: 3000 calorías Día X2: 5000 calorías Día X3: 2000 calorías Día X4: 4000 calorías Día X5: 6000 calorías n = 5 días En primer lugar se ordenan los datos por magnitud: 2000, 3000, 4000, 5000, 6000 16

Facultad de Ciencias Médicas Universidad Nacional de La Plata

La mediana es 4000 calorías. En este caso el número de datos de la serie es IMPAR (n =5), pero si fuera PAR, la mediana es determinada como el promedio de los dos valores centrales. Ejemplo para datos agrupados: Cuando los datos están agrupados en intervalos de clase, como en nuestro ejemplo de Pomona – RN, el cálculo se complica un poco, debiendo realizar cálculos adicionales: Volviendo a la Tabla 1 y utilizando el METODO DE INTERPOLACION

Edad TOTAL

Población de Pomona por edad f = Observaciones 2138

0a4 5a9 10 a 14 15 a 19 (clase de la

F

116 156 155 199

116 272 427 626

20 a 24 25 a 29 30 a 34 (clase de la

189 146 110

815 961 1071

35 a 39

123

1194

40 a 44 45 a 49

112 114

1306 1420

50 a 54 55 a 59

132 116

1552 1668

60 a 64

107

1775

65 a 69 70 a 74

97 110

1872 1982

75 a 79

85

2067

80 a 84 85 y más

40 31

2107 2138

moda)

mediana)

17

Facultad de Ciencias Médicas Universidad Nacional de La Plata

1) En primer término realizamos la sumatoria de frecuencias N = 2138 2) Posteriormente efectuamos el siguiente cálculo N/2 = 2138/2 = 1069 (se divide por 2, porque la mediana divide los datos en dos grupos, 50 % para un lado y 50 % para el otro). 3) Luego buscamos el número 1069 en la columna F (frecuencia acumulada) de la tabla. 4) 1069 se encuentra en el séptimo intervalo. Para llegar al 1069 buscado tomamos las 961 observaciones acumuladas hasta el sexto intervalo y le sumamos 108 observaciones de entre las 110 del séptimo intervalo. 5) Al séptimo intervalo, le corresponden valores que van desde 30 a 34 (límite inferior y límite superior del séptimo intervalo de clase). 6) Longitud del intervalo de la mediana (séptimo intervalo) = 5 7) Con los datos anteriores calculamos la Mediana = 30 +(108 / 110) * 5 = 34.91 Cuartiles Así como la mediana es un valor de la variable que deja por debajo de esa medida (o a la izquierda de la misma) el 50% de las observaciones, en forma similar se pueden definir otras medidas, tales como los cuartiles. Así por ejemplo el primer cuartil Q1 separa el primer 25% de las observaciones del 75% restante; el tercer cuartil Q3 separa el 75% inicial del 25% final. Obviamente el Q2 coincide con la mediana. Calcularemos el primer cuartil Q1 por el METODO DE INTERPOLACIÓN: 1) En primer término realizamos la sumatoria de frecuencias N = 2138 2) Posteriormente efectuamos el siguiente cálculo N/4 = 2138/4 = 535 3) Luego buscamos el número 535 en la columna F (frecuencia acumulada) de la tabla. 4) 535 se encuentra en el cuarto intervalo. Para llegar al 535 buscado tomamos las 427 observaciones acumuladas hasta el tercer intervalo y le sumamos 108 observaciones de entre las 199 del cuarto intervalo. 5) Al cuarto intervalo, le corresponden valores que van desde 15 a 19 (límite inferior y límite superior del cuarto intervalo de clase). 6) Longitud del intervalo del primer cuartil (cuarto intervalo) = 5 7) Con los datos anteriores calculamos el Primer cuartil = 15 +(108 / 199) * 5 =17.71 Para calcular el Tercer cuartil Q3, se debe realizar el mismo procedimiento, con la diferencia de que en el punto 2) N * 3 = 1604. 4 El resultado del Tercer cuartil es =57.24

18

Facultad de Ciencias Médicas Universidad Nacional de La Plata

Moda Otra medida de tendencia central es la moda. La moda es el valor que aparece con mayor frecuencia en un conjunto de observaciones. Es el valor de la variable que más se repite. Una distribución puede tener uno, dos, o más modos, llamándose de acuerdo a esto: unimodal, bimodal o multimodal. También se puede dar el caso de que no exista la moda. La moda por definición no esta afectada por valores extremos (por ejemplo la moda de los valores 1, 5, 5, 8, es 5, y la moda de los valores 1, 5, 5, 300, es también 5). El cálculo de la moda varía según se trate de datos sin agrupar o de datos agrupados en intervalos. Ejemplo para datos sin agrupar: Una persona consumió las siguientes calorías por día: Día X1: 3000 calorías Día X2: 3000 calorías Día X3: 2000 calorías Día X4: 4000 calorías Día X5: 6000 calorías La moda es 3000 calorías – Distribución unimodal. Ejemplo para datos agrupados: Si los datos están agrupados, el modo se encuentra en el intervalo de mayor frecuencia (intervalo modal).  1   C x Li    1   2 

1) En primer término localizamos el intervalo de clase de mayor frecuencia (f) 2) En nuestro ejemplo es el cuarto intervalo, con una f = 199 3) Li = límite inferior del intervalo modal (cuarto intervalo) = 15 4) 1 = frecuencia del intervalo modal - menos frecuencia del intervalo anterior = 199 – 155 = 44 5) 2 = frecuencia del intervalo modal - menos frecuencia del intervalo posterior = 199 – 189 = 10 6) C = Longitud del intervalo de la clase modal (cuarto intervalo) = 5 19

Facultad de Ciencias Médicas Universidad Nacional de La Plata

7) Con los datos anteriores aplicamos la formula y calculamos la moda = 15 + ( 44 / 44+10) * 5 = 19.07 Para realizar los cálculos anteriores, hay que tener en cuenta si los intervalos son todos iguales (misma longitud), de lo contrario debemos corregir las frecuencias. Fórmula de Mills (datos agrupados).

CARACTERISTICAS DE LA MEDIA, MEDIANA, MODA Para una distribución simétrica unimodal, media = mediana = modo Para una distribución unimodal negativamente asimétrica, una distribución con un alarga cola a la izquierda,

media< mediana< modo Para una distribución unimodal positivamente asimétrica, una distribución con una larga cola a la derecha,

media> mediana>modo MEDIDAS DE DISPERSIÓN La dispersión o variación de los datos intenta dar una idea de cuan esparcidos se encuentran éstos. Hay varias medidas de dispersión, siendo las más comunes el rango, la desviación media (desviación promedio), la desviación estándar (típica), la varianza y el coeficiente de variación. Rango o amplitud: Es la medida más sencilla de dispersión. Tiene la ventaja de que es fácil de calcular. La fórmula del rango varía según se trate de datos sin agrupar o de datos agrupados en intervalos. Así, Para datos sin agrupar: Rango = valor más alto - valor más bajo

Para datos agrupados: Rango = marca de clase de la clase más alta – marca de clase de la clase más baja

20

Facultad de Ciencias Médicas Universidad Nacional de La Plata

Ejemplo para datos sin agrupar: Una persona consumió las siguientes calorías por día: Día X1: 3000 calorías Día X2: 5000 calorías Día X3: 2000 calorías Día X4: 4000 calorías Día X5: 6000 calorías n = 5 días Rango = 6000 - 2000 = 4000 Ejemplo para datos agrupados: Suponiendo que en nuestro ejemplo Pomona (RN):  El primer intervalo (clase más baja) es (0-4) y su marca de clase = 2  El último intervalo (clase más alta) supongamos que es (85 – 89) y su marca de clase = 87 Entonces el Rango = 87 – 2 = 85 El Rango no es una medida de dispersión de los datos con relación al valor típico (media, mediana o modo). Es muy sensible al tamaño de la muestra, por esta razón no podemos interpretar la amplitud apropiadamente sin conocer el número de observaciones. La desventaja, es que puede ser influida por un valor no usual de la muestra. Es útil en una situación en la que se desea conocer sólo la extensión de la dispersión en condiciones “ordinarias”. Si el dato máximo o el mínimo no es usual, la amplitud no revela nada acerca de la distribución “ordinaria” de los datos. Desviación media o desviación promedio: La desviación media, al igual que la desviación estándar, están basadas en todos los elementos de la distribución y están diseñadas para medir la dispersión alrededor de un promedio. La desviación media es la media aritmética de las diferencias de los valores individuales con respecto al promedio de los datos dados.

21

Facultad de Ciencias Médicas Universidad Nacional de La Plata

Al calcular las diferencias de los valores individuales con respecto al promedio se toman los valores absolutos, es decir, los signos positivos o negativos de las diferencias se ignoran, tomándose todos como si fueran positivos. Para datos sin agrupar:

Dx 



Para datos agrupados:

xi  x

D x 

n

 

f n

x



La búsqueda de una medida de variabilidad que tome en cuenta todos los valores observados y que caracterizaría la dispersión de los valores individuales partiendo de su tendencia central nos conduce naturalmente a la idea de calcular una medida tal como

 (x

 x)

, n Pero esta medida sería siempre igual a cero, porque  ( xi  x )  0, i

Una forma de superar la dificultad es hallar una media de las desviaciones ignorando la dirección y el signo algebraico correspondiente. Al hacerlo así, obtendríamos los que se llama desviación absoluta media, o simplemente desviación media de la muestra. Ejemplo para datos sin agrupar: Una persona consumió las siguientes calorías por día: Día X1: 3000 calorías Día X2: 5000 calorías Día X3: 2000 calorías Día X4: 4000 calorías Día X5: 6000 calorías n = 5 días Media = (3000+5000+2000+4000+6000) / 5= 4000 calorías Desviación Media:  (/3000 - 4000/ + /5000 – 4000/ + /2000 - 4000/+ /4000 – 4000/ + /6000 – 4000/) / 5 =  (1000 + 1000 +2000 + 0 + 2000) /5 =  6000 / 5 =1200 calorías 22

Facultad de Ciencias Médicas Universidad Nacional de La Plata

Ejemplo para datos agrupados: Cuando los datos están agrupados en intervalos de clase, como en nuestro ejemplo de Pomona – RN, el cálculo se complica un poco, debiendo realizar cálculos adicionales:

Población de Pomona por edad Edad marca de clase x f TOTAL 2138 0a4 2 116 5a9 10 a 14 15 a 19 20 a 24 25 a 29 30 a 34 35 a 39

7 12 17 22 27 32 37

156 155 199 189 146 110 123

40 a 44

42

112

45 a 49 50 a 54

47 52

114 132

55 a 59 60 a 64

57 62

116 107

65 a 69

67

97

70 a 74 75 a 79

72 77

110 85

80 a 84

82

40

85 a 89

87

31

|x - media| 414,30

f * |x - media| 43712,11

35,35 30,35 25,35 20,35 15,35 10,35 5,35

4100,42 4734,36 3929,01 4049,34 2900,86 1510,87 588,33

0,35

42,86

4,65 9,65

520,97 1100,28

14,65 19,65

1934,00 2279,58

24,65

2637,72

29,65 34,65

2876,20 3811,67

39,65

3370,38

44,65 49,65

1786,06 1539,20

1) En primer lugar hay que calcular la marca de clase (representante) de cada intervalo marca de clase = (limite inferior + límite superior) / 2 Así para el primer intervalo = X1= (0+4) / 2= 2 Para el segundo intervalo = X2= (5 + 9) / 2 =7

23

Facultad de Ciencias Médicas Universidad Nacional de La Plata

Y así sucesivamente, al último intervalo lo supondremos cerrado y de la misma longitud que los demás, para permitir el cálculo de la marca de clase. 2) Luego se resta la marca de clase de cada intervalo con la media calculada anteriormente, en nuestro ejemplo Media = 37,35 Así para el primer intervalo = 2 – 37,35 = - 35,35 Para el segundo intervalo = 7 – 37.35 = - 30,35 Y así sucesivamente Estos valores se toman en términos absolutos, convirtiéndose en positivos. 3) Posteriormente se multiplican las frecuencias (f) por los resultados del paso 2). Así para el primer intervalo = 116 * 35,35= 4100,42 Para el segundo intervalo = 156 * 37.35 = 4734,36 Y así sucesivamente 4) Por último se realiza la división: Numerador = 43712,11 (sumatoria de los resultados del paso 3)) Denominador = 2138 total de observaciones (o sumatoria de frecuencias) Desviación Media = 43712,11 / 2138 = 20,45 Desviación estándar (típica) y varianza La desviación estándar es una forma refinada de la desviación media. Se calcula de la misma manera que la desviación media, excepto que los signos positivo y negativo de las desviaciones individuales son tomados en consideración. La desviación estándar de un conjunto de valores es la raíz cuadrada de la media aritmética de las diferencias de los valores individuales con respecto al promedio de los datos dados elevadas al cuadrado. La varianza de un conjunto de datos se define como el cuadrado de la desviación estándar. En fórmulas: Desvío estándar (datos sin agrupar):

Desvío estándar (datos agrupados):

S

 x  x  n

2

S

 f .( X  X )

2

i

n

24

Facultad de Ciencias Médicas Universidad Nacional de La Plata

Varianza (datos sin agrupar):

S

2

 X  X  

Varianza (datos agrupados):

2

n

S2 

 f . X  X 

2

i

n

A veces, la desviación estándar de los datos de una muestra viene definida con (n - 1) en lugar de n en los denominadores de las expresiones, porque el valor resultante representa un estimador mejor de la desviación estándar de una población de la que se ha tomado una muestra pequeña (ej. n < 30). Para los valores grandes de n (ej. n > 50), prácticamente no hay diferencia entre las dos definiciones. Cuando es necesario distinguir la desviación estándar de una población de la desviación estándar de una muestra sacada de esta población, se emplea el símbolo S para la última y , para la primera. Así, S2 y 2 representarían la

varianza muestral y la varianza poblacional, respectivamente. Ejemplo para datos sin agrupar: Una persona consumió las siguientes calorías por día: Día X1: 3000 calorías Día X2: 5000 calorías Día X3: 2000 calorías Día X4: 4000 calorías Día X5: 6000 calorías n = 5 días Media = (3000+5000+2000+4000+6000) / 5= 4000 calorías Desviación Estándar: 

((3000 – 4000)2 + (5000 – 4000)2 + (2000 – 4000)2+ (4000 – 4000)2 + (6000 – 4000) 2 ) / 5 =



(1.000.000 +1.000.000+4.000.000+0+4.000.000) / 5

25

Facultad de Ciencias Médicas Universidad Nacional de La Plata



Desviación estándar: 1414,21

Ejemplo para datos agrupados: Cuando los datos están agrupados en intervalos de clase, como en nuestro ejemplo de Pomona – RN, el cálculo se complica un poco, debiendo realizar cálculos adicionales: Población de Pomona por edad Edad marca de clase x TOTAL 0a4 2

f 2138

( x- media)2 13033,10

f* (x- media)2 1192315,40

1249,51 921,03 642,54 414,06 235,58 107,09 28,61

144943,55 143680,49 99594,36 82397,88 44523,70 15635,22 3146,66

5a9 10 a 14 15 a 19 20 a 24 25 a 29 30 a 34 35 a 39

7 12 17 22 27 32

116 156 155 199 189 146 110

37

123

0,12

14,93

40 a 44

42 47

112 114

21,64 93,15

2423,33 10619,36

52 57

132 116

214,67 386,18

28336,14 44797,25

62

107

607,70

65023,75

67 72

97 110

879,21 1200,73

85283,76 132080,24

77

85

1572,24

133640,82

82 87

40 31

1993,76 2465,28

79750,41 76423,55

45 a 49 50 a 54 55 a 59 60 a 64 65 a 69 70 a 74 75 a 79 80 a 84 85 a 89

1) En primer lugar hay que calcular la marca de clase (representante) de cada intervalo marca de clase = (limite inferior + límite superior) / 2 Así para el primer intervalo = X1= (0+4) / 2= 2 26

Facultad de Ciencias Médicas Universidad Nacional de La Plata

Para el segundo intervalo = X2= (5 + 9) / 2 =7 Y así sucesivamente, al último intervalo lo supondremos cerrado y de la misma longitud que los demás, para permitir el cálculo de la marca de clase. 2) Luego se resta la marca de clase de cada intervalo con la media calculada anteriormente, en nuestro ejemplo Media = 37,35 y al resultado se lo eleva al cuadrado. Así para el primer intervalo = (2 – 37,35) 2 = (- 35,35) 2 = 1249,51 Para el segundo intervalo = (7 – 37.35) 2 = (- 30,35)2 = 921,03 Y así sucesivamente 3) Posteriormente se multiplican las frecuencias (f) por los resultados del paso 2). Así para el primer intervalo = 116 * 1249,51= 144943,55 Para el segundo intervalo = 156 * 921,03= 143680,49 Y así sucesivamente 4) Por último se realiza la división: Numerador = 1192315,40 (sumatoria de los resultados del paso 3)) Denominador = 2138 total de observaciones (o sumatoria de frecuencias) Desviación Estándar = 1192315,40 / 2138 = 23,62

Coeficiente de variación Sirve para comparar las variabilidades entre dos o más conjuntos de datos. Puede hacerse esto con sus respectivas varianzas o desviaciones estándares cuando las variables se dan en las mismas unidades y cuando sus medidas son aproximadamente iguales. Cuando faltan estas condiciones, puede que deseemos usar alguna medida relativa de dispersión. Una medida relativa de variabilidad frecuentemente usada se llama coeficiente de variación, designado cv, que es simplemente la razón de la desviación estándar a la media: CV = desviación estándar / media

27

Facultad de Ciencias Médicas Universidad Nacional de La Plata

Distribución Normal o distribución de Gauss Uno de los más importantes ejemplos de una distribución continua es la distribución normal. Para distribuciones normales resulta que:  68,27 % de los casos están a una desviación estándar a cada lado de la media.  95.45 % de los casos están a dos desviaciones estándar a cada lado de la media.  99,73 % de los casos están a tres desviaciones estándar a cada lado de la media. Gráficamente, se representa la distribución en un HISTOGRAMA y su polígono de frecuencias. Luego se trazan ejes perpendiculares al eje de las x que pasan por:  la media  la media ± 1 desviación estándar  la media ± 2 desviación estándar  la media ± 3 desviación estándar

Propiedades: 

La curva es simétrica con respecto al eje de las Y0.



La curva se aproxima al eje de las X más y más estrechamente cuando z es mayor en valor absoluto que  3. Sin embargo, la curva se extiende

28

Facultad de Ciencias Médicas Universidad Nacional de La Plata

sin límite en ambas direcciones. Puesto que f(z) nunca es cero para cualquier valor de z, la curva no interceptará al eje de las X. 

La curva tiene un punto máximo cuando z = 0.



La curva tiene puntos de inflexión cuando z = 1; es decir, la curva es cóncava hacia abajo entre z = -1 y z = 1, y es cóncava hacia arriba a la derecha de z=1 y a la izquierda de z=-1.



Cualquier punto sobre la curva no es el valor de la probabilidad. El área total bajo la curva normal y sobre el eje de las X es la probabilidad total de la distribución, o igual a 1. Existe una tabla que da las áreas bajo esta curva, limitadas por la ordenada z = 0 y cualquier otro valor positivo de z. De esta tabla puede sacarse el área comprendida entre dos ordenadas cualesquiera por la simetría de la curva respecto a z = 0.

29

Facultad de Ciencias Médicas Universidad Nacional de La Plata

Bibliografía:   

Calton T. Estadística en Medicina. Ediciones Salvat. Barcelona. 1979. (1– 45). Polit D, Hungler B. Investigación Científica en Ciencias de la Salud. Principios y Métodos. 6° edición. Editorial Mc Graw Hill Interamericana México Año 2002. Jiménez Villa J, Grifell martín E. Conceptos de Estadística. En: Atención Primaria (Martín Zurro y col, editores). España. 2001

30