Estadística Descriptiva

Percentiles: Dividen el conjunto de datos ordenados en 100 partes iguales. Fórmulas de Medidas de Tendencia Central: Media Aritmética: = x Cuando sea para ...
591KB Größe 206 Downloads 298 vistas
Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

1

UNIVERSIDAD CATOLICA ANDRES BELLO Urb. Montalbán – La Vega – Apartado 29068 Teléfono: 471-4148 Fax: 471-3043 Caracas, 1021 - Venezuela

___________ Facultad de Ingeniería Escuela de Ingeniería Informática -----------------------

ESTADÍSTICA DESCRIPTIVA A continuación serán expuestas las definiciones y notaciones que vamos a utilizar en estadística descriptiva:  

Frecuencia Absoluta: f i Frecuencia Relativa: hi

 

Frecuencia Relativa Porcentual: hi % Frecuencia Acumulada: Fi

 

Frecuencia Relativa Acumulada: H i Frecuencia Porcentual Acumulada: H i % LimiteInfe rior  LimiteSuperior Marca de Clase ( X i ): 2 M N M  Máximo , N  Mínimo Amplitud de Clase ( a ): k n  tamaño de la muestra 1) Número de Clases ( k ): k  n Observación: Esta regla es útil cuando n  400 .

  

 

2) Número de Clases ( k ): 1  3,322 * log( n) 3) Número de Clases ( k ): log( n) / log( 2)

(Regla de Sturges)

La estadística descriptiva se divide en tres partes que serán expuestas a continuación: Representación Grafica: -

Sectores Circulares. Histograma. Diagrama de Cajas. Barras. Puntos.

Preparador: Eduardo Lakatos Contreras

Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

2

Medidas de Tendencia Central: Son un número entorno a que valor está concentrado el resto de la muestra. -

Media Aritmética. Moda: Es la variable de la muestra que más se repite. Mediana: Es el valor que divide el conjunto de datos ordenados en dos partes iguales.

Medidas de Dispersión: Cuan disperso están los valores. -

Recorrido. Desviación Estándar. Varianza.

Medidas de Posición: Dividen la muestra en distintas partes iguales. -

Cuartiles: Dividen el conjunto de datos ordenados en 4 partes iguales. Deciles: Dividen el conjunto de datos ordenados en 10 partes iguales. Percentiles: Dividen el conjunto de datos ordenados en 100 partes iguales.

Fórmulas de Medidas de Tendencia Central: Media Aritmética:

x  Cuando sea para una muestra.   Cuando sea para una población. Datos no Agrupados

Datos Agrupados

n

x

X i 1

n

n

i

X  X 2  X 3  ...  X n  1 n N



X i 1

i

x

X i 1

i

* fi



X 1 * f1  X 2 * f 2  ...  X n * f n n

n X i : Marcas de Clases. f i : Frecuencias absolutas.

N

Moda: Es el valor que más se repite en un grupo de números dentro de una muestra. Datos no Agrupados

Datos Agrupados

No existe fórmula para datos no agrupados, lo único que hay que hacer es tomar la variable con el valor que más se repite.

Los pasos son: 1. Ubicar la mayor f i , para hallar el intervalo modal

Preparador: Eduardo Lakatos Contreras

Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

3

2. Aplicar la fórmula

Mo  li 

i *a i   s

li : Límite inferior.  i : Es el valor que se obtiene de restar la f mod al con la frecuencia anterior.  s : Es el valor que se obtiene de restar la f mod al con la frecuencia siguiente. a : Amplitud de Clase. Consideraciones: -

Puede haber más de una moda cuando dos o más números se repiten la misma cantidad de veces. En este caso se estaría hablando de una muestra multi-modal. No hay moda si ningún número se repite más de una vez.

Mediana: Datos no Agrupados

Datos Agrupados

El valor de la mediana puede coincidir o no con un valor de la muestra, todo depende si el número de datos es par o impar. Los pasos son: 1. Organizar en orden ascendente los datos. 2. Si el número de datos es impar, utilizamos la siguiente fórmula:

n 1 2

Si el número de datos es par, la mediana será el promedio aritmético de los dos valores que se encuentran en la mitad de la muestra.

Los pasos son: 3. Calcular:

n 2

4. Localizar ese valor en Fi , si no está pasar al inmediato superior, con esto se haya el intervalo de la mediana. 5. Aplicar la formula sustituyendo los valores correspondientes.

n  Fa 2 Me  li  *a f med

li : Límite inferior. Fa : Frecuencia acumulada anterior. f med : Frecuencia absoluta del intervalo de la mediana. a : Amplitud de Clase.

Fórmulas de Medidas de Dispersión: Recorrido: Es la diferencia entre el valor más alto y el más bajo observado.

Preparador: Eduardo Lakatos Contreras

Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

4

R  Xmáximo  Xmínimo Desviación típica o estándar: Se define como la raíz cuadrada positiva de la varianza.

S  Cuando sea para una muestra.   Cuando sea para una población. Datos no Agrupados

Datos Agrupados

n

S

 ( X i  X )2 i 1

n 1

n

(X

S

i 1

n 1

N



 ( X i  )2 i 1

N

 X )2 * fi

i

N

(X



i 1

i

 )2 * fi N

Consideraciones: -

La desviación típica de una constante es cero. Siempre es una cantidad positiva. La desviación típica del producto de una constante por una variable es igual al producto de la constante por la desviación típica de la variable.

Varianza: Es la medida del cuadrado de la distancia promedio entre la media y cada elemento de la población.

S 2  Cuando sea para una muestra.  2  Cuando sea para una población. Datos no Agrupados

Datos Agrupados

n

S2 

 (X i  X )2 i 1

n 1

n

S2 

N

2 

 ( X i  )2 i 1

N

(X i 1

 X )2 * fi

i

n 1 N

2 

(X i 1

i

 )2 * fi N

Consideraciones: -

Cuando deseamos estimar la varianza de una población, a partir de una muestra, el error cometido es mucho menor si lo dividimos entre n  1 y no n .

Preparador: Eduardo Lakatos Contreras

Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

5

Fórmulas de Medidas de Posición:

MEDIANA  Q2  D5  P50 Anteriormente observamos la mediana con su respectiva medida de posición. Además podemos denotar otros tipos de igualdades entre las diferentes medidas de posición: Cuartiles = Percentiles Q1  P25

Q3  P75 Deciles = Percentiles D1  P10 D6  P60

D2  P20

D7  P70

D3  P30

D8  P80

D4  P40

D9  P90

Datos no Agrupados

Datos Agrupados

Los pasos son: Los pasos son: 1. Organizar en orden ascendente los n* p 1. Ubicar el resultado de en Fi datos. 100 2. Calcular el índice “i”: 2. Si no está el valor, se pasa al inmediato superior. p   3. Al ubicar el valor de Fi determinamos i *n 100   el valor de donde se obtendrán los p : Percentil que queremos hallar. datos para sustituir en la ecuación. 4. Aplicamos la fórmula: n : Tamaño de la muestra. -

-

Si “i” es entero el percentil es el promedio de los valores de los datos ubicados en los lugares “i” e “i+1”. Si “i” no es entero el percentil se redondea al valor entero inmediato superior.

n* p  Fa 100 Pp  li  *a fp li : Límite inferior. Fa : Frecuencia acumulada anterior. p : Percentil que queremos hallar. n : Tamaño de la muestra. a : Amplitud de Clase. f p : Frecuencia Absoluta del intervalo.

Preparador: Eduardo Lakatos Contreras

Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

6

PROBLEMAS Debemos destacar que los problemas expuestos en esta sección son sacados de libros, guías, internet o cualquier otra herramienta bibliográfica. Tabla de distribución de frecuencias para datos sin agrupar:

1) (Prof. José Campos) Si en un examen de base de datos las notas fueron 7, 7, 7, 8, 9, 9, 9, 10, 10, 11, 11, 11, 11, 12, 12, 14. Construimos la tabla de distribución de frecuencias. NOTAS

Frecuencia Absoluta

Frecuencia Relativa

Frecuencia Acumulada

Frecuencia Relativa Porcentual

Frecuencia Relativa Acumulada

Frecuencia Porcentual Acumulada

7 8 9 10 11 12 14 TOTAL

3 1 3 2 4 2 1 16

3/16 =0,19 1/16 =0,06 3/16 =0,19 2/16 =0,125 4/16 =0,25 2/16 =0,125 1/16 =0,06 1

3 4 7 9 13 15 16 16

19 6 19 12,5 25 12,5 6 100

0,19 0,25 0,44 0,565 0,815 0,94 1 1

19 25 44 56,5 81,5 94 100 100

Cálculo de Medidas de Tendencia Central para datos sin agrupar: a. Media: 16

x

X i 1

i

16



7  7  7  8  9  9  9  10  10  11  11  11  11  12  12  14 16



158  9,88 16

16

x

X i 1

16

i

b. Mediana

Xn  Xn Par.-

Me 

2

2

2

1



X 8  X 9 10  10   10 2 2

Preparador: Eduardo Lakatos Contreras

Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

7

c. Moda La moda es: Mo  11 Cálculo de Medidas de Dispersión para datos sin agrupar: a. Recorrido

R  Xmáximo  Xmínimo  14  7  7 b. Desviación típica o estándar

n

S

(X i 1

i

 X )2

n 1 [3 * (7  9,88) 2 ]  (8  9,88) 2  [3 * (9  9,88) 2 ]  [2 * (10  9,88) 2 ]  [4 * (11  9,88) 2 ] 

S

S

[2 * (12  9,88) 2  (14  9,88) 2 15 24,88  3,53  2,32  0,03  5,02  8,99  16,97  15

61,74  4,116  2,029 15

c. Varianza

V  S 2  4,116

Tabla de distribución de frecuencias para datos agrupados:

2) (Prof. José Campos) Si en un examen de base de datos las notas fueron 7, 7, 7, 8, 9, 9, 9, 10, 10, 11, 11, 11, 11, 12, 12, 14. -

Para construir la tabla de distribución de frecuencias (datos agrupados):

1) Ordeno los datos en forma ascendente. 2) Busco n . 3) Busco el número de clases k .

Preparador: Eduardo Lakatos Contreras

Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

8

4) Busco la amplitud de la clase a . 1) Ordeno los datos en forma ascendente: 7, 7, 7, 8, 9, 9, 9, 10, 10, 11, 11, 11, 11, 12, 12, 14. 2) Buscamos n :

n  16 3) Buscamos el número de clases k .

k  16  4 4) Buscamos la amplitud de la clase a . 14  7 7 a   1,75  2 4 4 Construimos la tabla de distribución de frecuencias. NOTAS

Frecuencia Absoluta

Marca de Clase

Frecuencia Relativa

Frecuencia Acumulada

Frecuencia Relativa Porcentual

Frecuencia Relativa Acumulada

Frecuencia Porcentual Acumulada

[7-9) [9-11) [11-13) [13-15) TOTAL

4 5 6 1 16

8 10 12 14

4/16 = 0,25 5/16 = 0,31 6/16 = 0,38 1/16 = 0,06 1

4 9 15 16 16

25 31 38 6 100

0,25 0,56 0,94 1 1

25 56 94 100 100

Cálculo de Medidas de Tendencia Central para datos agrupados: a. Media: 16

x

X i 1

i

16

* fi



8 * 4  10 * 5  12 * 6  1 *14 168   10,5 16 16

El valor anterior es un estimado de la media ya que al agrupar las clases no conocemos el verdadero valor de cada individuo de la muestra, se renuncia a la exactitud por la comodidad de los cálculos. b. Mediana

Preparador: Eduardo Lakatos Contreras

Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

9

n 16  8 2 2

Calcular:

Como no se encuentra 8 en la frecuencia acumulada, se toma el inmediato superior, que en este caso vendría siendo 9.

Me  9 

84 * 2  10,6 5

c. Moda

Mo  11 

65 * 2  11,333 (6  5)  (6  1)

Cálculo de Medidas de Dispersión para datos agrupados: a. Recorrido

R  Xmáximo  Xmínimo  14  7  7 b. Desviación típica o estándar n

S

(X i 1

i

 X )2 * fi n 1

[(8  10,5) 2 * 4]  [(10  10,5) 2 * 5]  [(12  10,5) 2 * 6]  [(14  10,5) 2 *1] S 15 S

25  1,25  13,5  12,25 52   3,467  1,862 15 15

c. Varianza

V  S 2  3,467

3) (Prof. José Campos) Un investigador desea determinar cómo varían las estaturas de las obreras de una empresa y toma una muestra de 50 mujeres para registrar luego sus estaturas en pulgadas. Los datos obtenidos fueron los siguientes:

Preparador: Eduardo Lakatos Contreras

Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

65 64 64 63 64

63 65 65 65 64

65 64 64 63 63

63 72 71 70 69

69 68 68 67 67

10

67 66 66 66 66

53 55 56 57 58

58 57 59 59 60

60 60 61 61 61

-

Para construir la tabla de distribución de frecuencias (datos agrupados):

5) 6) 7) 8)

Ordeno los datos en forma ascendente. Busco n . Busco el número de clases k . Busco la amplitud de la clase a .

61 62 62 62 62

1) Ordeno los datos en forma ascendente: 53, 55, 56, 57, 57, 58, 58, 59, 59, 60, 60, 60, 61, 61, 61, 61, 62, 62, 62, 62, 63, 63, 63, 63, 63, 64, 64, 64, 64, 64, 64, 65, 65, 65, 65, 65, 66, 66, 66, 66, 67, 67, 67, 68, 68, 69, 69, 70, 71, 72. 2) Buscamos n :

n  50 3) Buscamos el número de clases k . k  50  7,071  7

4) Buscamos la amplitud de la clase a . 72  53 19 a   2,71  3 7 7 Construimos la tabla de distribución de frecuencias. ESTATURAS

fi

Xi

hi

Fi

hi %

Hi

Hi %

[53-56) [56-59) [59-62) [62-65) [65-68) [68-71) [71-74) TOTAL

2 5 9 15 12 5 2 50

54,5 57,5 60,5 63,5 66,5 69,5 72,5

0,04 0,1 0,18 0,3 0,24 0,1 0,04 1

2 7 16 31 43 48 50 50

4 10 18 30 24* 10 4 100

0,04 0,14 0,32 0,62 0,86 0,96 1 1

4 14 32 62** 86 96 100 100

Preparador: Eduardo Lakatos Contreras

Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

11

Interpretación * El 24% de las obreras tienen una estatura mayor de 65 y menor de 68 pulgadas. ** El 62% de las obreras tienen una estatura menor de 65 pulgadas.

a. Media: 50

x

X i 1

i

* fi

50



54,5 * 2  57,5 * 5  60,5 * 9  63,5 *15  66,5 *12  69,5 * 5  72,5 * 2 3184   63,68 50 50

Las obreras en promedio tienen una estatura de 63,68 pulgadas b. Mediana Calcular:

n 50   25 2 2

Como no se encuentra 25 en la frecuencia acumulada, se toma el inmediato superior, que en este caso vendría siendo 31.

Me  62 

25  16 * 3  63,8 15

El 50% de las obreras tienen una estatura igual o inferior a 63,68 aproximadamente. c. Moda

Mo  62 

15  9 * 3  64 (15  9)  (15  12)

La mayoría de las obreras tienen una estatura de 64 pulgadas aproximadamente. d. Recorrido

R  Xmáximo  Xmínimo  72  53  19

Preparador: Eduardo Lakatos Contreras

Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

12

e. Desviación típica o estándar

[(54,5  63,68) 2 * 2]  [(57,5  63,68) 2 * 5]  [(60,5  63,68) 2 * 9]  [(63,5  63,68) 2 *15]  S

[(66,5  63,68) 2 *12]  [(69,5  63,68) 2 * 5]  [(72,5  63,68) 2 * 2] 49

871,38  17,783  4,217 49 f. Varianza

S

V  S 2  17,783

4) (Prof. José Campos) La siguiente tabla representa la edad de los empleados que trabajan en cierta empresa: Edad 22-26) 26-30) 30-34) 34-38) 38-42) 42-46) 46-50)

N° de Empleados 12 29 27 19 16 10 7

Construimos la tabla de distribución de frecuencias. Edad

fi

Xi

hi

Fi

hi %

Hi

Hi %

[22-26) [26-30) [30-34) [34-38) [38-42) [42-46) [46-50) TOTAL

12 29 27 19 16 10 7 120

24 28 32 36 40 44 48

0,1 0,24 0,23 0,16 0,13 0,08 0,06 1

12 41 68 87 103 113 120 120

10 24 23 16 13 8 6 100

0,1 0,34 0,57 0,73 0,86 0,94 1 1

10 34 57 73 86 94 100 100

Preparador: Eduardo Lakatos Contreras

Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

13

a. Edad más frecuente:

Mo  26 

29  12 * 4  29,58 (29  12)  (29  27)

b. La edad que se encuentra justo en el 50% de la distribución: Calcular:

n 120   60 2 2

Como no se encuentra 60 en la frecuencia acumulada, se toma el inmediato superior, que en este caso vendría siendo 68.

Me  30 

60  41 * 4  32,81 27

c. La edad mínima del 40% entre los mayores: Calculamos el P60 120 * 60  72 100 Como no se encuentra 72 en la frecuencia acumulada, se toma el inmediato superior, que en este caso vendría siendo 87.

120 * 60  68 P60  34  100 * 4  34,84 19 d. Porcentaje entre 28 y 40 años: Pp  28

( Pp  li ) * f i p

a n

Pp  40

( Pp  li ) * f i

 Fa *100

(28  26) * 29  12 4 p *100  22,08 120

p

a n

 Fa *100

(40  38) *16  87 4 p *100  79,17 120

Preparador: Eduardo Lakatos Contreras

Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

El porcentaje entre 28 y 40 años es:

14

R  79,17  22,08  59,07

e. Porcentaje entre x  s : Media: 120

X

x

i 1

i

* fi

120



24 *12  28 * 29  32 * 27  36 *19  40 *16  44 *10  48 * 7 4064   33,87 120 120

Desviación típica o estándar:

[(24  33,87) 2 *12]  [(28  33,87) 2 * 29]  [(32  33,87) 2 * 27]  [(36  33,87) 2 *19]  S

[(40  33,87) 2 *16]  [(44  33,87) 2 *10]  [(48  33,87) 2 * 7] 119

S

5373,87  45,159  6,72 119

x  s : 27,15;40,59 Pp  27,15

( Pp  li ) * f i p

a n

Pp  40,59

( Pp  li ) * f i

 Fa

(27,15  26) * 29  12 4 p *100  16,95 120 El porcentaje x  s es:

p

*100

a n

 Fa *100

(40,59  38) *16  87 4 p *100  81,13 120

R  81,13  16,95  64,18

f. Calcule la curtosis e interprete: El intervalo es 64,18% por lo que la distribución de los datos es platicúrica.

Preparador: Eduardo Lakatos Contreras

Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas

15

g. Calcule el coeficiente de asimetría e interprete:

SK 

3 * ( x  Med ) 3 * (33,87  32,81)   0,47 S 6,72

La asimetría es positiva, lo que quiere decir, sesgo a la derecha. h. Histograma: 35 30 25 20 15 10 5 0 [22-26)

[26-30)

[30-34)

[34-38)

[38-42)

[42-46)

[46-50)

Preparador: Eduardo Lakatos Contreras