Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
1
UNIVERSIDAD CATOLICA ANDRES BELLO Urb. Montalbán – La Vega – Apartado 29068 Teléfono: 471-4148 Fax: 471-3043 Caracas, 1021 - Venezuela
___________ Facultad de Ingeniería Escuela de Ingeniería Informática -----------------------
ESTADÍSTICA DESCRIPTIVA A continuación serán expuestas las definiciones y notaciones que vamos a utilizar en estadística descriptiva:
Frecuencia Absoluta: f i Frecuencia Relativa: hi
Frecuencia Relativa Porcentual: hi % Frecuencia Acumulada: Fi
Frecuencia Relativa Acumulada: H i Frecuencia Porcentual Acumulada: H i % LimiteInfe rior LimiteSuperior Marca de Clase ( X i ): 2 M N M Máximo , N Mínimo Amplitud de Clase ( a ): k n tamaño de la muestra 1) Número de Clases ( k ): k n Observación: Esta regla es útil cuando n 400 .
2) Número de Clases ( k ): 1 3,322 * log( n) 3) Número de Clases ( k ): log( n) / log( 2)
(Regla de Sturges)
La estadística descriptiva se divide en tres partes que serán expuestas a continuación: Representación Grafica: -
Sectores Circulares. Histograma. Diagrama de Cajas. Barras. Puntos.
Preparador: Eduardo Lakatos Contreras
Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
2
Medidas de Tendencia Central: Son un número entorno a que valor está concentrado el resto de la muestra. -
Media Aritmética. Moda: Es la variable de la muestra que más se repite. Mediana: Es el valor que divide el conjunto de datos ordenados en dos partes iguales.
Medidas de Dispersión: Cuan disperso están los valores. -
Recorrido. Desviación Estándar. Varianza.
Medidas de Posición: Dividen la muestra en distintas partes iguales. -
Cuartiles: Dividen el conjunto de datos ordenados en 4 partes iguales. Deciles: Dividen el conjunto de datos ordenados en 10 partes iguales. Percentiles: Dividen el conjunto de datos ordenados en 100 partes iguales.
Fórmulas de Medidas de Tendencia Central: Media Aritmética:
x Cuando sea para una muestra. Cuando sea para una población. Datos no Agrupados
Datos Agrupados
n
x
X i 1
n
n
i
X X 2 X 3 ... X n 1 n N
X i 1
i
x
X i 1
i
* fi
X 1 * f1 X 2 * f 2 ... X n * f n n
n X i : Marcas de Clases. f i : Frecuencias absolutas.
N
Moda: Es el valor que más se repite en un grupo de números dentro de una muestra. Datos no Agrupados
Datos Agrupados
No existe fórmula para datos no agrupados, lo único que hay que hacer es tomar la variable con el valor que más se repite.
Los pasos son: 1. Ubicar la mayor f i , para hallar el intervalo modal
Preparador: Eduardo Lakatos Contreras
Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
3
2. Aplicar la fórmula
Mo li
i *a i s
li : Límite inferior. i : Es el valor que se obtiene de restar la f mod al con la frecuencia anterior. s : Es el valor que se obtiene de restar la f mod al con la frecuencia siguiente. a : Amplitud de Clase. Consideraciones: -
Puede haber más de una moda cuando dos o más números se repiten la misma cantidad de veces. En este caso se estaría hablando de una muestra multi-modal. No hay moda si ningún número se repite más de una vez.
Mediana: Datos no Agrupados
Datos Agrupados
El valor de la mediana puede coincidir o no con un valor de la muestra, todo depende si el número de datos es par o impar. Los pasos son: 1. Organizar en orden ascendente los datos. 2. Si el número de datos es impar, utilizamos la siguiente fórmula:
n 1 2
Si el número de datos es par, la mediana será el promedio aritmético de los dos valores que se encuentran en la mitad de la muestra.
Los pasos son: 3. Calcular:
n 2
4. Localizar ese valor en Fi , si no está pasar al inmediato superior, con esto se haya el intervalo de la mediana. 5. Aplicar la formula sustituyendo los valores correspondientes.
n Fa 2 Me li *a f med
li : Límite inferior. Fa : Frecuencia acumulada anterior. f med : Frecuencia absoluta del intervalo de la mediana. a : Amplitud de Clase.
Fórmulas de Medidas de Dispersión: Recorrido: Es la diferencia entre el valor más alto y el más bajo observado.
Preparador: Eduardo Lakatos Contreras
Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
4
R Xmáximo Xmínimo Desviación típica o estándar: Se define como la raíz cuadrada positiva de la varianza.
S Cuando sea para una muestra. Cuando sea para una población. Datos no Agrupados
Datos Agrupados
n
S
( X i X )2 i 1
n 1
n
(X
S
i 1
n 1
N
( X i )2 i 1
N
X )2 * fi
i
N
(X
i 1
i
)2 * fi N
Consideraciones: -
La desviación típica de una constante es cero. Siempre es una cantidad positiva. La desviación típica del producto de una constante por una variable es igual al producto de la constante por la desviación típica de la variable.
Varianza: Es la medida del cuadrado de la distancia promedio entre la media y cada elemento de la población.
S 2 Cuando sea para una muestra. 2 Cuando sea para una población. Datos no Agrupados
Datos Agrupados
n
S2
(X i X )2 i 1
n 1
n
S2
N
2
( X i )2 i 1
N
(X i 1
X )2 * fi
i
n 1 N
2
(X i 1
i
)2 * fi N
Consideraciones: -
Cuando deseamos estimar la varianza de una población, a partir de una muestra, el error cometido es mucho menor si lo dividimos entre n 1 y no n .
Preparador: Eduardo Lakatos Contreras
Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
5
Fórmulas de Medidas de Posición:
MEDIANA Q2 D5 P50 Anteriormente observamos la mediana con su respectiva medida de posición. Además podemos denotar otros tipos de igualdades entre las diferentes medidas de posición: Cuartiles = Percentiles Q1 P25
Q3 P75 Deciles = Percentiles D1 P10 D6 P60
D2 P20
D7 P70
D3 P30
D8 P80
D4 P40
D9 P90
Datos no Agrupados
Datos Agrupados
Los pasos son: Los pasos son: 1. Organizar en orden ascendente los n* p 1. Ubicar el resultado de en Fi datos. 100 2. Calcular el índice “i”: 2. Si no está el valor, se pasa al inmediato superior. p 3. Al ubicar el valor de Fi determinamos i *n 100 el valor de donde se obtendrán los p : Percentil que queremos hallar. datos para sustituir en la ecuación. 4. Aplicamos la fórmula: n : Tamaño de la muestra. -
-
Si “i” es entero el percentil es el promedio de los valores de los datos ubicados en los lugares “i” e “i+1”. Si “i” no es entero el percentil se redondea al valor entero inmediato superior.
n* p Fa 100 Pp li *a fp li : Límite inferior. Fa : Frecuencia acumulada anterior. p : Percentil que queremos hallar. n : Tamaño de la muestra. a : Amplitud de Clase. f p : Frecuencia Absoluta del intervalo.
Preparador: Eduardo Lakatos Contreras
Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
6
PROBLEMAS Debemos destacar que los problemas expuestos en esta sección son sacados de libros, guías, internet o cualquier otra herramienta bibliográfica. Tabla de distribución de frecuencias para datos sin agrupar:
1) (Prof. José Campos) Si en un examen de base de datos las notas fueron 7, 7, 7, 8, 9, 9, 9, 10, 10, 11, 11, 11, 11, 12, 12, 14. Construimos la tabla de distribución de frecuencias. NOTAS
Frecuencia Absoluta
Frecuencia Relativa
Frecuencia Acumulada
Frecuencia Relativa Porcentual
Frecuencia Relativa Acumulada
Frecuencia Porcentual Acumulada
7 8 9 10 11 12 14 TOTAL
3 1 3 2 4 2 1 16
3/16 =0,19 1/16 =0,06 3/16 =0,19 2/16 =0,125 4/16 =0,25 2/16 =0,125 1/16 =0,06 1
3 4 7 9 13 15 16 16
19 6 19 12,5 25 12,5 6 100
0,19 0,25 0,44 0,565 0,815 0,94 1 1
19 25 44 56,5 81,5 94 100 100
Cálculo de Medidas de Tendencia Central para datos sin agrupar: a. Media: 16
x
X i 1
i
16
7 7 7 8 9 9 9 10 10 11 11 11 11 12 12 14 16
158 9,88 16
16
x
X i 1
16
i
b. Mediana
Xn Xn Par.-
Me
2
2
2
1
X 8 X 9 10 10 10 2 2
Preparador: Eduardo Lakatos Contreras
Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
7
c. Moda La moda es: Mo 11 Cálculo de Medidas de Dispersión para datos sin agrupar: a. Recorrido
R Xmáximo Xmínimo 14 7 7 b. Desviación típica o estándar
n
S
(X i 1
i
X )2
n 1 [3 * (7 9,88) 2 ] (8 9,88) 2 [3 * (9 9,88) 2 ] [2 * (10 9,88) 2 ] [4 * (11 9,88) 2 ]
S
S
[2 * (12 9,88) 2 (14 9,88) 2 15 24,88 3,53 2,32 0,03 5,02 8,99 16,97 15
61,74 4,116 2,029 15
c. Varianza
V S 2 4,116
Tabla de distribución de frecuencias para datos agrupados:
2) (Prof. José Campos) Si en un examen de base de datos las notas fueron 7, 7, 7, 8, 9, 9, 9, 10, 10, 11, 11, 11, 11, 12, 12, 14. -
Para construir la tabla de distribución de frecuencias (datos agrupados):
1) Ordeno los datos en forma ascendente. 2) Busco n . 3) Busco el número de clases k .
Preparador: Eduardo Lakatos Contreras
Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
8
4) Busco la amplitud de la clase a . 1) Ordeno los datos en forma ascendente: 7, 7, 7, 8, 9, 9, 9, 10, 10, 11, 11, 11, 11, 12, 12, 14. 2) Buscamos n :
n 16 3) Buscamos el número de clases k .
k 16 4 4) Buscamos la amplitud de la clase a . 14 7 7 a 1,75 2 4 4 Construimos la tabla de distribución de frecuencias. NOTAS
Frecuencia Absoluta
Marca de Clase
Frecuencia Relativa
Frecuencia Acumulada
Frecuencia Relativa Porcentual
Frecuencia Relativa Acumulada
Frecuencia Porcentual Acumulada
[7-9) [9-11) [11-13) [13-15) TOTAL
4 5 6 1 16
8 10 12 14
4/16 = 0,25 5/16 = 0,31 6/16 = 0,38 1/16 = 0,06 1
4 9 15 16 16
25 31 38 6 100
0,25 0,56 0,94 1 1
25 56 94 100 100
Cálculo de Medidas de Tendencia Central para datos agrupados: a. Media: 16
x
X i 1
i
16
* fi
8 * 4 10 * 5 12 * 6 1 *14 168 10,5 16 16
El valor anterior es un estimado de la media ya que al agrupar las clases no conocemos el verdadero valor de cada individuo de la muestra, se renuncia a la exactitud por la comodidad de los cálculos. b. Mediana
Preparador: Eduardo Lakatos Contreras
Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
9
n 16 8 2 2
Calcular:
Como no se encuentra 8 en la frecuencia acumulada, se toma el inmediato superior, que en este caso vendría siendo 9.
Me 9
84 * 2 10,6 5
c. Moda
Mo 11
65 * 2 11,333 (6 5) (6 1)
Cálculo de Medidas de Dispersión para datos agrupados: a. Recorrido
R Xmáximo Xmínimo 14 7 7 b. Desviación típica o estándar n
S
(X i 1
i
X )2 * fi n 1
[(8 10,5) 2 * 4] [(10 10,5) 2 * 5] [(12 10,5) 2 * 6] [(14 10,5) 2 *1] S 15 S
25 1,25 13,5 12,25 52 3,467 1,862 15 15
c. Varianza
V S 2 3,467
3) (Prof. José Campos) Un investigador desea determinar cómo varían las estaturas de las obreras de una empresa y toma una muestra de 50 mujeres para registrar luego sus estaturas en pulgadas. Los datos obtenidos fueron los siguientes:
Preparador: Eduardo Lakatos Contreras
Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
65 64 64 63 64
63 65 65 65 64
65 64 64 63 63
63 72 71 70 69
69 68 68 67 67
10
67 66 66 66 66
53 55 56 57 58
58 57 59 59 60
60 60 61 61 61
-
Para construir la tabla de distribución de frecuencias (datos agrupados):
5) 6) 7) 8)
Ordeno los datos en forma ascendente. Busco n . Busco el número de clases k . Busco la amplitud de la clase a .
61 62 62 62 62
1) Ordeno los datos en forma ascendente: 53, 55, 56, 57, 57, 58, 58, 59, 59, 60, 60, 60, 61, 61, 61, 61, 62, 62, 62, 62, 63, 63, 63, 63, 63, 64, 64, 64, 64, 64, 64, 65, 65, 65, 65, 65, 66, 66, 66, 66, 67, 67, 67, 68, 68, 69, 69, 70, 71, 72. 2) Buscamos n :
n 50 3) Buscamos el número de clases k . k 50 7,071 7
4) Buscamos la amplitud de la clase a . 72 53 19 a 2,71 3 7 7 Construimos la tabla de distribución de frecuencias. ESTATURAS
fi
Xi
hi
Fi
hi %
Hi
Hi %
[53-56) [56-59) [59-62) [62-65) [65-68) [68-71) [71-74) TOTAL
2 5 9 15 12 5 2 50
54,5 57,5 60,5 63,5 66,5 69,5 72,5
0,04 0,1 0,18 0,3 0,24 0,1 0,04 1
2 7 16 31 43 48 50 50
4 10 18 30 24* 10 4 100
0,04 0,14 0,32 0,62 0,86 0,96 1 1
4 14 32 62** 86 96 100 100
Preparador: Eduardo Lakatos Contreras
Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
11
Interpretación * El 24% de las obreras tienen una estatura mayor de 65 y menor de 68 pulgadas. ** El 62% de las obreras tienen una estatura menor de 65 pulgadas.
a. Media: 50
x
X i 1
i
* fi
50
54,5 * 2 57,5 * 5 60,5 * 9 63,5 *15 66,5 *12 69,5 * 5 72,5 * 2 3184 63,68 50 50
Las obreras en promedio tienen una estatura de 63,68 pulgadas b. Mediana Calcular:
n 50 25 2 2
Como no se encuentra 25 en la frecuencia acumulada, se toma el inmediato superior, que en este caso vendría siendo 31.
Me 62
25 16 * 3 63,8 15
El 50% de las obreras tienen una estatura igual o inferior a 63,68 aproximadamente. c. Moda
Mo 62
15 9 * 3 64 (15 9) (15 12)
La mayoría de las obreras tienen una estatura de 64 pulgadas aproximadamente. d. Recorrido
R Xmáximo Xmínimo 72 53 19
Preparador: Eduardo Lakatos Contreras
Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
12
e. Desviación típica o estándar
[(54,5 63,68) 2 * 2] [(57,5 63,68) 2 * 5] [(60,5 63,68) 2 * 9] [(63,5 63,68) 2 *15] S
[(66,5 63,68) 2 *12] [(69,5 63,68) 2 * 5] [(72,5 63,68) 2 * 2] 49
871,38 17,783 4,217 49 f. Varianza
S
V S 2 17,783
4) (Prof. José Campos) La siguiente tabla representa la edad de los empleados que trabajan en cierta empresa: Edad 22-26) 26-30) 30-34) 34-38) 38-42) 42-46) 46-50)
N° de Empleados 12 29 27 19 16 10 7
Construimos la tabla de distribución de frecuencias. Edad
fi
Xi
hi
Fi
hi %
Hi
Hi %
[22-26) [26-30) [30-34) [34-38) [38-42) [42-46) [46-50) TOTAL
12 29 27 19 16 10 7 120
24 28 32 36 40 44 48
0,1 0,24 0,23 0,16 0,13 0,08 0,06 1
12 41 68 87 103 113 120 120
10 24 23 16 13 8 6 100
0,1 0,34 0,57 0,73 0,86 0,94 1 1
10 34 57 73 86 94 100 100
Preparador: Eduardo Lakatos Contreras
Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
13
a. Edad más frecuente:
Mo 26
29 12 * 4 29,58 (29 12) (29 27)
b. La edad que se encuentra justo en el 50% de la distribución: Calcular:
n 120 60 2 2
Como no se encuentra 60 en la frecuencia acumulada, se toma el inmediato superior, que en este caso vendría siendo 68.
Me 30
60 41 * 4 32,81 27
c. La edad mínima del 40% entre los mayores: Calculamos el P60 120 * 60 72 100 Como no se encuentra 72 en la frecuencia acumulada, se toma el inmediato superior, que en este caso vendría siendo 87.
120 * 60 68 P60 34 100 * 4 34,84 19 d. Porcentaje entre 28 y 40 años: Pp 28
( Pp li ) * f i p
a n
Pp 40
( Pp li ) * f i
Fa *100
(28 26) * 29 12 4 p *100 22,08 120
p
a n
Fa *100
(40 38) *16 87 4 p *100 79,17 120
Preparador: Eduardo Lakatos Contreras
Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
El porcentaje entre 28 y 40 años es:
14
R 79,17 22,08 59,07
e. Porcentaje entre x s : Media: 120
X
x
i 1
i
* fi
120
24 *12 28 * 29 32 * 27 36 *19 40 *16 44 *10 48 * 7 4064 33,87 120 120
Desviación típica o estándar:
[(24 33,87) 2 *12] [(28 33,87) 2 * 29] [(32 33,87) 2 * 27] [(36 33,87) 2 *19] S
[(40 33,87) 2 *16] [(44 33,87) 2 *10] [(48 33,87) 2 * 7] 119
S
5373,87 45,159 6,72 119
x s : 27,15;40,59 Pp 27,15
( Pp li ) * f i p
a n
Pp 40,59
( Pp li ) * f i
Fa
(27,15 26) * 29 12 4 p *100 16,95 120 El porcentaje x s es:
p
*100
a n
Fa *100
(40,59 38) *16 87 4 p *100 81,13 120
R 81,13 16,95 64,18
f. Calcule la curtosis e interprete: El intervalo es 64,18% por lo que la distribución de los datos es platicúrica.
Preparador: Eduardo Lakatos Contreras
Universidad Católica Andrés Bello Preparaduría Probabilidades y Estadísticas
15
g. Calcule el coeficiente de asimetría e interprete:
SK
3 * ( x Med ) 3 * (33,87 32,81) 0,47 S 6,72
La asimetría es positiva, lo que quiere decir, sesgo a la derecha. h. Histograma: 35 30 25 20 15 10 5 0 [22-26)
[26-30)
[30-34)
[34-38)
[38-42)
[42-46)
[46-50)
Preparador: Eduardo Lakatos Contreras