ESTADÍSTICA I Unidad 4: Resumen de Contenidos Teóricos1 Mariano Lanza DISTRIBUCIONES DE PROBABILIDAD COMÚNMENTE UTILIZADAS 1. VARIABLES ALEATORIAS DISCRETAS 1.1 Distribución Binomial Definición previa: Prueba Bernoulli: Es una prueba donde existe una probabilidad de éxito, la cual no cambia de una prueba a otra (“pruebas independientes”). Características de la Distribución Cuando un experimento se basa en la repetición sucesiva de una prueba Bernoulli (donde la probabilidad de ocurrencia de la cada prueba es siempre la misma), se considera que se está ante la presencia de un “proceso Bernoulli” y la distribución Binomial es la generalización de dicho proceso. Forma funcional de la distribución Binomial Sea p la probabilidad de éxito de un evento en un ensayo (o prueba) Bernoulli, y sea q=1-p la probabilidad de fracaso de la prueba. Entonces, la probabilidad de que el evento ocurra exactamente x veces en n pruebas, está dada por:
n x ( n− x) n! f ( x) = P( X = x) = p q = p x q ( n− x ) x!(n − x)! x Propiedades de la Distribución Binomial Media: µ x = np Varianza: σ x2 = npq Desvío: σ x = npq
1
Bibliografía consultada: Spiegel M. R y Stephens L. J. (2001): “Estadística”. McGraw-Hill. México. Lind D. A, Marachal W. G. y Mason R. D. (2004): “Estadística para Administración y Economía”. Ed. Alfaomega. México. De la Horra Navarro J. (2003): “Estadística Aplicada”. Ediciones Díaz de Santos. España. Moore D. S. ( 2000): “Estadística Aplicada Básica”. Antoni Bosch Editor S.A. España.
Navidi William (2006): “Estadística para Ingenieros y Científicos”. Ed. McGraw-Hil. 1
Gráficas de Distribución Binomial
n n! f ( x) = P( X = x) = p x q ( n− x ) = p x q ( n− x ) x!(n − x)! x En los próximos gráficos, el n se mantiene fijo en 20 y se altera p para los siguientes valores: 0,1; 0,2; 0,5; 0,8 y 0,9 n=20 y p = 0,1
0.20 0.15 0.10 0.00
0.05
Probability Mass
0.25
Binomial Distribution: T rials = 20, Probability of success = 0.1
0
1
2
3
4
5
6
7
Number of Successes
n=20 y p = 0,1
0.15 0.10 0.05 0.00
Probability Mass
0.20
Binomial Distribution: Trials = 20, Probability of success = 0.2
0
2
4
6
8
10
Number of Successes
2
n=20 y p = 0,5
0.00
0.05
0.10
P robabilityM ass
0.15
Binomial Distribution: T rials = 20, Probability of success = 0.5
4
6
8
10
12
14
16
Number of Successes
n=20 y p = 0,8
0.00
0.05
0.10
ProbabilityM ass
0.15
0.20
Binomial Distribution: T rials = 20, Probability of success = 0.8
10
12
14
16
18
20
Number of Successes
n=20 y p = 0,9
0.20 0.15 0.10 0.05 0.00
ProbabilityM ass
0.25
Binomial Distribution: T rials = 20, Probability of success = 0.9
13
14
15
16
17
18
19
20
Number of Successes
3
En los próximos gráficos, p se mantiene fijo en 0,2 y se altera n para los siguientes valores: 10, 20, 50 y 100 respectivamente. Binomial Distribution: Trials = 10, Probability of success = 0.2
0.15 0.05
0.10
Probability Mass
0.20 0.15 0.10
0.00
0.00
0.05
Probability Mass
0.25
0.20
0.30
Binomial Distribution: Trials = 20, Probability of success = 0.2
0
1
2
3
4
5
6
7
0
2
4
Number of Successes
8
10
Number of Successes
Binomial Distribution: Trials = 50, Probability of success = 0.2
0.06 0.04
0.06
0.08
Probability Mass
0.10
0.08
0.12
0.10
0.14
Binomial Distribution: Trials = 100, Probability of success = 0.2
0.02
0.04 0.02
0.00
0.00
Probability Mass
6
5
10 Number of Successes
15
20
10
15
20
25
30
35
Number of Successes
4
1.2 Distribución Poisson Características de la Distribución Sea X una variable aleatoria discreta que puede tomar los valores 0,1,2,3,…., ∞ , tal que la función de probabilidad está dada por:
f ( x) = P ( X = x) =
λ x e −λ x!
Donde:
λ = es una constante positiva y representa el Nº de éxitos en un intervalo específico. x = el número de ocurrencias buscado Dicha distribución se basa en los siguientes supuestos: •
La probabilidad de ocurrencia es proporcional a la extensión del intervalo considerado
•
Los intervalos son independientes.
Propiedades de la Distribución Media: µ x = λ 2 Varianza: σ x = λ
Desvío:
σx = λ
Identificación para utilizar la distribución de Poisson •
Esta distribución, por lo general, describe la cantidad de veces que ocurre un evento en un intervalo determinado (se lo utiliza comúnmente para fracciones de tiempo, por ejemplo, en nº de fallas por hora (día/mes) en un proceso productivo.
•
Si bien corresponde a una variable aleatoria discreta, está puede tomar infinitos valores. Por lo general el dominio de x no está acotado por derecha (aunque su probabilidad sea próxima a cero, o asintóticamente cero).
•
Para calcular la probabilidad de x, no es necesario conocer la cantidad de veces que se realiza una prueba (a diferencia de una binomial donde debe conocerse n).
Distribución Poisson como un caso extremo de una distribución Binomial Esta distribución es una forma límite de la distribución Binomial cuando la probabilidad de éxito p es muy pequeña y n muy grande ( n>30). Así, como el cálculo de la distribución Poisson es más sencillo y sus diferencias son despreciables cuando se dan las características antes señaladas, entonces se la utiliza como una aproximación de la distribución Binomial. Se utiliza la distribución Poisson como aproximación de una distribución Binomial cuando: •
p → 0
•
n → ∞ (n>30)
•
np < 5
(En este caso, entonces debe calcularse el λ = np )
5
Gráficas de Distribución Poisson
λ x e −λ
f ( x) = P ( X = x) =
x!
En los próximos gráficos se altera el λ en la distribución Poisson Poisson Distribution: Mean = 0.4
0.3 0.2
Probability Mass
0.4 0.3
0.0
0.0
0.1
0.1
0.2
Probability Mass
0.5
0.4
0.6
Poisson Distribution: Mean = 0.8
0
1
2
3
4
0
1
2
3
x
4
5
x
Poisson Distribution: Mean = 4
0.05
0.10
Probability Mass
0.15 0.10 0.00
0.00
0.05
Probability Mass
0.20
0.15
0.25
0.20
Poisson Distribution: Mean = 2
0
2
4
6
0
8
2
4
6
8
10
12
x
x
Poisson Distribution: Mean = 30
0.02
0.04
Probability Mass
0.08 0.06 0.04
0.00
0.02 0.00
Probability Mass
0.10
0.06
0.12
Poisson Distribution: Mean = 10
5
10
15 x
20
15
20
25
30
35
40
45
50
x
6
Ejemplo gráfico de la similitud entre la distribución Binomial y la distribución Poisson para el caso en que: p → 0 n → ∞ (n>30) np < 5
D. Poisson: λ = 0,01*100=1
D. Binomial: P = 0,01, n = 100
Poisson Distribution: Mean = 1
0.1
0.2
Probability Mass
0.2
0.0
0.1 0.0
Probability Mass
0.3
0.3
Binomial Distribution: Trials = 100, Probability of success = 0.01
0
1
2
3
4
5
6
0
1
2
3
4
5
6
x
Number of Successes
1.3 Distribución Hipergeométrica Es una distribución que se la utiliza para el caso en que se presentan las siguientes características: •
El experimento consiste en una sucesión de pruebas, pero no existe reemplazo en la muestra ( el evento es una sucesión de pruebas que poseen la característica de que cada evento o prueba no es independiente de los anteriores).
•
Se conoce el tamaño de la población (N)
•
Se conoce la probabilidad de éxito en la población para le caso de la primer prueba del experimento (lo que llamamos p y q).
•
Es un caso particular del cálculo de probabilidades mediante combinatoria para eventos condicionales, pero en este caso solo referente a cantidad de éxitos y fracasos.
Forma funcional
Np x f ( x) = P ( X = x) =
Nq n − x N n
Donde: N= número total de la población (conocido) p= probabilidad de éxito del primer evento (total con condición/total de la población) q= probabilidad de fracaso del primer evento (total sin condición/total de la población) x= éxitos buscados en la prueba n= número de veces que se repite el evento (sin reposición)
7
Parámetros de la Distribución Media:
µ x = np
Varianza: σ x2 =
npq ( N − n) ( N − 1)
Observaciones: si N → ∞ ( o N es muy grande respecto al valor de n ), la función de Probabilidad Hipergeométrica se reduce a la distribución Binomial. 2. VARIABLES ALEATORIAS CONTINUAS 2.1 Distribución Normal Función de Densidad
f ( x) =
1
σ 2π
−( x−µ )2
e
2σ 2
x / x ∈ ℜ (−∞ < x < ∞)
Donde: µ = media de la variable X
σ = desvío de la variable
Función de Distribución (Acumulada)
F ( x) = P( X ≤ x) =
1
σ 2π
x
∫e
−( v − µ ) 2 2σ 2
dv
−∞
Si X tiene la función de distribución dada anteriormente, decimos que la variable aleatoria X está normalmente distribuida con media µ y desvío σ . Lo dicho se denota como: X ≈ N ( µ ;σ )
Características de la distribución Normal •
La curva es simétrica con respecto al valor de la media.
•
La curva tiene un valor máximo en el valor de la media.
•
La curva tiene puntos de inflexión en aquellos valores de x para los cuales a la media se le suma o se le resta una desviación estándar.
•
La curva, en sus extremos izquierdo y derecho, tiende a acercarse infinitamente al valor cero, es decir, el eje de las abscisas es asíntota horizontal.
8
Gráficos de distribución normal, para media = 0 y diferentes desvíos (ver cambios en la altura de la función de densidad).
Density
0.0
0.2
0.4
0.6
0.8
1.0
1.2
Normal Distribution: µ = 0, σ = 0.3
-1.0
-0.5
0.0
0.5
1.0
x
0.04 0.03 0.00
0.01
0.02
Density
0.05
0.06
Normal Distribution: µ = 0, σ = 6
-20
-10
0
10
20
x
2.2 Distribución Normal Estándar Sea X una V.A. que sigue una distribución normal X ≈ N ( µ ; σ ) , puede obtenerse una función de distribución normal con media cero y desvío igual a 1(denominada distribución normal estándar) si realizamos algunas operaciones. Z=
X −µ
Si llamamos a
σ
, entonces Z ≈ N (0;1)
Función de Densidad
f (z) =
1 2π
e
− ( z )2 2
z / z ∈ ℜ (−∞ < x < ∞)
Función de Distribución (Acumulada)
F ( z) = P(Z ≤ z) =
1 2π
z
∫e
−( v ) 2 2
dv
−∞
9
Características de la distribución Normal •
Presenta las mismas características que la distribución normal (general), pero en este caso particular su media es igual a cero y el desvío igual a uno.
2.3 Aproximaciones a una Distribución Normal 2.3.1 Teorema Central del Límite a) Versión de Lindeberg: Sean X1, X2,…,Xn variables aleatorias independientes. Todas con: •
Igual función de distribución: F(X1), F( X2), …, F(Xn)
•
Iguales parámetros (media y desvío) m1= m2=…..= mn= m
σ 1 = σ 2 .... = σ n = σ Si definimos a Y = X1+ X2+…+Xn., entonces cuando n es suficientemente grande (n tiende a infinito), Y sigue una distribución normal con: my= n*m n *σ
desvío (y) =
Y → N (n * m; n * σ ) o U → N (0;1) , dado que U =
Y − E (Y ) Desv(Y )
b) Versión de Liapunof Sean X1, X2,…,Xn variables aleatorias independientes. Todas con: •
Su propia función de distribución ( que pueden o no coincidir) F(X1) F( X2) … F(Xn)
•
Sus propios parámetros: (media y desvío) m1 m2…. mn
σ 1 σ 2 .... σ n Si definimos a Y = X1+ X2+…+Xn., entonces cuando n es suficientemente grande (n tiende a infinito), Y sigue una distribución normal con: n
my=
∑ mi ; desvío= i =1
n
Y → N (∑ mi ; i =1
n
∑σ i =1
2 i
)
o
n
(∑ σ i2 ) i =1
U → N (0;1) , dado que U =
Y − E (Y ) . Desv(Y )
2.3.2 Aproximación de una distribución Binomial a una distribución Normal Dada una variable aleatoria X que sigue una distribución Binomial
X → Bi (n; p ) •
Cuando n>30
10
•
La probabilidad de éxito es semejante a la probabilidad de fracaso ( p → q ),
Entonces, la variable aleatoria X puede aproximarse a una distribución normal (por aplicación del teorema central del límite)
X → N (np; npq ) Ejemplo gráfico:
X → N (np; npq ) o X → N (50;5)
D. Binomial con n =100 y p =0,5
Normal Distribution: µ = 50, σ = 5
0.04
Density
0.02
0.04 0.00
0.00
0.02
Probability Mass
0.06
0.06
0.08
0.08
Binomial Distribution: Trials = 100, Probability of success = 0.5
35
40
45
50
55
60
35
65
40
45
50
55
60
65
x
Number of Successes
2.3.3 Aproximación de una distribución Poisson a una distribución Normal Dada una variable aleatoria X que sigue una distribución Poisson •
X → Po(λ )
•
Cuando λ → ∞
Entonces, la variable aleatoria X puede aproximarse a una distribución normal X → N (λ ; λ ) Ejemplo gráfico: X → N (λ ; λ )
D. Poisson λ = 50
X → N (50;7,07106) Normal Distribution: µ = 50, σ = 7.07106
0.02
0.03
Density
0.03
0.01
0.02
0.00
0.01 0.00
Probability Mass
0.04
0.04
0.05
0.05
Poisson Distribution: Mean = 50
30
40
50
60 x
70
30
40
50
60
70
x
11
2.4 Otras Distribuciones Continuas 2.4.1 Distribución χ 2 Teorema 1:Sean X1, X2,…,Xv variables aleatorias independientes, todas distribuidas normalmente con media 0 y desvió 1 ( normal estándar): Sea B = X 12 + X 22 + X 32 + ... + X v2 Entonces B posee una distribución Chi-cuadrado, con v grados de libertad.
B → χ (v2 ) Teorema 2: Sean U1, U2,…,Uk variables aleatorias independientes, que siguen una distribución Chi-Cuadrado con v1, v2,…,vk grados de libertad respectivamente. Entonces sus suma W= U1+ U2+…+Uk , sigue una distribución Chi-cuadrado con v1+v2+…+vk grados de libertad. Sea W= U1+ U2+…+Uk Donde U i → χ (2vi ) Entonces W → χ (2v1 + v2 +...+ vk )
Propiedades de la Distribución Chi-Cuadrado •
Esta definida para valores mayores o iguales a cero
•
E ( χ (2k ) ) = k
•
V ( χ (2k ) ) = 2k
2.4.2 Distribución
t – student
Sean Y y Z variables aleatorias independientes donde:
•
Y → N (0;1)
•
Z → χ k2
Entonces:
B=
Y Z k
→ t (k )
Propiedades de la distribución
t – student
E(t) = 0 → N (0,1) Si k → ∞ , entonces t(k)
2.4.3 Distribución F - snedecor Sean V1 y V2 variables aleatorias independientes que poseen una distribución ChiCuadrado con v1 y v2 grados de libertad respectivamente, entonces:
V1 v V = 1 → F (v1 ; v 2 ) V2 v2
12