Teoremas Límite

Anuncio
95
Teoremas límite
Consideremos el experimento aleatorio que consiste en arrojar una moneda
equilibrada n veces. Supongamos que se registra la proporción de caras. Un
resultado conocido es que esta proporción estará cerca de 1/2.
Formalizando un poco tenemos:
ε: ‘se arroja una moneda equilibrada n veces’ A = salió cara
X: no de caras que se observan, X ~ Bi (n, 1/2)
0
Xi = 
1
si sale ceca
si sale cara
1 ≤ i ≤ n, luego X / n =
1 n
∑ Xi = X n
n i =1
X / n : proporción de caras ( = frecuencia relativa del suceso A = fA = nA / n )
Se espera que a medida que n crece la frecuencia relativa de cara
0.5 = E ( X i ) (media poblacional)
0.9
0.8
0.7
0.6
0.5
Frecuencia Relativa
1.0
-----se acerque a------>
1 n
∑ Xi = X / n
n i =1
0
100
200
300
Orden de la tirada
Figura 2: Frecuencia relativa de cara para una sucesión de 400 tiradas
400
96
La figura 2 muestra que las frecuencias relativas de cara obtenidas en 400 tiradas
sucesivas de una moneda se acercan a 0.5 a medida que aumenta la cantidad de
tiradas (los valores de Xi para las 20 primeras y 20 últimas tiradas fueron: 1 1 0 1 0
0 0 1 1 1 1 0 1 1 0 0 1 1 1 1 y 0 1 0 1 0 0 0 0 0 0 1 1 1 1 1 0 0 1 1 0
respectivamente)
Veremos a continuación la ley de los grandes números. Establece que la
probabilidad de que la media muestral (calculada a partir de una muestra aleatoria
de una distribución) difiera de la media poblacional en más de un valor fijo (que
puede ser arbitrariamente pequeño) tiende a cero a medida que el tamaño de la
muestra tiende a infinito. Por eso promediamos!!
Ley (débil) de los Grandes Números
Sea X1, X2, ...., Xn, una sucesión de v.a. independientes tales que E(Xi) = µ y
Var(Xi) = σ2 < ∞, entonces ∀ ε > 0
P ( X n − µ > ε )  → 0
(1)
n → ∞
n
siendo X n =
∑X
i =1
n
i
.
E( X n ) = µ y
Dem: Sabemos que
Var ( X n ) =
σ2
, entonces aplicando la
n
desigualdad de Chebishev a X n ,
P( X n − µ > ε ) ≤
Var ( X n )
ε2
=
σ2
nε 2
∀ε > 0
y, por lo tanto
(
)
σ2
=0
n →∞ n ε 2
lim P X n − µ > ε ≤ lim
n →∞
∀ε > 0
cqd.
Cuando vale (1) decimos que la media muestral converge en probabilidad a µ, lo
indicamos por
p
X n →
µ
También decimos que X n es un estimador consistente de µ
Observación 1: La frecuencia relativa de un suceso A tiende a su probabilidad.
Consideremos n repeticiones independientes de un experimento aleatorio y sea A
un suceso con probabilidad P(A) = p, constante en las n repeticiones. Si llamamos
nA a la frecuencia absoluta de A (número de veces que ocurre A en las n
repeticiones) y fA = nA / n a la frecuencia relativa, entonces
p
fA 
→
p
97
Esto resulta de la ley de los grandes números con Xi ~ Bi(1,p), p = P(A)
n
fA = nA / n = ∑ X i / n
i =1
E(fA) = p y Var(fA) = p (1-p) / n.
Observación 2 La desigualdad de Chebishev también nos permite acotar la
cantidad de repeticiones necesarias para que la frecuencia relativa del suceso A
difiera de su probabilidad (P(A) = p ) como máximo en 0.01 con probabilidad
mayor o igual que 0.90.
En efecto, queremos encontrar n tal que
P ( f A − p ≤ 0.01) ≥ 0.90 ,
(1)
por Chebishev con ε = 0.01 tenemos que
P( f A − p ≤ 0.01) ≥ 1 −
p(1 − p)
n (0.01) 2
Luego la desigualdad (1) se cumplirá siempre que
1−
p(1 − p)
p(1 − p)
p(1 − p)
≥ 0.90 ⇔
≤ 0.10 ⇔ n ≥
2
2
n (0.01)
n (0.01)
(0.01) 2 (0.10)
El valor mínimo de n depende de p. Es máximo cuando p = 0.50. Por ejemplo,
p = 0.50 ⇒ n ≥ 25000
p = 0.10 ⇒ n ≥ 9250
p = 0.01 ⇒ n ≥ 990
Observación 3: La existencia de la varianza no es necesaria para la validez de la
ley de los grandes números, mientras que la de la esperanza es indispensable.
Figura 3: comportamiento de la media muestral para una sucesión de observaciones de una
variable aleatoria N(0,1) y una variable aleatoria Cauchy
98
La figura 3 muestra que la sucesión correspondiente a la N(0,1) se acerca a cero,
mientras que la sucesión correspondiente a la distribución Cauchy muestra un
comportamiento errático.
¿Cómo es la distribución Cauchy?
La función de densidad de probabilidad de una variable aleatoria Z llamada
Cauchy es
1
f Z ( z) =
−∞ < z < ∞
π (1 + z 2 )
y su función de distribución acumulada
1 1
FZ ( z ) = + arctan( z ) − ∞ < z < ∞
2 π
¿Qué forma tiene la función de densidad de la distribución Cauchy?
0.5
- Es simétrica con respecto al cero
- Tiene forma de campana
- Las colas tienden a cero más lentamente que la Normal
0.3
0.4
N(0,1)
0.0
0.1
0.2
Cauchy
-4
-2
0
2
4 z
Figura 4: funciones de densidad de probabilidad N(0,1) y Cauchy
Debido a la simetría alrededor de cero de la función de densidad la esperanza de
una variable Cauchy debería ser cero. Sin embargo
99
∞
E(|Z|) = ∫
|z|
2
−∞ π (1 + z )
dz =
2∞ z
2
dz = lim log(1 + a 2 ) = ∞
∫
2
π 0 (1 + z )
π a →∞
La razón por la cual falla la existencia de la esperanza es debido a que la
densidad decrece tan lentamente que valores grandes de la variable pueden
ocurrir con una probabilidad sustancial
¿ Cómo surge la distribución Cauchy?
Se puede demostrar ( vea por ejemplo John Rice “Mathematical Statistics and
Data Analysis” 1988-1995) que el cociente de dos variables aleatorias N(0,1)
independientes tiene distribución Cauchy.
Corolario de la Ley de los Grandes Números
una muestra aleatoria de una distribución con E(X i ) = µ
Var(X i ) = σ 2 < ∞ entonces
Sea X1, ...,Xn
p
a) X → µ
poblacional
y
La media muestral converge en probabilidad a la media
p
b) S X2 → σ 2
poblacional
La varianza muestral converge en probabilidad a la varianza
Dem.
a) Por la Ley de los Grandes Números.
b) Demostraremos que la varianza muestral S X2 es un estimador consistente de la
varianza poblacional.
n
 n 2

2
(
)
X
−
X
 ∑ Xi

∑
i
n
1 
n  i =1
2
2
2
2
i =1
=
−X
SX =
 ∑ X i − nX  =

n −1
n − 1  i =1
 n −1 n




p
Por la Ley de los Grandes Números X 
→
µ , entonces
p
X2 
→
µ2.
Por otra parte, aplicando nuevamente la Ley de los Grandes Números a X i2
n
∑X
i =1
n
2
i
p

→
E ( X 2 ) = V ( X ) + [E ( X )] = σ 2 + µ 2
2
100
Como además
n
→ 1 , se obtiene
n −1
 n 2

 ∑ Xi

n  i =1
p
2
2
SX =
−X 
→
σ 2 + µ2 − µ2 =σ 2

n −1 n




y por lo tanto la varianza muestral es un estimador consistente de σ 2 .
Teorema Central del Límite: Sean
X 1 , X 2 ,.... v.a. i.i.d con E ( X i ) = µ
y
Var ( X i ) = σ 2 < ∞ , entonces si n es suficientemente grande,
T − nµ ( a )
~ N (0,1)
nσ
n ( X − µ ) (a)
~ N (0,1)
σ
con T = ∑ X i
Dicho de otro modo,
T − nµ
nσ
D
→ Z ~ N (0,1)
n (X − µ) D
→ Z ~ N (0,1)
σ
D
donde la convergencia en distribución ( → ) se interpreta en el siguiente
sentido:
 T − nµ

≤ a  ≅ Φ (a )
P
 nσ

 n (X − µ)

≤ a  ≅ Φ (a )
P
σ


es decir, que las funciones de distribución convergen a la función de distribución
normal standard.
Observación: ¿Qué significa n suficientemente grande? ¿Cómo sabemos si la
aproximación es buena? El tamaño de muestra requerido para que la
aproximación sea razonable depende de la forma de la distribución de las Xi .
Mientras más simétrica y acampanada sea, más rápidamente se obtiene una
buena aproximación.
1.0
2.0
n=2
3.0
1.0
2500
1000
0
2.0
n=5
3.0
1.4
2.0
n=30
2.6
3.0
3.0
0
2000
0
2000
0
2.0
n=1
2.0
0.0
0.4 0.8
n=2
0.0
0.5
n=30
0.7
2.0
0.3
1.0
0.0
0.0
0.2
1.0
n=1
0.4 0.8
n=5
0.4
0.6
0.2
0.0
0.0
0
0.0
0.6
n=2
0.6
0.0
0.8
0.4 0.8
n=1
1.0
0.0
0.0
0.8
2
4
1.5
1.0
1.0
6
1.2
1.0
1000 2000
101
0.2
n=5
0.4
0.0
0.04
n=30
Figura 5: Distribución de X para distintas distribuciones: a) discreta, b) Uniforme,
c) Exponencial
Ejemplo: Al sumar números, una calculadora aproxima cada número al entero más
próximo. Los errores de aproximación se suponen independientes y con
distribución U(-0.5,0.5).
a) Si se suman 1500 números, ¿cuál es la probabilidad de que el valor absoluto
del error total exceda 15?
Sea Xi el error correspondiente al i-ésimo sumando, E ( X i ) = 0 y Var ( X i ) =
1500
El error total es T1500 = ∑ X i y por lo tanto E (T1500 ) = 0 y Var (T1500 ) =
i =1
P (T1500 > 15) = 1 − P( T1500 ≤ 15) = 1 − P(−15 ≤ T1500 ≤ 15) =
1500
.
12
1
12
.
102
T1500
 − 15



 − 15 
15
15
= 1 − P
≤
≤
 ≅ 1 − Φ
 + Φ
 =
1500 / 12
1500 / 12 
 1500 / 12
 1500 / 12 
 1500 / 12 
= 1 − Φ (1.34) + Φ (−1.34) = 0.18
b) ¿Cuántos números pueden sumarse a fin de que el valor absoluto del error total
sea menor o igual que 10 con probabilidad mayor o igual que 0.90?
Buscamos el valor de n tal que
P( Tn ≤ 10) ≥ 0.90
 − 10
P (Tn ≤ 10 ) ≥ 0.90 ⇔ P(− 10 ≤ Tn ≤ 10) ≥ 0.90 ⇔ P
≤ Tn ≤
 n / 12

 ≥ 0.90
n / 12 
10
Aplicando la aproximación normal, debemos hallar n tal que
 10 
 − 10 
 10 
 10 
 − Φ
 ≥ 0.90 ⇔ 2Φ
 − 1 ≥ 0.90 ⇔ Φ
 ≥ 0.95
Φ
 n / 12 
 n / 12 
 n / 12 
 n / 12 
⇔
10
n / 12
≥ 1.64 ⇔ n ≤ 21.12 ⇔ n ≤ 446
es decir, que se pueden sumar a lo sumo 446 números para que el valor absoluto
del error total sea menor o igual que 10 con probabilidad mayor o igual que 0.90.
Aproximación de la distribución binomial por la normal: Sea X ~ Bi (n,p), entonces
X es el número de éxitos en n repeticiones de un experimento binomial con
probabilidad de éxito igual a p, y X / n es la proporción muestral de éxitos.
Definamos las siguientes variables aleatorias
1
Xi = 
0
si se obtuvo Éxito en la repetición i
si se obtuvo Fracaso en la repetición i
n
para i = 1, ..., n. Estas v.a. son independientes, Xi ~ Bi (1, p) ∀ i y X = ∑ X i .
i =1
Aplicando el Teorema Central del Límite, si n es suficientemente grande,
103
X ( a )  p (1 − p ) 
~ N  p,

n
n


(a)
X ~ N (np, np (1 − p ) )
La aproximación es buena si n p ≥ 5 y n (1-p) ≥ 5. Si p = 1/2 la aproximación es
buena aún para n pequeño pues en ese caso la distribución binomial es simétrica.
0.2
0.4
0.6
0.4
0.8
1.0
0.0
0.2
0.0
0.0
Bi(10,0.10)
0.2
0.4
0.6
Bi(5,0.10)
0.0
0.2
0.2
0.3
0.4
0.5
0.0
0.1
0.0
0.1
0.2
0.3
0.4
0.15
0.20
0.08
0.05
0.10
0.15
0.20
0.25
0.0
0.04
0.06
0.0
1.0
Bi(200,0.10)
0.12
Bi(100,0.10)
0.0
0.8
Bi(50,0.10)
0.15
0.0
0.0
0.6
0.10
Bi(20,0.10)
0.4
0.0
0.05
0.10
Figura 6: Distribución probabilidades de
X
n
Corrección por continuidad
Cuando se aproxima una distribución discreta por una continua, como es el caso
de la aproximación de la distribución binomial por la normal, es necesario efectuar
una corrección. Consideremos el siguiente ejemplo:
Sea X ~ Bi (100, 0.6) y calculemos en forma aproximada P(X ≤ 50) y P(X ≥ 51).
Si aplicamos directamente el TCL, obtenemos:
104
 X − 60 50 − 60 
P ( X ≤ 50) = P
≤
 ≅ Φ (− 2.04) = 0.021
24 
 24
 X − 60 51 − 60 
P ( X ≥ 51) = P
≥
 ≅ 1 − Φ (−1.84) = 0.967
24 
 24
Si bien, P(X ≤ 50) + P(X ≥ 51) = 1, los valores aproximados no satisfacen esta
restricción. Para evitar este problema, se efectúa la siguiente corrección,
denominada corrección por continuidad,
 X − 60 50.5 − 60 
P ( X ≤ 50) = P( X ≤ 50.5) = P
≤
 ≅ Φ(− 1.94) = 0.026
24 
 24
 X − 60 50.5 − 60 
P ( X ≥ 51) = P( X ≥ 50.5) = P
≥
 ≅ 1 − Φ (−1.94) = 0.974
24 
 24
En general, cuando la v.a. es discreta y xi – xi-1 = 1, la corrección se realiza en la
forma:
P ( X ≤ a) = P( X ≤ a + 0.5)
P ( X ≥ a ) = P( X ≥ a − 0.5)
Si la distancia entre dos valores sucesivos de X es k > 1, ¿cómo aplicaría la
corrección por continuidad?
Ejemplo: Sea X ~ Bi(60,1/3). Calcular en forma aproximada la probabilidad de que
X sea mayor o igual que 25.


 X − 60 ⋅ 1 24.5 − 60 ⋅ 1 
3 ≥
3  ≅ 1 − Φ (1.23) = 0.11
P ( X ≥ 25) = P( X ≥ 24.5) = P

1 2
1 2 
 60 ⋅ ⋅
60 ⋅ ⋅ 
3 3
3 3 

Otras aplicaciones del Teorema Central del Límite:
a) Sean X 1 , X 2 ,..., X n v.a. i.i.d. con distribución Poisson de parámetro λ, entonces
n
∑X
i =1
i
~ P(nλ )
Por lo tanto, cualquier v.a. con distribución de Poisson con parámetro
suficientemente grande puede ser aproximada por la distribución normal.
105
b) Sean X 1 , X 2 ,..., X n v.a. independientes con distribución Gamma de parámetros
ni y λ, o sea X i ~ Γ(ni , λ ) entonces
 n

X
~
Γ
 ∑ ni , λ 
∑
i
i =1
 i =1

n
Por lo tanto, cualquier v.a. con distribución Γ(m, λ)
con parámetro m
suficientemente grande puede ser aproximada por la distribución normal.
Descargar