Ley de los grandes números

Anuncio
La ley de los grandes números
"El indicio de que las cosas
estaban saliéndose de su
cauce normal vino una tarde
de finales de la década
de 1940. Simplemente lo que
pasó fue que entre las
siete y las nueve de aquella
tarde el puente de Triborough
tuvo la concentración de tráfico
saliente más elevada
de su historia".
Comienzo del relato corto
1
"La Ley" de Robert M. Coates
Suma de variables aleatorias discretas
Supongamos que X e Y son dos variables aleatorias discretas
e independientes con funciones de distribución p1(x) y p2(y)
respectivamente. Sea Z = X + Y, ¿cómo será la función de
distribución de Z, p3(z)?
Puesto que el evento Z = z es la unión del par de eventos
disjuntos: (X = k) e (Y = z - k), tendremos:
P3 ( Z = z ) =
∞
∑ P ( X = k ) ⋅ P (Y = z − k )
k = −∞
1
2
Decimos que p3(x) es la convolución de p1(x) y p2(x):
p3(x) = p1(x) * p2(x)
2
Convolución
p3 ( j ) =
∞
∑ p (k ) ⋅ p ( j − k )
k = −∞
1
2
La convolución es una operación conmutativa y asociativa.
Visto lo visto, es "fácil" demostrar por inducción cómo será
la suma de n variables aleatorias independientes:
S n = X 1 + X 2 + ... + X n
teniendo en cuenta que:
S n = S n −1 + X n
3
Veamos un ejemplo: Supongamos que lanzamos un dado
dos veces. Sea el resultado del primer lanzamiento la variable
aleatoria X1 y del segundo, la variable aleatoria X2 , ambas
con la misma distribución de probabilidad que llamaremos
m(x). Calculemos la función de distribución de probabilidad
para S2 = X1 + X2.
P( S 2 = s) =
∞
∑ m( X
k = −∞
1
= k ) ⋅ m( X 2 = s − k )
(....)
4
Si quisiéramos calcular S3 = X1 + X2 + X3 , tendríamos:
(...)
Este es el resultado
gráfico para la suma
S10 de 10 dados.
5
Y estos son los resultados
gráficos para las sumas
S20 y S30 de 20 y 30 dados,
respectivamente.
Observemos que, a medida
que aumenta el número
de dados, tenemos una
curva que se aproxima
más y más a una campana
de Gauss, a una normal.
Veremos por qué más
adelante, cuando hablemos
del teorema central del
límite.
6
Suma de variables aleatorias continuas
Si X e Y son dos variables aleatorias continuas e
independientes con funciones densidad de probabilidad
f(x) y g(x) respectivamente, la variable aleatoria Z = X + Y,
tendrá como densidad de probabilidad la convolución
de f y g:
∞
( f ∗ g )( z ) = ∫ f ( z − y ) g ( y )dy =
−∞
∫
∞
−∞
g ( z − x) f ( x)dx
7
Suma de dos variables aleatorias uniformes
independientes
Dos distribuciones
uniformes U(0,1).
Obtenemos la
densidad de
probabilidad de la
suma de las dos
variables por
convolución de sus
densidades.
8
1
f Z ( z ) = ∫ f X ( z − y )dy
0
Observa que, como X e Y varían entre 0 y 1, su suma Z variará entre 0 y 2.
9
Convolución de dos densidades de probabilidad
uniformes U(0,1).
10
Suma de dos variables aleatorias
exponenciales independientes
Dos densidades
de probabilidad
exponenciales
Exp(λ).
Obtenemos la
densidad de
probabilidad de la
suma de las dos
variables por
convolución de sus
densidades.
11
Convolución de dos
densidades de probabilidad
exponenciales Exp(λ).
12
Suma de dos variables aleatorias
normales independientes
Dos densidades de probabilidad normales
tipificadas N(0,1).
13
Obtenemos la
densidad de
probabilidad de la
suma de las dos
variables por
convolución de sus
densidades.
Normalización
de N(0, √2)
El resultado es una normal de media 0 y varianza 2, N(0,2)
14
Suma de n variables aleatorias independientes
S n = X 1 + X 2 + ... + X n
Teniendo en cuenta que:
S n = S n −1 + X n
Y que:
(
)
f S 2 ( x) = f X1 ∗ f X 2 ( x)
Tendremos para n variables aleatorias independientes:
(
)
f S n ( x) = f X 1 ∗ f X 2 ∗ ... ∗ f X n ( x)
15
Recuerda que la convolución es una operación conmutativa y asociativa.
Suma de n
uniformes
16
Suma de n
normales
17
Suma de n
exponenciales
18
Teorema central del límite
En condiciones muy generales la suma de n
variables aleatorias , independientes e
idénticamente distribuidas con media μ y varianza
distinta de cero σ2, tiende a la distribución normal
a medida que n tiende a infinito.
S n = X 1 + X 2 + ... X n
Otra manera de enunciarlo: bajo las mismas condiciones, si n
es suficientemente grande
se distribuye como una normal N(μ, σ2/n)
19
Desigualdad de Chebyshev (1821-1894)
Una varianza pequeña indica que las desviaciones grandes
alrededor de la media son improbables. La desigualdad de
Chebyshev hace precisa esta impresión:
P( x − µ ≥ kσ ) ≤ 1 k
O bien, haciendo:
2
ε = kσ
P( x − µ ≥ ε ) ≤ σ ε
2
2
Pafnuti Lvovic Cebicev
(1821-1894)
20
Demostración:
σ2=
∞
2 f ( x)dx ≥
(
)
µ
x
−
∫
−∞
≥
∫µ εε
2
x − µ ≥ε
f ( x)dx = ε ⋅
2
x− ≥
2 f ( x)dx ≥
(
)
µ
x
−
∫
∫µ fε ( x)dx
x− ≥
P( x − µ ≥ ε )
⇒ σ ≥ ε P( x − µ ≥ ε )
2
2
Para el caso discreto la demostración es semejante.
21
Ley de los grandes números (en forma débil)
Sean X1, X2, ..., Xn variables aleatorias
independientes, con la misma distribución (misma
media μ y varianza σ2). Entonces, para
Sn = X1 + X2 + ... + Xn y cualquier real ε > 0:
«La frase "ley de los grandes números"
es también usada ocasionalmente para
referirse al principio de que la
probabilidad de que cualquier evento
posible (incluso uno improbable) ocurra
al menos una vez en una serie,
incrementa con el número de eventos
en la serie. Por ejemplo, la probabilidad
de que un individuo gane la lotería es
bastante baja; sin embargo, la
probabilidad de que alguien gane la
lotería es bastante alta, suponiendo que
suficientes personas comprasen boletos
de lotería». Wikipedia

 Sn
lim P
− µ ≥ ε  = 0
n →∞

 n
o de forma equivalente :

 Sn
lim P
− µ < ε  = 1
n →∞

 n
23
Demostración:
2
2
S
n
σ
σ
 n
 S n  nµ
; E  =
=µ
Var   = 2 =
n
 n  n
 n  n
2
 Sn
 σ
Usando la desigualdad
⇒ P
− µ ≥ ε  ≤ 2
de Chebyshev y fijado
ε
n
n


un épsilón:
 Sn

⇒ lim P
− µ ≥ ε  = 0
n →∞
 n

o de forma equivalente :
 Sn

lim P
− µ < ε  = 1
n →∞
 n

24
Observa que Sn/n es un promedio y por eso a la ley de
los grandes números suele conocerse también como
ley de los promedios.
Hemos visto su "forma débil". En su "forma fuerte" nos
dice que si repetimos el lanzamiento de una moneda, la
proporción de caras se aproxima más y más a 1/2 a
medida que aumentamos el número de lanzamientos.
Si Sn es el número de caras en n lanzamientos, la ley
fuerte de los grandes números dice que cuando n tiende
a infinito:
1
 Sn
P →  = 1
2
 n
25
Distribuciones para el número de caras en n lanzamientos de una moneda.
La ley de los grandes números predice que el porcentaje de caras para n
grande estará próximo a 1/2.
En las gráficas se ha
marcado con puntos
las probabilidades
comprendidas entre
0.45 y 0.55.
Vemos como a medida
que n crece la
distribución se
concentra más y más
alrededor de 0.5 y el
porcentaje de área
correspondiente al
intervalo (0.45, 0.55)
se hace más y más
grande.
26
Supongamos que tomamos al azar n números del intervalo
[0,1] con una distribución uniforme. Si la variable aleatoria
Xi describe la elección i-ésima, tenemos:
1
1
2
µ = E ( X i ) = ; σ = Var ( X i ) =
2
12
2
1
 Sn  1
 Sn  σ
Var   =
E  = ;
=
 n  2
 n  n 12n
De modo que, para cualquier ε > 0, tendremos:
 σ2
 Sn
1
P
− µ ≥ ε  ≤ 2 =
2
ε
12
ε
n
n


Es decir, si escogemos al azar n números del intervalo [0,1],
las probabilidades son mejores que 1 - 1/(12nε2) de que
la diferencia |Sn/n - 1/2| sea menor que ε.
27
Gráficos semejantes al caso del lanzamiento de n monedas anterior,
pero ahora con la suma de n valores independientes tomados de una
U(0,1). Rigen los mismos comentarios.
28
Una aplicación al Método de Monte Carlo
Sea g(x) una función
continua definida en
el intervalo [0,1] y con
imagen en [0,1].
Vimos cómo estimar
el área bajo la función,
su integral, generando
pares de números (x,y)
al azar.
Existe una forma más
eficiente de calcular la
integral basándose en
la ley de los grandes números.
29
Escojamos una gran cantidad de números Xn al azar del
intervalo [0,1] con densidad uniforme. Definamos Yn = g (Xn).
El valor esperado de Yn es una estimación del área.
1
1
0
0
µ = E (Yn ) = ∫ g ( x) f ( x)dx = ∫ g ( x)dx
σ = E ((Yn − µ ) ) = ∫ (g ( x) − µ ) dx < 1
2
2
1
2
0
Como el dominio y la imagen de g(x) son el intervalo [0,1],
la media μ estará en [0,1] también y |g(x)- μ| ≤ 1.
 Y1 + Y2 + ... + Yn
 σ2
1
P
− µ ≥ ε  ≤ 2 = 2
n
nε

 nε
Que podemos leer como: la diferencia entre el área estimada
y la real, el error que cometemos, es mayor que épsilon con
30
probabilidad 1/nε2.
31
Descargar