Notas sobre convergencia y funciones generatrices

Anuncio
Notas sobre convergencia y funciones generatrices
Universidad Carlos III de Madrid
Abril 2013
Para modelar un fenómeno aleatorio que depende del tiempo, podemos considerar sucesiones
de variables X1 , X2 , . . . donde Xi modela el estado del fenómeno a tiempo i. El conjunto de ı́ndices
puede representar unidades de tiempo, iteraciones de un proceso, etc. Es natural que en este tipo
de situaciones, si queremos tener una información que no dependa del tiempo, nos preguntemos
acerca del comportamiento de Xn cuando n → ∞. Antes de formalizar esta idea consideremos el
siguiente ejemplo.
Ejemplo. Supongamos que lanzamos un dado n veces, n un número muy grande, y observamos
que el promedio de los números observados es an = 3,500867. Al comparar este valor con el
valor esperado de la variable aleatoria que modela el número observado al lanzar un dado al azar,
1
6 (1 + 2 + . . . + 6) = 3,5, podemos ver que están muy cerca. Es natural conjeturar que
an → 3,5 cuando
1.
n→∞
Desigualdad de Chebyshev y Ley de Grandes Números
Varios resultados de la teorı́a de probabilidad establecen condiciones para probar conjeturas del tipo ”si repetimos un experimento muchas veces entonces el promedio de los resultados se aproxima
al valor esperado”.
Teorema (Desigualdad de Markov). Sea X una variable aleatoria y g una función positiva entonces, para todo ε > 0,
E(g(X))
P(g(X) ≥ ε) ≤
ε
Prueba. Supongamos que X es continua, el caso discreto es similar.
Z
Z
E(g(X)) =
g(x) f (x)dx +
{x:g(x)≥ε}
≥
Z
g(x) f (x)dx
{x:g(x)≥ε}
≥ ε
g(x) f (x)dx
{x:g(x)<ε}
Z
f (x)dx
{x:g(x)≥ε}
= εP(g(X) ≥ ε)
1
Un caso particular de la desigualdad de Markov es la súper conocida Desigualdad de Chebyshev.
Corolario. Si X es una variable aleatoria con E(X) = µ entonces
1
P(|X − µ| ≥ ε) ≤ 2 Var(X)
ε
Prueba
P(|X − µ| ≥ ε) = P(|X − µ|2 ≥ ε2 ) ≤
1
1
E((X − µ)2 ) = 2 Var(X)
2
ε
ε
Esta desigualdad es muy útil para aproximar cuán concentrada está una variable alrededor de
su valor esperado.
Sean X1 , X2 , . . . , Xn variables i.i.d. con E(Xi ) = µ y Var(Xi ) = σ2 . Denotemos el promedio muestral por
Sn X1 + X2 + . . . + Xn
Xn =
=
.
n
n
Ya que
E(X n ) = E(
y
X1 + X2 + . . . + Xn
1
) = nµ
n
n
σ2
1
Var(X
+
X
+
.
.
.
+
X
)
=
,
n
1
2
n2
n
usando la desigualdad de Chebyshev se tiene que
Var(X n ) =
1 σ2
ε2 n
Decimos que Xn converge en probabilidad a X si para todo ε > 0,
P(|X n − µ| ≥ ε) ≤
P(|Xn − X| ≥ ε) −→ 0 cuando n −→ ∞.
Teorema (Ley Débil de Grande Números). Sean X1 , X2 , . . . , Xn variables i.i.d. con E(Xi ) < ∞,
entonces el promedio muestral X n converge en probabilidad a µ.
La Ley Débil de Grandes Números ofrece un potente método de estimación conocido como el
Método de Monte Carlo. El siguiente ejemplo ilustra la idea básica del método.
Ejemplo. Sea (X,Y ) un vector aleatorio distribuı́do uniformemente en el rectángulo B = [0, a] ×
[0, b]. Sea A un área contenida en B, ası́,
|A|
ab
Para estimar p, generamos puntos (X1 ,Y1 ), . . . , (Xn ,Yn ) i.i.d. U[0, a] × [0, b] y consideramos la v.a.
Bernoulli
p = P((X,Y ) ∈ A) =
Zi = 1 si (Xi ,Yi ) ∈ A
= 0 en caso contrario
Es fácil verificar el promedio Z n converge en probabilidad a p.
2
6
0.6
5
0.5
0.4
4
3.5
0.3
3
0.2
2.
0
100
2,5
0
200
100
200
Función generatriz de momentos
Hemos visto que la esperanza y la varianza dan información acerca de la v.a. Para obtener esta
información necesitamos calcular E[X] y E[X 2 ]. El momento de orden k no es más que la extensión
de esta idea para tener más información acerca de la variable.
Definición. El momento de k-ésimo orden de una v.a. X es E[X k ] siempre y cuando E[|X|k ] < ∞.
Ejemplo: Si X tiene distribución Gamma(n, β) entonces el momento de orden k es
k
Z ∞
E[X ] =
0
n(n + 1) . . . (n + k − 1)
βn −βx
e dx =
x
Γ(n)
βk
k
Ejemplo: Si X tiene distribución Cauchy entonces
k
Z ∞
E[X ] =
xk
−∞
1
dx
π(1 + x2 )
En vista de que la integral no converge en valor absoluto para ningún k ≥ 1 decimos que la distribución de Cauchy no tiene momentos.
Un criterio útil para garantizar la existencia de momentos es:
E[|X|k ] < ∞ implica E[|X|r ] < ∞ para 1 ≤ r ≤ k
En particular, cuando digamos que Var(X) < ∞, estaremos diciendo que los momentos de primer
y segundo orden existen.
Si lo que estamos buscando es obtener información de una variable; formalmente de la distribución de probabilidad; a través de sus momentos, parece natural construir una función que
reproduzca el valor de todos los momentos si es que existen.
Definición. La función generatriz de momentos de una v.a. X es la función
MX (t) = E[e−tX ] para todo t para el cual la esperanza existe
Ejemplo: Si X tiene distribución Gamma(n, β) entonces
n
β
MX (t) =
para t ≤ β
β−t
3
Ejemplo: Si X tiene distribución Cauchy entonces MX (t) sólo está definida para t = 0.
Ejemplo: Si X tiene distribución Normal(µ, σ2 ) entonces
MX (t) = eµt+σ
2 t 2 /2
para todo t ∈ R
Ejemplo: Si X tiene distribución Poisson(λ) entonces
t
MX (t) = e−λ(1−e ) para todo t ∈ R.
Volviendo a nuestro problema, ¿cómo reproducir los momentos de una v.a. a partir de su función generatriz?. El siguiente teorema responde la pregunta.
Teorema. Si MX existe en un entorno de 0, entonces para cualquier k ≥ 1
E[X k ] =
dk
MX (0)
dt k
La prueba formal de este teorema se escapa del alcance de estas notas. La idea básica es la siguiente:
La esperanza es una sumatoria o una integral dependiendo cual sea el caso que estemos estudiando. Estos operadores (sumatoria e integral) conmutan, bajo condiciones de regularidad, con el
operador derivada (¿puede el lector construir ejemplos concretos donde esto ocurre?). Ası́ resulta
que
dk
dk
d k tX
tX
M
(t)
=
E[e
]
=
E[
e ] = E[X k etX ]
X
dt k
dt k
dt k
evaluando la identidad anterior en t = 0 obtenemos el resultado del teorema.
Más que reproducir los momentos de una distribución, la función generatriz provee una manera
de caracterizar distribuciones de probabilidad, tal y como lo expresa el siguiente teorema.
Teorema. Si MX existe en un entorno de 0, entonces hay una única distribución con función generatriz MX . Además, bajo esta condición todos los momentos existen, no importa el orden, y el
desarrollo de Taylor de la función generatriz es
tk
∞
MX (t) =
∑ E[X k ] k!
k=0
Del teorema anterior podemos observar que no basta conocer todos los momentos para caracterizar una distribución, es necesario que la serie
∞
∑ E[X k ]
k=0
tk
k!
converja en un entorno de cero, tal como aparece en la hipótesis del teorema.
La prueba de este teorema se basa en propiedades de la transformada de Laplace y la omitiremos, sin embargo, su aplicación es de gran utilidad al conectarla con las siguientes propiedades:
4
Para números a, b se tiene
MaX+b (t) = E[e(aX+b)t ] = ebt E[eatX ] = etb MX (at)
Si X,Y son independientes entonces
MX+Y (t) = E[et(X+Y ) ] = E[etX etY ] = E[etX ]E[etY ] = MX (t)MY (t)
Usando recursivamente la propiedad anterior, si X1 , . . . , Xn son independientes, entonces
MX1 +...+Xn = MX1 . . . MXn
Ejemplo: Sean X1 , . . . , Xn v.a.i.i.d. Exponenciales(β). ¿Cuál es la distribución de la suma Sn =
X1 + . . . + Xn ?. Sabiendo que la función generatriz de una exponencial es
MX1 (t) =
β
para t ≤ β
β−t
podemos usar las propiedades enunciadas y verificar que
n
β
MSn (t) =
para t ≤ β
β−t
que corresponde a la función generatriz de una Gamma(n, β). Usando el teorema anterior podemos
concluir que la suma de n exponenciales i.i.d de parámetro β tiene distribución Gamma(n, β).
El lector puede usar esta técnica para probar los siguientes resultados:
sumas de normales independientes es normal
sumas de Poisson independientes es Poisson
En general, pruebe que si (MX (t))1/n es la función generatriz de una v.a. Z, entonces sumas de
n réplicas independientes de Z se distribuye como X.
3.
Función caracterı́stica
Como vimos, la función generatriz ofrece un poderoso método para identificar distribuciones
de probabilidad. El problema es que la función generatriz no siempre existe, como es el caso de
la Cauchy. La clase de distribuciones para la cual no existe es suficientemente grande como para
necesitar una alternativa. Usando la fórmula de Moivre
√
eiω = cosω + isenω, con i = −1
es fácil ver que
MX (iω) = E[cos(ωX)] + iE[sen(ωX)]
Ya que las funciones coseno y seno son acotadas, la función
φX (ω) = MX (iω)
5
siempre existe y tiene propiedades equivalentes a las de la función generatriz. Por lo cual conviene
introducir la siguiente definición
Definición. La función caracterı́stica de una v.a. X es la función
φX (ω) = E[eiωX ]
En estas notas, suponemos que el lector no está familiarizado con el cálculo en variable compleja.
Para calcular φX (ω) = E[eiωX ], se puede usar la identidad
φX (ω) = MX (t) para t = iω
cuando MX (t) existe.
Ejemplo: Si X tiene distribución Gamma(n, β) entonces
n
β
φX (ω) =
β − iω
Cuando MX (t) no existe, por ejemplo para el caso Cauchy, el uso de tablas para la transformada de fourier puede ser muy útil. Casi cualquier función caracterı́stica ya ha sido tabulada. En
particular, si X es Cauchy,
1
φX (ω) = e−|ω|
2
El hecho de que la función caracterı́stica siempre exista simplifica el criterio de caracterización
análogo al que estudiamos para la función generatriz de momentos.
Teorema. Las v.a. X,Y tienen la misma distribución sı́ y sólo sı́ φX (ω) = φY (ω) para todo ω. Aún
más, si X es continua con densidad de probabilidad f , la siguiente fórmula puede ser usada para
recobrar f a partir de la función caracterı́stica
1
f (x) =
2π
Z +∞
−∞
e−iωx φX (ω)dω
Esta fórmula no es más que la inversa de la transformada de fourier, observando que la función
caracterı́stica
Z +∞
φX (ω) =
e−iωx f (x)dx
−∞
es la transformada de fourier de f .
Para terminar, enunciamos algunas propiedades que el lector puede probar sin dificultad, siguiendo las pruebas análogas para la función generatriz.
Para números a, b se tiene
φaX+b (ω) = eiωb φX (aω)
Si X,Y son independientes entonces
φX+Y (ω) = φX (t)φY (ω)
Usando recursivamente la propiedad anterior, si X1 , . . . , Xn son independientes, entonces
φX1 +...+Xn = φX1 . . . φXn
6
4.
Convergencia en distribución y Teorema Central del Lı́mite
Cuando consideramos sucesiones de variables aleatorias X1 , X2 , . . . es natural preguntarse acerca del comportamiento de Xn cuando n → ∞. En particular, sobre la distribución de probabilidades
de Xn cuando n → ∞. Antes de formalizar esta idea observemos el siguiente ejemplo:
Consideremos la sucesión de variables aleatorias X1 , X2 , . . . con P(Xn = 1n ) = 1. Es decir, con
probabilidad 1, Xn = n1 . Lo natural serı́a que {Xn } converja a una v.a. X que tiene probabilidad 1
de valer 0. Veamos que pasa con las funciones de distribución de estas v.a.
1
n
1
= 1 si x ≥
n
Fn (x) = P(Xn ≤ x) = 0 si x <
F(x) = P(X ≤ x) = 0 si x < 0
= 1 si x ≥ 0
Por otro lado
lı́m Fn (x) = 0 si x ≤ 0
n→∞
= 1 si x > 0
Es decir, con la excepción de 0, que es un punto de discontinuidad de F,
lı́m Fn (x) = F(X).
n→∞
Este ejemplo muestra que los puntos de discontinuidad de la distribución lı́mite deben ser ignorados, lo cual nos lleva a la siguiente definición.
Definición. Consideremos la sucesión de v.a. X1 , X2 , . . . con funciones de distribución F1 , F2 , . . .
respectivamente. Sea X una v.a. con función de distribución F. Diremos que Xn converge en distribución a X, o que Xn → X en distribución, si
lı́m Fn (x) = F(X)
n→∞
para todo x donde F sea continua.
Ejemplo: Considere el mı́nimo Un de n variables i.i.d. uniformes en (0,1). Es fácil intuir que pasa
con Un cuando n → ∞. Ahora bien, ¿qué pasa con nUn cuando n → ∞?. Primero que nada, como
Un ∈ (0, 1), entonces nUn ∈ (0, n) y
x
P(nUn ≤ x) = P Un ≤
para x ∈ (0, n)
n
Usando la definición del mı́nimo y la independencia, la probabilidad anterior puede escribirse
como
h x
x in
1 − P(nUn > x) = 1 − P Un >
= 1− P X >
n
n
7
con X uniforme en (0,1). Sustituyendo,
x n
P(nUn ≤ x) = 1 − 1 −
para x ∈ (0, n)
n
Usando el hecho de que si nan → a entonces
lı́m(1 − an )n = ea
(1)
se obtiene
x n
= 1 − e−x para x ∈ (0, ∞)
lı́m P(nUn ≤ x) = lı́m 1 − 1 −
n
que corresponde a la distribución de una variable exponencial de parámetro 1. Es decir, si X1 , X2 , . . .
son v.a.i.i.d. uniformes sobre (0,1), entonces
nUn → exp(1) en distribución.
Cuando las variables toman valores enteros la convergencia en distribución se reduce a la convergencia de la funciones de masa. El lector no tendrá dificultad en probar la siguiente proposición.
Proposición 1. Si X, X1 , X2 , . . . toman valores enteros y para todo k
lı́m P(Xn = k) = P(X = k)
entonces Xn → X en distribución.
Ejemplo. Considere la sucesión de v.a. {Xn } con Xn binomial(n, pn ). Supongamos que pn → 0
con npn → λ > 0. Es decir, para n grande, Xn es una binomial con muchas repeticiones de un
experimento que tiene muy poco chance de éxito. Podemos probar
lı́m P(Xn = 0) = e−λ
y que
lı́m
P(Xn = k + 1)
= λ(k + 1)
P(Xn = k)
Usando recurrencia, vemos que
lı́m P(Xn = k) = e−λ
λk
k!
que es la función de masa de una Poisson(λ). Es decir,
Xn → Poisson(λ) en distribución.
Los dos ejemplos anteriores muestran la dificultad de probar convergencia en distribución por
definición. El siguiente teorema ofrece un método sencillo de hacerlo
Teorema de continuidad: Sean X1 , X2 , . . . v.a. y φ1 , φ2 , . . . sus respectivas funciones caracterı́sticas. Si
lı́m φn (ω) =: φ(ω) para todo ω ∈ R
8
y φ(ω) es continua en ω = 0, entonces φ es la función caracterı́stica de una v.a. X tal que Xn → X
en distribución.
La prueba de este teorema exige de conocimientos avanzados de análisis matemático, sin embargo el teorema en sı́ es fácilmente intuible, a excepto de la condición técnica φ continua en cero.
Ejemplo: Usar el teorema para probar la convergencia a Poisson del ejemplo anterior. Debemos
probar que
lı́m φn (ω) =: φ(ω) para todo ω ∈ R
Para el ejemplo anterior
φn (ω) = qn + pn eiω
n
iω )
y φ(ω) = e−λ(1−e
Ası́,
lı́m φn (ω) = lı́m qn + pn eiω
n
n
= lı́m 1 − pn (1 − eiω )
n
λ
iω
= lı́m 1 − (1 − e )
n
iω )
= e−λ(1−e
La aplicación por excelencia del teorema de continuidad es el muy famoso
Teorema del Lı́mite Central. Sean X1 , X2 , . . . v.a.i.i.d. con varianza finita σ2 . Denotemos por µ la
esperanza común de las variables. Entonces
X1 + . . . + Xn − nµ
√
→ N(0, σ2 ) en distribución
n
5.
Problemas
1. El número de llamadas que llegan a la central telefónica de Sartenejas en un minuto, es, en
promedio, 102 . La central puede manejar un máximo de 103 llamadas, colapsando si recibe
más de este número de llamadas en un minuto. Usar la desigualdad de Chebyshev para
estimar la probabilidad de que la central colapse en un minuto dado.
2. En el problema de la fábrica del capı́tulo anterior, supóngase que los amplificadores con
Γ < 7,5 × 103 seg−1/2 son rechazados por control de calidad.
(a) Use la desigualdad de Chebyshev para estimar el % de amplificadores rechazados.
(b) Calcule la misma probabilidad de la parte (a) usando la tabla de la distribución normal.
Explique la discrepancia de los resultados.
3. A través de una encuesta se quiere estimar la fracción p de adultos de la población que se
interesarı́a en un nuevo producto. Se interroga a n personas de la población, y se estima p
como p̃ = X/n, siendo X el número de personas encuestadas que manifiestan interés en el
9
producto. Utilizando el Teorema del Lı́mite Central, y suponiendo que el verdadero valor de
p es 0.35, encuentre, aproximadamente, el menor valor de n para el cual p̃ y p difieren en
menos de 0.02, con probabilidad mayor que 0,9. ¿Como resolverı́a el problema en el caso
(realista) en que p es desconocido?
4. Tomamos 50 números al azar (uniformemente) en el intervalo (1,3).
Utilize la desigualdad de Chebyshev para estimar la probabilidad de que el promedio
X de estos números se encuentre entre 1,9 y 2,1.
Utilize el Teorema del Lı́mite Central para aproximar la misma probabilidad de la parte
(a) Según la aproximación que nos dá el T.L.C., ¿Cuánto debe ser ε para que X se
encuentre en el intervalo (1 − ε, 1 + ε) con probabilidad 0,95.
5. Use la función generatriz para calcular el momento de tercer orden de una Normal(µ, σ2 ).
2.- Sean {Xn } v.a.i.i.d. y N una v.a. a valores enteros positivos independiente de {Xn }. Calcule la función generatriz de momentos de X1 + . . . + XN y deduzca la esperanza y varianza
de esta v.a.
6. {Xn } v.a. con
P Xn =
k
n+1
=
1
para k = 1, . . . n
n
Pruebe que Xn → U(0,1) en distribución.
7. Suponga que Xn tiene
√ distribución Gamma(n, 1). Calcule la función generatriz de momentos
de Zn = (Xn − n)/ n y demuestre que
lı́m MZn (t) = et
¿Qué concluye?.
10
2 /2
Descargar