Sumas/promedios de variables aleatorias

Anuncio
Sumas/promedios de variables aleatorias
Dadas unas variables aleatorias X1 , . . . , Xn , interesa considerar las variables
Sn =
n
X
n
Xi
o bien
Zn =
1X
Xi .
n
i=1
i=1
De las variables Sn y Zn querremos calcular sus medias, sus varianzas, y en
general sus funciones de densidad o masa.
El cálculo de las medias no requiere hipótesis:
E(Sn ) =
n
X
E(Xi ),
i=1
n
1X
E(Xi ).
E(Zn ) =
n
i=1
Pablo Fernández Gallardo (UAM)
Probabilidad y Estadı́stica, 2014-2015
November 3, 2014
1 / 12
El calculo de las varianzas es más complicado.
Por ejemplo,
V(X + Y ) = E((X + Y )2 ) − E(X + Y )2
2
= E(X 2 + Y 2 + 2 X · Y ) − E(X ) + E(Y )
= E(X 2 ) + E(Y 2 ) + 2E(X · Y ) − E(X )2 − E(Y )2 − 2E(X ) · E(Y )
= E(X 2 ) − E(X )2 + E(Y 2 ) − E(Y )2 + 2 E(X · Y ) − E(X ) · E(Y )
= V(X ) + V(Y ) + 2 cov(X , Y ).
Obsérvese cómo interviene la covarianza.
Si por ejemplo fueran tres variables, intervendrı́an todas las covarianzas
(de cada par de variables).
Pablo Fernández Gallardo (UAM)
Probabilidad y Estadı́stica, 2014-2015
November 3, 2014
2 / 12
Vamos a ponernos en una situación muy especial: las variables X1 , . . . , Xn
son
independientes;
y todas ellas tienen la misma función de densidad/masa (idénticas).
Se suele decir que son “independientes e idénticamente distribuidas”, y
abreviarse con “variables iid”.
Se trata de un modelo que describe ciertas situaciones habituales:
repetición independiente de un experimento aleatorio en las mismas
condiciones;
simulación de muestras en el ordenador;
etc.
Pablo Fernández Gallardo (UAM)
Probabilidad y Estadı́stica, 2014-2015
November 3, 2014
3 / 12
Digamos entonces que las variables X1 , . . . , Xn son iid, y todas ellas
“copias” de una variable X de referencia.
De esta variable X conocemos
su función de densidad/masa, que denotaremos indistintamente
por fX (x);
su función de distribución FX (x);
y también, claro, su media E(X ) = µ y su varianza V(X ) = σ 2 .
Pablo Fernández Gallardo (UAM)
Probabilidad y Estadı́stica, 2014-2015
November 3, 2014
4 / 12
El cálculo de medias y varianzas de Sn y Zn es ahora especialmente
sencillo:
E(Sn ) =
n
X
E(Xi ) = n µ,
i=1
n
1X
E(Zn ) =
E(Xi ) = µ.
n
i=1
Y, como las Xi son independientes (todas las covarianzas son 0),
V(Sn ) =
n
X
V(Xi ) = n σ 2 ,
i=1
n
1 X
σ2
V(Zn ) = 2
V(Xi ) =
.
n
n
i=1
Pablo Fernández Gallardo (UAM)
Probabilidad y Estadı́stica, 2014-2015
November 3, 2014
5 / 12
Obsérvese que para la variable “promedio”, Zn ,
E(Zn ) = µ
y
V(Zn ) =
σ2
.
n
Ası́ que, para n muy grande, la variable Zn es prácticamente una constante
(el valor µ), puesto que su varianza se hace extremadamente pequeña.
Este hecho es conocido como la “ley de los grandes números”.
Por ejemplo, si lanzamos 1000 veces la moneda regular y calculamos el
promedio de caras, estará muy cercano al 50%.
Pablo Fernández Gallardo (UAM)
Probabilidad y Estadı́stica, 2014-2015
November 3, 2014
6 / 12
Sobre la distribución de la suma y el promedio
¿Cómo es la distribución de las variables Sn y Zn ?
Nos gustarı́a saber, por ejemplo, cuán probable es obtener menos de 400
caras al lanzar 900 veces la moneda regular, o cuán probable es que que al
lanzar 773 veces un dado, el promedio de puntos obtenido esté entre 3 y 4.
En algunos (pocos) casos, conocemos explı́citamente la distribución de
estas variables.
Pablo Fernández Gallardo (UAM)
Probabilidad y Estadı́stica, 2014-2015
November 3, 2014
7 / 12
Ejemplo 1. Supongamos que X ∼ ber(p).
La variable
Sn =
n
X
Xj
i=1
es una bin(n, p), que toma los valores 0, 1, 2 . . . , n con probabilidades
n j
P(Sn = j) =
p (1 − p)n−j
para cada j = 0, 1, . . . , n.
j
¿Y la variable
n
Zn =
1X
Xj ?
n
i=1
Pablo Fernández Gallardo (UAM)
Probabilidad y Estadı́stica, 2014-2015
November 3, 2014
8 / 12
Ejemplo 2. Supongamos que X ∼ N (µ, σ).
La variable
Sn =
es una N (nµ,
√
n
X
Xj
i=1
n σ).
Mientras que la variable
n
Zn =
√
es una N (µ, σ/ n).
Pablo Fernández Gallardo (UAM)
1X
Xj
n
i=1
Probabilidad y Estadı́stica, 2014-2015
November 3, 2014
9 / 12
El teorema central del lı́mite
El teorema central del lı́mite (TCL) afirma que las versiones tipificadas de
las variables Sn y Zn son, aproximadamente y cuando n es grande,
normales estándar.
Es decir, para todo x ∈ R,
P
S − nµ
n→∞
n
√
≤ x −−−→ P(N (0, 1) ≤ x) = Φ(x) .
nσ
O bien
P
Z − µ
n→∞
n
√ ≤ x −−−→ P(N (0, 1) ≤ x) = Φ(x) .
σ/ n
Pablo Fernández Gallardo (UAM)
Probabilidad y Estadı́stica, 2014-2015
November 3, 2014
10 / 12
Esto nos permite contestar (aproximadamente, y siempre que n sea
grande) a cualquier pregunta sobre la distribución de Sn o de Zn .
Ejemplo. Calculamos la probabilidad de que al lanzar 1000 veces la
moneda (regular) obtengamos entre 450 y 550 caras.
La variable X es una ber(1/2). Sabemos que E(X ) = 1/2 y que
V(X ) = 1/4.
Llamemos S1000 = X1 + · · · + X1000 a la variable que registra el número de
caras.
En este caso, la respuesta (exacta) serı́a
P(450 ≤ bin(1000, 1/2) ≤ 550).
Una cantidad, en todo caso, muy difı́cil de calcular.
Pablo Fernández Gallardo (UAM)
Probabilidad y Estadı́stica, 2014-2015
November 3, 2014
11 / 12
Alternativamente, sabiendo que
E(S1000 ) = 500
y
V(S1000 ) = 250,
y usando el TCL,
P(450 ≤ S1000 ≤ 550) = P(−50 ≤ S1000 − 500 ≤ 50)
−50
S1000 − 500
50 √
=P √
≤
≤√
250
250
250
S1000 − 500
√
= P − 3.162 ≤
≤ 3.162
250
≈ P(−3.162 ≤ N (0, 1) ≤ 3.162)
= Φ(3.162) − Φ(−3.162) = 2 Φ(3.162) − 1
= 99.8435%
Pablo Fernández Gallardo (UAM)
Probabilidad y Estadı́stica, 2014-2015
November 3, 2014
12 / 12
Descargar