Sumas/promedios de variables aleatorias Dadas unas variables aleatorias X1 , . . . , Xn , interesa considerar las variables Sn = n X n Xi o bien Zn = 1X Xi . n i=1 i=1 De las variables Sn y Zn querremos calcular sus medias, sus varianzas, y en general sus funciones de densidad o masa. El cálculo de las medias no requiere hipótesis: E(Sn ) = n X E(Xi ), i=1 n 1X E(Xi ). E(Zn ) = n i=1 Pablo Fernández Gallardo (UAM) Probabilidad y Estadı́stica, 2014-2015 November 3, 2014 1 / 12 El calculo de las varianzas es más complicado. Por ejemplo, V(X + Y ) = E((X + Y )2 ) − E(X + Y )2 2 = E(X 2 + Y 2 + 2 X · Y ) − E(X ) + E(Y ) = E(X 2 ) + E(Y 2 ) + 2E(X · Y ) − E(X )2 − E(Y )2 − 2E(X ) · E(Y ) = E(X 2 ) − E(X )2 + E(Y 2 ) − E(Y )2 + 2 E(X · Y ) − E(X ) · E(Y ) = V(X ) + V(Y ) + 2 cov(X , Y ). Obsérvese cómo interviene la covarianza. Si por ejemplo fueran tres variables, intervendrı́an todas las covarianzas (de cada par de variables). Pablo Fernández Gallardo (UAM) Probabilidad y Estadı́stica, 2014-2015 November 3, 2014 2 / 12 Vamos a ponernos en una situación muy especial: las variables X1 , . . . , Xn son independientes; y todas ellas tienen la misma función de densidad/masa (idénticas). Se suele decir que son “independientes e idénticamente distribuidas”, y abreviarse con “variables iid”. Se trata de un modelo que describe ciertas situaciones habituales: repetición independiente de un experimento aleatorio en las mismas condiciones; simulación de muestras en el ordenador; etc. Pablo Fernández Gallardo (UAM) Probabilidad y Estadı́stica, 2014-2015 November 3, 2014 3 / 12 Digamos entonces que las variables X1 , . . . , Xn son iid, y todas ellas “copias” de una variable X de referencia. De esta variable X conocemos su función de densidad/masa, que denotaremos indistintamente por fX (x); su función de distribución FX (x); y también, claro, su media E(X ) = µ y su varianza V(X ) = σ 2 . Pablo Fernández Gallardo (UAM) Probabilidad y Estadı́stica, 2014-2015 November 3, 2014 4 / 12 El cálculo de medias y varianzas de Sn y Zn es ahora especialmente sencillo: E(Sn ) = n X E(Xi ) = n µ, i=1 n 1X E(Zn ) = E(Xi ) = µ. n i=1 Y, como las Xi son independientes (todas las covarianzas son 0), V(Sn ) = n X V(Xi ) = n σ 2 , i=1 n 1 X σ2 V(Zn ) = 2 V(Xi ) = . n n i=1 Pablo Fernández Gallardo (UAM) Probabilidad y Estadı́stica, 2014-2015 November 3, 2014 5 / 12 Obsérvese que para la variable “promedio”, Zn , E(Zn ) = µ y V(Zn ) = σ2 . n Ası́ que, para n muy grande, la variable Zn es prácticamente una constante (el valor µ), puesto que su varianza se hace extremadamente pequeña. Este hecho es conocido como la “ley de los grandes números”. Por ejemplo, si lanzamos 1000 veces la moneda regular y calculamos el promedio de caras, estará muy cercano al 50%. Pablo Fernández Gallardo (UAM) Probabilidad y Estadı́stica, 2014-2015 November 3, 2014 6 / 12 Sobre la distribución de la suma y el promedio ¿Cómo es la distribución de las variables Sn y Zn ? Nos gustarı́a saber, por ejemplo, cuán probable es obtener menos de 400 caras al lanzar 900 veces la moneda regular, o cuán probable es que que al lanzar 773 veces un dado, el promedio de puntos obtenido esté entre 3 y 4. En algunos (pocos) casos, conocemos explı́citamente la distribución de estas variables. Pablo Fernández Gallardo (UAM) Probabilidad y Estadı́stica, 2014-2015 November 3, 2014 7 / 12 Ejemplo 1. Supongamos que X ∼ ber(p). La variable Sn = n X Xj i=1 es una bin(n, p), que toma los valores 0, 1, 2 . . . , n con probabilidades n j P(Sn = j) = p (1 − p)n−j para cada j = 0, 1, . . . , n. j ¿Y la variable n Zn = 1X Xj ? n i=1 Pablo Fernández Gallardo (UAM) Probabilidad y Estadı́stica, 2014-2015 November 3, 2014 8 / 12 Ejemplo 2. Supongamos que X ∼ N (µ, σ). La variable Sn = es una N (nµ, √ n X Xj i=1 n σ). Mientras que la variable n Zn = √ es una N (µ, σ/ n). Pablo Fernández Gallardo (UAM) 1X Xj n i=1 Probabilidad y Estadı́stica, 2014-2015 November 3, 2014 9 / 12 El teorema central del lı́mite El teorema central del lı́mite (TCL) afirma que las versiones tipificadas de las variables Sn y Zn son, aproximadamente y cuando n es grande, normales estándar. Es decir, para todo x ∈ R, P S − nµ n→∞ n √ ≤ x −−−→ P(N (0, 1) ≤ x) = Φ(x) . nσ O bien P Z − µ n→∞ n √ ≤ x −−−→ P(N (0, 1) ≤ x) = Φ(x) . σ/ n Pablo Fernández Gallardo (UAM) Probabilidad y Estadı́stica, 2014-2015 November 3, 2014 10 / 12 Esto nos permite contestar (aproximadamente, y siempre que n sea grande) a cualquier pregunta sobre la distribución de Sn o de Zn . Ejemplo. Calculamos la probabilidad de que al lanzar 1000 veces la moneda (regular) obtengamos entre 450 y 550 caras. La variable X es una ber(1/2). Sabemos que E(X ) = 1/2 y que V(X ) = 1/4. Llamemos S1000 = X1 + · · · + X1000 a la variable que registra el número de caras. En este caso, la respuesta (exacta) serı́a P(450 ≤ bin(1000, 1/2) ≤ 550). Una cantidad, en todo caso, muy difı́cil de calcular. Pablo Fernández Gallardo (UAM) Probabilidad y Estadı́stica, 2014-2015 November 3, 2014 11 / 12 Alternativamente, sabiendo que E(S1000 ) = 500 y V(S1000 ) = 250, y usando el TCL, P(450 ≤ S1000 ≤ 550) = P(−50 ≤ S1000 − 500 ≤ 50) −50 S1000 − 500 50 √ =P √ ≤ ≤√ 250 250 250 S1000 − 500 √ = P − 3.162 ≤ ≤ 3.162 250 ≈ P(−3.162 ≤ N (0, 1) ≤ 3.162) = Φ(3.162) − Φ(−3.162) = 2 Φ(3.162) − 1 = 99.8435% Pablo Fernández Gallardo (UAM) Probabilidad y Estadı́stica, 2014-2015 November 3, 2014 12 / 12