La ley de los grandes números "El indicio de que las cosas estaban saliéndose de su cauce normal vino una tarde de finales de la década de 1940. Simplemente lo que pasó fue que entre las siete y las nueve de aquella tarde el puente de Triborough tuvo la concentración de tráfico saliente más elevada de su historia". Comienzo del relato corto 1 "La Ley" de Robert M. Coates Suma de variables aleatorias discretas Supongamos que X e Y son dos variables aleatorias discretas e independientes con funciones de distribución p1(x) y p2(y) respectivamente. Sea Z = X + Y, ¿cómo será la función de distribución de Z, p3(z)? Puesto que el evento Z = z es la unión del par de eventos disjuntos: (X = k) e (Y = z - k), tendremos: P3 ( Z = z ) = ∞ ∑ P ( X = k ) ⋅ P (Y = z − k ) k = −∞ 1 2 Decimos que p3(x) es la convolución de p1(x) y p2(x): p3(x) = p1(x) * p2(x) 2 Convolución p3 ( j ) = ∞ ∑ p (k ) ⋅ p ( j − k ) k = −∞ 1 2 La convolución es una operación conmutativa y asociativa. Visto lo visto, es "fácil" demostrar por inducción cómo será la suma de n variables aleatorias independientes: S n = X 1 + X 2 + ... + X n teniendo en cuenta que: S n = S n −1 + X n 3 Veamos un ejemplo: Supongamos que lanzamos un dado dos veces. Sea el resultado del primer lanzamiento la variable aleatoria X1 y del segundo, la variable aleatoria X2 , ambas con la misma distribución de probabilidad que llamaremos m(x). Calculemos la función de distribución de probabilidad para S2 = X1 + X2. P( S 2 = s) = ∞ ∑ m( X k = −∞ 1 = k ) ⋅ m( X 2 = s − k ) (....) 4 Si quisiéramos calcular S3 = X1 + X2 + X3 , tendríamos: (...) Este es el resultado gráfico para la suma S10 de 10 dados. 5 Y estos son los resultados gráficos para las sumas S20 y S30 de 20 y 30 dados, respectivamente. Observemos que, a medida que aumenta el número de dados, tenemos una curva que se aproxima más y más a una campana de Gauss, a una normal. Veremos por qué más adelante, cuando hablemos del teorema central del límite. 6 Suma de variables aleatorias continuas Si X e Y son dos variables aleatorias continuas e independientes con funciones densidad de probabilidad f(x) y g(x) respectivamente, la variable aleatoria Z = X + Y, tendrá como densidad de probabilidad la convolución de f y g: ∞ ( f ∗ g )( z ) = ∫ f ( z − y ) g ( y )dy = −∞ ∫ ∞ −∞ g ( z − x) f ( x)dx 7 Suma de dos variables aleatorias uniformes independientes Dos distribuciones uniformes U(0,1). Obtenemos la densidad de probabilidad de la suma de las dos variables por convolución de sus densidades. 8 1 f Z ( z ) = ∫ f X ( z − y )dy 0 Observa que, como X e Y varían entre 0 y 1, su suma Z variará entre 0 y 2. 9 Convolución de dos densidades de probabilidad uniformes U(0,1). 10 Suma de dos variables aleatorias exponenciales independientes Dos densidades de probabilidad exponenciales Exp(λ). Obtenemos la densidad de probabilidad de la suma de las dos variables por convolución de sus densidades. 11 Convolución de dos densidades de probabilidad exponenciales Exp(λ). 12 Suma de dos variables aleatorias normales independientes Dos densidades de probabilidad normales tipificadas N(0,1). 13 Obtenemos la densidad de probabilidad de la suma de las dos variables por convolución de sus densidades. Normalización de N(0, √2) El resultado es una normal de media 0 y varianza 2, N(0,2) 14 Suma de n variables aleatorias independientes S n = X 1 + X 2 + ... + X n Teniendo en cuenta que: S n = S n −1 + X n Y que: ( ) f S 2 ( x) = f X1 ∗ f X 2 ( x) Tendremos para n variables aleatorias independientes: ( ) f S n ( x) = f X 1 ∗ f X 2 ∗ ... ∗ f X n ( x) 15 Recuerda que la convolución es una operación conmutativa y asociativa. Suma de n uniformes 16 Suma de n normales 17 Suma de n exponenciales 18 Teorema central del límite En condiciones muy generales la suma de n variables aleatorias , independientes e idénticamente distribuidas con media μ y varianza distinta de cero σ2, tiende a la distribución normal a medida que n tiende a infinito. S n = X 1 + X 2 + ... X n Otra manera de enunciarlo: bajo las mismas condiciones, si n es suficientemente grande se distribuye como una normal N(μ, σ2/n) 19 Desigualdad de Chebyshev (1821-1894) Una varianza pequeña indica que las desviaciones grandes alrededor de la media son improbables. La desigualdad de Chebyshev hace precisa esta impresión: P( x − µ ≥ kσ ) ≤ 1 k O bien, haciendo: 2 ε = kσ P( x − µ ≥ ε ) ≤ σ ε 2 2 Pafnuti Lvovic Cebicev (1821-1894) 20 Demostración: σ2= ∞ 2 f ( x)dx ≥ ( ) µ x − ∫ −∞ ≥ ∫µ εε 2 x − µ ≥ε f ( x)dx = ε ⋅ 2 x− ≥ 2 f ( x)dx ≥ ( ) µ x − ∫ ∫µ fε ( x)dx x− ≥ P( x − µ ≥ ε ) ⇒ σ ≥ ε P( x − µ ≥ ε ) 2 2 Para el caso discreto la demostración es semejante. 21 Ley de los grandes números (en forma débil) Sean X1, X2, ..., Xn variables aleatorias independientes, con la misma distribución (misma media μ y varianza σ2). Entonces, para Sn = X1 + X2 + ... + Xn y cualquier real ε > 0: «La frase "ley de los grandes números" es también usada ocasionalmente para referirse al principio de que la probabilidad de que cualquier evento posible (incluso uno improbable) ocurra al menos una vez en una serie, incrementa con el número de eventos en la serie. Por ejemplo, la probabilidad de que un individuo gane la lotería es bastante baja; sin embargo, la probabilidad de que alguien gane la lotería es bastante alta, suponiendo que suficientes personas comprasen boletos de lotería». Wikipedia Sn lim P − µ ≥ ε = 0 n →∞ n o de forma equivalente : Sn lim P − µ < ε = 1 n →∞ n 23 Demostración: 2 2 S n σ σ n S n nµ ; E = =µ Var = 2 = n n n n n 2 Sn σ Usando la desigualdad ⇒ P − µ ≥ ε ≤ 2 de Chebyshev y fijado ε n n un épsilón: Sn ⇒ lim P − µ ≥ ε = 0 n →∞ n o de forma equivalente : Sn lim P − µ < ε = 1 n →∞ n 24 Observa que Sn/n es un promedio y por eso a la ley de los grandes números suele conocerse también como ley de los promedios. Hemos visto su "forma débil". En su "forma fuerte" nos dice que si repetimos el lanzamiento de una moneda, la proporción de caras se aproxima más y más a 1/2 a medida que aumentamos el número de lanzamientos. Si Sn es el número de caras en n lanzamientos, la ley fuerte de los grandes números dice que cuando n tiende a infinito: 1 Sn P → = 1 2 n 25 Distribuciones para el número de caras en n lanzamientos de una moneda. La ley de los grandes números predice que el porcentaje de caras para n grande estará próximo a 1/2. En las gráficas se ha marcado con puntos las probabilidades comprendidas entre 0.45 y 0.55. Vemos como a medida que n crece la distribución se concentra más y más alrededor de 0.5 y el porcentaje de área correspondiente al intervalo (0.45, 0.55) se hace más y más grande. 26 Supongamos que tomamos al azar n números del intervalo [0,1] con una distribución uniforme. Si la variable aleatoria Xi describe la elección i-ésima, tenemos: 1 1 2 µ = E ( X i ) = ; σ = Var ( X i ) = 2 12 2 1 Sn 1 Sn σ Var = E = ; = n 2 n n 12n De modo que, para cualquier ε > 0, tendremos: σ2 Sn 1 P − µ ≥ ε ≤ 2 = 2 ε 12 ε n n Es decir, si escogemos al azar n números del intervalo [0,1], las probabilidades son mejores que 1 - 1/(12nε2) de que la diferencia |Sn/n - 1/2| sea menor que ε. 27 Gráficos semejantes al caso del lanzamiento de n monedas anterior, pero ahora con la suma de n valores independientes tomados de una U(0,1). Rigen los mismos comentarios. 28 Una aplicación al Método de Monte Carlo Sea g(x) una función continua definida en el intervalo [0,1] y con imagen en [0,1]. Vimos cómo estimar el área bajo la función, su integral, generando pares de números (x,y) al azar. Existe una forma más eficiente de calcular la integral basándose en la ley de los grandes números. 29 Escojamos una gran cantidad de números Xn al azar del intervalo [0,1] con densidad uniforme. Definamos Yn = g (Xn). El valor esperado de Yn es una estimación del área. 1 1 0 0 µ = E (Yn ) = ∫ g ( x) f ( x)dx = ∫ g ( x)dx σ = E ((Yn − µ ) ) = ∫ (g ( x) − µ ) dx < 1 2 2 1 2 0 Como el dominio y la imagen de g(x) son el intervalo [0,1], la media μ estará en [0,1] también y |g(x)- μ| ≤ 1. Y1 + Y2 + ... + Yn σ2 1 P − µ ≥ ε ≤ 2 = 2 n nε nε Que podemos leer como: la diferencia entre el área estimada y la real, el error que cometemos, es mayor que épsilon con 30 probabilidad 1/nε2. 31