TEMA 2 ! • el de la realidad que queremos entender, o sus ‘metáforas’, Recordar: los dos planos en los que trabajamos • el de las definiciones con las que construimos nuestros modelos. Empecemos por el primero: 2.1. La idea intuitiva y EJEMPLOS de ella. Una variable aleatoria (v.a.) será cualquier cantidad cuyo valor dependa del resultado de ‘nuestro experimento aleatorio’: el número D de puntos que salen al tirar el dado (equilibrado o no), con valores posibles 1, . . . , 6; el número T de veces que habremos de tirarlo hasta que salga un ‘seis’, que puede ser cualquier entero positivo; el suceso ‘T = k’ consiste en que salen k − 1 números distintos del ‘seis’ seguidos de un ‘seis’; de modo que P(T = k) = (5/6)k−1 (1/6) . Decimos que T tiene distribución geométrica de parámetro p = 1/6 (que es la probabilidad del éxito buscado en cada tirada); el tiempo T que deberé esperar en la parada hasta que pase el autobús; podemos decidir medirlo en minutos o segundos enteros, para que tenga los mismos valores posibles que la anterior, pero lo natural es admitir cualquier real positivo como valor (como al hablar de cualquier otra cantidad continua, aunque en la práctica siempre trabajamos con precisión limitada); la diferencia principal con los ejemplos previos: no está nada claro en este caso qué modelo de probabilidad adoptar...; el número X de estrellas fugaces que observaré en los próximos 5 min (de una noche que estoy dedicando a eso); en este caso, como veremos pronto, sı́ hay un modelo natural y bastante realista; el número R que produzca la tecla RAN o rand de mi calculadora, y que será ‘cualquier x ∈ [0, 1], todos con igual probabilidad’. Una idea ya conocida(??): La media de una lista de valores observados, teniendo en cuenta la frecuencia fi de cada valor xi , es " " " xi fi /( fi ) = xi pi i i i # donde las pi = fi /( i fi ) son las frecuencias relativas (proporciones dentro del total de datos), se llama una media ponderada, con esas frecuencias relativas como pesos (pondus, -eris). La metáfora es el centro de gravedad de masas pi colocadas en los puntos xi , que se calcula igual. Como las probabilidades # pi = P(X = xi ) son las ‘frecuencias relativas que esperamos si repetimos el experimento muchas veces’, xi pi es ‘la media que esperamos para los valores observados’. i A esa media de los valores de una v.a. X, ponderados con sus probabilidades, le llamaremos su esperanza o valor esperado, que para el caso de ‘valores aislados’ puede escribirse ası́1: " E(X) = xi P(X = xi ) i Veamos cuál es para la geométrica T , con valores k = 1, 2, . . . y pesos pk = P(T = k) = q k−1 p, donde q = 1 − p: ∞ ∞ # # como xk = 1/(1 − x) tiene derivada kxk−1 = 1/(1 − x)2 , k=0 k=1 ∞ " k=1 k q k−1 p = p/(1 − q)2 = 1/p Es decir: en media, habrá que tirar el dado equilibrado 6 veces hasta que salga un seis (sorpresa??). Si lo pensamos de otro modo, esto es inevitable: en una larguı́sima serie de N tiradas esperamos aproximadamente N/6 seises; pero cada vez que sale un seis empezamos a repetir el experimento, de modo que hubo m ≈ N/6 repeticiones, cada vez con un número aleatorio T de tiradas; la suma de esos valores es el total N de tiradas realizadas, luego la media de los valores T observados es N/m ≈ 6. 1Para las variables continuas como R necesitaremos una integral en lugar de la suma. 1 2.2 ... y ahora pongamos las definiciones: Si tenemos un espacio de probabilidad (Ω, F, P), una variable aleatoria discreta definida sobre él es una función X : Ω → R que tome sólo una cantidad numerable2 de valores, y tal que cada ‘X = x’ sea un suceso, es decir, cada subconjunto {ω ∈ Ω : X(ω) = x} esté en F; su función de masa es la pX : R → [0, 1] dada por pX# (x) = P(X = x); su esperanza o valor esperado es3 la suma E(X) = x pX (x) . x∈X(Ω) PROPOSICION: Si X, Y son v.a. discretas sobre el mismo espacio de P, también lo son las G = g ◦ X para # cada función g : R → R, S = X + Y , y además E(G) = g(x) pX (x), E(X + Y ) = E(X) + E(Y ). x∈X(Ω) Prueba: (esquema) Tanto la imagen g(X(Ω)) de G como la de X +Y son numerables por serlo las X(Ω), Y (Ω). Los sucesos Ai = {X = xi } para xi ∈ X(Ω) forman una partición de Ω, y cada conjunto {G = z} es unión disjunta (numerable) de los Ai tales que g(xi ) = z, lo que prueba que G es una v.a. y permite deducir la fórmula para E(G). Los conjuntos {X + Y = s} son también uniones disjuntas (numerables)#de intersecciones Dij = Ai ∩ Bj , donde Bj es el suceso {Y = yj }, y se cumple que P(X = xi ) = j P(Dij ), lo que permite ver que # E(X + Y ) = i,j (xi + yj )P(Dij ) se parte en los dos sumandos E(X) + E(Y ). ! TAREA: desarrollar esta prueba hasta el nivel de detalle que cada uno necesite para entender que no queda ninguna duda. Aunque Ω depende del asunto en que # la v.a. se presente, usaremos en los ejemplos siguientes esta IDEA: dados números pi , i ∈ J que cumplan i∈J pi = 1 y valores xi ∈ R, donde J es un conjunto numerable de ı́ndices, podemos tomar como espacio de probabilidad Ω = J con P({i}) = pi , de modo que X(i) = xi es una v.a. discreta con función de masa pX (xi ) = pi (pX = 0 en los demás x ∈ R). 2.3. Ejemplos de variables aleatorias: ∞ # Como se tiene 1/k(k + 1) = 1 , k=1 hay una v.a. X que toma valores enteros k ≥ 1 con probabilidades pX (k) = 1/k(k + 1). Pero al tratar de hallar E(X) sale ∞. En tal caso decimos que la esperanza de X no está definida; sólo la consideramos definida si la suma converge absolutamente, que es lo que garantiza el poderla manipular (reordenar, como se hizo en la Prueba anterior) sin que cambie de valor4. ! 1 en A, Indicatrices. Si A es un suceso, su indicatriz es la v.a. χA = que tiene E(χA ) = P(A). 0 en Ac , Por ejemplo en el caso de las estrellas fugaces y para cada milisegundo t = 1, 2, . . . a partir de un instante inicial, podemos llamar Ft a la v.a. que toma valor 1 si justo en ese instante aparece una estrella, valor 0 si no. Es razonable tomar como modelo el que esas posibles apariciones sean independientes y que todas ellas tengan una misma probabilidad p, muy pequeña. Binomial. El número X de estrellas que aparezcan en los n primeros milisegundos será la suma n # X= Ft t=1 $ % y como los sucesos Ft = 1 son independientes, se tendrá P(X = k) = nk pk (1 − p)n−k . Los valores posibles de X son k = 0, 1, . . . , n , y el que las pX (k) suman 1 se deduce del desarrollo binomial n $ % # n k n−k 1 = (p + q)n = k p q k=0 y por eso se dice que X tiene distribución Binomial de parámetros n, p. Se puede también deducir de aquı́ que E(X) = np, pero es mucho mejor deducirlo del hecho del que hemos partido en el ejemplo: X es suma de n indicatrices de sucesos, cada uno con probabilidad p. El que sean sucesos independientes es esencial para tener esas pX (k), pero no para la E(X). 2Usaremos numerable para abreviar ‘finita o infinita numerable’. 3Bajo la condición que se explica más abajo. 4No hay ese peligro si todos los valores son positivos; por eso suele decirse que E(X) = ∞ en casos como el de este ejemplo. El álbum de cromos. Este ejemplo (inevitable en un curso de Probabilidad) sirve ahora para insistir en la idea anterior y repasar la Geométrica: si hay que reunir n cromos distintos y el que recibo cada vez es con igual probabilidad (p = 1/n) cualquiera de ellos, mi probabilidad de ‘éxito=recibir un cromo nuevo’ cuando ya tengo k distintos es pk = 1 − k/n. El número Tk de cromos que compraré hasta conseguirlo tiene por lo tanto E(Tk ) = 1/pk = n/(n − k), y el número total hasta completar la colección es n−1 n n−1 # # # 1/j . n/(n − k) = n T = Tk , con E(T ) = k=0 (Recordemos de paso que n # j=1 j=1 k=0 1/j ≈ log n, o mejor aún, ≈ n+1/2 & (1/x)dx = log(2n + 1).) 1/2 Una pregunta que podemos hacernos es: con qué probabilidad serán diferentes los k primeros cromos. Esto equivale exactamente (si ignoramos los años bisiestos) a preguntar: la probabilidad de que entre las k personas que hay en la sala no haya 2 cuyos cumpleaños coincidan. APUESTEN: ¿Cuántos se imaginan que harı́an falta para que esa probabilidad sea < 1/2? RESPUESTA: Tiene que ser < 1/2 el producto p0 · · · pk−1 = (1 − p)(1 − 2p) · · · (1 − (k − 1)p) ≈ exp(−p − · · · − (k − 1)p) = 1/ exp(p(k − 1)k/2). Si tomamos n = 365 = 1/p, la aproximación da k ≥ 23 para que cumpla p(k − 1)k/2 > log 2; pero (!!) el cálculo exacto también. Esto ilustra lo buena que es esa aproximación. P oissonλ 5. Es la distribución de una v.a. X que tome valores k = 0, 1, 2, . . . con probabilidades pX (k) = e−λ λk /k! , donde λ es un parámetro > 0. Si λ = np con p muy pequeño y n grande, y para k mucho menores que n, ' ( n k p (1 − p)n−k ≈ e−λ λk /k! k $ n% k k porque (1 − p)n−k ≈ (1 − p)n ≈ exp(−np). k p ≈ (np) /k! , Por ejemplo, en el caso de las estrellas: si queremos que n miliseg sean 5 min, tenemos n = 300000 y un p MUY pequeño, por lo que sólo valores k << n son de interés (ni en la noche más densa en meteoritos veremos más de uno por segundo durante 5 min), con lo que la aproximación de Poisson a la Binomial es MUY buena. Pero nada impide tomar µseg en lugar de mseg: el producto λ = np será el mismo y la aproximación aún mejor... Conclusión: P oissonλ es exactamente la distribución de X (según el modelo adoptado). Binomial N egativa. Es la distribución de una v.a. X que toma $k−1% n p (1 − p)k−n . valores k = n, n + 1, . . . con probabilidades pX (k) = n−1 Para ver que esos números suman 1, derivar n − 1 veces esta igualdad: ∞ ∞ " " (1 − x)−1 = xk−1 ⇒ (n − 1)! (1 − x)−n = (k − 1)(k − 2) · · · (k − n + 1)xk−n k=1 k=n y deducir que 1 = p (1 − q) = . . . TAREA: completarlo y verificar que pX (k) es la probabilidad de hacer exactamente k intentos hasta conseguir los primeros n éxitos. Observar también que • el caso n = 1 de nuestra X es la Geométrica; • y el caso general es la suma de n Geométricas, luego E(X) = n/p. n −n 5Siméon Denis Poisson (Pithiviers, 21 de junio de 1781- Sceaux, 25 de abril de 1840), fue un fı́sico y matemático francés al que se le conoce por sus diferentes trabajos sobre electricidad, geometrı́a diferencial y teorı́a de probabilidades. GRAFICOS. En los siguientes vemos las funciones de masa de varias Binomiales(n, p). El valor de p es 1/6 (el de cada cara de un dado equilibrado), y n sube desde 1 (en cuyo caso se trata de 10, p =un 1/6dado’ ) hasta n = 24; en ese caso, el gráfico una indicatriz, por ejemplo la del suceso ‘sacar unn 5=al tirar incluye la correspondiente P oissonλ , con λ = np = 4, para que veamos cuán parecidos son los valores, aun sin que p = 1/6 sea muy pequeño. En cada caso se ve en el gráfico dónde está el ‘centro de gravedad’ E(X) de la distribución. Un detalle a observar: el valor más probable en los casos n = 10, n = 16, no es el más cercano a la media, sino el anterior. Eso es consecuencia de la asimetrı́a de la distribución: la ‘larga cola’ del lado derecho hace que haya menos masa a ese lado que a la izquierda de la media. n = 1, p = 1/6 n = 24, p = 1/6 las * son valores de Poisson4 n = 10, p = 1/6 n = 16, p = 1/6 n = 1, p = 1/6 = 1/6 nn==2,24, p =p 1/6 las * son valores de Poisson4 Las que vemos ahora son Binomiales Negativas con p = 1/6, empezando con el caso n = 1, que es la Geométricap y que corresponde por ejemplo a la variable T =‘número de tiradas de un dado equilibrado hasta que salga un 5’. Se ve aquı́ lo mismo que en el caso de las Binomiales, pero más exagerado: aunque E(T ) = 6, su valor más probable es T = 1. = 1/6 nn==1,16, p =p 1/6 n = 2, p = 1/6 Esa asimetrı́a persiste al crecer n, pero va disminuyendo: la variable T4 =‘número de tiradas de un dado equilibrado hasta que salga por 4a vez el 5’ tiene E(T4 ) = 4/p = 24, aunque su valor más probable es T4 = 18. n = 4, p = 1/6 n = 1, p = 1/6 2.4. Varianza. Una pregunta que sugieren estos gráficos: ¿Cuán dispersos están los datos, es decir, cuán lejos de su media podemos esperar encontrarlos? Por razones profundas, la medida de %dispersión favorita es ésta: $ n = 3, p = 1/6 Se define la varianza var(X) como la E (X − µ)2 , donde µ = E(X). Observaciones: ... si esa esperanza está definida, claro; 2 en todo caso, var(X) mide el cuadrado de la dispersión: var(cX) = c2 var(X); por eso: ‘var(X) = σX ’; pero naturalmente es invariante por traslaciones: var(a + X) = var(X) . Para hallarla: $ % var(X) = E (X − µ)2 = E(X 2 ) − 2µE(X) + E(µ2 ) = E(X 2 ) − µ2 ... = E(X 2 − X) + µ − µ2 . Ejemplos: La razón de esa extravagante versión final es que al tratar de hallar la E(X 2 ), la esperanza ‘que sale’ a veces es la de la variable X 2 − X = X(X − 1), como se ve en los siguientes Binomial: derivando dos veces n ' ( " n k (1 + x)n = x ⇒ k n(n − 1)(1 + x)n−2 x2 = k=0 n ' ( " n k=0 k k(k − 1)xk y sustituyendo x = p/q, E(X 2 − X) = n " k=0 k(k − 1) y usando E(X) = np, ' ( n (p/q)k q n = n(n − 1)(1 + p/q)n−2 (p/q)2 q n = n(n − 1)p2 k var(X) = E(X 2 − X) + np − (np)2 = n(p2 − p) = npq . Poissonλ : llamando k = j + 1, E(X) = ∞ " k=1 k e−λ ∞ " λk λj =λ e−λ =λ k! j! j=0 y llamando k = j + 2, E(X 2 − X) = de donde ∞ " k=2 k(k − 1) e−λ ∞ " λk λj = λ2 e−λ = λ2 k! j! j=0 var(X) = E(X 2 − X) + λ − λ2 = λ . Se pueden usar trucos parecidos para la Geométrica y la Binomial Negativa, pero lo aplazamos hasta tener una herramienta que resume y simplifica todos ellos: la función generatriz de probabilidad. 2.5. Variables aleatorias continuas. ¿Cómo hacer todo esto para una distribución como la U nif orme(0,1) (la del número rand)? DEFINICIONES: Para cualquier variable aleatoria X, su función de distribución es la FX : R → [0, 1] dada por FX (x) = P(X ≤ x) . Ver cómo son las de: los puntos D del dado; la Geométrica1/6 ; la Unif(0,1) ; . . . TAREA: Probar que 1 − FX (k) = (1 − p)k para la Geométricap y cada entero k ≥ 0. Llamamos a X una variable aleatoria continua si& x FX (x) = −∞ fX (x) dx para una función fX que llamaremos entonces la densidad de probabilidad de X. 2 Ejemplos: las de la Unif(a,b) , la Exponencialc ce−cx para x > 0 y la N ormal0,1 cte · e−x /2 . Para una v.a. continua, definimos: &∞ E(X) = −∞ x fX (x) dx &1 Ejemplos: • Unif(0,1) : E(X) = 0 x dx = 1/2, var(X) = E(X 2 ) − E(X)2 = 1/3 − 1/4 = 1/12 . &∞ • Exponencialc : E(X) = 0 x ce−cx dx = 1/c, var(X) = E(X 2 ) − E(X)2 = 2/c2 − 1/c2 = 1/c2 . Observaciones: • La definición general de qué es una variable aleatoria está implı́cita en la de FX : cada {X ≤ x} ⊆ Ω debe ser un suceso, para que esté definida su probabilidad FX (x) . . . • . . . y su esperanza está definida si converge la integral que la define. En ese caso, los dos productos −x FX (−x), x (1 − FX (x)), tienen lı́mite 0 cuando x → ∞, e integrando por partes se llega a una forma ‘unificada’ de escribir la E(X) para todo tipo de v.a.s, si está definida: &0 &∞ E(X) = − −∞ FX (x) dx + 0 (1 − FX (x)) dx . • Hay otra forma de interpretar la relación que ilustra la figura entre FX y la E(X): usar en la integral E(X) el cambio de variable u = FX (x) ∈ (0, 1), du = fX (x) dx &1 para obtener E(X) = 0 x(u) du (*) donde x(u) es F −1 si esa inversa existe, pero puede ser definida del modo siguiente en el caso de que F sea constante sobre algún intervalo: x(u) = mı́n{x : FX (x) ≥ u} (el conjunto {x : FX (x) ≥ u} contiene a su inf por ser FX continua a la derecha). La gráfica de x(u) es la de FX con ‘los ejes intercambiados’ y la zona rayada en la figura es la clásica representación de ‘lo que su integral calcula’. • Lo bueno es que esa definición de x(u), con sus consecuencias, se extiende sin cambios al caso de una variable discreta X: cada valor x(u) = k se toma en ese caso sobre un intervalo que mide pX (k) y la integral (*) coincide exactamente con la suma que definı́a la E(X) en el caso discreto. La figura análoga a la que vemos arriba (ver pg. siguiente) ilustrará lo que afirma el Ejemplo A), Hoja 2, si X toma sólo valores enteros no negativos: en ese caso, la definición de E(X) calcula el área rayada por encima de la gráfica de F como una suma de áreas de ‘rectángulos horizontales’ y la fórmula dada en ese ejemplo la calcula como la suma de ‘rectángulos verticales’ (de base = 1) ∞ &∞ # E(X) = 0 (1 − FX (x)) dx = P(X > k). k=0 Un ejemplo: para una X ∼Geomp es P(X > k) = q k , luego ∞ # E(X) = q k = 1/(1 − p) , k=0 como ya sabı́amos. • Lo que en el fondo hacemos con la fórmula x(u) es definir sobre el espacio muestral Ω = (0, 1), con P =‘longitud’, una variable aleatoria que tiene exactamente la misma distribución FX que la X dada, y expresar directamente su esperanza como una integral sobre Ω. Por eso x(u) da también respuesta al apartado d. del Ejemplo C), Hoja 2: es la fórmula que transforma la U =‘rand’ en una X con FX dada. Ejemplos: 2.6. Distribución condicionada, esperanza condicionada y particiones. Ya hemos visto que ‘suponiendo B’, el resto del espacio Ω ‘desaparece’, y la probabilidad de cada suceso se convierte en la P(A|B) = P(A ∩ B)/P(B) . Eso produce una distribución condicionada de cada v.a. X : Ω → R, y su correspondiente esperanza condicionada E(X|B) = E(X χB )/P(B), que en el caso de una X discreta se puede expresar como: # E(X|B) = x x P(X = x |B) . Si T es una Geométricap , pero ‘sabemos que’ ocurre B = ‘T > m’ para un cierto entero m > 0, la distribución de T se convierte en P(T = m + k |B) = P(T = m + k)/q m = pq k−1 para m + k > m # y su esperanza en E(T |B) = k>0 (m + k) P(T = m + k |B) = m + 1/p . Nótese que la distribución de T − m, supuesto T > m es idéntica a la de T . Eso se llama la propiedad de ausencia de memoria (el dado “no recuerda” que por ejemplo el ‘5’ lleva m tiradas sin salir) y caracteriza a la Geométrica (ver Ej. 3 en Hoja 2). Exactamente el mismo fenómeno sucede con una X ∼ Exponencialc si la condicionamos a X > b para un b > 0; y de nuevo esa es la única distribución continua que se transmite a X − b (para cada b > 0) bajo esa condición. Supongamos ahora que tras haberse tirado el dado equilibrado T veces hasta salir un ‘5’ sabemos que ocurre B =‘T es par’. Es fácil ver que la distribución condicionada es la de 2X con X ∼ Geométrica1−q2 , y que E(T |B) = E(2X) = 72/11, c mientras que la condicionada a B es la de 2X − 1, con E(T |B c ) = E(2X − 1) = 61/11. Y naturalmente E(T ) = 6 es la media ponderada de ambas: 6 = E(T |B) P(B) + E(T |B c ) P(B c ). Este último no es más que un ejemplo de la igualdad general siguiente: si los Bi son una partición de Ω, # # # # E(X) = i E(X χBi ) = i E(X |Bi ) P(Bi ) (*) ⇒ X = i X χBi ⇒ i χBi = 1 que suele ser muy útil (si las esperanzas condicionadas son más fáciles de deducir que la total). Ejemplo: ¿Qué número de veces esperamos tirar el dado hasta que salgan dos ‘5’ seguidos? Podemos escribir el número X de tiradas necesario como X = T + R, donde T =‘número de tiradas hasta que salga el primer 5’, R=‘número restante de tiradas’, y el problema se reduce a hallar E(R), ya que T es Geométrica con E(T ) = 1/p, donde p = P(‘5$ ). Pero si llamamos B al suceso ‘en la tirada T + 1 sale un 5’, está claro que se tiene E(R|B) = 1, E(R|B c ) = 1 + E(X), puesto que si no sale un ‘5’ en esa tirada, volvemos a empezar desde cero. De la ecuación E(X) = E(T ) + E(R|B) P(B) + E(R|B) P(B c ) 1 = + 1 · p + (1 + E(X))(1 − p) p resulta: p E(X) = 1/p + 1, E(X) = 1/p2 + 1/p . Podrı́amos haber razonado intuitivamente ası́: el resultado del experimento serán N secuencias terminadas en un primer ‘5’ seguido de otra tirada, que sólo en la última de esas secuencias será otro ‘5’; como esto último ocurre con probabilidad p, el valor esperado de N es 1/p, y ya sabemos que el tamaño esperado de cada una de esas secuencias es 1/p + 1; en total esperamos E(N )(1/p + 1) = (1/p + 1)/p tiradas. ¿Es legı́tima esta manera de razonar y operar, sumando un número esperado de valores esperados? La igualdad (*) permite probar que sı́, usando como partición los valores de N (ver ejercicio en Hoja 3). DEFINICION: Comentarios: PROPOSICION: Ejemplo 2.7. V.a.s independientes y la varianza de su suma. Supongamos dos v.a.s X, Y definidas sobre el mismo espacio de probabilidad; dicho de otro modo: cuyos valores ‘resultan de un mismo experimento’. Queremos una definición que recoja la idea intuitiva siguiente: ‘No hay ninguna relación entre el valor que tome la variable X y el que tome la variable Y ’ X, Y son independientes si para cada x, y ∈ R son independientes los sucesos {X ≤ x}, {Y ≤ y}. En general, las v.a.s X1 , . . . , Xn son independientes si lo son los {Xi ≤ xi } para cualesquiera xi ∈ R. Recordemos que la familia de sucesos B que son independientes de un suceso dado A es cerrada por – complementarios: junto con B contiene también a B c , – uniones disjuntas, ya sean finitas o infinitas numerables. Pero esas dos operaciones permiten obtener – cada intervalo (a, b] ⊂ R (finito o no) a partir de los intervalos (−∞, x], – cada intervalo abierto como una unión numerable de intervalos (a, b], – cada abierto como una unión numerable de intervalos abiertos, – cada cerrado como complemento de un abierto, en particular cada intervalo cerrado . . . En consecuencia, la definición dada equivale realmente a: ‘cualquier suceso definido por el valor de X es independiente de cualquiera definido por el valor de Y ’. Según esa definición son independientes las indicatrices de los sucesos Bi si y sólo si lo son ellos. En particular esto nos recuerda que la independencia ‘no es transitiva’, y que puede haber familias de v.a.s que no sean independientes aunque lo sean ‘dos a dos’. El caso rutinario de v.a.s independientes son las que resultan de ‘diferentes etapas de un experimento, sin influencia entre ellas’, como las indicatrices de éxito cuya suma es la Binomial ‘número de éxitos en n intentos’, o como los ‘tiempos de espera’ Ti ∼ Geomp cuya suma es una Binomial Negativa. Si X, Y son v.a.s independientes: (i) var(X + Y ) = var(X) + var(Y ); $ % $ % $ % (ii) E(XY ) = E(X)E(Y ) y en general E f (X)g(Y ) = E f (X) E g(Y ) para funciones f, g : R → R. Y lo mismo para una familia Xi de v.a.s independientes. de que la igualdad var(X + Y ) = var(X) + var(Y ) en general no se cumple: Y = cX. En cambio, los sumandos de una X ∼ Binomialn,p , cada uno con varianza pq, son independientes y por eso var(X) = npq. De igual modo, la varianza de una Binomial Negativan,p será n veces la de la Geomp . Prueba de la Proposición: Hacemos ahora la de (ii) sólo para el caso de dos v.a.s discretas X, Y . Si los valores de X, Y son respectivamente {xi }, {yj }, la partición de Ω en los sucesos Dij = {X = xi } ∩ {Y = yj }, que son intersecciones de sucesos independientes, permite escribir * )" * )" " $ % " f (xi )pX (xi ) g(yj )pY (yj ) E f (X)g(Y ) = f (xi )g(yj )P(Dij ) = f (xi ) g(yj )pX (xi )pY (yj ) = ij $ ij Basta desarrollar var(X + Y ) = E (X + Y ) 2 % i j − E(X + Y ) para ver que (ii) 2 ⇒ (i). 2.8. Funciones generatrices de probabilidad. Muchos de los cálculos con series que hemos usado para v.a.s con valores enteros no negativos se pueden reducir a las propiedades de la función generatriz de probabilidad de X, definida ası́: ∞ " GX (s) = pX (k)sk . k=0 G$X (1) G$$X (1) PROPOSICION: (i) GX (1) = 1, = E(X), = E(X − X), luego: var(X) = G$$X (1) + G$X (1) − G$X (1)2 . (ii) GX+Y (s) = GX (s)GY (s) si X, Y son independientes. (iii) Si las v.a.i.i.d. Xi son independientes de la v.a. N con valores enteros ≥ 0, la suma #N S = i=1 Xi tiene: GS (s) = GN (GX (s)), con GX la de cada Xi . 2 Ejemplos: Las de la Binomial, Poisson y Geométrica son respectivamente n ' ( ∞ " " n n−k k k λk k q p s = (q + ps)n , e−λ s = eλ(s−1) , k k! k=1 luego sus varianzas son: k=0 npq , λ, ∞ " pq k−1 sk = k=1 ps 1 − qs q/p2 . Prueba: La de (i) es inmediata si la serie tiene # radio de convergencia ρ > 1, como en los ejemplos que preceden. (Si no, se tiene por lo menos que k pX (k) = #1n ⇒ ρ ≥ 1 , pero harı́a falta el Lema de Abel si ρ = 1 ...) Para (ii) basta observar que P(X + Y = n) = k=0 pX (k)pY (n − k) es el coeficiente de sn en GX (s)GY (s); de (ii) se deduce (iii) condicionando al valor de N .