1 Aplicaciones Medibles. Variables Aleatorias. La comparación y la aproximación constituyen parte de la esencia de las Matemáticas. En consecuencia el estudio matemático de cualquier modelo adquiere una mayor relevancia sobre la recta real o, más generalmente sobre el espacio Euclideo <n , por la riqueza adicional que aportan las diferentes estructuras que en él conviven. Como consecuencia es natural el estudio especı́fico, ya iniciado, de las peculiaridades de la probabilidad sobre < o <n , y el consiguiente que permita el estudio de caracterı́sticas que se miden numéricamente sobre sucesos aleatorios. La asociación a cada suceso elemental en un espacio probabilı́stico de una caracterı́stica numérica constituye una variable aleatoria (real). Debe señalarse que a menudo no conocemos o no estamos interesados en conocer el experimento aleatorio en si, por lo que podrı́a establecerse que una variable aleatoria es un experimento aleatorio con valores numéricos. Desde este punto de vista el estudio de las variables aleatorias no aportarı́a nada al ya realizado acerca de las probabilidades sobre < o <n . El principal interés del estudio de las variables aleatorias radica en que podremos manejar varias variables conjuntamente, definidas en un mismo espacio muestral, y “hacer matemáticas” con ellas. Recordando los comentarios iniciales al hablar de espacio muestral y nuestra laxitud sobre su naturaleza, diriamos que es en el estudio de las variables aleatorias donde esta laxitud se hace aún más patente. Nuestro interés reside en asegurar que las variables en estudio puedan convivir en un espacio suficientemente grande, por lo que los análisis que realicemos (y esto es caracterı́stico de la Teorı́a de la Probabilidad) no podrán depender de la naturaleza del espacio, sino tan sólo del grado de relación o dependencia probabilı́stica entre ellas. 1.1 Aplicaciones Medibles Partiendo del caso discreto, debe recordarse que la “descripción probabilı́stica” de una variable aleatoria con valores x1 , x2 , ...xn , ... consistı́a en la asociación a cada valor, xk , de la probabilidad correspondiente, entendiendo como tal la de los sucesos elementales del espacio muestral que dan lugar a tal imagen, que escribiremos indistintamente como: PX (xk ) := P (X = xk ) = P ({ω ∈ Ω : X(ω) = xk }) = P (X −1 ({xk })). En consecuencia el único aspecto cualitativo que debemos cuidar al definir con precisión matemática la idea de aplicación aleatoria es asegurar que podamos hablar de estas probabilidades. Teniendo en cuenta la posibilidad de que Ω sea no numerable deberemos, por tanto, exigir que X −1 ({xk }) esté en la clase de los sucesos de interés de Ω que es donde hemos definido la probabilidad, es decir, que sea medible. El cálculo de probabilidades en espacios discretos justifica inmediatamente que asociemos a cualquier B ⊂ < la probabilidad PX (B) = X xk ∈B∩X(Ω) 1 PX (xk ). Sin embargo podemos actuar también intentando utilizar el mismo argumento natural de asociar a B la probabilidad de los sucesos elementales que dan lugar a tal imagen por X: PX (B) = P ({ω ∈ Ω : X(ω) ∈ B}) = P (X −1 (B)). Ambas definiciones coinciden evidentemente al observar que X define una partición en Ω, {Ak }k∈N , haciendo Ak = X −1 ({xk }), y que {ω ∈ Ω : X(ω) ∈ B} = X −1 (B) = [ X −1 ({xk }) = xk ∈B [ Ak xk ∈B que es una unión finita o numerable de sucesos (y por tanto medible si estos lo son). En general esta partición no será numerable por lo que nuestra exigencia deberá ser mayor. Los conjuntos de interés de < (o, en general, de otro espacio Ω0 ) deberán tener contraimagen medible para que puedan ser probabilizados. Esto nos lleva a la siguiente definición de aplicación medible entre los espacios medibles (Ω, σ) y (Ω0 , σ 0 ). Definición 1.1 Una aplicación f : Ω → Ω0 es σ|σ 0 -medible si la contraimagen por f de cada conjunto de σ 0 es un conjunto de σ: f −1 (A0 ) ∈ σ para cada A0 ∈ σ 0 . Si el espacio (Ω0 , σ 0 ) es (<, β) (resp. (<n , β n )) las aplicaciones medibles se denominan variables aleatorias reales (resp. vectores aleatorios n-dimensionales). Las funciones medibles entre espacios Euclı́deos (f : <m → <n ) se denominan funciones de Borel. La caracterización siguiente permitirá simplificar notablemente la comprobación de la medibilidad de una aplicación. Teorema 1.2 Sea C 0 una clase de conjuntos que genera la σ-álgebra σ’, σ’=σ(C 0 ), y sea f : Ω → Ω0 una aplicación entre los espacios medibles (Ω, σ) y (Ω0 , σ 0 ). Entonces f es σ|σ 0 -medible si y sólo si f −1 (C 0 ) ∈ σ para cada C 0 ∈ C 0 . Demostración: La clase Γ0 := {A0 ∈ σ 0 : f −1 (A0 ) ∈ σ} es trivialmente una σ-álgebra (recuérdense las propiedades de la aplicación inversa: f −1 (∪i∈I A0i ) = ∪i∈I f −1 (A0i ), f −1 ((A0 )c ) = (f −1 (A0 ))c , f −1 (Ω0 ) = Ω). Como por hipótesis C 0 ⊂ Γ0 , también se tendrá σ 0 = σ(C 0 ) ⊂ Γ0 . 2 Nótese que las múltiples caracterizaciones que hemos obtenido de las σ-álgebras de Borel en < y <n pueden utilizarse ahora convenientemente para asegurar la medibilidad de las variables o los vectores aleatorios. Por ejemplo, bastará probar que {f ≤ x} ∈ σ para cada x ∈ < (resp. {f ∈ Πni=1 (−∞, xi ]} ∈ σ para cada (x1 , x2 , ...xn ) ∈ <n )para asegurar que f es una variable aleatoria σ|β-medible (resp.σ|β n -medible). El argumento utilizado en la demostración anterior puede modificarse ligeramente para probar la siguiente proposición. 2 Proposición 1.3 Sea f : Ω → Ω0 una aplicación y C 0 una clase de conjuntos de Ω0 . Entonces se tiene σ({f −1 (C 0 ), C 0 ∈ C 0 }) = {f −1 (A0 ), A0 ∈ σ(C 0 )}. Una consecuencia inmediata e importante del Teorema 1.2 es la de asegurar la medibilidad de las funciones continuas. Más precisamente se tiene: 0 0 Proposición 1.4 Sean Ω, Ω dos espacios topológicos y sean σ, σ sus σ-álgebras de Borel 0 (las mı́nimas que contienen a todos los abiertos de los respectivos espacios). Si f : Ω → Ω 0 es una aplicación continua, entonces es σ|σ -medible. En particular toda función continua f : <m → <n es una función de Borel. Demostración: Sean τ, τ 0 las familias de abiertos en las topologias respectivas de Ω y Ω0 . Como σ 0 = σ(τ 0 ), por el Teorema 1.2, será suficiente probar que f −1 (B 0 ) ∈ σ para todo B 0 ∈ τ 0 , pero por la continuidad se tiene f −1 (B 0 ) ∈ τ ⊂ σ(τ ) = σ. 2 Obsérvese que si σ 0 es una σ-álgebra en Ω’, la clase {f −1 (A0 ), A0 ∈ σ 0 } es una σ-álgebra sobre Ω y es la mı́nima que hace medible la aplicación. Tal σ-álgebra suele denotarse σ(f ) y se denomina la σ-álgebra engendrada por f . Nótese el hecho trivial de que la condición de σ|σ 0 -medibilidad puede reescribirse de forma equivalente como σ(f ) ⊂ σ. La continua aparición de composiciones de aplicaciones en cualquier rama de las Matemáticas justifica obviamente la necesaria mención de proposiciones relativas a su comportamiento como lo es la siguiente. Proposición 1.5 Sean (Ω, σ), (Ω0 , σ 0 ) y (Ω00 , σ 00 ) tres espacios medibles y f : Ω → Ω0 , g : Ω0 → Ω00 aplicaciones respectivamente σ|σ 0 y σ 0 |σ 00 -medibles. La aplicación compuesta h : Ω → Ω00 , h = g ◦ f es, entonces, σ|σ 00 -medible. Demostración: Sea A00 ∈ σ 00 . Puesto que g es σ 0 |σ 00 -medible se tiene g −1 (A00 ) ∈ σ 0 , y al ser f σ|σ 0 -medible, f −1 (g −1 (A00 )) ∈ σ, y por tanto (g ◦ f )−1 (A00 ) = f −1 (g −1 (A00 )) ∈ σ. 2 Como consecuencia de las dos últimas proposiciones, podremos asegurar que (cuando tengan sentido) las operaciones habituales (sumas, productos,...) entre variables aleatorias serán también variables aleatorias. Previamente obtendremos el siguiente resultado, simple pero fundamental. ~ : Ω → <n una aplicación cualquiera y sean X1 , X2 , ...Xn sus Proposición 1.6 Sea X ~ ~ es un vector componentes (Xi : Ω → <, Xi (ω) = πi (X(ω)), i = 1, ...n). Entonces X n aleatorio (σ|β -medible) si y sólo si sus componentes son variables aleatorias. ~ se tiene Demostración: Como Xi = πi ◦ X, ~ ∈ (−∞, x1 ] × (−∞, x2 ] × ...(−∞, xn ]} = ∩n {Xi ∈ (−∞, xi ]}, {X i=1 3 por lo que (téngase en cuenta el teorema 1.2 y que los conjuntos del tipo Πni=1 (−∞, xi ] ~ es un vector aleatorio cuando X1 , ...Xn y (−∞, x] engendran respectivamente β n y β) X (sus componentes) son variables aleatorias. ~ Además, observando que {X1 ≤ x1 } = ∪∞ k=1 {X ∈ (−∞, x1 ] × (−∞, k] × ...(−∞, k]}, también resulta obvia la implicación opuesta. 2 Proposición 1.7 Sean X e Y variables aleatorias reales definidas en el espacio medible (Ω, σ). Las aplicaciones definidas por a.X, X + Y , X.Y , X/Y (si {Y = 0} = ∅) son también variables aleatorias reales. Demostración: Las aplicaciones definidas por f1 : x → f1 (x) = a.x, f2 : (x, y) → f2 (x, y) = x + y, f3 : (x, y) → f3 (x, y) = x.y son funciones continuas; como además ~ := (X, Y ) es un vector aleatorio por la proposición anterior, la aplicación definida por X ~ X.Y = f3 ◦ X, ~ y aplicar la proposición basta observar que a.X = f1 ◦ X, X + Y = f2 ◦ X, 1.14 (utilı́cese el problema 4 para demostrar que X/Y también es variable aleatoria bajo la hipótesis planteada). 2 1.2 Variables Aleatorias Reales La especialización a las variables aleatorias con valores en < permite “construir” las variables a través de un proceso que será la base del estudio de sus caracterı́sticas numéricas (como la Esperanza Matemática). Al no conocer como se construian los conjuntos de una σ-álgebra debiamos recurrir a procedimientos indirectos para demostrar propiedades. El proceso de construcción de las variables reales permitirá en cambio demostraciones escalonadas, comenzando por las variables más sencillas y “subiendo” hasta llegar a las más generales. Comenzaremos por estudiar la medibilidad de las aplicaciones asociadas a lı́mites de variables aleatorias reales, para lo cual es conveniente considerar la posibilidad de que las variables tomen valores infinitos sin que ello provoque más problemas que los que ¯ = < ∪ {+∞} ∪ {−∞} (la recta real intentamos resolver, o mejor evitar. Sea entonces < ¯ extendida) con la σ-álgebra β̄ = σ<¯ (β ∪ {+∞} ∪ {−∞}), definida como la mı́nima en < que contiene a los conjuntos de β y a los conjuntos {+∞} y {−∞}. Es sencillo probar ¯ es σ|β̄-medible si y sólo si X −1 (C) ∈ σ para cada C ∈ C y que una aplicación X : Ω → < X −1 ({+∞}) ∈ σ, X −1 ({−∞}) ∈ σ, siendo C cualquier clase que genere la σ-álgebra de Borel de <. ¯ σ|β̄-medible que no toma valores infinitos es Por supuesto una variable X : Ω → < automáticamente considerada también como una variable σ|β-medible, y una variable X : Ω → < σ|β-medible lo es como una variable σ|β̄-medible sin apelar a equivalencias triviales. 4 ¯ respetaremos el “sentido Respecto de la definición de las operaciones habituales en <, común”, no dándoselo a cálculos como ∞ − ∞, ∞/∞, ó 0.∞..., y definiendo obviamente x + ∞ = ∞ + x = +∞, x − ∞ = −∞ + x = −∞, x.∞ = ∞.x = sign(x).∞, x.(−∞) = (−∞).x = −sign(x).∞, x/∞ = x/(−∞) = 0, ∞/x = sign(x).∞, −∞/x = −sign(x).∞ para todo x ∈ <, donde sign(x) = −1, 0 ó 1 según sea x < 0, x = 0 ó x > 0 respectivamente. Para dos variables aleatorias reales X e Y σ|β-medibles es trivial ver que el conjunto {X = Y } pertenece a σ, basta tener en cuenta que X − Y es por la proposición 1.7 una nueva variable σ|β-medible y que {X = Y } = (X − Y )−1 ({0}), siendo {0}) un conjunto de Borel. Sin embargo la posibilidad de valores infinitos invalida parcialmente este argumento y, en consecuencia estableceremos el siguiente lema. Lema 1.8 Sean X e Y variables aleatorias σ|β̄-medibles definidas en el espacio medible (Ω, σ). El conjunto {X = Y } pertenece a σ. Demostración: Definamos las nuevas variables X 0 e Y 0 por X 0 = X si |X| < ∞ y X 0 = 0 si |X| = ∞, e Y 0 = Y si |Y | < ∞ y Y 0 = 1 si |Y | = ∞. Es trivial comprobar que X 0 e Y 0 son variables σ|β-medibles, y que {X = Y } = ({X = ∞} ∩ {Y = ∞}) ∪ ({X = −∞} ∩ {Y = −∞}) ∪ ({X 0 = Y 0 } ∩ {|X| < ∞} ∩ {|Y | < ∞}) . Ahora comprobar la medibilidad es trivial ya que cada conjunto involucrado está en σ; téngase en cuenta el argumento empleado antes del lema para asegurar que {X 0 = Y 0 } ∈ σ, y que {|X| < ∞} = ({X = ∞} ∪ {X = −∞})c . 2 ¯ σ|β̄-medibles. Proposición 1.9 Sea {Xn }n una sucesión de variables Xn : Ω → < 1. Las aplicaciones supn∈N Xn , inf n∈N Xn , lim sup Xn , lim inf Xn son entonces varin→∞ n→∞ ables σ|β̄-medibles. 2. Si existe lim Xn (ω) para cada ω ∈ Ω entonces la aplicación X definida como X(ω) = n→∞ lim Xn (ω) es una variable σ|β̄-medible n→∞ 3. El conjunto {ω ∈ Ω : {Xn (ω)}n converge } es un conjunto medible (pertenece a σ). 4. El conjunto {ω ∈ Ω : n→∞ lim Xn (ω) = X(ω)} pertenece a σsi X es una variable σ|β̄medible. Demostración: Teniendo en cuenta las identidades {supn∈N Xn = −∞} = T∞ n=1 {Xn = T∞ S ∞ −∞}, {supn∈N Xn = ∞} = M =1 n=1 {Xn > M } y {supn∈N Xn ≤ x} = ∞ n=1 {Xn ≤ x}, y el hecho de que las σ-álgebras son cerradas para las uniones e intersecciones numerables, y que la clase de conjuntos (−∞, x], x ∈ <, genera β, queda asegurada la medibilidad de supn∈N Xn . La de inf n∈N Xn se asegura análogamente argumentando con los conjuntos del tipo [x, ∞). T 5 Reescribiendo lim sup Xn como inf n∈N sup Xm y lim n→∞ inf Xn como supn∈N inf Xm , y n→∞ m≥n m≥n teniendo en cuenta la medibilidad de superiores e inferiores ya demostrada, queda probada la de estas nuevas variables y completada la parte 1). La parte 2) es inmediata teniendo en cuenta que si existe lim Xn (ω) para cada ω ∈ Ω, n→∞ entonces X coincide con lim sup Xn (y con lim inf Xn ), por lo que su medibilidad es n→∞ n→∞ consecuencia de 1). 3) es consecuencia de que, por 1), lim sup Xn y lim inf Xn son σ|β̄-medibles y de que el n→∞ n→∞ conjunto {ω ∈ Ω : {Xn (ω)}n converge } puede escribirse como {ω ∈ Ω : lim inf Xn (ω) = n→∞ lim sup Xn (ω)}, y ahora podemos aplicar el lema anterior. n→∞ 4) se obtiene de la igualdad {ω ∈ Ω : lim Xn (ω) = X(ω)} = {lim sup Xn = X} ∩ {lim inf Xn = X} n→∞ n→∞ n→∞ y de 1) junto con el lema previo. 2 En la proposición anterior se ha demostrado que los lı́mites de variables aleatorias (σ|β̄-medibles) son también variables aleatorias (σ|β̄-medibles). Ahora demostraremos que, de hecho, las variables aleatorias reales pueden considerarse como lı́mites de variables aleatorias más sencillas, que son fácilmente manejables. Comenzaremos con la siguiente definición. Definición 1.10 Sea A un subconjunto cualquiera de Ω, llamaremos indicador de A, y lo representaremos por IA a la aplicación definida por IA (ω) = 1 si ω ∈ A, y 0 si ω ∈ / A. Cuando (Ω, σ) es un espacio medible y A ∈ σ, entonces el indicador de A es una variable aleatoria real y recibe el nombre de variable indicadora. Una combinación lineal de variables indicadoras se denomina variable aleatoria simple y, por tanto, admite una expresión del tipo n P i=1 xi IAi , siendo x1 , x2 , ...xn ∈ <, A1 , A2 , ...An ∈ σ, n ∈ N . Como la contraimagen, por una aplicación X que sólo toma los valores 0 y 1, de cualquier conjunto sólo puede ser el vacı́o, el conjunto total, el conjunto X −1 ({1}) y su complementario (que es igual a X −1 ({0})), llamando A = X −1 ({1}) se tiene X = IA y evidentemente una variable indicadora puede describirse como cualquier variable aleatoria que sólo toma los valores 0 y 1. Análogamente, una variable aleatoria X que sólo toma un número finito de valores z1 , z2 , ...zm ∈ < puede escribirse en “forma canónica” como X = m P j=1 xi I{X=zj } donde los conjuntos {X = zj }, j = 1, 2, ...m, pertenecen a σ por la 6 hipótesis de medibilidad de X y constituyen una partición (medible) del espacio. Llegamos ası́ a la siguiente caracterización de las variables aleatorias reales. ¯ existe una Proposición 1.11 Si X es una variable aleatoria σ|β̄-medible, X : Ω → <, sucesión {Xn }n de variables aleatorias simples tal que X(ω) = lim Xn (ω) para todo n→∞ ω ∈ Ω. Cuando la variable X es positiva (resp. negativa), la sucesión puede tomarse creciente (resp. decreciente) y de variables positivas (resp. negativas), 0 ≤ Xn (ω) ↑ X(ω) (resp. 0 ≥ Xn (ω) ↓ X(ω)) para cada ω ∈ Ω. Si la variable X está acotada entonces la sucesión puede tomarse de modo que la convergencia sea uniforme. Demostración: La idea es muy sencilla y puede expresarse diciendo que, para cada n, nos preocuparemos sólo de los valores x (que puede tomar la variable) que están comprendidos en el intervalo [−n, n], al resto los “aproximaremos” genéricamente por −n y n según sean negativos o positivos. Para los valores que están en [−n, n], estableceremos una partición suficientemente fina, que fijaremos por comodidad de tamaño 1/2n , aproximándolos por el extremo superior (resp. inferior) del intervalo de la partición en que se encuentra, si el valor es negativo (resp. positivo). Con ello conseguimos que la mayor de las diferencias entre la variable Xn , que construimos, y la original sea del orden de 1/2n para los valores entre −n y n, mientras que para los restantes... ya les llegará su turno! con un n suficientemente grande. ¯ + → <+ por Definiendo Φn : < Φn (x) := n n2 X k−1 I[(k−1)/2n ,k/2n ) (x) + nI[n,∞] (x) n k=1 2 ¯ → < por Ψn (x) = Φn (x) si x ≥ 0 y = −Φn (−x) si x < 0, es elemental la y Ψn : < demostración de que Ψn es β̄|β-medible (cada conjunto de los considerados en su definición es un intervalo y por tanto pertenece a β̄) y, por tanto que Xn := Ψn ◦ X es σ|β-medible como compuesta de medibles. Las propiedades enunciadas en la proposición son inmediatas a partir de la construcción anterior. 2 El siguiente teorema constituye uno de los más importantes resultados sobre el papel de las σ-álgebras en la Teorı́a de la Probabilidad, al ligar la σ-álgebra engendrada por una variable con las funciones de ella. Obsérvese que su demostración es sencilla como consecuencia de la proposición anterior. Teorema 1.12 Sea Ω un espacio muestral y X : Ω → Ω0 una aplicación cualquiera. Sea σ = σ(X) la σ-álgebra engendrada por X (cuando consideramos sobre Ω0 alguna ¯ es una variable aleatoria σ|β̄-medible, entonces existe una σ-álgebra σ’. Si Y : Ω → < 0 0 ¯ σ |β̄-medible, tal que Y = f (X). función f : Ω → <, 7 Demostración: Supongamos primero que la variable Y es simple y que toma los valores y1 , y2 , ...yk . Entonces los conjuntos correspondientes a la “partición canónica” {Y = yj }, j = 1, 2, ...k serán conjuntos de σ, pero como σ = σ(X) = {X −1 (H 0 ), H 0 ∈ σ 0 }, existirán k conjuntos H10 , H20 , ...Hk0 ∈ σ 0 tales que {Y = yj } = X −1 (Hj0 ), j = 1, 2, ...k. Definiendo f : Ω0 → < como f = k P j=1 yj IHj0 , es evidente que f es una variable aleatoria σ 0 |β-medible y que Y = f (X). En el caso general, sea {Yn }n una sucesión, que existe por la proposición anterior, de variables simples que convergen a Y , y sean fn , n = 1, 2, ... las funciones σ 0 |β-medibles, que acabamos de obtener, tales que Yn = fn (X), n = 1, 2, .... Definiendo f = lim sup fn n→∞ (obsérvese que la existencia del lı́mite no está garantizada en todos los puntos de Ω0 y de este modo conseguimos una función definida entodos los puntos, que sabemos que es σ 0 |β̄-medible por la proposición 1.9, y que coincide con el lı́mite donde este existe), obtenemos Y = n→∞ lim Yn = n→∞ lim fn (X) = lim sup fn (X) = f (X) n→∞ como queriamos. 2 Debemos destacar que al tratar el caso “abstracto” en que X toma valores en cualquier espacio medible, quedan incluidas situaciones en las que X es un vector aleatorio o una sucesión de variables aleatorias. 1.3 Ley de Probabilidad de una Variable Aleatoria El lector deberı́a haberse dado cuenta a estas alturas del capı́tulo de que no hemos hecho ninguna referencia a una probabilidad o a un espacio probabilı́stico desde la, pretendida al menos, motivación al comienzo del capı́tulo. Entonces ¿por qué el calificativo “aleatoria” asociado a las aplicaciones o variables?. En realidad deberı́a ser a partir de este momento cuando comenzásemos a emplearlo, porque a partir de ahora supondremos que (Ω, σ, P ) es un espacio probabilı́stico donde están definidas las variables aleatorias en estudio. Si X : Ω → Ω0 es una variable σ|σ 0 -medible, a partir de la probabilidad P definida en (Ω, σ) podemos asociar, como hicimos en la introducción, una probabilidad a cada conjunto B 0 ∈ σ 0 como PX (B 0 ) = P (X 0 ) := P (X −1 (B 0 )). Las propiedades de la aplicación inversa y de la probabilidad permiten demostrar sin ningún problema que PX es una probabilidad sobre el espacio medible (Ω0 , σ 0 ), y el modo en que se ha definido justifica la siguiente definición. Definición 1.13 Con la notación e hipótesis previamente introducidas, llamaremos a la probabilidad PX , definida sobre (Ω0 , σ 0 ) ley de probabilidad o distribución de probabilidad de la variable X. Para representarla también utilizaremos la notación P ◦X −1 , justificada formalmente por el hecho de poder escribir, para cada B 0 ∈ σ 0 , PX (B 0 ) = P (X −1 (B 0 )) = P ◦ X −1 (B). 8 Precisamente la forma P ◦ X −1 de escribir esta probabilidad es muy iluminadora a la hora de plantearnos la ley de probabilidad asociada a una variable que es función de otra: Proposición 1.14 Sea X : Ω → Ω0 una variable σ|σ 0 -medible y f : Ω0 → Ω00 una función σ 0 |σ 00 -medible. Entonces la ley de probabilidad asociada a la variable Y = f (X) definida en el espacio probabilı́stico (Ω, σ, P ) coincide con la asociada a la variable aleatoria f definida en el espacio probabilı́stico (Ω0 , σ 0 , PX ). Demostración: Sea B 00 ∈ σ 00 , entonces, por las propiedades de la composición de aplicaciones: Pf (X) (B 00 ) = P ◦ (f (X))−1 (B 00 ) = P ◦ X −1 ◦ f −1 (B 00 ) = PX ◦ f −1 (B 00 ) = (PX )f (B 00 ). 2 Recordemos que en el capı́tulo anterior habiamos visto que si dos probabilidades en (<, β) tenı́an la misma función de distribución entonces debı́an coincidir. También anunciamos que cualquier función F : < → < creciente, continua por la derecha y que tuviese los lı́mites limx→−∞ F (x) = 0, limx→∞ F (x) = 1, es decir, cualquier función de distribución, determinaba una probabilidad P en (<, β) que verificase F (x) = P ((−∞, x]) para cada x ∈ <. Conociendo la existencia de la medida de Lebesgue, λ, en ((0, 1), β(0,1) ) podemos dar una demostración muy simple de este hecho basada en la “transformación cuantil” asociada a F . El interés de esta transformación tanto en la Teorı́a de la Probabilidad como en la Estadı́stica justifica una definición formal. Definición 1.15 Sea F una función de distribución en <. La función cuantil asociada a F , que denotaremos habitualmente (con un evidente abuso de notación) por F −1 es la función definida en (0, 1) por F −1 (y) = inf{x : y ≤ F (x)}. Como F es creciente y limx→−∞ F (x) = 0, limx→∞ F (x) = 1, el conjunto {x : y ≤ F (x)} es no vacı́o y acotado inferiormente para cada y ∈ (0, 1), por lo que F −1 (y) está bien definida. Además de la continuidad por la derecha de F se tiene que si x0 = inf{x : y ≤ F (x)} entonces también y ≤ F (x0 ), y se tiene la propiedad caracterı́stica de la función cuantil: F −1 (y) ≤ x ⇔ y ≤ F (x), y ∈ (0, 1), x ∈ <, (1) y, por el crecimiento de F , F (F −1 (y)−) ≤ y ≤ F (F −1 (y)), y ∈ (0, 1). (2) otras propiedades de interés de F −1 que son fácilmente comprobables son el ser creciente y su continuidad por la izquierda. Desde nuestro punto de vista actual, la propiedad de crecimiento es suficiente para asegurar que F −1 es una variable aleatoria β(0,1) |β-medible (véase el problema 5), que, teniendo en cuenta que λ es una probabilidad sobre ((0, 1), β(0,1) ), determina una ley de 9 probabilidad P sobre (<, β). Sea G la función de distribución de esta ley de probabilidad. G verifica entonces G(x) = P ((−∞, x]) := λ({y ∈ (0, 1) : F −1 (y) ∈ (−∞, x]}) = λ((0, F (x)]) = F (x) por la propiedad (1). Es decir, La función de distribución de P (la ley de probabilidad asociada a F −1 ) es precisamente F , con lo que queda demostrada la existencia de probabilidades asociadas a cualquier función de distribución en <. En la siguiente definición comenzamos a formalizar la idea de que lo importante de una variable no es cómo o donde esté definida sino su ley de probabilidad. Definición 1.16 Sean X1 y X2 dos variables aleatorias definidas en sendos espacios probabilı́sticos (Ω1 , σ 1 , P1 ), (Ω2 , σ 2 , P2 ) (posiblemente, pero no necesariamente, el mismo), con valores en el espacio medible (Ω0 , σ 0 ). Diremos que X1 y X2 son igualmente distribuidas si sus leyes de probabilidad (definidas en (Ω0 , σ 0 )) son iguales, esto es, si P1 ◦ X1−1 = P2 ◦ X2−1 . A partir de la definición, teniendo en cuenta la proposición 1.14 es trivial obtener el siguiente resultado. Proposición 1.17 Si X1 y X2 son dos variables aleatorias, con valores en el espacio medible (Ω0 , σ 0 ), igualmente distribuidas y f : Ω0 → Ω00 es una aplicación σ 0 |σ 00 -medible, entonces f (X1 ) =d f (X2 ) (f (X1 ) y f (X2 ) son igualmente distribuidas). Debemos destacar que esta proposición puede considerarse como un resultado fundamental de la Teorı́a de la Probabilidad, o si se quiere, como la justificación teórica del “principio de representación” al que tantas veces hemos aludido: Los resultados de interés probabilı́stico sólo dependerán de la distribución de probabilidades asociada a la(s) variables que intervienen en el problema y no a donde o cómo estén definidas. Obsérvese también que la formulación de la proposición en términos abstractos permite considerar como variables a vectores o incluso sucesiones de variables aleatorias reales , ya que si {Xn }n es una sucesión de variables aleatorias reales definida en algún espacio probabilı́stico (Ω, σ, P ) (σ|β-medibles), podemos definir X : Ω → <∞ por X(ω) = {Xn (ω)}n , que será σ|β ∞ -medible (véase el problema 3). Además, por el teorema 1.12 y la proposición 1.9 resulta que las variables involucradas en procesos lı́mite también serán consideradas como funciones de la sucesión; téngase en cuenta que en la proposición 1.9 la σ-álgebra σ puede ser la mı́nima que hace medibles a todas las variables de la sucesión es decir σ(X1 , X2 , ...Xn , ...). La proposición recien enunciada asegura entonces, por ejemplo, que si {Xn }n =d {Yn }n , entonces lim inf Xn =d lim inf Yn . En las notas anteriores debe observarse que hemos hablado de la distribución de una variable con valores en un espacio abstracto y como ejemplo hemos considerado la de toda una sucesión. Es conveniente distinguir adecuadamente esta distribución de otras en las que sólo están involucradas una parte de las variables. Para no complicar innecesariamente la notación y la terminologı́a estableceremos las pertinentes definiciones sólo para variables aleatorias reales. 10 Definición 1.18 Sean X1 , X2 , ...Xn variables aleatorias reales definidas en un mismo espacio probabilı́stico (Ω, σ, P ). Se denomina ley o distribución de probabilidad conjunta de X1 , X2 , ...Xn a la ley de probabilidad del vector X := (X1 , X2 , ...Xn ). Las leyes de probabilidad de cada una de las variables X1 , X2 , ...Xn , respectivamente representadas por PX1 , PX2 , ...PXn , se denominan leyes o distribuciones de probabilidad marginales. Más generalmente, dado cualquier subconjunto {i1 , ...ik } ⊂ {1, 2, ...n}, la distribución (conjunta) del subvector (Xi1 , ...Xik ) recibe el nombre de distribución marginal de (X1 , X2 , ...Xn ). La definición se extiende a sucesiones de variables aleatorias X1 , X2 , ...Xn , ..., considerando la variable X(ω) = {Xn (ω)}n , con valores en el espacio medible (<∞ , β ∞ ) y la ley de probabilidad conjunta de X1 , X2 , ...Xn , ... como la (definida en (<∞ , β ∞ )) de X. Los comentarios anteriores a esta definición se referı́an por tanto a la distribución conjunta de X1 , X2 , ...Xn , ..., que determina las marginales (aplı́quese la proposición 1.17 a la aplicación proyección πi1 ,i2 ,...ik definida por πi1 ,i2 ,...ik (x1 , x2 , ...xn , ...) = (xi1 , xi2 , ...xik ) para notar que la “conjunta” determina cualquier “marginal”). Por otra parte la distribución conjunta de X1 , X2 , ...Xn , ... queda determinada por las de los vectores (X1 , X2 , ...Xn ), n ∈ N (véase el problema 32). El conocimiento de las distribuciones marginales de cada una de las variables X1 , X2 , ... Xn , no es, sin embargo, suficiente para determinar la ley de probabilidad conjunta. Como ejemplo simple sea Ω = {c, x}, donde supondremos la probabilidad definida por P ({c}) = P ({x}) = 1/2, y podemos mostrar dos variables X e Y definidas por X(c) = 1, X(x) = 0, e Y (c) = 0, Y (x) = 1. Ahora es inmediato ver que X =d Y , mientras que (X, X) 6=d (X, Y ) porque, por ejemplo P ((X, X) = (0, 0)) = 1/2, mientras que P ((X, Y ) = (0, 0)) = 0. A las formas “económicas” de definir o determinar probabilidades en < o <n , cuando se aplican a variables o vectores aleatorios se les añade el calificativo correspondiente, ası́, si X es un vector o una variable aleatoria con distribución de probabilidad PX , y esta ley de probabilidad tiene función de distribución F y (posiblemente) función de densidad f , diremos que F (resp. f ) es la función de distribución (resp. densidad) de X. La función de distribución de la variable X (resp. “conjunta” del vector (X1 , X2 , ...Xn )) vendrá entonces definida por F (x) = P (X ≤ x) (resp. F (x1 , x2 , ...xn ) = P (X1 ≤ x1 , X2 ≤ x2 , ...Xn ≤ xn )). La forma de obtener las funciones de distribución marginales consiste, sin más, en tomar lı́mites en el infinito en aquellas variables que no intervienen. Por ejemplo la función de distribución marginal del subvector (X1 , X2 , ...Xk ) de (X1 , X2 , ...Xn ) será F1,...,k (x1 , ...xk ) = lim xk+1 →∞,...xn →∞ F (x1 , x2 , ...xn ) como puede comprobarse observando que, por la continuidad monótona secuencial de la probabilidad se tiene: F1,...,k (x1 , ...xk ) = P ((X1 , X2 , ...Xk ) ∈ (−∞, x1 ] × (−∞, x2 ] × ...(−∞, xk ]) = P ((X1 , X2 , ...Xn ) ∈ (−∞, x1 ] × (−∞, x2 ] × ...(−∞, xk ] × < × ... × <) = lim xk+1 ↑∞,...xn ↑∞ P ((X1 , X2 , ...Xn ) ∈ (−∞, x1 ]×...×(−∞, xk ]×(−∞, xk+1 ]×...×(−∞, xn ]) = lim xk+1 →∞,...xn →∞ F (x1 , x2 , ...xn ). 11 Consideraciones análogas nos llevan a obtener la función de densidad marginal, f1,...,k , correspondiente a (X1 , X2 , ...Xk ), partiendo de la densidad conjunta de (X1 , X2 , ...Xn ). Si f (x1 , x2 , ...xn ) es la función de densidad conjunta, entonces f1,...,k (x1 , x2 , ...xk ) = Z < ... Z < f (x1 , x2 , ...xn )dxk+1 ...dxn . Para probarlo sólo necesitamos recurrir a la definición de función de densidad de una probabilidad y comprobar que la función definida por el segundo miembro de la igualdad anterior cumple tal definición, que conseguiremos aplicando el teorema de Fubini: Z Z < B ... Z < Z B×<×...×< f (x1 , x2 , ...xn )dxk+1 ...dxn dx1 ...dxk = f (x1 , x2 , ...xn )dx1 ...dxk dxk+1 ...dxn = P ((X1 , X2 , ...Xn ) ∈ B × < × ... × <) = P ((X1 , X2 , ...Xk ) ∈ B) para todo B ∈ β k . Uno de los problemas tı́picos del Cálculo de Probabilidades consiste en la obtención de la distribución de una variable o vector aleatorio que es una función de otro cuya distribución es conocida. Las técnicas que se utilizan para este fin son de varios tipos e irán ilustrándose a través de la resolución de problemas, estando basadas en mayor o menor medida en propiedades de monotonı́a, para las que la función de distribución es un instrumento inmejorable, o de cambio de variable cuando existe función de densidad conjunta. Aunque las variaciones que pueden establecerse son muy diversas, nos contentaremos con observar el siguiente argumento básico: Sea X = (X1 , ...Xn ) un vector aleatorio con función de densidad f (x1 , ...xn ), y sea Y = (Y1 , ...Yn ) = T (X) = (T1 (X1 , ...Xn ), ...Tn (X1 , ...Xn )) el vector aleatorio n-dimensional obtenido por la transformación T , de componentes T1 , ...Tn . Llamaremos S a la transformación inversa, de componentes S1 , ...Sn . Si la transformación T es un difeomorfismo y J(y1 , ...yn ) es el “Jacobiano”, Det ( ∂Si (y1 ,y2 ,...yn ) ), ∂yj i,j la función de densidad g(y1 , ...yn ) de Y vendrá dada por: g(y1 , ...yn ) = f (S1 (y1 , ...yn ), ...Sn (y1 , ...yn ))|J(y1 , ...yn )|. (3) Sólo habrá que probar que g, definida de este modo, es la función de densidad de Y , sea entonces B un abierto de <n . Aplicando la fórmula del cambio de variable para la integral tendremos: P (Y ∈ B) = P (T (X) ∈ B) = P (X ∈ T Z B −1 B) = Z T −1 (B) f (S1 (y1 , ...yn ), ...Sn (y1 , ...yn ))|J(y1 , ...yn )|dy1 ...dyn = 12 f (x1 , ...xn )dx1 ...dxn = Z B g(y1 , ...yn )dy1 ...dyn que demuestra que P (Y ∈ B) = B g(y1 , ...yn )dy1 ...dyn para los conjuntos abiertos. Si R definimos, para cualquier conjunto C de β n , Q(C) = C g(y1 , ...yn )dy1 ...dyn , por las propiedades de f y la definición de g, Q será una probabilidad sobre (<n , β n ) que tiene a g como función de densidad y que coincide con PY en una clase (la de los abiertos) que es cerrada para intersecciones finitas y que genera la σ-álgebra de Borel β n . Por tanto Q y PY coinciden y g será función de densidad de PY , es decir, del vector aleatorio Y . R 2 Problemas propuestos 1. Sea X : Ω → Ω0 una aplicación y C 0 una clase de conjuntos de Ω0 . Probar que se tiene σ({X −1 (C 0 ), C 0 ∈ C 0 }) = {X −1 (A0 ), A0 ∈ σ(C 0 )}. 2. Sea (Ω, σ) un espacio medible y B ∈ σ. Probar que si C es una clase que genera σ, entonces la “σ-álgebra de subespacio” σ B := {H ⊂ B : H ∈ σ} coincide con la mı́nima σ-álgebra sobre B que contiene a la clase CB = {B ∩ C : C ∈ C}. 3. Se define en <∞ (el espacio de las sucesiones de números reales) la σ-álgebra β ∞ como la mı́nima que hace medibles las proyecciones πi : <∞ → <, πi (x1 , x2 , ...xn , ...) = xi , i = 1, 2, ...n, ... Probar que β ∞ es también la σ-álgebra engendrada por las clases C = {< × < × ...< × Bn × < × ...., Bn ∈ β, n ∈ N } y D = {B1 × B2 × ... × Bn × < × ...., Bi ∈ β, i = 1, ...n, n ∈ N } y que D es cerrada para intersecciones finitas. Probar que X : Ω → <∞ , X = (X1 , X2 , ...Xn , ...) es σ|β ∞ -medible si y sólo si todas sus componentes Xn , n ∈ N son variables aleatorias σ|β-medibles. ~ : Ω → <m un vector aleatorio m-dimensional tal que X(Ω) ~ 4. Sea X ⊂ B ∈ β m . Probar ~ es un vector aleatorio. que si f : B → <n es continua, entonces f (X) 5. Sea B un conjunto de Borel de < y f : B → < una función creciente. Probar que es (βB |β−)medible. 6. Sea C una clase que genera la σ-álgebra σ, σ = σ(C). Probar que si X es una variable aleatoria real σ|β-medible entonces existe una subclase numerable CX ⊂ C tal que X es σ(CX )|β-medible. Extender el resultado a vectores aleatorios. 7. Probar que una variable aleatoria simple es una aplicación medible que sólo toma un número finito de valores. 8. Probar que si X e Y son variables aleatorias reales definidas en el espacio medible (Ω, σ), entonces el conjunto {X > Y } es σ-medible. (Considerar la posibilidad de que las variables tomen valores infinitos). 13 9. Extender el teorema 1.12 a vectores aleatorios. 10. Sea X una variable aleatoria real con función de distribución F y correspondiente función cuantil F −1 . (a) Probar que si F es continua y estrictamente continua entonces F (X) tiene una distribución uniforme en (0, 1). (b) Probar que siempre se tiene F (F −1 (x)−) ≤ x ≤ F (F −1 (x)) para cada x ∈ (0, 1). (c) Deducir que F (X) tiene una distribución uniforme si F es continua (por lo que la condición de crecimiento estricto en a) es innecesaria). La transformación F (X) tiene gran interés en Estadı́stica y recibe el nombre de transformación integral. 11. Sea X una variable aleatoria con valores positivos y “pérdida de memoria”: P (X > x + y/X > y) = P (X > x) si x, y ∈ <+ . Probar que entonces X tiene una distribución exponencial: Existe α > 0 tal que P (X > x) = e−αx , x > 0 (= 0 si x ≤ 0). 12. Sean (X, Y ) las coordenadas de un punto obtenido al azar del cuadrado unidad (0, 1) × (0, 1). Obtener P (X + Y ≤ 21 ) y P (X + Y ≤ 34 ). Si ahora (X, Y, Z) son las coordenadas de un punto elegido al azar del cubo unidad (0, 1) × (0, 1) × (0, 1), obtener P (X + Y + Z ≤ 1). 13. Sea X una variable aleatoria con distribución uniforme en el intervalo (−1, 1). Obtener la distribución de las variables |X|, X 2 , y (X + 1)/2. 14. Sea X una variable aleatoria con densidad f (x) = 1 . π(1+x2 ) Obtener la distribución de la variable Y = X 2 . 15. Obtener la función de densidad de la variable de distribución F (x) = (1 − e−x )I[0,∞) (x). √ X, si X es una variable con función 16. Obtener la función de distribución de la variable Y = X 2 , si X tiene como función de distribución a F (x) = 0 si x < 0 x2 si 0 ≤ x ≤ 1 · 1 si x ≥ 1 17. Sean (X, Y ) las coordenadas de un punto obtenido al azar del cuadrado unidad (0, 1) × (0, 1). Obtener la función de densidad conjunta del vector (U, V ), siendo U = X + Y, V = X − Y . Obtener la función de densidad marginal de las variables U y V. 14 18. Probar que la función f (x) = 1 x−µ 2 √ 1 e− 2 { σ } 2π σ es una función de densidad si µ ∈ < y σ > 0. Una variable aleatoria X con esta función de densidad se denomina “normal µ, σ” (y suele escribirse L(X) = N (µ, σ), o también X =d N (µ, σ)). Obtener la función de densidad del cuadrado de una variable N (0, 1). 1 2 2 1 − 2 {x +y } e 19. Sea (X, Y ) un vector aleatorio con densidad conjunta f (x, y) = 2π . Obtener las distribuciones marginales y la de la distancia de (X, Y ) al origen. 20. (Aguja de Buffon). Sobre un plano se trazan rectas paralelas equidistantes, separadas una distancia d. ¿Cuál es la probabilidad de que al lanzar sobre el plano una aguja de longitud l, l < d, corte alguna recta? 21. (Paradoja de Bertrand). Se elige una cuerda al azar de una circunferencia dada . ¿Cuál es la probabilidad de que sea más larga que el lado del triángulo inscrito en la circunferencia? 22. (Método de Box-Müller de generación de leyes normales). Sean X e Y las coordenadas de un punto elegido√al azar en el cuadrado unidad √ (0, 1) × (0, 1). Definimos las nuevas variables U = −2 log X cos(2πY ) y V = −2 log Xsen(2πY ). Obtener su densidad conjunta y las densidades marginales. 23. A lo largo de una carretera de 10 Km se han situado al azar 100 personas. ¿Cuál es la probabilidad de que ninguna pareja de personas diste más de l metros? 24. Un dispositivo electrónico cuenta con n componentes y funciona mientras que una de estas componentes lo hace. Sabiendo que la función de distribución conjunta de los tiempos de fallo de las componentes es F ∗ (x1 , x2 , ...xn ) = Πni=1 F (xi ), siendo F la función de distribución (común) del tiempo de fallo de cada componente, obtener la función de distribución del tiempo de fallo del dispositivo. 25. Se eligen tres puntos A, B, C al azar sobre una circunferencia , sea X el valor del ángulo (interior) ABC. Calcular la distribución de X. 26. Sean X e Y variables aleatorias con función de densidad conjunta h(x, y) = f (x)f (y), donde f es una función medible y positiva. Obtener las funciones de densidad marginales y la conjunta del par (T, U ), siendo T y U las variables definidas por T = X + Y y U = XY . 27. Un vector aleatorio (X, Y ) tiene una distribución uniforme sobre la superficie encerrada por una elipse de semiejes a, b y centro el origen. Calcular las funciones de densidad conjunta y marginales. 28. Probar que la función F (x, y) = 0 si x < 0 ó y < 0 · 1 − e−x−y si x ≥ 0 y y ≥ 0 15 no es una función de distribución de un vector aleatorio. 29. Sea (X, Y ) un vector aleatorio con densidad uniforme sobre el cı́rculo x2 + y 2 ≤ 4. Determinar: (a) P (Y > kX). (b) la función de densidad de X. (c) P (X 2 + Y 2 > 1). (d) La función de distribución de X 2 + Y 2 . √ (e) La función de distribución de X 2 + Y 2 . 30. Probar que si F y G son dos funciones de distribución en <, entonces las funciones H1 (x, y) = F (x)G(y) y H2 (x, y) = min{F (x), G(y)} son funciones de distribución en <2 . Probar que si f y g son funciones de densidad en <, h(x, y) = f (x)g(y) es una función de densidad en <2 . 31. Sea (X, Y ) un vector aleatorio con densidad conjunta definida por f (x, y) = e−x−y si x > 0, y > 0 (y 0 en el resto). Obtener: (a) Las distribuciones marginales. (b) La función de distribución conjunta. (c) P (X = Y ). (d) P (X + Y ≤ 4). (e) La función de distribución de Z = X + Y . 32. Sea X1 , X2 , ...Xn , ... una sucesión de variables aleatorias reales definidas en un espacio probabilı́stico (Ω, σ, P ). La distribución de la sucesión es la ley de probabilidad que ésta engendra en (<∞ , β ∞ ). Probar que dos sucesiones de variables aleatorias reales, X1 , X2 , ...Xn , ..., y Y1 , Y2 , ...Yn , ... son igualmente distribuidas si y sólo si los vectores aleatorios (X1 , X2 , ...Xn ) y (Y1 , Y2 , ...Yn ) son igualmente distribuidos para todo n ∈ N . 16