CapII.pdf

Anuncio
Capı́tulo 2
Variables aleatorias
2.1.
Introducción
En muchos experimentos resulta más fácil manejarse con una variable resumen que
con la estructura de probabilidad original. Por ejemplo, en una encuesta de opinión,
podrı́amos decidir entrevistar a 50 personas y preguntarles si les agrada ó no cierta
cosa. Si usáramos un 1 para el que contesta ”me agrada un o para el que contesta
2
”me desagrada”, el espacio muestral para este experimento tiene 250 elementos. Cada
uno de estos elementos es un arreglo de dimensión 50, donde cada componente es un 1
ó es un 0, debemos ser capaces de reducir esta medida enorme del espacio muestral de
alguna manera razonable. Esto podrı́a hacerse si, por ejemplo, nos interesa solamente
el número de personas a quienes les agrada (ó equivalentemente, les desagrada) de
entre los 50 entrevistados. Nos podrı́a interesar calcular, por ejemplo, la probabilidad
de que les agrade a la mitad, ó a la tercera parte; y ası́ definir la cantidad X =
números de 1´s encontrados entre los 50, de esta manera tendrı́amos capturada la
esencia del problema.
Ahora el espacio muestral que recorre X es el conjunto {0, 1, 2, . . . , 50}, el cual es
35
Probabilidad y Estadı́stica
mucho más fácil de manejar que el original. Para definir esta cantidad X es necesario
definir una función del espacio muestral original, Ω, a un nuevo espacio, usualmente
el conjunto de los números reales. En general se tiene la siguiente
Definición 2.1.1. Una variable aleatoria es una función del espacio muestral Ω en
los números reales.
Ejemplo 2.1.1. En muchos experimentos, variables aleatorias son usadas implı́citamente. Veamos algunos ejemplos en la siguiente tabla:
Experimentos
Variable Aleatoria
Arrojar dos dados
X = suma de los números obtenidos
Arrojar una moneda 25 veces
X = número de caras obtenidas en los 50 tiros
Aplicar diferentes tipos de fertilizantes
a grupos de plantas
X = rendimiento por acre
En la definición de v.a. tenemos definido un nuevo espacio muestral (el rango ó recorrido
de la va). Ahora se debe chequear formalmente que nuestra función de probabilidad, la cual
está definida sobre el espacio muestral original, puede ser usada para la v.a.
Supongamos que se tiene el siguiente espacio muestral:
Ω = {ω1 , ω2 , . . . , ωn }
con una función de probabilidad P , y definimos una v.a. X con un rango en X = {x1 , x2 , . . . , xn }.
Definiremos una función de probabilidad PX sobre X del siguiente modo:
PX (X = xi ) = P ({ωj ∈ Ω / X(ωj ) = xi })
(2.1)
Note que la función PX a la izquierda del igual en (2.1) es una función de probabilidad
inducida por X , definida en términos de la probabilidad original P . La igualdad (2.1) formalmente define una función de probabilidad, PX , para la v.a. X. Por supuesto que se
deberá verificar que PX satisface los axiomas de Kolmogorov, lo cual se deja como ejercicio. Como son equivalentes, simplemente (2.1) se escribirá como P (X = xi ) en lugar de
PX (X = xi )
Probabilidad y Estadı́stica
Segundo Semestre 2005
36
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Notación Variables aleatorias siempre serán denotadas por letras imprenta mayúsculas
tales como, X, Y , Z, X1 , X2, Y1 , etc; y los valores de su realización (ó su rango) con su
correspondiente letra minúscula. Ası́, la v.a. X diremos que puede tomar el valor x.
Ejemplo 2.1.2. Consideremos el experimento de arrojar una moneda tres veces. Definimos
la v.a. X = no de caras obtenidas en los tres tiros. Podemos realizar el siguiente cuadro:
ω
X(ω)
CCC
3
CCS
2
CSC
2
SCC
2
CSS
1
SCS
1
SSC
1
SSS
0
El rango de valores de la v.a. X es X = {0, 1, 2, 3}. Asumiendo equiprobabilidad, se
tiene P ({ω}) = 1/8
x
PX (X = x)
0
1/8
1
3/8
2
3/8
3
1/8
∀ ω ∈ Ω. De este modo podremos confeccionar la siguiente tabla:
Por ejemplo PX (X = 1) = P ({CSS, SSC, SCS}) = 38 .
Ejemplo 2.1.3. Sea Ω formado por los 250 arreglos de tamaño 50 formado por 1´s y 0´s.
Definimos X = cantidad de 1´s obtenidos. Se tiene entonces que X = {0, 1, 2, . . . , 50}.
Supongamos que los 250 arreglos son igualmente probables. La P (X = 27) puede ser obtenida contando todas las cadenas que contienen exactamente 27 1´s en el espacio muestral
original. Como cada cadena es igualmente probable, tenemos que
¡50¢
Nro. de cadenas con 27 1´s
P (X = 27) =
= 27
.
Nro. total de cadenas
250
Probabilidad y Estadı́stica
Segundo Semestre 2005
37
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
En general
¡50¢
PX (X = i) =
i
250
Estos ejemplos anteriores tienen un Ω y un X finito. También X podrı́a ser numerable.
Si X no es numerable, también es posible definir la función de probabilidad inducida PX de
forma similar a la anterior:
Para A ⊂ X ,
PX (X ∈ A) = P ({ω ∈ Ω / X(ω) ∈ A}).
Esta también define legı́timamente una función de probabilidad que cumple con los
axiomas de Kolmogorov.
2.2.
Funciones de Distribución
Con toda v.a. X, tenemos asociada una función llamada función de distribución
acumulativa de X, dicha también f.d.a.
Definición 2.2.1. La f.d.a. de una v.a. X, denotada por FX (x), se define por:
FX (x) = PX (X ≤ x) ∀x ∈ R
Ejemplo 2.2.1. Consideremos el caso de la moneda que se arroja tres veces y se observa
la cantidad de caras obtenidas. Determinemos FX (x)
x<0
=⇒
FX (x) = PX (X ≤ x) = 0
0≤x<1
=⇒
FX (x) = PX (X ≤ x) = P (X = 0) = 1/8
1≤x<2
=⇒
FX (x) = PX (X ≤ x) = P (X = 0) + P (X = 1) = 1/2
2≤x<3
=⇒
FX (x) = PX (X ≤ x) = P (X = 0) + P (X = 1) + P (X = 2) = 7/8
x≥3
=⇒ FX (x) = 1
Finalmente, la función de distribución asociada a X es,



0 si x < 0






1/8 si 0 ≤ x < 1



FX (x) =
1/2 si 1 ≤ x < 2





7/8 si 2 ≤ x < 3





 1 si x ≥ 3
Probabilidad y Estadı́stica
Segundo Semestre 2005
38
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Le proponga al lector que grafique esta función, obtendrá un gráfico en R2 con las siguientes
caracterı́sticas:
(a) FX (x) está definida ∀ x, no solamente en X . Por ejemplo: FX (2,5) = 7/8
(b) Presenta saltos en los valores xi ∈ X , y la media de los saltos en xi es P (X = xi ).
(c) Es nula para todos los valores de x < 0; y vale 1 para todos los x ≥ 3.
(d) A pesar de presentar saltos en los puntos mencionados en (b), ó sea discontinuidades, la
función alcanza siempre su valor en lo alto del salto, esto se conoce como continuidad
a la derecha. Simbólicamente se tiene:
lı́m FX (x) = FX (xi )
si xi ∈ X
x−→x+
i
Todas las f.d.a. cumplen ciertas propiedades, algunas de las cuales son obvias, cuando se
piensa que están definidas en términos de probabilidad.
Teorema 2.2.1. La función F(x) es una f.d.a. sı́ y sólo sı́ las siguientes tres condiciones
se cumplen:
(a)
lı́m
x−→−∞
F (x) = 0 ∧
lı́m F (x) = 1
x−→∞
(b) F (x) es no decreciente como función de x.
(c) F (x) es continua a la derecha, esto es:
lı́m F (x) = F (x0 )
x−→x+
0
∀ x0 .
Prueba:
Para probar la condición necesaria, basta escribir F (x) en términos de la función de probabilidad. Para la suficiencia ó sea, que si una función F satisface las tres condiciones del
teorema entonces es una f.d.a. para una v.a., en mucho más complicado (no lo haremos),
deberı́amos establecer que existe un espacio muestral Ω, una función de probabilidad P
sobre Ω, y una v.a. X definida sobre Ω, tal que F es la f.d.a. de X.
Probabilidad y Estadı́stica
Segundo Semestre 2005
39
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Ejemplo 2.2.2. Supongamos el experimento que consiste en arrojar una moneda tantas
veces como sea necesario hasta que salga la primera cara. Sea p= probabilidad de obtener
cara en cualquier lanzamiento.
Consideremos X= nro. de lanzamientos hasta que salga la primera cara. Determinar su
f.d.a.
X = {1, 2, 3, . . .}, entonces para x = 1, 2, . . . ,
P (X = x) = (1 − p)x−1 p ,
ya que debemos encontrar x − 1 fallas hasta obtener la siguiente cara, además los eventos
ocurren de manera independiente. Para cualquier entero positivo x se tiene,
FX (x) = P (X ≤ x) =
x
X
P (X = i) =
x
X
i=1
(1 − p)i−1 p , x = 1, 2, . . .
i=1
recordar que la suma parcial de una serie geométrica es
n
X
tk−1 =
k=1
1 − tn
,
1−t
t 6= 1
(2.2)
Este resultado se puede probar por inducción matemática. Aplicando (2.2) a nuestra probabilidad, encontramos que la f.d.a. de nuestra v.a. X es
FX (x) = P (X ≤ x)
=
1 − (1 − p)x
p
1 − (1 − p))
= 1 − (1 − p)x ,
x = 1, 2, . . .
La f.d.a. es una tal que presenta segmentos horizontales entre los enteros no negativos se
sugiere dibujar esta función, por ejemplo para p = 0,3.
Es fácil mostrar que 0 < p < 1 para que FX (x) satisfaga las condiciones del teorema (2.2.1).
lı́m
x−→−∞
FX (x) = 0,
ya que FX (x) = 0 ∀ x < 0
y
lı́m FX (x) = lı́m [1 − (1 − p)x ] = 1.
x−→∞
Probabilidad y Estadı́stica
Segundo Semestre 2005
x−→∞
40
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Ejemplo 2.2.3. Un ejemplo de una f.d.a. continua es la función
1
,
1 + exp−x
FX (x) =
la cual satisface las condiciones de teorema (2.2.1).
Por ejemplo,
lı́m
FX (x) = 0,
ya que
lı́m FX (x) = 1,
ya que
x−→−∞
lı́m
x−→−∞
exp−x = ∞
y
x−→∞
lı́m exp−x = 0
x−→∞
Si derivamos FX (x) una vez, tenemos
d
exp−x
>0,
FX (x) =
dx
(1 + exp−x )2
mostrando que FX es creciente como función de x. FX no solamente es continua a la derecha.
Sino también continua. Este es un caso especial de la llamada distribución logı́stica.
Si una f.d.a. es continua ó presenta saltos se corresponde con la asociación de una v.a.
que sea continua ó no. En efecto, la asociación nos conduce a la siguiente definición,
Definición 2.2.2. Una v.a. X es continua se FX (x) es una función continua de x. Una
v.a. X es discreta de FX (x) es una función dada a trozos con respecto a x.
Necesitamos definir la noción de cuando dos v.a. son idénticamente distribuidas.
Definición 2.2.3. Se dice que dos v.a. X e Y están idénticamente distribuidas si para
cualquier conjunto A, P (X ∈ A) = P (Y ∈ B)
Note que dos v.a. que están idénticamente distribuidas no necesariamente son iguales.
Esto es, la definición última anterior no dice que X = Y .
Ejemplo 2.2.4. Consideremos el experimento que consiste en arrojar una moneda tres
veces. Definimos las v.a. X e Y como sigue,
X = número de caras obtenidas
Y
Probabilidad y Estadı́stica
Segundo Semestre 2005
= número de cecas obtenidas
41
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
La distribución de X está dada en el ejemplo (2.1.2), y se verifica fácilmente que
la distribución de Y es exactamente la misma; esto significa que para valores de k =
0, 1, 2, 3 P (X = k) = P (Y = k). Ası́, X e Y están idénticamente distribuidas, sin embargo, no para los mismos puntos se cumple X(ω) = Y (ω). ∴ X 6= Y .
Igual distribución de v.a., no implica igualdad en las v.a.
Teorema 2.2.2. Las siguientes afirmaciones son equivalentes:
(a) Las v.a. X e Y están idénticamente distribuidas
(b) FX (x) = FY (x) para cada x.
Prueba:
Para mostrar la equivalencia, debemos demostrar que cada afirmación implica la otra.
Veamos que (a) =⇒ (b).
Ya que X e Y están idénticamente distribuidas, tenemos, para cualquier conjunto A,
P (X ∈ A) = P (Y ∈ B).
En particular, para el conjunto (−∞, x] se tiene
P (X ∈ (−∞, x]) = P (Y ∈ (−∞, x])
∀ x.
Pero esta última igualdad es equivalente a:
P (X ≤ x) = P (Y ≤ x)
∀ x,
ó que FX (x) = FY (x) para cada x.
La implicación inversa, (b) =⇒ (a) es mucho más difı́cil de probar. Para mostrarla se requiere
usar una baterı́a pesada de σ- álgebras de Borel. No entraremos aquı́ en más detalles. Es
suficiente saber (de acuerdo con el nivel de estas notas) que eso es necesario para probar
que las dos funciones de probabilidad coincidan sobre todos los intervalos (Por ejemplo para
más detalles ver Chung,1977).
Probabilidad y Estadı́stica
Segundo Semestre 2005
42
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
2.2.1.
Densidad y Funciones de masa
Asociada con una v.a.X y su f.d.a. FX (x) existe otra función, llamada según corresponda:
función de densidad de probabilidad (f.d.p.) ó función de masa de probabilidad (f.m.p.).
Los términos (f.d.p.) y (f.m.p.) se refieren, respectivamente, a los casos continua y discreto.
Ambas funciones está relacionadas con probabilidades puntuales de v.a.
Definición 2.2.4. Una función de masa de probabilidad, f.m.p., de una v.a. discreta está dada por:
fX (x) = P (X = x) ,
∀ x.
Ejemplo 2.2.5. Para la distribución geométrica del ejemplo (2.2.2) tenemos la f.m.p.,

 (1 − p)x−1 p si x = 1, 2, . . .
fX (x) = P (X = x) =

0
en otro caso
Recordar que fX (x) ó equivalentemente P (X = x) es la medida del salto de la f.d.a. en
x. Se puede usar la f.m.p. en un punto para calcular probabilidades; necesitamos solamente
sumar sobre todos los puntos de un evento en forma apropiada.
Por lo tanto, para enteros positivos a y b, con a ≤ b, nosotros tenemos,
P (a ≤ X ≤ b) =
b
X
fX (k) =
b
X
(1 − p)k−1 p.
k=a
k=a
Ası́, se puede conseguir con esto un caso especial
P (X ≤ b) =
b
X
fX (k) = FX (b).
k=1
Una convención ampliamente aceptada, la cual también nosotros adoptaremos, es la de
anotar con letras imprentas mayúsculas las f.d.a.´s; y con la correspondiente minúscula la
f.m.p. ó la f.d.p. respectiva.
Debemos tener un poco más de cuidado en nuestra definición de f.d.p. en el caso continuo.
Si ingenuamente tratamos de probar calcular P (X = x) para v.a. continuas, conseguiremos
lo siguiente: ya que {X = x} ⊂ {x − ² < X ≤ x} para cualquier ² > 0, nosotros tendremos
a partir del teorema (1.2.1) parte f. que,
P (X = x) ≤ P (x − ² < X ≤ x) = FX (x) − FX (x − ²),
Probabilidad y Estadı́stica
Segundo Semestre 2005
43
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
para cualquier ² > 0. Por lo tanto,
0 ≤ P (X = x) ≤ lı́m [FX (x) − FX (x − ²)] = 0,
x−→²+
por la continuidad de FX . Sin embargo, si nosotros comprendemos el propósito de la f.d.p.,
su definición será clara.
Definición 2.2.5. La función de densidad de probabilidad ó f.d.p., fX (x), de una v.a.
continua X es la función que satisface:
Z
FX (x) =
x
−∞
fX (x) dt
para todo x.
(2.3)
Una nota sobre notación: La expresión ”X tiene una distribución dada por FX (x)”se
abrevia simbólicamente por ”X ∼ FX (x)”, donde leemos el sı́mbolo ”∼çomo ”está distribuido como”. También podremos en forma similar escribir X ∼ fX (x) ó, si X e Y tienen la
misma distribución, X ∼ Y .
En el caso de v.a. continuas no necesitamos ser cuidadosos en la especificación de incluir
o no los extremos de los intervalos para el calculo de probabilidades. Como P (X = x) = 0
si X es una v.a. continua,
P (a < X < b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a ≤ X ≤ b).
En este punto, ya debe estar claro que la f.d.p. (ó p.m.f.) contienen la misma información
que la f.d.a. Según sea el caso se puede ocupar una u otra para resolver problemas, de
acuerdo si facilita ó no su resolución.
Ejemplo 2.2.6. Para la distribución logı́stica dada en el ejemplo anterior. Se pide, determinar su f.d.p. y determinar una metodologı́a para calcular la P (a < X < b)
Deberemos derivar la f.d.a con respecto a X para determinar la f.d.p., en efecto
fx (x) =
d
exp−x
FX (x) =
.
dx
(1 + exp−x )2
El área bajo la curva fx (x) dado un intervalo de probabilidad (ver Figura 2.1) es:
Probabilidad y Estadı́stica
Segundo Semestre 2005
44
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Figura 2.1: Area bajo la curva logistica
Z
P (X ∈ [a, b]) = FX (b) − FX (a) =
Z
b
−∞
fX (x) dx −
Z
a
−∞
fX (x) dx =
a
b
fX (x) dx.
Solamente existen dos requerimientos para una f.d.p. (ó f.m.p.), los cuales son inmediatas
consecuencias de la definición.
Teorema 2.2.3. Una función fX (x) es una f.d.p. (ó una f.m.p.) de una variable aleatoria
X si y sólo sı́
(a) fX (x) ≥ 0
(b)
P
x
∀ x.
fX (x) = 1 (f.m.p.)
o
R +∞
−∞
fX (x) dx = 1 (f.d.p.).
Prueba:
Si fX (x) es una f.d.p. (ó una f.m.p.), las dos propiedades son inmediatas de las definiciones.
En particular, usando (2.4) y el Teorema 2.2.1, se tiene que ,
Z
1 = lı́m FX (x) =
x−→∞
Probabilidad y Estadı́stica
Segundo Semestre 2005
45
+∞
−∞
fX (t) dt.
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
La implicación inversa, es también muy fácil de probar. Una vez que se tiene fX (x) podemos
definir FX (x) y recurrir al Teorema 2.2.1.
Ejemplo 2.2.7. Se lanzan dos dados de manera independiente. Sea X1 y X2 el puntaje obtenido en el lanzamiento del primer dado y segundo respectivamente. Sea X =
max{X1 , X2 }. Determinar la f.m.p y la f.d.a. de la v.a. X
X ≤ x ⇐⇒ max{X1 , X2 } ≤ x ⇐⇒ X1 ≤ x ∧ X2 ≤ x.
La última igualdad se deduce de la definición de máximo!.
∴ {X ≤ x} es equivalente a,
{X1 ≤ x} ∩ {X2 ≤ x}.
Al estar suponiendo que los dados se lanzan de manera independiente, resulta que
P (X ≤ x) = P [{X1 ≤ x} ∩ {X2 ≤ x}]
= P (X1 ≤ x) · P (X2 ≤ x).
Si suponemos que los dados son equilibrados , se tiene que
P (X1 = l) = P (X2 = l) =
Luego,
P (Xi ≤ x) =
x
X
P (Xi = l) =
l=1
x
6
1
6
con l = 1, . . . , 6.
x = 1, 2, . . . , 6,
i = 1, 2.
Finalmente,
P (X ≤ x) =
x2
,
36
x = 1, . . . , 6.
Siendo esta su f.d.a.. Pero
P (X = x) = P (X ≤ x) − P (X ≤ x − 1
=
Probabilidad y Estadı́stica
Segundo Semestre 2005
x2 (x − 1)2
2x − 1
−
=
,
36
36
6
46
x = 1, . . . , 6.
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Siendo esta su f.m.p
• ¿Qué ocurre si lanzamos ahora infinitamente el dado en forma independiente?
Si razonamos como en la parte última anterior del ejemplo, sea Si el puntaje obtenido
en el i-ésimo lanzamiento, i=1,. . . ,k.
Nos interesa la v.a. Y = ”el puntaje máximo obtenido”:
Y = max {S1 , S2 , . . . ,k }.
Por definición del máximo, {Y ≤ y} es equivalente a,
{S1 ≤ y} ∩ {S2 ≤ y} ∩ . . . ∩ {Sk ≤ y}.
Luego, usando la independencia de los lanzamientos, se obtiene que
P (Y ≤ y) =
k
Y
P (Si ≤ y) =
i=1
³ y ´k
6
,
y = 1, . . . , 6.
Finalmente, para y = 1, 2, . . . , 6,
P (Y = y) = P (Y ≤ y) − P (Y ≤ y − 1) =
1 k
[y − (y − 1)k ].
6k
Calcular la probabilidad de que el máximo valor leı́do sea un valor y en infinitos lanzamientos, corresponde a tomar
lı́m P (Y = y).
k−→∞
Para calcular este lı́mite, debe notar que la f.m.p. de Y se puede escribir de manera equivalente como
P (Y = y) =
Al tomar lı́mite se obtiene:
³ y − 1 ´k i
yk h
1
−
.
y
6k

 0 si y < 6
lı́m P (Y ≤ y) =
 1 si y = 6
k−→∞
Esto significa que en un número infinito de lanzamientos, la probabilidad de obtener un
puntaje máximo entre 1 y 5 es cero, mientras que la probabilidad de obtener un puntaje
igual a 6 es uno!!!.
Probabilidad y Estadı́stica
Segundo Semestre 2005
47
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Ejemplo 2.2.8. Probar que la función dada por
1
2
fX (x) = √ exp−x /2 .
2π
(2.4)
es una función de densidad de probabilidad
En efecto, obviamente fX (x) > 0. Para verificar que es una densidad, falta comprobar
R∞
que −∞ fX (x) dx = 1.
Sea a =
R∞
2
e−x /2 dx. Deberemos probar que a2 = 2π. Para lo cual, notar que
Z ∞
Z ∞
Z ∞Z ∞
2
2
2
−x2 /2
−y 2 /2
a =
e
dx ·
e
dy =
e−(x +y )/2 dx dy;
−∞
−∞
−∞
−∞
−∞
y tomando, en la integral doble, coordenadas polares (r, φ) queda
Z 2π
Z ∞
2
2
a =
dφ
e−r /2 r dr = 2π.
0
0
Esta densidad se define como la densidad normal tı́pica (o estándar), y se la anota con la
letra griega ϕ, de donde en adelante siempre que veamos ϕ(x), nos estamos refiriendo a la
densidad de una v.a. con distribución Normal estándar, definida por (2.4).
Ejemplo 2.2.9. Supóngase que la v.a. X es continua, y se tiene la función dada por

 kx si 0 < x < 1
f (x) =
 0 en otro caso
Se pide: a)Hallar k para que sea una f.d.p. para la v.a. X; b)Determine la f.d.a.
Nota ¡fX (x) no representa la probabilidad de nada!. Hemos observado que, por ejemplo
P (X = 0,5) = 0, y por lo tanto fX (0,5) no la representa. Sólo cuando la función se integra
entre dos lı́mites produce una probabilidad. Sin embargo, es posible dar una interpretación
de 4x fX (x) del siguiente modo. Del teorema del valor medio del cálculo integral se deduce
que
Z
P (x ≤ X ≤ x + 4x) =
x
x+4x
fX (s) ds = 4x fX (ξ) ,
x ≤ ξ ≤ x + 4x.
Si 4x es pequeño, 4x fX (x) es aproximadamente igual a P (x ≤ X ≤ x + 4x). Si fX es
continuo por la derecha, esta llega a ser más segura cuando 4x −→ 0.
Probabilidad y Estadı́stica
Segundo Semestre 2005
48
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
2.3.
Transformaciones y Esperanzas
A menudo, si nosotros somos capaces de modelar un fenómeno en términos de la va X
con una FX (x), también tendremos la relación con la conducta de funciones de X. En esta
sección estudiaremos técnicas que nos permitirán ganar información acerca de funciones de
X que podrı́an ser de interés, que puede ir desde ser completa (las distribuciones de esas
funciones) a muy vaga (la conducta del promedio).
2.3.1.
Distribuciones de funciones de una Variable Aleatoria
Si X es una v.a. con fda FX (x), entonces cualquier función de X, digamos g(X), es
también una v.a.. A menudo g(X) es de interés en sı́ misma y escribiremos Y = g(X) para
denotar nuestra v.a. g(X). Ya que Y es una función de X, nosotros podemos describir su
conducta probabilı́stica, en términos de la de X. Esto es, para cualquier conjunto A,
P (Y ∈ A) = P (g(X) ∈ A) ,
esto muestra que la distribución de Y depende de las funciones FX y g. Dependiendo de
la elección de g, es algunas veces posible obtener una expresión tratable para el cálculo de
esta probabilidad.
Formalmente, si nosotros escribimos y = g(x), la función g(x) define una mapeo del espacio
muestral de X, X , a un nuevo espacio muestral, Y, el espacio muestral de la v.a. Y . Esto
es,
g(x) : X −→ Y.
Es posible asociar con g un mapeo inverso, denotado por g −1 , el cual es un mapeo proveniente de subconjuntos de Y a subconjuntos de X , y está definido por
g −1 (A) = {x ∈ X : g(x) ∈ A}.
Note que el mapeo g −1 está definido de conjuntos en conjuntos, esto es, g −1 (A) es el conjunto
de los puntos en X tal que g(x) va a parar dentro de A. Es posible que A sea un conjunto
Probabilidad y Estadı́stica
Segundo Semestre 2005
49
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
formado por un sólo punto, digamos A = {y}. Entonces
g −1 ({y}) = {x ∈ X : g(x) = y}.
En este caso casi siempre se escribe g −1 (y) en lugar de g −1 ({y}). Sin embargo, la cantidad
g −1 (y) puede aún ser un conjunto, si hay más de un x para el cual g(x) = y. Si hay
solamente un valor de x para el cual g(x) = y, entonces g −1 (y) en el conjunto unitario {x},
y escribiremos g −1 (y) = x.
Si la v.a. Y está definida por Y = g(X), es posible escribir para cualquier conjunto A ⊂ Y,
P (Y ∈ A) = P (g(X) ∈ A)
= = P ({x ∈ X : g(x) ∈ A})
(2.5)
= P (X ∈ g −1 (A)).
Esta define la distribución de probabilidades de Y . Serı́a justo mostrar que esta distribución
de probabilidad satisface los Axiomas de Kolmogorov.
Si X es una v.a. discreta, entonces X es numerable. El espacio muestral para Y = g(X) es
Y = {y : y = g(x), x ∈ X }, el cual también es un conjunto numerable; con lo cual Y es una
v.a discreta. Usando (2.5), la fmp de Y es
fY (y) = P (Y = y) =
X
P (X = x) =
x∈g −1 (y)
X
fX (x),
para y ∈ Y ,
x∈g −1 (y)
y fY (y) = 0 para y ∈
/ Y. En este caso para encontrar la fmp de Y sólo es necesario identificar
g −1 (y), para cada y ∈ Y y sumar apropiadamente las probabilidades.
Ejemplo 2.3.1. Una va. discreta X tiene una distribución binomial si su fmp es de la
forma
µ ¶
n x
fX (x) = P (X = x) =
p (1 − p)n−x ,
x
x = 0, 1, . . . , n ,
donde n es un entero positivo y 0 ≤ p ≤ 1. Encontrar la fmp de Y = g(X), siendo g(x) =
n−x
Valores como n y p que al tomar diferentes valores producen diferentes funciones de
probabilidad, se llaman parámetros de la distribución. Consideremos la va. Y = g(X),
donde g(x) = n − x. Esto es Y = n − X. Aquı́ X = {0, 1, 2, · · · , n} y Y = {y : y = g(x), x ∈
Probabilidad y Estadı́stica
Segundo Semestre 2005
50
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
X } = {0, 1, 2, · · · , n}. Para cualquier y ∈ Y, n − x = g(x) = y sı́ y sólo si x = n − y. Ası́,
g −1 (y) es entonces simplemente el punto x = n − y,
X
fY (y) =
y
fX (x)
x∈g −1 (y)
= fX (n − y)
µ
¶
n
=
pn−y (1 − p)n−(n−y)
n−y
µ ¶
n
=
(1 − p)y pn−y
y
Vemos que también Y es una va. con distribución binomial, pero con parámetros n y
(1 − p).
Si tanto X como Y son va. continuas, es posible en muchos casos encontrar fórmulas
simples para la fda de Y en términos de la fda de X y la función g. Consideremos algunos
de estos casos.
La fda de Y = g(X) es
FY (y) = P (Y ≤ y)
= P (g(X) ≤ y)
(2.6)
= P ({x ∈ X : g(x) ≤ y})
Z
=
fX (x) dx.
{x∈X : g(x)≤y}
Muchas veces resulta difı́cil identificar {x ∈ X : g(x) ≤ y} y resolver la integral de fX (x)
bajo esa región.
Cuando hacemos transformaciones, es importante mantener presente los espacios muestrales donde se mueven las va.; en otro caso pueden presentarse muchas confusiones. Cuando
hacemos una transformación de X a Y = g(X), lo más conveniente es usar,
X = {x : fX (x) > 0}
y
Y = {y : y = g(x) para algún x ∈ X }.
(2.7)
La fdp de la va. X es positiva solamente sobre el conjunto X y cero en otro caso. Tal conjunto es llamado el conjunto soporte de una distribución, más informalmente el soporte de
Probabilidad y Estadı́stica
Segundo Semestre 2005
51
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
la distribución. Este terminologı́a puede también aplicarse para una fmp ó, en general, para
una función no negativa.
Es mucho más fácil tratar con aquellas g(x) que son monótonas, esto es aquellas que
satisfacen
a. u > v =⇒ g(u) > g(v) (crecientes) ó
b. u < v =⇒ g(u) > g(v) (decrecientes)
Si la transformación x −→ g(x) es monótona, entonces esta es (1-1) de X −→ Y. También
para Y definida como en (2.7), para cada y ∈ Y, existe un x ∈ X tal que g(x) = y. Ası́ la
transformación g unı́vocamente manda x´s en y´s. Si g es monótona, g −1 es univaluada,
esto es g −1 (y) = x sı́ y sólo sı́ y = g(x). Si g es creciente, esto implica que
{x ∈ X : g(x) ≤ y} = {x ∈ X : g −1 (g(x)) ≤ g −1 (y)}
= {x ∈ X : x ≤ g −1 (y)}.
Mientras que si g es decreciente, esto implica que
{x ∈ X : g(x) ≤ y} = {x ∈ X : g −1 (g(x)) ≥ g −1 (y)}
= {x ∈ X : x ≥ g −1 (y)}.
Si g(x) es una función creciente, entonces usando (2.6), podemos escribir
Z
FY (y) =
{x∈X : x≤g −1 (y)}
Z
fX (x) dx
g −1 (y)
=
fX (x) dx
−∞
= FX (g −1 (y)).
Si g(x) es decreciente, se tiene,
Z
FY (y) =
g −1 (y)
−∞
fX (x) dx
= 1 − FX (g −1 (y)). (aquı́ fue usada la continuidad de X)
Resumimos estos resultados en el siguiente teorema
Probabilidad y Estadı́stica
Segundo Semestre 2005
52
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Teorema 2.3.1. Supongamos que X tiene una fda FX (x), sea Y = g(X), X e Y definidos
como en (2.7).
a. Si g es una función creciente sobre X , FY (y) = FX (g −1 (y)) para y ∈ Y.
b. Si g es una función decreciente sobre X y X es una v.a. continua,
FY (y) = 1 − FX (g −1 (y)) para y ∈ Y.
Ejemplo 2.3.2. Sea X fX (x) = 1.I(0 < x < 1), de donde se tiene X ∼ U (0, 1). Esto último se lee ”X con distribución uniforme en el intervalo (0,1)”. Se pide determinar
FX (x), FY (y), fY (y) si Y = g(X) = −logX.
Se aconseja siempre verificar que, en este caso la fX es una densidad.
Determinación de FX :
Rx
FX (x) = −∞ fX (t) dt para todo x ∈ R, por definición,
i. Si x < 0 =⇒ fX (x) = 0 =⇒ FX (x) =
Rx
ii. Si 0 < x < 1 =⇒ fX (x) = 1 =⇒ FX (x) =
iii Si x ≥ 1 =⇒ fX (x) = 0 =⇒ FX (x) =
De donde se tiene,
0 dt = 0.
−∞
R0
R0
−∞
−∞
0 dt +
0 dt +
R1
0
Rx
0
1 dt = 0 + t
1 dt +
Rx
1
ix
0
= x.
0 dt = 0 + t
i1
0
+ 0 = 1.



0 si x < 0



FX (x) =
x si 0 < x < 1




 1 si x ≥ 1
Determinación de FY :
Veamos si g(x) es monótona en el soporte de X, X .
d
1
g(x) = − < 0 ,
dx
x
para x ∈ (0, 1) = X ,
de donde g(x) resulta ser una función decreciente. Veamos cual es el soporte de Y . Y definido
como en (2.7), resulta ser Y = (0, ∞). Queda calcular la g −1 (y) para y ∈ Y = (0, ∞); la
cual resulta de y = g(x) = −logx =⇒ −y = logx =⇒ x = e−y = g −1 (y).
Finalmente, aplicando el teorema 2.3.1 parte b), resulta
FY (y) = 1 − FX (g −1 (y)) = 1 − FX (e−y ) = 1 − e−y , y ∈ Y = (0, ∞)
Probabilidad y Estadı́stica
Segundo Semestre 2005
53
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Para determinar fY (y) queda diferenciar la fda de Y , ası́
fY (y) =
d
FY (y) = ey
dy
(y > 0)
La fdp y la fda de Y respectivamente son:


fY (y) = ey · I(0, ∞)
,
FY (y) =
0
si y ≤ 0
 1 − e−y si y > 0
Este resultado afirma que si: X ∼ U (0, 1) =⇒ Y = −logX ∼ Exp(1).
Si la fdp de Y es continua, puede ser obtenida derivando su fda. La expresión resultante
está dada por el siguiente teorema
Teorema 2.3.2. Supongamos X v.a. con una fdp fX (x). Sea Y = g(X), donde g es
monótona una transformación de X; X e Y son respectivamente sus soportes. Suponga
además que fX (x) es continua sobre X , y que g −1 (y) tiene una derivada continua sobre Y.
Entonces la fdp de Y está dada por:

 fX (g −1 (y))· |
fY (y) =

0
d −1
dy g (y))
| si y ∈ Y
(2.8)
e.o.c.
Demostración: Aplicando al teorema último la regla de la cadena, se tiene
fY (y) =
fY (y) =
d
FY (y) =
dy
d
FY (y) =
dy
d
d
FX (g −1 (y)) = fX (g −1 (y)) · g −1 (y)
g creciente
dy
dy
d
d
(1 − FX (g −1 (y)) = −fX (g −1 (y)) · g −1 (y) g decreciente
dy
dy
La cual puede ser expresada en forma consisa como en (2.8).
Ejemplo 2.3.3. Ses fX (x) la fdp de una va. gamma, entonces esta tiene la forma,
fX (x) =
1
xn−1 e−x/β · I(0, ∞)
(n − 1)!β n
β representa una constante positiva, n entero positivo. Se quiere encontrar la fdp de Y =
g(X) = 1/X .
Probabilidad y Estadı́stica
Segundo Semestre 2005
54
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
En muchas aplicaciones resulta que la g no es ni creciente ni decreciente, de donde el
resultado último no puede ser aplicado. Sin embargo, se da a menudo el caso en que g es
monótona sobre ciertos intervalos.
Ejemplo 2.3.4. Supongamos X va. continua. Determinar fda y fdp para Y = X 2 .
En este ejemplo resultará que fdp de Y está expresada como la suma de dos términos,
donde cada uno de ellos representa el intervalo donde g(x) = x2 es monótona. En general
este será el caso, dado en el siguiente problema.
Teorema 2.3.3. Supongamos X tiene una fdp fX (x), Y = g(X), y se define el soporte de X, X . Supongamos que existe una partición A0 , A1 , . . . , Ak de X , tal que P (X ∈
A0 ) = 0 y fX (x) es continua sobre cada Ai . Además, supóngase que existen funciones
g1 (x), g2 (x), . . . , gk (x), definidas sobre A1 , . . . , Ak respectivamente, satisfaciendo:
(a) g(x) = gi (x) , para x ∈ Ai
(b) gi (x) es monótona sobre Ai
(c) El conjunto Y = {y : y = gi (x) , para algún x ∈ Ai } es el mismo para cada i = 1, . . . , k y
(d) g −1 (y) tiene derivada continua en Y, para cada i = 1, . . . , k, entonces
 P
k

fY (y) =
i=0
fX (g −1 (y))· |

d −1
dy g (y))
0
| si y ∈ Y
e.o.c.
El punto más importante en este teorema es que X puede ser divididos en conjuntos
A1 , . . . , Ak , tal que g(x) sea monótona sobre cada Ai . Es posible ignorar el conjunto excepcional A0 , ya que P (X ∈ A0 ) = 0. Esta es una técnica que puede ser usada para manejar
los extremos de intervalo. Es importante notar que cada gi (x) es una transformación 1 − 1
de Ai en Y.
Ejemplo 2.3.5. Sea X una va. con la distribución Normal estándar, entonces
1
2
fX (x) = √ exp−x /2 ·I(−∞, ∞)
2π
Sea Y = X 2 . Halle fY (y)
Probabilidad y Estadı́stica
Segundo Semestre 2005
55
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
La fdp de Y la encontraremos a menudo, y se denomina va. chi cuadrado con un grado
de libertad. Cerramos esta sección con una especial y muy conocida transformación, la
transformación de probabilidad integral.
Teorema 2.3.4. Consideremos X va. continua con fda FX (x) y se define la va. Y = FX (x).
Entonces Y ∼ U (0, 1), tal que P (Y ≤ y) = y; 0 < y < 1.
Antes de demostrarlo, daremos una mirada a FX−1 , la inversa de la fda con algún detalle.
Si FX es estrictamente creciente, entonces FX−1 está bien definida como
FX−1 (y) = x ⇐⇒ FX (x) = y
(2.9)
Sin embargo, si la fda llega a ser constante en algún intervalo, entonces su inversa no está bien definida por (2.10).
Cualquier x ∈ [x1 , x2 ], por ejemplo (intervalo donde la FX (x) es constante), satisface
FX (x) = y. Este problema se soluciona, definiendo FX−1 (y), para 0 < y < 1, del siguiente
modo,
FX−1 (y) = inf{x : FX (x) ≥ y},
(2.10)
esta definición coincide con de FX−1 (y) cuando FX (x) = y no es constante, pero provee una
FX−1 siempre univariada
Dem. del teorema:
Para Y = FX (X) = g(X); Y = (0, 1).
P (Y ≤ y) = P (FX (X) ≤ y)
= P (FX−1 (FX (X)) ≤ FX−1 (y))
(FX−1 creciente)
= P (X ≤ FX−1 (y))
= FX (FX−1 (y))
(definicion de FX )
= y
(continuidad de FX )
En los puntos extremos se tiene P (Y ≤ y) = 1 para y ≥ 1, y P (Y ≥ y) = 0 para y ≤ 1,
mostrando ası́ que Y ∼ U (0, 1)
Probabilidad y Estadı́stica
Segundo Semestre 2005
56
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
¿Cómo se razonó detrás de la igualdad
P (FX−1 (FX (X)) ≤ FX−1 (y)) = P (X ≤ FX−1 (y))?
esta requiere una particular atención. Si FX es estrictamente creciente, entonces es verdad que FX−1 (FX (X)) = X. Sin embargo, si FX presenta algún escalón, puede suceder que
FX−1 (FX (X)) 6= X, pero eso se salva ocupando la definición para FX−1 con en (2.10).
Una aplicación de este teorema está en la generación de muestras aleatorias provenientes
de una distribución particular. Si se quiere generar una observación x proveniente de una
población con fda FX , necesitamos generar solamente el número aleatorio uniforme u entre
0 y 1, y resolver para x la ecuación FX (x) = u.
2.4.
Valores Esperados
El valor esperado ó esperanza de una v.a. X es, su valor promedio. Aquı́ hablamos de
valor promedio como de tal pensado de acuerdo con la distribución de probabilidad.
El valor esperado de una distribución, también puede ser pensado como una medida de
centralización, del mismo modo como se piensan los promedios estando en el medio de todos
los valores. Cuando nos referimos a los valores de la la va. de acuerdo con la distribución
de probabilidad, queremos obtener un número que resuma un valor tı́pico o esperado de las
observaciones de la v.a.
Examinemos el siguiente ejemplo,
Considere seleccionar al azar a un estudiante que está entre 15000 registrados para el
perı́odo académico de una Universidad. Sea X = cantidad de cursos en los que el estudiante
seleccionado se inscribe; supongamos que X tiene la siguiente fmp,
x
1
2
3
4
5
6
7
fX (x)
0.01
0.03
0.13
0.25
0.39
0.17
0.02
Probabilidad y Estadı́stica
Segundo Semestre 2005
57
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Podemos considerar a la población como aquella formada por 15000 personas, cada
una con su propio valor de X (según la cantidad de materias en las que inscribió en ese
año académico); la proporción con cada valor X está dada por fX (x) de la tabla. Por
ejemplo podrı́amos interpretar el valor fX (1) = P (X = 1) = 0,01, como que 1 de cada 100
estudiantes se inscribió en una sola materia; o sea que 150 del total de 15000 se inscribieron
en una sola materia. Análogamente, fX (2) = P (X = 2) = 0,03, como que 3 de cada 100
estudiantes se inscribió en dos materias; o sea que 450 del total de 15000 se inscribieron en
dos materias; y ası́ siguiendo, se genera la tabla (2.4)
x
1
2
3
4
5
6
7
fX (x)
0.01
0.03
0.13
0.25
0.39
0.17
0.02
No registrado
150
450
1950
3750
5850
2550
300
Finalmente, puede ser posible olvidarse de los estudiantes y considerar a la población misma
como formada por los valores X.
Una vez que tengamos un modelo matemático para una población, el objetivo será utilizarlo para calcular valores caracterı́sticos de esa población (como por ejemplo la media µ)
y hacer inferencias a partir de tales caracterı́sticas.
Si se quisiera determinar el número promedio de cursos por estudiante, o el valor promedio de X de la población, debemos calcular el número total de cursos y dividir entre el
número total de estudiantes. El valor promedio de X de la población es entonces,
1(150) + 2(450) + 3(1950) + · · · + 7(300)
= 4,57,
15000
como
150
15000
(2.11)
450
= 0,01 = fX (1); 15000
= 0,03 = fX (2); . . . , etc., otra expresión para el cociente
(2.11) es:
1 · fX (1) + 2 · fX (2) + 3 · fX (3) + · · · + 7 · fX (7)
(2.12)
Esta expresión (2.13) muestra que para calcular el valor promedio de X de la población,
sólo necesitamos sus valores posibles junto con sus probabilidades (pesos= proporciones).
Probabilidad y Estadı́stica
Segundo Semestre 2005
58
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
El valor promedio, o la media de X es entonces un promedio ponderado de los posibles
valores 1, 2, . . . , 7, donde los pesos son la probabilidades de esos valores.
La expresión (2.13), nos conduce la siguiente definición de valor esperado ó media de una
población.
Definición 2.4.1. El valor esperado ó media de una va. g(X), denotado por E g(X), es
 R
 ∞ g(x) fX (x) dx
si X es continua
−∞
E g(X) =
P
 P
x∈X g(x) fX (x) =
x∈X g(x) P (X = x)) si X es discreta
Suponiendo que la integral ó suma existen. Si E | g(X) |= ∞ diremos que E g(X) no
existe.
Ejemplo 2.4.1. Supongamos que X tiene una distribución exponencial λ, es decir su fdp
es,
fX (x) =
1 −x/λ
e
· I(0 ≤ x < ∞)
λ
λ>0
Se pide encontrar E X
Rta. E X = λ
Ejemplo 2.4.2. Si X tiene una distribución binomial con parámetros n y p, entonces su
fmp es,
µ ¶
n x
P (X = x) =
p (1 − p)n−x ,
x
x = 0, 1, . . . , n
donde n es un entero positivo, 0 ≤ p ≤ 1, y para cada par de valores fijos n y p, la fmp
suma 1. Determine el valor esperado de X.
Rta.: E X = np
Ejemplo 2.4.3. Un ejemplo clásico de una variable aleatoria cuyo valor esperado no existe
es la variable aleatoria Cauchy, cuya fdp es,
fX (x) =
1
1
,
π 1 + x2
−∞ ≤ x ≤ ∞.
Mostrar, entonces que E | g(X) |= ∞.
Probabilidad y Estadı́stica
Segundo Semestre 2005
59
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
El proceso de tomar esperanza es una operación lineal, lo cual significa que la esperanza
es una función lineal de X, la cual entonces puede ser fácilmente evaluada, notando que
para cualquier par de valores a y b,
E (aX + b) = aE X + b.
El operador esperanza, en efecto, tiene muchas propiedades que pueden ser de ayuda para
calcularla. La mayorı́a de tales propiedades se derivan de las propiedades de la integral ó la
suma, y son resumidas en el siguiente teorema:
Teorema 2.4.1. Consideremos X una va.; a, b, c constantes. Entonces para cualquier g1 (X), g2 (X),
funciones de la va. X, cuyas esperanzas existen, se cumple:
(a) E (ag1 (X) + bg2 (X) + c) = aE (g1 (X)) + bE (g2 (X)) + c.
(b) Si g1 (x) ≥ 0,
∀ x =⇒ E (g1 (X)) ≥ 0.
(c) Si g1 (x) ≥ g2 (x),
∀ x =⇒ E (g1 (X)) ≥ E (g2 (X)).
(d) Si a ≤ g1 (x) ≥ b,
∀ x =⇒ a ≤ E (g1 (X)) ≥ b.
Ejemplo 2.4.4. También es posible interpretar el valor esperado de una va., pesándola con
relación a considerarla como un ”buen acierto”para el valor de X.
Supongamos que medimos la distancia entre una va. X y una constante b mediante la
forma (X − b)2 , o sea buscamos el valor de b más cercano a X. Podemos ası́, determinar el
valor de b que minimiza E(X − b)2 y, por lo tanto esto podrı́a interpretarse en términos
estadı́sticos como la búsqueda de un buen predictor de X. (Note que no es bueno mirar un
valor de b que minimice (X − b)2 , ya que la respuesta podrı́a depender de X, siendo ası́ un
predictor inútil de X).
Podrı́amos proceder a minimizar E(X − b)2 ocupando las herramientas que nos provee el
cálculo, pero hay un método más simple, usando la creencia que existe algo especial en
relación con este problema y la E X, ası́ escribimos
E(X − b)2 = E(X − E X + E X − b)2
= E((X − E X) + (E X − b))2
= E(X − E X)2 + (E X − b)2 + 2E((X − E X)(E X − b)),
Probabilidad y Estadı́stica
Segundo Semestre 2005
60
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
en esta última igualdad hemos expandido el cuadrado. Ahora note que
E((X − E X)(E X − b)) = (E X − b)E(X − E X) = 0
ya que (E X − b) es constante sale fuera de la expresión, y E(X − E X) = E X − E X = 0.
Esto significa que
E(X − b)2 = E(X − E X)2 + (E X − b)2 .
(2.13)
No tenemos control sobre el primer término del lado derecho en la igualdad (2.13) y el
segundo término, es siempre positivo, o a lo sumo 0, puede hacerse 0 eligiendo b = E X.
Por lo tanto,
mı́n E(X − b)2 = E(X − E X)2
b
(2.14)
Existe un resultado similar para la mediana.
Cada vez que evaluemos la esperanza de una función no lineal de X, podemos proceder de
dos maneras diferentes. De la definición de E g(X), serı́a posible calcular directamente
Z
∞
E g(X) =
−∞
g(x)fX (x) dx.
(2.15)
Pero también podrı́amos primero encontrar la fdp fY (y) para la va. Y = g(X), y luego
calcular
Z
∞
E g(X) = E Y =
−∞
y fY (y) dy.
(2.16)
Ejemplo 2.4.5. Sea X ∼ U (0, 1), Y = g(X) = −log X. Mostraremos que la E Y calculada
de las formas mencionadas en (2.15) y (2.16) da el mismo resultado.
2.5.
Momentos y Funciones Generadoras de Momentos
Los distintos momentos de una distribución son una importante clase de esperanzas.
Definición 2.5.1. Para cada entero n, el n-ésimo momento de X (ó de FX (x)), notado
µ0n , es
µ0n = E X n .
Probabilidad y Estadı́stica
Segundo Semestre 2005
61
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
El n-ésimo momento central de X, es
µn = E (X − µ)n ,
donde µ = µ0 = E X
Además de la media, E X, de una va., quizá el momento más importante es el central
de segundo orden, más comúnmente conocido como la varianza.
Definición 2.5.2. La varianza de una va. X es el segundo momento central de X, V ar X =
E(X − E X)2 . La raı́z cuadrada positiva de la V ar X se denomina desviación estándar de
X.
La varianza de una medida del grado de diseminacion de una distribución alrededor de
la media. Vimos en el Ejemplo 2.4.4 que la cantidad E(X − b)2 es minimizada eligiendo b =
E X. Consideremos ahora la medida absoluta de este mı́nimo. La interpretación agregada
a la varianza es que valores grandes de la misma, significan que X es muy variable. En
el extremo, si V ar X = E(X − E X)2 = 0, entonces X = E X con probabilidad 1, y no
existe variación en X. La desviación estándar tiene la misma interpretación cualitativa:
pequeños valores de la misma significan que X está probablemente muy cerca de E X, y
grandes valores significa que X es muy variable. La desviación estándar es más fácil para
interpretar, pues su unidad de medida es la misma que la de los datos originales en la va.
X.
Ejemplo 2.5.1. Supongamos X ∼ Exp(λ). Hemos calculado ya E X = λ. Se propone
ahora calcular V ar X.
Rta.: V ar X = λ2
Vemos que la varianza de una distribución exponencial está directamente relacionada
con el parámetro λ. Es posible dibujar distintas distribuciones exponenciales, cambiando
los valores de λ. De esta manera será posible notar como la distribución está más concentrada
alrededor de su media para valores pequeños de λ. El comportamiento de la varianza de
una va. exponencial, como una función de λ, es una caso especial del comportamiento de la
varianza resumido en el siguiente teorema,
Probabilidad y Estadı́stica
Segundo Semestre 2005
62
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Teorema 2.5.1. Si X es una va. con varianza finita, entonces para cualquier par de constantes a, b se cumple,
V ar(aX + b) = a2 V ar X.
En muchos casos es más fácil usar una fórmula alternativa para la varianza, dada por,
V ar X = E X 2 − (E X)2 ,
(2.17)
la cual es muy fácil de demostrar.
Ejemplo 2.5.2. Supongamos que X ∼ Bib(n, p). Hemos probado que E X = np. Se pide
ahora calcular V ar X.
Rta.: V ar X = np(1 − p)
Para calcular momentos de orden más alto se procede de manera análoga. En aplicaciones, momentos de orden 3 ó 4 algunas veces resultan de interés, pero usualmente existen
razones estadı́sticas para examinar momentos de orden más algo que 2.
Ahora introduciremos una nueva función, la cual está asociada con distribuciones de
probabilidad, la función generadora de momentos (fgm). Como su nombre lo sugiere, la fgm
puede ser usada para generar momentos. En la práctica es más fácil en muchos casos calcular
momentos directamente en vez de usar fgm. Sin embargo, el principal uso de la fgm no es el
de generar momentos, sino ayudar para caracterizar una distribución. Esta propiedad nos
puede llevar a resultado extremadamente poderosos, cuando es usada adecuadamente.
Definición 2.5.3. Sea X una va. con fda. FX . La función generadora de momentos (fgm)
de X (o FX ) , denotada por MX (t) ,es
MX (t) = E et X ,
suponiendo que la esperanza exista para valores de t en algún entorno del 0. Esto es, existe
un h > 0 tal que, para todo t ∈ (−h, h) E et X existe. Si tal esperanza no existe en un
entorno del 0, nosotros diremos que la fgm no existe.
Probabilidad y Estadı́stica
Segundo Semestre 2005
63
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Más explı́citamente, podemos escribir la fgm de X como
MX (t) =
MX (t) =
R∞
−∞
et x fX (x) dx
Si X es continua
et x fX (x)
Si X es discreta
P
x∈X
Es muy fácil ver de que manera una fgm genera momentos. Se resume el siguiente teorema,
Teorema 2.5.2. Si X tiene fgm MX (t), entonces
(n)
E X n = MX (0),
donde se define
(n)
MX (0) =
dn
MX (t)|t=0 .
dtn
Es decir el n-ésimo momento de la va. X es igual a la n-ésima derivada de la fgm de X
evaluada en t = 0
Del teorema último anterior es fácil mostrar que,
d
MX (t)|t=0 = E X et X |t=0 = E X.
dt
Ejemplo 2.5.3. En el Ejemplo 2.3.3 vimos un caso especial de la fdp de la gamma. El caso
general es,
fX (x) =
1
xα−1 e−x/β ,
Γ(α) β α
0 < x < ∞,
α > 0,
β > 0,
donde Γ(α) representa la función gamma. Determinar la MX (t) para esta va.
³
Rta.: MX (t) =
1
1−βt
´α
si t < β1 .
Ejemplo 2.5.4. Para otra ilustración sobre el cálculo de la fgm, consideremos una distribución discreta, la distribución binomial. Si X ∼ Bin(n, p), determina la fgm de X
Rta.: MX (t) = [pet + (1 − p)]n .
Podrı́a ocurrir que existan dos va. con distintas fdp, pero que generen los mismos momentos, e.d.,
X1 ∼ f1
Probabilidad y Estadı́stica
Segundo Semestre 2005
,
X2 ∼ f2
64
con
f1 6= f2 ,
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
pero tal que E X1r = E X2r
r = 0, 1, . . ..
Querrı́amos tener condiciones para poder caracterizar las distribuciones con iguales momentos. El siguiente teorema muestra como puede ser caracterizada una distribución usando su
fgm.
Teorema 2.5.3. Sean FX (x), FY (y) dos fda tales que sus momentos existen
(a) Si FX y FY tienen soporte acotado, entonces FX (u) = FY (u) sı́ y sólo sı́
E Xr = E Y r
r = 0, 1, . . ..
(b) Si las fgm existen y se cumple MX (t) = MY (t) para todo t en algún entorno del 0,
entonces FX (u) = FY (u)
∀ u.
La demostración de este teorema recae en las teorı́a de las ”transformaciones de Laplace”(ver
Widder 1946, Feller 1971) razones por lo cual su tratamiento escapa al nivel de estas notas.
Teorema 2.5.4. Para cualquier para de constantes a, b, la fgm de la va. Y=aX+b está dada
por
MY (t) = MaX+b (t) = eb t MX (at).
Probabilidad y Estadı́stica
Segundo Semestre 2005
65
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
2.6.
Ejercicios
2.1 De un lote que contiene 25 artı́culos, 5 de los cuales son defectuosos, se eligen 4 al azar.
Sea X el número de defectuosos encontrados. Obtener la distribución de probabilidades de X si,
(a) los artı́culos se escogen con sustitución
(b) los artı́culos se escogen sin sustitución.
2.2 Supóngase que la v.a. X tiene valores posibles 1, 2, 3, . . . , y P (X = j) = 1/2j , j =
1, 2, . . .
(a) Calcular P (Xsea par ).
(b) Calcular P (X ≥ 5).
(c) Calcular P (Xes divisible por 3)
2.3 Considérese una v.a. X con resultados posibles: 0, 1, 2, . . .. Supongamos que P (X =
j) = (1 − a) aj , j = 0, 1, . . .
(a) ¿Para qué valores a es significativo el modelo anterior?
(b) Verificar que la anterior representa una legı́tima f.m.p.
(c) Demostrar que para dos enteros positivos cualesquiera s y t,
P (X < s + t | X > s) = P (X ≥ t).
2.4 Considere la v.a. X que mide la duración de un tubo electrónico, y supongamos que X
se puede representar como una v.a. continua con f.d.p. fX (x) = be−bx I (x ≥ 0). Sea
pj = P (j ≤ X < j + 1). Demostrar que pj es de la forma (1 − a) aj y determine a.
2.5 La v.a. continua X tiene f.d.p. fX (x) = 3x2 I(−1 ≤ x ≤ 0). Si b es un número que
satisface −1 < b < 0, calcular P (X > b | X < b/2).
2.6 El porcentaje de alcohol (100X) en cierto compuesto se puede considerar como una v.a.,
en donde X, 0 < X < 1, tiene la siguiente fdp: fX (x) = 20x3 (1 − x)I(0 < x < 1).
Probabilidad y Estadı́stica
Segundo Semestre 2005
66
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
(a) Obtener una expresión para fda, FX y dibujar su gráfico.
(b) Calcular la P (X ≤ 23 ).
(c) Supóngase que el precio de venta del compuesto depende del contenido alcohólico.
Especı́ficamente, si
1
3
<X <
2
3,
el compuesto se vende por C1 dólares/galón.
Encontrar la distribución de probabilidades de la utilidad neta por galón.
2.7 Supóngase que X está distribuida uniformemente en [−α, α], en donde α > 0. Cada
vez que sea posible determinar α de modo que se satisfaga lo siguiente:
(a) P (X > 1) =
1
3
(d) P (X > 21 ) = 0,3
(b) P (X > 1) =
1
2
(c) P (X > 12 ) = 0,7
(e) P (| X |< 1) = P (| X |> 1).
2.8 En cada uno de los siguientes casos encuentre fY . Muestre que la fdp integra 1.
(a) fX (x) = 42x5 (1 − x), 0 < x < 1; Y = X 3 .
(b) fX (x) = 7e7x , 0 < x < ∞; Y = 4X + 3.
2.9 Si X tiene fdp
fX (x) =
1 −(x/σ2 )/2
xe
· I(0, ∞),
σ2
σ 2 es una constante positiva
Determine la fdp de Y = eX .
2.10 Suponga que X tiene una distribución geométrica con fmp dada por fX (x) = 13 ( 32 )x , x =
0, 1, 2, . . .. Determine la distribución de probabilidades de Y = X/X + 1. Note que
tanto X como Y son v.a. discretas. Para especificar la distribución de probabilidad
de Y , especifique su fmp.
2.11 En cada uno de los siguientes casos encuentre fY . Muestre que la fdp integra 1.
(a) fX (x) =
1
2
e−|x| , −∞ < x < ∞; Y =| X |3 .
(b) fX (x) = 38 (x + 1)2 , −1 < x < 1; Y = 1 − X 2 .
(c) fX (x) = 38 (x + 1)2 , −1 < x < 1; Y = 1 − X 2 si X ≤ 0 e Y = 1 − X si X > 0.
Probabilidad y Estadı́stica
Segundo Semestre 2005
67
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
2.12 Suponga que X es una va. con la siguiente función de densidad
1
fX (x) = (1 + x) · I(−1, 1).
2
(a) Encuentre la fdp. de Y = X 2
(b) Encuentre la E X y la V arX
2.12 Una mediana de una distribución es un valor m tal que P (X ≤ m) = P (X ≥ m) = 12 .
Rm
R∞
(Si X es continua, m satisface −∞ fX (x)dx = m fX (x)dx = 12 .). Encuentre la
mediana de las siguientes distribuciones
(a) fX (x) = 3x2 · I(0, 1)
(b) fX (x) =
1
π(1+x2 )
2.13 Calcule E X y V arX para cada una de las siguientes funciones de probabilidad
(a) fX (x) = axa−1
(b) fX (x) =
1
n
0 < x < 1, a > 0
x = 1, 2, . . . , n; n > 0 entero
(c) fX (x) = 32 (x − 1)2 ,
0<x<2
2.14 Sea µn el n-ésimo momento central de la va. X. Dos cantidades de interés, agregadas
a la media y la varianza son,
α3 =
µ3
(µ2 )3/2
y
α4 =
µ4
.
(µ2 )2
El valor α3 es llamado coeficiente de asimetrı́a, y el α4 es llamado de curtosis. La
medida de asimetrı́a se refiere a cuanto se aparta la forma de la distribución simétrica
la fdp. La curtosis, aunque mucho mas difı́cil de interpretar que la asimetrı́a, mide
cuanta forma de punta ó chata tiene la fdp.
(a) Muestre que si la fdp es simétrica alrededor de un punto a, entonces α3 = 0.
(b) Calcule α3 para f (x) = e−x , x ≥ 0, una fdp que tiene asimetrı́a a la derecha.
(c) Calcule α4 para cada una de las siguientes fdp.
(i) f (x) =
(ii) f (x) =
√1
2π
1
2
e−x
2 /2
,
−∞ < x < ∞
· I(−1, 1)
(iii) f (x) = 12 e−|x| , −∞ < x < ∞
Probabilidad y Estadı́stica
Segundo Semestre 2005
68
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
2.15 Sea MX (t) la fgm de una va. X, y se define S(t) = log(MX (t)). Muestre que,
d2
S(t)|t=0 = V ar X.
dt2
d
S(t)|t=0 = E X
dt
2.16 En cada uno de los siguientes casos verifique que la expresión dada para la fgm, y en
cada caso use la fgm para determinar la E X y la V arX.
(a) P (X = x) =
e−λ λx
x! ,
t −1)
MX (t) = eλ(e
(b) P (X = x) = p(1 − p)x ,
(c) f (x) =
2
/(2σ
e−(x−µ)
√
2πσ
2)
MX (t) =
, MX (t) = eµt+σ
, x = 0, 1, 2, . . . ;
p
1−(1−p)et
2 t2 /2
λ>0
, x = 0, 1, 2, . . . ; 0 < p < 1
, −∞ < x < ∞, −∞ < µ < ∞, σ > 0
2.17 Determinar E X 4 para X ∼ N (0, 1) [use que ϕ0 (x) = xϕ(x)].
2.18 Teorema: [Convergencia de fgm]: Suponga que {Xi , i = 1, 2, . . .} es una secuencia
de va., cada una con fgm MXi (t). Además suponga que
lı́m MXi (t) = MX (t)
i−→∞
para todo t en un entorno de 0,
y MX (t) es una fgm. Entonces existe una única fda FX , cuyos momentos son determinados por MX (t)y, para todo x donde FX (x) es continua, se tiene
lı́m FXi (x) = FX (x).
i−→∞
Esto significa, convergencia ∀ t, | t |< h, de fgm´s a fgm implica convergencia de fda
respectiva.1
Una aproximación muy útil es la de la distribución Binomial a la distribución de
Poisson. La distribución binomial está caracterizada por dos cantidades, n y p. La
aproximación de Poisson es válida cuando ”n es grande y np pequeño”.
La fmp de una va. con distribución de Poisson está dada por
P (X = x) =
e−λ λx
,
x!
x = 0, 1, . . . , λ > 0.
La aproximación afirma que si X ∼ Bin(n, p) e Y ∼ P o(λ), con λ = np, entonces
P (X = x) ≈ P (Y = x)
para n grande y np pequeño.
1
La demostración de este teorema también recae sobre la teorı́a de transformadas de Laplace
Probabilidad y Estadı́stica
Segundo Semestre 2005
69
Prof.Mg. Osmar Vera
Probabilidad y Estadı́stica
Se te pide demostrar esta afirmación siguiendo los siguientes pasos:
(a) Encontrar MX (t), MY (t)
(b) Reemplazar p =
λ
n
en MX (t)
(c) Calcular el lı́mn−→∞ MX (t), observando que su resultado es justamente MY (t)
la fgm de la Poisson.
(d) Ocupando Excel grafique en un mismo sistema de ejes coordenados la fmp de
una Bin(15, 0,3) y de una P o(4,5); observe el resultado del teorema.
Probabilidad y Estadı́stica
Segundo Semestre 2005
70
Prof.Mg. Osmar Vera
Descargar