Curso intermedio de PROBABILIDAD

Anuncio
Curso intermedio de
PROBABILIDAD
Luis Rincón
Departamento de Matemáticas
Facultad de Ciencias UNAM
Circuito Exterior de CU
04510 México DF
Mayo 2005
El presente texto corresponde a la versión electrónica de mayo de 2005, si han
transcurrido más de tres meses desde entonces seguramente existirá una versión
corregida y aumentada disponible en http://www.matematicas.unam.mx/lars
Prefacio
El presente texto está dirigido a estudiantes de mitad de carrera de las
licenciaturas de matemáticas, actuarı́a y áreas afines. Contiene el material
básico para un curso intermedio de probabilidad y tiene como origen las
notas de clase del curso semestral de Probabilidad II impartido por el autor
en la Facultad de Ciencias de la UNAM a lo largo de varios semestres.
El texto contiene una gran cantidad de ejercicios la mayorı́a de los cuales
son de tipo mecánico, algunos de ellos son muy sencillos y en otros se pide
reproducir lo realizado antes, de modo que el término “ejercicios” me parece
justo y adecuado. La intención es la de crear confianza y soltura por parte
del alumno en el manejo de los conceptos y notación involucrados. El número
de ejercicios excede lo que normalmente puede realizarse en un semestre y
el objetivo que siempre tuve en mente estos años fue el tener un número
suficiente de ellos para presentar algunos en clase, dejar otros para trabajo
en casa y asignar algunos otros para preguntas de examen, usando material
ligeramente distinto cada semestre para evitar repeticiones. Los ejercicios
se encuentran regularmente al final de cada sección y se han numerado de
manera consecutiva a lo largo del curso.
Al final del texto aparece una lista de referencias que me permito sugerir al
lector consultar para profundizar y a veces precisar en algunos temas. Algunos de estos textos no han sido referenciados explı́citamente pero aparecen
en la lista por que en algún momento he obtenido inspiración de ellos.
Me disculpo de antemano por cualquier error u omisión y agradezco sinceramente cualquier corrección o comentario en el correo electrónico que aparece
abajo.
Luis Rincón
Mayo 2005
Ciudad Universitaria UNAM
[email protected]
1
Contenido
1. Espacios de probabilidad
1.1. Espacios de probabilidad . . . . .
1.2. σ-álgebras . . . . . . . . . . . . .
1.2.1. Conjuntos de Borel . . . .
1.2.2. Sucesiones de eventos . .
1.3. Medidas de probabilidad . . . . .
1.3.1. Propiedades elementales .
1.3.2. Continuidad . . . . . . . .
1.3.3. Independencia de eventos
1.3.4. Lema de Borel-Cantelli .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
4
5
11
14
20
23
28
32
34
2. Variables aleatorias
2.1. Variables aleatorias . . . . . .
2.2. Función de distribución . . .
2.3. Tipos de variables aleatorias .
2.4. Integral de Riemann-Stieltjes
2.5. Caracterı́sticas numéricas . .
2.5.1. Esperanza . . . . . . .
2.5.2. Varianza . . . . . . . .
2.5.3. Momentos . . . . . . .
2.6. Distribuciones discretas . . .
2.7. Distribuciones continuas . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
36
36
44
50
53
55
55
59
61
63
70
3. Vectores aleatorios
3.1. Vectores aleatorios . . . . . . . . . . . . . . . . .
3.2. Distribución conjunta . . . . . . . . . . . . . . .
3.3. Densidad conjunta . . . . . . . . . . . . . . . . .
3.4. Distribución marginal . . . . . . . . . . . . . . .
3.5. Distribución condicional . . . . . . . . . . . . . .
3.6. Independencia de variables aleatorias . . . . . . .
3.7. Esperanza condicional . . . . . . . . . . . . . . .
3.8. Varianza condicional . . . . . . . . . . . . . . . .
3.9. Esperanza de una función de un vector aleatorio
3.10. Covarianza . . . . . . . . . . . . . . . . . . . . .
3.11. Coeficiente de correlación . . . . . . . . . . . . .
3.12. Esperanza y varianza de un vector aleatorio . . .
3.13. Distribuciones multivariadas discretas . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
80
80
81
84
87
88
91
95
98
99
102
105
110
111
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3.14. Distribuciones multivariadas continuas . . . . . . . . . . . . . 112
4. Transformaciones
4.1. Transformación de una variable aleatoria . . .
4.2. Transformación de un vector aleatorio . . . .
4.2.1. Distribución de la suma (convolución)
4.2.2. Distribución de la resta . . . . . . . .
4.2.3. Distribución del producto . . . . . . .
4.2.4. Distribución del cociente . . . . . . . .
5. Distribuciones muestrales y estadı́sticas
5.1. Distribuciones muestrales . . . . . . . .
5.2. Estadı́sticas de orden . . . . . . . . . . .
5.2.1. Distribuciones individuales . . .
5.2.2. Distribución conjunta . . . . . .
de
. .
. .
. .
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
114
114
116
118
122
124
126
orden
. . . .
. . . .
. . . .
. . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
130
131
140
141
145
.
.
.
.
.
.
.
.
150
. 150
. 151
. 152
. 153
. 154
. 154
. 156
. 160
.
.
.
.
.
.
.
.
.
.
.
.
6. Convergencia
6.1. Convergencia puntual . . . . . . . . . . . . . . . .
6.2. Convergencia casi segura . . . . . . . . . . . . . . .
6.3. Convergencia en probabilidad . . . . . . . . . . . .
6.4. Convergencia en media . . . . . . . . . . . . . . . .
6.5. Convergencia en media cuadrática . . . . . . . . .
6.6. Convergencia en distribución . . . . . . . . . . . .
6.7. Relaciones generales entre los tipos de convergencia
6.8. Dos resultados importantes de convergencia . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7. Funciones generadoras
162
7.1. Función generadora de probabilidad . . . . . . . . . . . . . . 162
7.2. Función generadora de momentos . . . . . . . . . . . . . . . . 166
7.3. Función caracterı́stica . . . . . . . . . . . . . . . . . . . . . . 171
8. Teoremas lı́mite
178
8.1. Desigualdades de Markov y de Chebyshev . . . . . . . . . . . 178
8.2. Ley de los grandes números . . . . . . . . . . . . . . . . . . . 183
8.3. Teorema del lı́mite central . . . . . . . . . . . . . . . . . . . . 185
A. Distribuciones de probabilidad
188
B. Formulario
193
C. Tabla de la distribución normal estándar
196
3
Capı́tulo 1
Espacios de probabilidad
La teorı́a de la probabilidad es la parte de las matemáticas que se encarga
del estudio de los fenómenos o experimentos aleatorios. Se entiende por
experimento aleatorio todo aquel experimento tal que cuando se le repite
bajo las mismas condiciones iniciales, el resultado que se obtiene no siempre
es el mismo. A menudo y por muy diversas razones es necesario aceptar
que no es posible predecir el resultado de un experimento particular y en
consecuencia se considera aleatorio. Bajo estas circunstancias, la teorı́a de
la probabilidad tiene el objetivo de modelar matemáticamente cualquier
experimento aleatorio de interés.
1.1.
Espacios de probabilidad
El modelo matemático creado durante el primer tercio del siglo XX para estudiar los experimentos aleatorios es el ası́ llamado espacio de probabilidad.
Este modelo consiste de una terna ordenada, denotada usualmente por
(Ω, F, P ),
en donde Ω es un conjunto arbitrario, F es una σ-álgebra de subconjuntos
de Ω y P es una medida de probabilidad definida sobre F. Explicamos a
continuación brevemente cada uno de estos elementos.
Espacio muestral. El conjunto Ω es llamado espacio muestral o espacio muestra y tiene como objetivo agrupar a todos los posibles resultados del experimento aleatorio en cuestión. No es imprescindible darle esta interpretación
al conjunto Ω y matemáticamente se le considera entonces un conjunto arbitrario.
σ-álgebras. Una clase o colección no vacı́a F de subconjuntos de Ω es una σálgebra si es cerrada bajo las operaciones de tomar complementos y uniones
numerables. A los elementos de una σ-álgebra se les llama ”eventos” o ”conjuntos medibles”. En particular, un evento es ”simple” si consta de a lo más
4
un elemento de Ω y es ”compuesto” cuando consta de dos o más elementos
de Ω.
Medidas de probabilidad. Una función P definida sobre una σ-álgebra F y con
valores en [0, 1] es una medida de probabilidad si P (Ω) = 1 y es σ-aditiva,
es decir,
∞
∞
[
X
P(
An ) =
P (An ).
n=1
n=1
cuando A1 , A2 , . . . ∈ F son ajenos dos a dos. El número P (A) representa
una forma de medir la ”posibilidad”de observar la ocurrencia del evento A
al efectuar una vez el experimento aleatorio. Tenemos entonces formalmente
la siguiente definición.
Definición 1 Un espacio de probabilidad es una terna (Ω, F, P ) en donde
Ω es un conjunto arbitrario, F es una σ-álgebra de subconjuntos de Ω y
P : F → [0, 1] es una medida de probabilidad.
En este primer capı́tulo se estudian con más detalle los conceptos de σálgebra y medida de probabilidad.
1.2.
σ-álgebras
En esta sección se estudia el concepto de σ-álgebra y se define la mı́nima
σ-álgebra generada por una colección arbitraria. Recordemos nuevamente la
definición de esta estructura.
Definición 2 Una colección F de subconjuntos de Ω es una σ-álgebra si
cumple las siguientes condiciones.
1. Ω ∈ F.
2. Si A ∈ F entonces Ac ∈ F.
3. Si A1 , A2 , . . . ∈ F entonces
∞
[
n=1
An ∈ F.
A la pareja (Ω, F) se le llama “espacio medible” y a los elementos de F se
les llama “eventos” o “conjuntos medibles”.
En palabras, una σ-álgebra es una colección de subconjuntos de Ω que es
no vacı́a y cerrada bajo las operaciones de tomar complemento y efectu5
ar uniones infinitas numerables. De esta forma al conjunto Ω se le puede
asociar una colección F de subconjuntos de sı́ mismo. En general existen
varias σ-álgebras que pueden asociarse a un conjunto Ω como se muestra a
continuación.
Ejemplo 1 Sea Ω un conjunto cualquiera. Los siguientes son ejemplos sencillos de σ-álgebras de subconjuntos de Ω.
1. F1 = {∅, Ω}.
2. F2 = {∅, A, Ac , Ω}, en donde A ⊆ Ω.
3. F3 = 2Ω (conjunto potencia).
Es fácil ver que las tres condiciones de la definición de σ-álgebra se cumplen
para cada caso en el ejemplo anterior. La σ-álgebra del inciso (1) es la σálgebra más pequeña que podemos asociar a un conjunto cualquiera Ω, y
la σ-álgebra del inciso (3) es la más grande. En la Figura 1.1 puede observarse gráficamente una σ-álgebra como una colección de subconjuntos de Ω.
Veamos otro ejemplo.
Ejemplo 2 Sean A y B subconjuntos de Ω tales que A ⊆ B. Entonces la
colección
F = {∅, A, B, Ac , B c , B − A, (B − A)c , Ω}
es una σ-álgebra de subconjuntos de Ω que contiene explı́citamente a los
conjuntos A y B. Esto puede verificarse directamente con la ayuda de un
diagrama de Venn.
Figura 1.1: Una σ-álgebra F = {A, B, C, D, E, . . .} es una colección no vacı́a de subconjuntos de Ω que es cerrada bajo complementos y uniones numerables.
En la sección de ejercicios se pueden encontrar algunos otros ejemplos de
σ-álgebras. El uso de la letra F para denotar una σ-álgebra proviene del
nombre en inglés “field” que significa “campo”. En algunos textos se usa
6
también la letra A, proveniente de la palabra “álgebra”, para denotar una
σ-álgebra también llamada σ-campo. Observe el uso y significado de los
sı́mbolos de contención y pertenencia: A ⊆ Ω y A ∈ F.
Se demuestran a continuación algunas otras propiedades que satisface cualquier
σ-álgebra.
Proposición 1 Sea F una σ-álgebra de subconjuntos de Ω. Entonces
1. ∅ ∈ F.
2. Si A1 , A2 , . . . ∈ F entonces
∞
\
i=1
Ai ∈ F.
3. Si A, B ∈ F entonces A − B ∈ F.
4. Si A, B ∈ F entonces A△B ∈ F.
Demostración. (1) Como Ω ∈ F y F es una colección cerrada bajo complec
c
c
mentos entonces
S∞Ω =c ∅ ∈ F. (2) Si A1 , A2 , . . . ∈ F entonces A1 , A2 , . . . ∈ F.
Por lo tanto n=1 An ∈ F. Tomando complementos y usando las leyes de
De Morgan se obtiene
!c
∞
∞
\
[
c
An ∈ F.
An =
n=1
n=1
(3) Como A − B = A ∩ B c , de lo anterior se concluye que A − B ∈ F. (4) Se
escribe A△B = (A − B) ∪ (B − A). Esto demuestra que A△B ∈ F cuando
A, B ∈ F.
La proposición anterior establece entonces que las σ-álgebras son estructuras
también cerradas bajo las operaciones de diferencia e intersecciones numerables. En la sección de ejercicios pueden encontrarse algunas otras definiciones de σ-álgebra equivalentes a la que hemos enunciado y que involucran
las operaciones de la proposición anterior. Una operación de particular importancia es aquella en la que se intersectan dos σ-álgebras produciendo una
nueva σ-álgebra. Este es el contenido del siguiente resultado.
Proposición 2 La intersección de dos σ-álgebras es una σ-álgebra.
Demostración. Sean F1 y F2 dos σ-álgebras de subconjuntos de Ω. Entonces
F1 ∩F2 es aquella colección de subconjuntos de Ω cuyos elementos pertenecen
tanto a F1 como a F2 . Demostraremos que F1 ∩ F2 es una σ-álgebra. (1)
Como F1 y F2 son σ-álgebras entonces Ω ∈ F1 y Ω ∈ F2 . Por lo tanto
Ω ∈ F1 ∩ F2 . (2) Sea A un elemento en F1 ∩ F2 . Entonces A ∈ F1 y
A ∈ F2 . Por lo tanto Ac ∈ F1 y Ac ∈ F2 , es decir, Ac ∈ F1 ∩ F2 . (3) Sea
A1 , A2 , . . . una sucesión de elementos en F1 ∩ F2 . Entonces A1 , A2 , . . . ∈ F1
7
y A1 , A2 , . . . ∈ F2 . Por lo tanto
S
∞
n=1 An ∈ F1 ∩ F2 .
S∞
n=1 An
∈ F1 y
S∞
n=1 An
∈ F2 , es decir,
En general no es cierto que la unión de dos σ-álgebras produce una nueva
σ-álgebra. Véase por ejemplo el Ejercicio 13 en la página 10. Por otro lado
se puede extender la validez de la proposición recién demostrada a intersecciones más generales como indica el siguiente resultado.
Proposición 3 La intersección finita, infinita numerable o bien arbitraria
de σ-álgebras es nuevamente una σ-álgebra.
Demostración. Sea T un conjunto arbitrario. Suponga que
T para cada t en T
se tiene una σ-álgebra Ft de subconjuntos de Ω. Sea F = t∈T Ft . Siguiendo
los mismos pasos que en la demostración anterior es fácil probar que F es
una σ-álgebra. Observe que como T es un conjunto arbitrario, la σ-álgebra
F es efectivamente una intersección arbitraria de σ-álgebras.
El resultado anterior garantiza que la siguiente definición tiene sentido.
Definición 3 Sea C una colección no vacı́a de subconjuntos de Ω. La σálgebra generada por C, denotada por σ(C), es la colección
\
σ(C) = {F : F es σ-álgebra y C ⊆ F}.
Por la proposición anterior sabemos que σ(C) es una σ-álgebra pues es la
intersección de todas aquellas σ-álgebras que contienen a C. También se le
llama “mı́nima σ-álgebra generada” por C y el adjetivo “mı́nima” es claro
a partir del hecho de que σ(C) es la σ-álgebra más pequeña que contiene
a la colección C. Es decir, si F es una σ-álgebra que contiene a C entonces
forzosamente σ(C) ⊆ F. Observe que C ⊆ σ(C) pues a la colección C se le
han añadido posiblemente algunos otros subconjuntos para convertirla en la
σ-álgebra σ(C).
Ejemplo 3 Sean A, B ⊆ Ω con A ∩ B = ∅. Defina la colección C = {A, B}.
En general esta colección no es una σ-álgebra pero podemos añadirle algunos
subconjuntos de Ω para encontrar la σ-álgebra generada por C. Esto es
σ(C) = {∅, A, B, (A ∪ B)c , A ∪ B, Ac , B c , Ω}.
No es difı́cil verificar que ésta es la mı́nima σ-álgebra que contiene a la
colección C.
Los siguientes dos resultados son proposiciones sencillas y naturales acerca de σ-álgebras generadas. Las demostraciones son cortas pero requieren
algunos momentos de pensamiento en una primera lectura.
8
Proposición 4 Sean C1 y C2 dos colecciones de subconjuntos de Ω tales que
C1 ⊆ C2 . Entonces σ(C1 ) ⊆ σ(C2 ).
Demostración. Claramente C1 ⊆ C2 ⊆ σ(C2 ). Entonces σ(C2 ) es una σ-álgebra que contiene a la colección C1 . Por lo tanto σ(C1 ) ⊆ σ(C2 ).
Proposición 5 Si F es una σ-álgebra entonces σ(F) = F.
Demostración. Sabemos que F ⊆ σ(F). Como F es una σ-álgebra que contiene a F entonces σ(F) ⊆ F. Esto demuestra la igualdad.
En la siguiente sección se estudia un ejemplo importante de una σ-álgebra
de subconjuntos de los números reales: la σ-álgebra de Borel.
EJERCICIOS
1. Defina con precisión y de manera completa los siguientes conceptos:
σ-álgebra, espacio medible, evento, evento simple y evento compuesto.
2. Definición alternativa de σ-álgebra. Demuestre que F es una σ-álgebra
de subconjuntos de Ω si y solo si
a) ∅ ∈ F.
b) A ∈ F ⇒ Ac ∈ F.
c) A1 , A2 , . . . ∈ F ⇒
∞
\
n=1
An ∈ F.
3. Definición alternativa de σ-álgebra. Demuestre que F es una σ-álgebra
de subconjuntos de Ω si y solo si
a) Ω ∈ F.
b) A, B ∈ F ⇒ A − B ∈ F.
∞
\
c) A1 , A2 , . . . ∈ F ⇒
An ∈ F.
n=1
4. Sean A1 , A2 , . . . , An eventos de un espacio muestral Ω. Demuestre que
el conjunto de elementos de Ω que pertenecen a exactamente k de estos
eventos es un evento, 1 ≤ k ≤ n.
5. Sea F una σ-álgebra de subconjuntos de Ω. Demuestre que la colección
F c = {F c : F ∈ F}
es una σ-álgebra. Compruebe además que F c = F.
9
6. Sea (Ω, F, P ) un espacio de probabilidad. Defina la colección
G = {F ∈ F : P (F ) = 0 ó P (F ) = 1}.
Demuestre que G es una sub σ-álgebra de F.
7. Sea Ω = {a, b, c, d} y sean A = {a, b} y B = {b, c}. Defina la colección
C = {A, B}. Claramente C no es una σ-álgebra. Encuentre σ(C).
8. Sea F una σ-álgebra de subconjuntos de Ω y sea A un elemento de F.
Demuestre que la siguiente colección es una σ-álgebra de subconjuntos
de A,
FA = A ∩ F = {A ∩ F : F ∈ F}.
9. Sea Ω un conjunto no numerable. Demuestre que la siguiente colección
es una σ-álgebra,
F = {A ⊆ Ω : A o Ac es finito o numerable}.
10. Sea X : Ω1 → Ω2 una función en donde (Ω2 , F2 ) es un espacio medible.
Demuestre que la siguiente colección es una σ-álgebra de subconjuntos
de Ω1 ,
X −1 F2 = {X −1 F : F ∈ F2 }.
11. Sean F1 y F2 dos σ-álgebras de subconjuntos de Ω. Demuestre que
F1 ∩ F2 es una σ-álgebra de subconjuntos de Ω.
12. Sea {Fn : n ∈ N} una sucesión de σ-álgebras
T∞de subconjuntos de un
mismo espacio muestral Ω. Demuestre que n=1 Fn es una σ-álgebra.
13. Sean F1 y F2 dos σ-álgebras de subconjuntos de Ω. Demuestre que F1 ∪
F2 no necesariamente es una σ-álgebra. Sugerencia: Considere el espacio Ω = {1, 2, 3} y F1 = {∅, {1}, {2, 3}, Ω} y F2 = {∅, {1, 2}, {3}, Ω}.
14. Sean F1 y F2 dos σ-álgebras de subconjuntos de Ω tales que F1 ⊆ F2 .
Demuestre que F1 ∪ F2 es una σ-álgebra.
15. Sea J un conjunto arbitrario de ı́ndices. Suponga que para cada j en
J
T se tiene una σ-álgebra Fj de subconjuntos de Ω. Demuestre que
j∈J Fj es una σ-álgebra.
16. Sea F una σ-álgebra. Demuestre que σ(F) = F.
17. Sea C una colección de subconjuntos de Ω. Demuestre que σ(σ(C)) =
σ(C).
18. Sean C1 y C2 dos colecciones de subconjuntos de Ω tales que C1 ⊆ C2 .
Demuestre que σ(C1 ) ⊆ σ(C2 ).
19. Sean A, B ⊆ Ω arbitrarios. Demuestre que la cardinalidad de σ{A, B}
es a lo sumo 16.
10
20. Sean A, B ⊆ Ω arbitrarios. Encuentre explı́citamente todos los elementos de σ{A, B}. Por el ejercicio anterior, el total de elementos en
σ{A, B} en el caso más general es 16.
21. Sea {A1 , . . . , An } una partición finita de Ω. Demuestre que la cardinalidad de σ{A1 , . . . , An } es 2n .
22. Sea {A, B, C} una partición de Ω. Encuentre explı́citamente los ocho
elementos de σ{A, B, C}.
23. Sea C una colección de subconjuntos de Ω. Diga falso o verdadero
justificando en cada caso: C ⊆ σ(C) ⊆ 2Ω .
24. Demuestre que 2Ω es una σ-álgebra de subconjuntos de Ω y que no
existe una σ-álgebra de subconjuntos de Ω que sea más grande.
25. Sea F una σ-álgebra de un espacio muestral finito. Demuestre que F
contiene un número par de elementos.
26. Sea Ω un conjunto, F una σ-álgebra de subconjuntos de Ω y A un
evento. Determine cuál de las dos expresiones siguientes es notacionalmente correcta. Explique su respuesta.
a)
b)
c)
d)
1.2.1.
Ω∈F
A∈Ω
∅∈F
A∈F
ó
ó
ó
ó
Ω ⊆ F.
A ⊆ Ω.
∅ ⊆ F.
A ⊆ F.
Conjuntos de Borel
Considere la colección de todos los intervalos abiertos (a, b) de R en donde
a ≤ b. A la mı́nima σ-álgebra generada por esta colección se le llama σálgebra de Borel de R y se le denota por B(R).
Definición 4
B(R) = σ {(a, b) ⊆ R : a ≤ b}
A los elementos de B(R) se les llama “conjuntos de Borel” , “Borelianos”
o “conjuntos Borel medibles”. De esta forma se puede asociar la σ-álgebra B(R) al conjunto de números reales y obtener ası́ el espacio medible
(R, B(R)). Mediante algunos ejemplos se muestran a continuación algunos
elementos de la σ-álgebra B(R).
Proposición 6 Para cualesquiera números reales a ≤ b, los subconjuntos
[a, b], (a, ∞), (−∞, b), [a, b), (a, b], {a}
son todos elementos de B(R).
11
Demostración. Primeramente observe que los intervalos cerrados [a, b] son
conjuntos Borelianos pues podemos escribirlos en términos de una intersección numerable de intervalos abiertos de la siguiente forma
[a, b] =
∞
\
n=1
1
1
, b + ).
n
n
(a −
Observe que cada elemento de la intersección anterior es un conjunto Boreliano. Siendo B(R) una σ-álgebra, la intersección infinita es un elemento
de B(R). De esta forma se concluye que cada intervalo cerrado [a, b] es un
elemento de B(R). Asi mismo tenemos que
(a, ∞) =
y
(−∞, b) =
∞
[
n=1
∞
[
n=1
(a, a + n) ∈ B(R),
(b − n, b) ∈ B(R).
Por lo tanto
[a, ∞) =
y
(−∞, b] =
∞
\
n=1
∞
\
(a −
1
, ∞) ∈ B(R),
n
(−∞, b +
n=1
1
) ∈ B(R).
n
De forma análoga se puede hacer ver que los intervalos semiabiertos de la
forma [a, b) y (a, b] son conjuntos Borelianos. Los conjuntos que constan de
un solo número también son conjuntos Borelianos pues
{a} =
∞
\
n=1
(a −
1
1
, a + ).
n
n
Complementos, intersecciones y uniones numerables de estos conjuntos son
todos ellos Borelianos. Observe que la σ-álgebra B(R) es muy amplia y
es natural preguntarse acerca de la existencia de algún subconjunto de R
que no sea un conjunto Boreliano. La respuesta es afirmativa aunque no la
demostraremos. Efectivamente, existe un subconjunto de R que no pertenece
a B(R).
Además de la definición enunciada, existen otras formas equivalentes de
generar a los conjuntos Borelianos. Este es el contenido del siguiente resultado.
Proposición 7 Las siguientes σ-álgebras son todas idénticas a B(R).
12
1. σ{[a, b] : a ≤ b}.
2. σ{(a, b] : a ≤ b}.
3. σ{[a, b) : a ≤ b}.
4. σ{(a, ∞) : a ∈ R}.
5. σ{(−∞, b) : b ∈ R}.
Demostración. Se prueba únicamente el inciso (1). El resto de los incisos
se demuestra usando el mismo procedimiento. Para demostrar que B(R) =
σ{[a, b] : a ≤ b} se verifican ambas contenciones. Claramente [a, b] ∈ B(R),
por lo tanto {[a, b] : a ≤ b} ⊆ B(R). Entonces
σ{[a, b] : a ≤ b} ⊆ σ(B(R)) = B(R).
Ahora se demuestra S
la contención contraria. Sabemos que (a, b) ∈ σ{[a, b] :
1
1
a ≤ b} pues (a, b) = ∞
n=1 [a + n , b − n ]. Entonces
{(a, b) : a ≤ b} ⊆ σ{[a, b] : a ≤ b}.
Por lo tanto
B(R) = σ{(a, b) : a ≤ b} ⊆ σ{[a, b] : a ≤ b}.
De manera equivalente se puede definir a B(R) como la mı́nima σ-álgebra
generada por una colección más grande, aquella de todos los subconjuntos
abiertos de R. En ambos casos la σ-álgebra generada es B(R). Es posible
considerar también la σ-álgebra de conjuntos de Borel restringidos a una
porción de los números reales como se indica a continuación.
Definición 5 Sea A ∈ B(R). La σ-álgebra de Borel de A, denotada por
B(A), se define como sigue
B(A) = A ∩ B(R) = {A ∩ B : B ∈ B(R)}.
No es difı́cil comprobar que B(A) es efectivamente una σ-álgebra de subconjuntos de A. Observe que el nuevo conjunto total es A y no R. El concepto
de σ-álgebra de Borel de R puede extenderse a dimensiones mayores de la
siguiente forma. Considere la colección C de todas los rectángulos abiertos
de R2 , es decir,
C = {(a, b) × (c, d) : a ≤ b, c ≤ d}.
Se definen los conjuntos de Borel de R2 como los elementos de la mı́nima
σ-álgebra generada por la colección C, es decir, B(R2 ) = σ(C). De manera
equivalente se puede definir B(R2 ) = σ(B(R) × B(R)). En forma análoga se
define B(Rn ) usando productos cartesianos de intervalos, o equivalentemente
B(Rn ) = σ(B(R) × · · · × B(R)).
13
EJERCICIOS
27. Defina con precisión a la σ-álgebra de Borel de R y de Rn .
28. Demuestre que los conjuntos (a, b] y [a, b) con a ≤ b son Borel medibles.
29. Demuestre que N, Z y Q son elementos de B(R).
30. Demuestre que el conjunto de números irracionales es un conjunto de
Borel de R.
31. Demuestre que B(R) = σ{[a, b] : a ≤ b}.
32. Demuestre que B(R) = σ{(a, b] : a ≤ b}.
33. Demuestre que B(R) = σ{[a, b) : a ≤ b}.
34. Demuestre que B(R) = σ{(a, ∞) : a ∈ R}.
35. Demuestre que B(R) = σ{[a, ∞) : a ∈ R}.
36. Demuestre que B(R) = σ{(−∞, b) : b ∈ R}.
37. Demuestre que B(R) = σ{(−∞, b] : b ∈ R}.
38. Sea A ∈ B(R). Demuestre que B(A) es efectivamente una σ-álgebra de
subconjuntos de A.
39. Diga falso o verdadero. Justifique su respuesta.
1
, n1 ] : n ∈ N } = B(0, 1].
a) σ{ ( n+1
b) σ{ (0, n1 ] : n ∈ N } = B(0, 1].
1
, n1 ] : n ∈ N } = σ{ (0, n1 ] : n ∈ N }.
c) σ{ ( n+1
40. Demuestre que B(R2 ) = σ{[a, b] × [c, d] : a ≤ b, c ≤ d}.
41. Demuestre que el producto cartesiano de dos σ-álgebras no es necesariamente σ-álgebra. Esto es, suponga que (Ω1 , F1 ) y (Ω2 , F2 ) son
dos espacios medibles. Mediante un ejemplo muestre que F1 × F2 no
necesariamente es una σ-álgebra de subconjuntos del espacio producto Ω1 × Ω2 . Sin embargo se define la σ-álgebra producto de la forma
siguiente, F1 ⊗ F2 = σ(F1 × F2 ).
1.2.2.
Sucesiones de eventos
En esta sección se estudia el concepto de convergencia de una sucesión infinita de eventos. Para enunciar tal concepto necesitaremos antes la definiciones
de lı́mite superior y lı́mite inferior que se establecen a continuación.
14
Definición 6 Para una sucesión de eventos {An : n ∈ N} se define el lı́mite
superior y el lı́mite inferior como sigue
1. lı́m sup An =
n→∞
2. lı́m inf An =
n→∞
∞
∞ [
\
Ak .
n=1 k=n
∞
∞ \
[
Ak .
n=1 k=n
Tanto el lı́mite superior como el lı́mite inferior son operaciones bien definidas,
es decir, el resultado siempre existe y es único. En cada caso el conjunto
resultante es siempre un evento, es decir, un conjunto medible. Es sencillo
comprobar que
lı́m inf An ⊆ lı́m sup An .
n→∞
n→∞
Tampoco es difı́cil verificar que un elemento pertenece al evento lı́m sup An
n→∞
si y solo si pertenece a una infinidad1 de elementos de la sucesión. Por
otro lado un elemento pertenece al evento lı́m inf An si y solo si pertenece
n→∞
a todos los elementos de la sucesión excepto un número finito de ellos. Con
estos antecedentes podemos ahora establecer la definición de convergencia
de una sucesión infinita de eventos.
Definición 7 (Convergencia de eventos) Sea {An : n ∈ N} una sucesión de eventos. Si existe un evento A tal que
lı́m inf An = lı́m sup An = A
n→∞
n→∞
entonces se dice que la sucesión converge al evento A y se escribe
lı́m An = A.
n→∞
Para calcular el posible lı́mite de una sucesión de eventos debemos entonces
calcular el lı́mite superior y el lı́mite inferior y cuando el resultado de ambas
operaciones coincida en el mismo evento entonces a tal resultado común se
le llama el lı́mite de la sucesión. Por supuesto que no todas las sucesiones de
eventos convergen. Mostramos a continuación que en particular toda sucesión monótona es convergente. Más adelante presentaremos algunos ejemplos
concretos de sucesiones de eventos y en la sección de ejercicios se encuentran
algunos otros.
1
En textos de habla inglesa a menudo se escribe lı́m sup An = (An i.o.), en donde i.o.
n→∞
significa “infinitely often”.
15
Proposición 8 Sea {An : n ∈ N} una sucesión monótona de eventos.
1. Si A1 ⊆ A2 ⊆ · · · entonces lı́m An =
n→∞
2. Si A1 ⊇ A2 ⊇ · · · entonces lı́m An =
n→∞
∞
[
An .
∞
\
An .
n=1
n=1
Demostración. (1) Como la sucesión es creciente,
∞
[
Ak =
Ak .
k=1
k=n
Por lo tanto
∞
[
∞
∞ [
\
lı́m sup An =
n→∞
=
=
n=1 k=n
∞
∞ [
\
Ak
Ak
n=1 k=1
∞
[
Ak .
k=1
Por otro lado
∞
\
Ak = An . Entonces
k=n
lı́m inf An =
n→∞
=
∞
∞ \
[
Ak
n=1 k=n
∞
[
An .
n=1
(2) La demostración es completamente análoga al inciso anterior. En este
caso como la sucesión de eventos es decreciente se tiene que
∞
\
y
k=n
∞
[
Ak =
∞
\
Ak
k=1
Ak = An .
k=n
Ejemplo 4 Para cada número natural n sea An = [−1/n, 0] si n es impar
y An = [0, 1/n] si n es par. Entonces
lı́m sup An =
n→∞
∞
∞ [
\
Ak =
∞
\
n=1
n=1 k=n
16
[−1/n, 1/n] = {0}.
lı́m inf An =
n→∞
∞
∞ \
[
Ak =
∞
[
n=1
n=1 k=n
{0} = {0}.
Por lo tanto lı́m An = {0}.
n→∞
El siguiente resultado establece que a partir de una sucesión de eventos
puede construirse otra sucesión cuyos elementos son ajenos dos a dos y cuya
unión es la unión de la sucesión original. Este procedimiento de separación
será de utilidad más adelante.
Proposición 9 Sea {An : n ∈ N} una sucesión de eventos. Sea B1 = A1 y
para n ≥ 2 defina
n−1
[
Ak .
Bn = An −
k=1
Entonces {Bn : n ∈ N} es una sucesión de eventos con las siguientes
propiedades.
1. Bn ⊆ An .
2. Bn ∩ Bm = ∅ si n 6= m.
3.
∞
[
n=1
Bn =
∞
[
An .
n=1
Demostración. El inciso (1) es evidente a partir de la definición de Bn . Para
demostrar (2) suponga n < m, entonces
Bn ∩ Bm = (An −
= (An ∩
= ∅.
n−1
[
k=1
n−1
\
k=1
Ak ) ∩ (Am −
Ack ) ∩ (Am ∩
m−1
[
k=1
m−1
\
Ak )
Ack )
k=1
Ahora se demuestra (3) considerando cada contención por separado.
S
(⊆) Sea x en ∞
n=1 Bn . Entonces existe un ı́ndice n tal que xS∈ Bn ⊆ An .
Por lo tanto x pertenece a An y entonces x pertenece a ∞
n=1 An .
S∞
(⊇) Sea ahora x un elemento en n=1 An . Entonces existe un ı́ndice n tal
/ An para
que x ∈ An . Sea n0 el primer ı́ndice S
tal que x ∈ An0 y x ∈
n0 −1
−
1 ≤ n ≤ n0 −
1.
Entonces
x
∈
A
.
Por
lo tanto x
A
=
B
n
n
n
0
0
n=1
S
B
.
pertenece a ∞
n=1 n
17
EJERCICIOS
42. Sea {An : n ∈ N} una sucesión de eventos. Demuestre que
a) lı́m sup An es un evento.
n→∞
b) lı́m inf An es un evento.
n→∞
c) lı́m inf An ⊆ lı́m sup An .
n→∞
n→∞
43. Demuestre que
a) lı́m sup An = {ω ∈ Ω : ω ∈ An para una infinidad de valores de n}.
n→∞
b) lı́m inf An = {ω ∈ Ω : ω ∈ An para toda n excepto un número finito de ellas}.
n→∞
44. Suponga An ⊆ Bn para cada n en N. Demuestre que
a) lı́m sup An ⊆ lı́m sup Bn .
n→∞
n→∞
b) lı́m inf An ⊆ lı́m inf Bn .
n→∞
n→∞
45. Demuestre que si A1 ⊆ A2 ⊆ · · · entonces
lı́m An =
n→∞
∞
[
An .
n=1
46. Demuestre que si A1 ⊇ A2 ⊇ · · · entonces
lı́m An =
n→∞
∞
\
An .
n=1
47. Sea {An : n ∈ N} una sucesión de eventos. Demuestre que
a) ( lı́m inf An )c = lı́m sup Acn .
n→∞
n→∞
c
b) ( lı́m sup An ) = lı́m inf Acn .
n→∞
n→∞
c) P ( lı́m inf An ) = 1 − P ( lı́m sup Acn ).
n→∞
n→∞
d ) P ( lı́m sup An ) = 1 − P ( lı́m inf Acn ).
n→∞
n→∞
48. Sea {An : n ∈ N} una sucesión de eventos. Demuestre que
a) lı́m An = A ⇐⇒ lı́m Acn = Ac .
n→∞
n→∞
b) lı́m An = A ⇐⇒ lı́m 1An = 1A .
n→∞
n→∞
49. Sea {an : n ∈ N} una sucesión de números no negativos convergente a
a ≥ 0. Sea An = [0, an ]. Calcule lı́m inf An y lı́m sup An .
n→∞
n→∞
50. Calcule el lı́mite superior e inferior para cada una de las siguientes
sucesiones de eventos. Determine en cada caso si la sucesión es convergente.
18
1
a) An = ( , 2 + (−1)n ).
n
b) An = {(x, y) : x2 + y 2 ≤ (1 + n1 )n }.
nπ
c) An = {(x, y) : x2 + y 2 ≤ 2 + sin( )}.
2
51. Demuestre que las siguientes sucesiones de eventos no son convergentes.
a) An = ∅ si n es impar y An = Ω si n es par.
1
b) An = (0, 1 + (− )n ).
2
52. Suponga que lı́m An = A y lı́m Bn = B. Defina la sucesión
n→∞
n→∞
Cn =
An si n es impar,
Bn si n es par.
Calcule el lı́mite superior e inferior de Cn y determine si la sucesión es
convergente.
53. Calcule el lı́mite superior e inferior para cada una de las siguientes
sucesiones de eventos. Determine en cada caso si la sucesión es convergente.
A
si n es impar,
a) Sea A un evento. Defina An =
Ac si n es par.
A si n es impar,
b) Sean A y B dos eventos. Defina An =
B si n es par.
54. Suponga que lı́m An = A. Demuestre que para cualquier evento B,
n→∞
a) lı́m (An ∩ B) = A ∩ B.
n→∞
b) lı́m (An ∪ B) = A ∪ B.
n→∞
c) lı́m (An − B) = A − B.
n→∞
d ) lı́m (An △B) = A△B.
n→∞
55. Suponga que lı́m An = A y lı́m Bn = B. Demuestre que
n→∞
n→∞
a) lı́m lı́m (An ∩ Bm ) = A ∩ B.
n→∞ m→∞
b) lı́m lı́m (An ∪ Bm ) = A ∪ B.
n→∞ m→∞
c) lı́m lı́m (An − Bm ) = A − B.
n→∞ m→∞
d ) lı́m lı́m (An △Bm ) = A△B.
n→∞ m→∞
56. Suponga que lı́m An = A y lı́m Bn = B. Diga falso o verdadero.
n→∞
n→∞
Demuestre en cada caso.
a) lı́m (An ∩ Bn ) = A ∩ B.
n→∞
19
b) lı́m (An ∪ Bn ) = A ∪ B.
n→∞
c) lı́m (An − Bn ) = A − B.
n→∞
d ) lı́m (An △Bn ) = A△B.
n→∞
1.3.
Medidas de probabilidad
En esta sección y en lo que resta del presente capı́tulo se estudian algunas propiedades de las medidas de probabilidad. Empecemos por recordar
nuevamente la definición de este concepto.
Definición 8 Sea (Ω, F) un espacio medible. Una “medida de probabilidad”
es una función P : F → [0, 1] que satisface (Kolmogorov, 1933)
1. P (Ω) = 1.
2. P (A) ≥ 0, para cualquier A ∈ F.
3. Si A1 , A2 , . . . ∈ F son ajenos dos a dos, esto es, An ∩ Am = ∅ para
∞
∞
X
[
P (An ).
An ) =
n 6= m, entonces P (
n=1
n=1
Entonces toda función P definida sobre una σ-álgebra F, con valores en
el intervalo [0, 1] y que cumple los tres postulados anteriores se le llama
“medida de probabilidad”. La tercera propiedad se conoce con el nombre
de “σ-aditividad”. Se presentan a continuación tres ejemplos de medidas de
probabilidad.
Ejemplo 5 Considere un experimento aleatorio con espacio muestral un
conjunto finito Ω. Asocie al conjunto Ω la σ-álgebra el conjunto potencia
2Ω . Para cualquier A ⊆ Ω defina
P (A) =
#A
.
#Ω
Entonces P es una medida de probabilidad y es llamada “probabilidad clásica”.
De acuerdo a esta definición, para calcular la probabilidad de un evento es
necesario entonces conocer su cardinalidad. En esta forma de calcular probabilidades surgen muchos y muy variados problemas de conteo, algunos de
los cuales no son inmediatos de resolver.
Ejemplo 6 Considere un experimento aleatorio con espacio muestral el
conjunto de números naturales N. Asocie al conjunto N la σ-álgebra el con20
junto potencia 2N . Para cualquier A ⊆ N defina
P (A) =
X 1
.
2n
n∈A
No es difı́cil verificar que P es efectivamente una medida de probabilidad.
Ejemplo 7 Considere el espacio medible (R, B(R)). Sea f : R → R una
función no negativa e integrable cuya integral sobre el intervalo (−∞, ∞) es
uno. Para cualquier A en B(R) defina
Z
f (x) dx.
P (A) =
A
Las propiedades de la integral permiten demostrar que P es una medida de
probabilidad.
En la siguiente sección estudiaremos algunas propiedades generales que cumple
toda medida de probabilidad. Y a lo largo del texto estudiaremos varios
modelos particulares para calcular probabilidades.
Figura 1.2: Andrey Nikolaevich Kolmogorov (Rusia 1903–1987).
EJERCICIOS
57. Escriba de manera completa la definición de espacio de probabilidad,
definiendo claramente cada uno de sus componentes.
58. Determine completamente un espacio de probabilidad (Ω, F, P ) para
el experimento aleatorio de
a) lanzar una moneda equilibrada.
b) lanzar un dado equilibrado.
21
c) escoger al azar un número real dentro del intervalo unitario [0, 1].
d ) extraer dos bolas de una urna en donde hay dos bolas blancas y
dos negras.
e) lanzar una moneda honesta hasta obtener las dos caras.
59. Defina con precisión el concepto de medida de probabilidad.
60. Sea {xn : n ∈ N} una sucesión de números reales. SeaP
{an : n ∈ N}
otra sucesión de números reales no negativos tal que ∞
n=1 an = 1.
Defina la función P : B(R) → [0, 1] de la siguiente forma
P (A) =
∞
X
n=1
an 1(xn ∈A) (n).
Demuestre que P es una medida de probabilidad.
61. Sean P y Q medidas de probabilidad definidas sobre una misma σálgebra. Demuestre que αP + (1 − α)Q es una medida de probabilidad
para cada α en [0, 1].
62. Diga falso o verdadero y demuestre en cada caso. Si P es una medida
de probabilidad entonces
a) 1 − P es una medida de probabilidad.
1
b) (1 + P ) es una medida de probabilidad.
2
c) P 2 es una medida de probabilidad.
63. Considere el espacio medible (N, 2N ). Demuestre en cada caso que P
es una medida de probabilidad. Para cada A ∈ 2N defina
X 2
.
a) P (A) =
3n
n∈A
b) P (A) =
X 1
.
2n
n∈A
64. Sea Ω = {1, 2, . . . , n} y considere el espacio medible (Ω, 2Ω ). Investigue
en cada caso si P es una medida de probabilidad. Para cada A ∈ 2Ω
defina
X
2k
a) P (A) =
.
n(n + 1)
k∈A
b) P (A) =
Y
k∈A
1
(1 − ).
k
65. Considere el espacio medible ((0, 1), B(0, 1)). Demuestre en cada caso
que P es una medida de probabilidad. Para cada A ∈ B(0, 1) defina
Z
2x dx.
a) P (A) =
A
22
b) P (A) =
Z
A
3√
x dx.
2
66. Probabilidad condicional. Sea (Ω, F, P ) un espacio de probabilidad y
sea B un evento con probabilidad estrictamente positiva. Demuestre
que la probabilidad condicional definida para cada A en F como sigue
P (A|B) =
P (A ∩ B)
,
P (B)
es una medida de probabilidad. En consecuencia toda propiedad válida
para P ( · ) es también válida para P ( · |B).
67. Sea P una medida de probabilidad y sean P1 ( · ) = P ( · |B) y P2 ( · ) =
P1 ( · |C). Demuestre que
P2 (A) = P (A|B ∩ C).
1.3.1.
Propiedades elementales
A partir de los postulados enunciados en la sección anterior es posible demostrar una larga serie de propiedades que cumplen todas las medidas de
probabilidad. En esta sección se estudian algunas propiedades elementales
y más adelante se demuestran otras propiedades más avanzadas.
Proposición 10 Sea P una medida de probabilidad. Entonces
1. P (Ac ) = 1 − P (A).
2. P (∅) = 0.
3. Si A ⊆ B entonces P (B − A) = P (B) − P (A).
4. Si A ⊆ B entonces P (A) ≤ P (B).
5. 0 ≤ P (A) ≤ 1.
6. P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Demostración. Para la propiedad (1) expresamos a Ω como la unión disjunta
A ∪ Ac . Aplicamos P y obtenemos la igualdad requerida. Tomando el caso
particular A igual a Ω en la propiedad (1) obtenemos la propiedad (2).
Para demostrar (3) escribimos B = A ∪ (B − A). Aplicando P obtenemos
P (B) − P (A) = P (B − A). Como la probabilidad de cualquier evento es un
número no negativo de la anterior igualdad obtenemos también la propiedad
(4). La primera desigualdad de la propiedad (5) es el segundo axioma y la
segunda desigualdad es consecuencia de la propiedad (1) y el primer axioma.
Finalmente para demostrar (6) descomponemos el evento A ∪ B como la
23
siguiente unión de tres eventos disjuntos dos a dos, A ∪ B = (A − B) ∪
(A ∩ B) ∪ (B − A) = (A − A ∩ B) ∪ (A ∩ B) ∪ (B − A ∩ B). Por lo tanto
P (A ∪ B) = P (A) − P (A ∩ B) + P (A ∩ B) + P (B) − P (A ∩ B).
Se estudian a continuación algunas otras propiedades de las medidas de
probabilidad.
Proposición 11 (Desigualdades de Boole) Sea {An : n ∈ N} una sucesión de eventos. Entonces
1. P (
An ) ≤
∞
\
An ) ≥ 1 −
n=1
2. P (
∞
X
∞
[
n=1
P (An ).
n=1
∞
X
P (Acn ).
n=1
Demostración. (1) Sean B1 = A1 y para n ≥ 2 defina
Bn = An −
n−1
[
Ak .
k=1
Entonces {Bn : nS∈ N} es unaSsucesión de eventos disjuntos dos a dos tales
∞
que Bn ⊆ An y ∞
n=1 An =
n=1 Bn . Esto es consecuencia de la Proposición 9 de la página 17. Por lo tanto
P(
∞
[
An ) = P (
∞
[
Bn )
n=1
n=1
=
≤
∞
X
n=1
∞
X
P (Bn )
P (An ).
n=1
El inciso (2) se sigue de (1) tomando complementos.
Proposición 12 Sea {An : n ∈ N} una sucesión de eventos.
1. Si P (An ) = 1 para toda n entonces P (
∞
\
An ) = 1.
n=1
2. Si P (An ) = 1 para alguna n entonces P (
∞
[
An ) = 1.
∞
\
An ) = 0.
n=1
3. Si P (An ) = 0 para alguna n entonces P (
n=1
24
4. Si P (An ) = 0 para toda n entonces P (
∞
[
An ) = 0.
n=1
Demostración. (1) Por las leyes de De Morgan y la desigualdad de Boole,
∞
\
P(
n=1
An ) = 1 − P (
≥ 1−
= 1.
(2) Como An ⊆
S∞
∞
[
Acn )
n=1
∞
X
P (Acn )
n=1
n=1 An ,
1 = P (An ) ≤ P (
∞
[
An ).
n=1
(3) Como
T∞
n=1 An
⊆ An ,
P(
∞
\
n=1
An ) ≤ P (An ) = 0.
(4) Por la desigualdad de Boole,
P(
∞
[
n=1
An ) ≤
∞
X
P (An ) = 0.
n=1
Las propiedades (1) y (4) de la proposición anterior pueden interpretarse
de la siguiente forma. Intersectar dos eventos produce en general un evento
más pequeño o por lo menos no mayor a los intersectandos. Sin embargo
la propiedad (1) establece que la intersección, aún infinita, de eventos con
probabilidad uno produce un evento con probabilidad todavı́a uno. Análogamente unir dos eventos produce en general un evento mayor, pero por la
propiedad (4), la unión, aún infinita, de eventos con probabilidad cero tiene
probabilidad que se mantiene en cero.
EJERCICIOS
68. Demuestre que
a) P (Ac ) = 1 − P (A).
b) 0 ≤ P (A) ≤ 1.
69. Demuestre que P (∅) = 0
a) usando P (Ω) = 1.
25
b) sin usar P (Ω) = 1.
70. Demuestre que
a) P (A − B) = P (A) − P (A ∩ B).
b) P (A ∩ B) − P (A)P (B) = P (Ac )P (B) − P (Ac ∩ B).
71. Demuestre que si A ⊆ B entonces
a) P (A) ≤ P (B).
b) P (B − A) = P (B) − P (A).
72. Demuestre que
a) máx{P (A), P (B)} ≤ P (A ∪ B).
b) P (A ∩ B) ≤ mı́n{P (A), P (B)}.
73. Demuestre que
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
74. Demuestre que
P (A ∪ B ∪ C) = P (A) + P (B) + P (C)
−P (A ∩ B) − P (A ∩ C) − P (B ∩ C)
+P (A ∩ B ∩ C).
75. Demuestre que
P(
n
[
n
X
Ai ) =
i=1
i=1
+
P (Ai ) −
X
i<j<k
X
i<j
P (Ai ∩ Aj )
P (Ai ∩ Aj ∩ Ak )
− · · · + (−1)n+1 P (A1 ∩ · · · ∩ An )
76. Demuestre que
P(
n
\
Ai ) =
n
X
i=1
i=1
+
P (Ai ) −
X
i<j<k
X
i<j
P (Ai ∪ Aj )
P (Ai ∪ Aj ∪ Ak )
− · · · − (−1)n P (A1 ∪ · · · ∪ An )
77. Demuestre que
P(
n
\
k=1
Ak ) ≥ 1 −
26
n
X
k=1
P (Ack ).
78. Demuestre que
0 ≤ P (A ∩ B) ≤ P (A) ≤ P (A ∪ B) ≤ P (A) + P (B) ≤ 2.
79. Diga falso o verdadero. Demuestre en cada caso.
a)
b)
c)
d)
e)
f)
g)
h)
i)
j)
k)
l)
m)
n)
P (B − A) = P (B) − P (A).
P (A ∪ B) = P (A − B) + P (B − A).
P (A) > 0 =⇒ P (A ∪ B) > 0.
P (A) > 0 =⇒ P (A ∩ B) > 0.
P (A) < 1 =⇒ P (A ∪ B) < 1.
P (A) < 1 =⇒ P (A ∩ B) < 1.
P (A) = 0 =⇒ P (A ∪ B) = 0.
P (A) = 0 =⇒ P (A ∩ B) = 0.
P (A ∪ B) = 0 =⇒ P (A) = 0.
P (A ∩ B) = 0 =⇒ P (A) = 0.
P (A) = 1 =⇒ P (A ∪ B) = 1.
P (A) = 1 =⇒ P (A ∩ B) = 1.
P (A ∪ B) = 1 =⇒ P (A) = 1.
P (A ∩ B) = 1 =⇒ P (A) = 1.
80. Diga falso o verdadero. Demuestre en cada caso.
a) P (A ∩ B) ≤ P (A)P (B).
b) P (A|B) < P (A).
c) P (A|B) > P (A) =⇒ P (B|A) > P (B).
81. Teorema de probabilidad total. Sea (Ω, F, P ) un espacio de probabilidad y sea {A1 , A2 , . . .} una partición de Ω tal que para cada n ≥ 1
el conjunto An es un evento con P (An ) > 0. Demuestre que para
cualquier evento B,
P (B) =
∞
X
P (B|An )P (An ).
n=1
82. Se lanza una moneda tantas veces como indica un dado previamente
lanzado. Calcule la probabilidad de que
a) se obtengan ambas caras de la moneda igual número de veces.
b) se obtenga una misma cara siempre.
83. Teorema de Bayes. Sea (Ω, F, P ) un espacio de probabilidad y sea
{A1 , A2 , . . .} una partición de Ω tal que para cada n ≥ 1, el conjunto
An es un elemento de F y P (An ) > 0. Demuestre que para cualquier
evento B tal que P (B) > 0 y cualquier m ≥ 1 fijo,
P (Am |B) =
P (B|Am )P (Am )
.
∞
X
P (B|An )P (An )
n=1
27
84. Regla del producto. Demuestre que
P (A1 ∩· · ·∩An ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩A2 ) · · · P (An |A1 ∩· · ·∩An−1 ).
85. Desigualdad de Bonferroni. Demuestre que
P(
n
[
i=1
Ai ) ≥
n
X
i=1
P (Ai ) −
X
i<j
P (Ai ∩ Aj ).
86. Desigualdad de Kounias. Demuestre que
P(
n
[
i=1
1.3.2.
n
n
X
X
P (Ai ) −
P (Ai ∩ Aj )}.
Ai ) ≤ mı́n{
j
i=1
i=1
i6=j
Continuidad
El siguiente resultado establece que las medidas de probabilidad son funciones continuas respecto de sucesiones no decrecientes de eventos.
Proposición 13 Sea {An : n ∈ N} una sucesión no decreciente de eventos,
esto es, A1 ⊆ A2 ⊆ · · ·. Entonces
P(
∞
[
An ) = lı́m P (An ).
n→∞
n=1
Demostración. Como An ⊆ An+1 tenemos que P (An ) ≤ P (An+1 ). Por lo
tanto la sucesión numérica {P (An ) : n ∈ N} es no decreciente y acotada
superiormente. Entonces el lı́mite de esta sucesión existe y el lado derecho
de la igualdad tiene sentido. Defina los eventos
B1 = A1 ,
Bn = An − An−1 para n ≥ 2.
La sucesión {Bn : n ∈ N} es una colección de eventos disjuntos dos a dos y
tal que (Ver Proposición 9 en la página 17)
∞
[
An =
n=1
n=1
Por lo tanto
P(
∞
[
n=1
An ) = P (
∞
[
∞
[
Bn )
n=1
28
Bn .
∞
X
=
P (Bn )
n=1
= P (B1 ) +
= P (A1 ) +
= P (A1 ) +
∞
X
n=2
∞
X
n=2
∞
X
n=2
P (Bn )
P (An − An−1 )
P (An ) − P (An−1 )
= P (A1 ) + lı́m
m→∞
m
X
n=2
P (An ) − P (An−1 )
= P (A1 ) + lı́m P (Am ) − P (A1 )
m→∞
=
lı́m P (Am ).
m→∞
Las medidas de probabilidad también son continuas respecto de sucesiones
no crecientes de eventos. Esta afirmación es el contenido del siguiente resultado que se demuestra a partir de la proposición anterior.
Proposición 14 Sea {An : n ∈ N} una sucesión no creciente de eventos,
esto es, A1 ⊇ A2 ⊇ · · ·. Entonces
∞
\
P(
An ) = lı́m P (An ).
n→∞
n=1
Demostración. Observe que si An ⊇ An+1 entonces Acn ⊆ Acn+1 . Por la
proposición anterior,
P(
∞
[
Acn ) = lı́m P (Acn ).
n=1
n→∞
Aplicando las leyes de De Morgan,
1 − P(
∞
\
n=1
An ) = lı́m (1 − P (An )),
n→∞
de donde se sigue fácilmente el resultado.
Ahora se enuncia un resultado más fuerte. La siguiente proposición establece
que las medidas de probabilidad son funciones continuas. Esta propiedad es
muy útil pues permite el cálculo de probabilidades en procedimientos lı́mite,
y se encuentra siempre presente de manera implı́cita en toda la teorı́a que
se desarrolla más adelante.
29
Proposición 15 (Continuidad de las medidas de probabilidad) Sea
{An : n ∈ N} una sucesión de eventos convergente al evento A. Entonces
lı́m P (An ) = P (A).
n→∞
Demostración. La prueba se basa en las siguientes dos desigualdades
a) lı́m sup P (An ) ≤ P (lı́m sup An ).
n→∞
n→∞
b) P (lı́m inf An ) ≤ lı́m inf P (An ).
n→∞
n→∞
Como la sucesión de eventos {An : n ∈ N} es convergente al evento A
entonces
lı́m sup An = lı́m inf An = A.
n→∞
n→∞
Se sigue entonces de las desigualdades (a) y (b) que
lı́m sup P (An ) ≤ P (lı́m sup An )
n→∞
n→∞
= P (A)
= P (lı́m inf An )
n→∞
≤ lı́m inf P (An ).
n→∞
De donde se concluye el resultado. Nos concentraremos ahora en demostrar
las desigualdades (a) y (b).
S
(a) Como An ⊆ ∞
k=n Ak entonces
P (An ) ≤ P (
∞
[
Ak ),
k=n
S∞
en donde { k=n Ak : n ∈ N} es una sucesión de eventos decreciente. Tomando el lı́mite superior se obtiene
lı́m sup P (An ) ≤ lı́m sup P (
n→∞
n→∞
=
lı́m P (
n→∞
= P ( lı́m
n→∞
= P(
∞
[
Ak )
k=n
∞
[
Ak )
k=n
∞
[
Ak )
k=n
∞
∞ [
\
Ak )
n=1 k=n
= P (lı́m sup An ).
n→∞
30
(b) Como
T∞
k=n Ak
⊆ An entonces
P(
∞
\
k=n
Ak ) ≤ P (An ),
T∞
en donde { k=n Ak : n ∈ N} es una sucesión creciente de eventos. Tomando
el lı́mite inferior se obtiene
lı́m inf P (An ) ≥ lı́m inf P (
n→∞
n→∞
=
lı́m P (
n→∞
= P ( lı́m
n→∞
= P(
∞
\
Ak )
k=n
∞
\
Ak )
k=n
∞
\
Ak )
k=n
∞
∞ \
[
Ak )
n=1 k=n
= P (lı́m inf An ).
n→∞
Ejemplo 8 Se lanza un dado equilibrado una infinidad de veces. Sea el evento A = {2, 4, 6} y sea An el evento correspondiente a obtener el evento A
en cada uno de los primeros n lanzamientos del dado. Entonces claramente
An ⊇ An+1 para cualquier n en N. Por lo tanto
lı́m An =
n→∞
∞
\
An .
n=1
Entonces
P(
∞
\
An ) = P ( lı́m An )
n→∞
n=1
=
lı́m P (An )
n→∞
1
lı́m ( )n
n→∞ 2
= 0.
=
T
El evento ∞
n=1 An se interpreta como aquel resultado en el que siempre se
obtiene un número par en una sucesión infinita de lanzamientos. Hemos demostrado que la probabilidad de tal evento es cero. Observe que el argumento
presentado funciona de la misma forma cuando el evento A es cualquier subconjunto propio de Ω. Por ejemplo, si A = {1, 2, 3, 4, 5} la probabilidad de
nunca obtener “6” es cero.
31
EJERCICIOS
87. Se lanza una moneda honesta una infinidad de veces. Demuestre que la
probabilidad de que eventualmente cada una de las dos caras aparezca
es uno. Sugerencia: proceda como en el ejemplo 8.
1.3.3.
Independencia de eventos
En esta sección se define el importante concepto de independencia de eventos. Éste es un concepto central en la teorı́a de la probabilidad y uno de
sus rasgos distintivos. De manera natural la independencia aparecerá con
frecuencia a lo largo del texto a partir de ahora y nos ayudará a simplificar
el cálculo de probabilidades. La definición matemática es la siguiente.
Definición 9 Dos eventos A y B son independientes si
P (A ∩ B) = P (A)P (B).
Aceptar la hipótesis de que dos eventos son independientes es una cuestión
de apreciación por parte del observador. Puede interpretarse en el sentido
de que la ocurrencia de uno de los eventos no proporciona información que
modifique la probabilidad de ocurrencia del segundo evento. Contrario a alguna primera concepción intuitiva errónea, el hecho de que dos eventos sean
independientes no implica que ellos sean ajenos. La proposición contraria
tampoco es válida, dos eventos ajenos no necesariamente son independientes. La definición de independencia puede extenderse a colecciones finitas
e incluso infinitas de eventos del siguiente modo.
Definición 10 Los eventos A1 , . . . , An son independientes si se cumplen
todas y cada una de las siguientes condiciones
P (Ai ∩ Aj ) = P (Ai )P (Aj ), i, j distintos.
(1.1)
P (Ai ∩ Aj ∩ Ak ) = P (Ai )P (Aj )P (Ak ), i, j, k distintos. (1.2)
..
.
P (A1 ∩ A2 ∩ · · · ∩ An ) = P (A1 )P (A2 ) · · · P (An ).
Más generalmente, una colección infinita de eventos es independiente si
cualquier subcolección finita lo es.
Observe que según la definición anterior, se necesitan verificar o suponer
varias condiciones para que n eventos sean independientes entre sı́. De hecho
el número total de igualdades a demostrar es 2n . La independencia dos a
dos (1.1) no implica en general la independencia tres a tres (1.2), ni viceversa.
32
También se tiene la noción de independencia entre dos colecciones de eventos.
La definición es la siguiente.
Definición 11 Dos sub-σ-álgebras F1 y F2 son independientes si para cada
A en F1 y cada B en F2 se cumple
P (A ∩ B) = P (A)P (B).
EJERCICIOS
88. Demuestre que A y B son independientes si y solo si
a) A y B c lo son.
b) Ac y B lo son.
c) Ac y B c lo son.
89. Demuestre que A1 , . . . , An son independientes si y solo si Ac1 , . . . , Acn
lo son.
90. Sean A1 , A2 , A3 eventos. Mediante un contraejemplo demuestre que
a) independencia dos a dos no implica independencia tres a tres.
b) independencia tres a tres no implica independencia dos a dos.
91. Demuestre que un evento A es independiente consigo mismo si y solo
si P (A) = 0 ó P (A) = 1.
92. Sea A un evento tal que P (A) = 0 ó P (A) = 1. Demuestre que A es
independiente de cualquier otro evento B.
93. Mediante un contraejemplo demuestre que
a) A, B independientes =⇒
6
A, B ajenos.
b) A, B ajenos =⇒
6
A, B independientes.
94. Sean A1 , . . . , An independientes. Demuestre que
P(
n
[
k=1
Ak ) = 1 −
n
Y
k=1
[1 − P (Ak )].
95. Sea A1 , A2 , . . . una sucesión infinita de eventos. Defina
Bn =
∞
[
Ak
y Cn =
∞
\
Ak .
k=n
k=n
Demuestre que si Bn y Cn son independientes para cada n entonces
lı́m sup An y lı́m inf An también son independientes. En particular,
n→∞
n→∞
cuando lı́m An = A entonces P (A) = 0 ó P (A) = 1.
n→∞
96. Sean A y B independientes. Demuestre que σ{A} y σ{B} son independientes.
33
1.3.4.
Lema de Borel-Cantelli
Concluimos este capı́tulo con el enunciado y demostración del famoso lema
de Borel-Cantelli. Nuestro objetivo es demostrar este resultado y con ello
poner en práctica algunas propiedades de las medidas de probabilidad vistas
antes. Aplicaremos este resultado para demostrar la ley fuerte de los grandes
números en el último capı́tulo.
Proposición 16 (Lema de Borel-Cantelli) Sea {An : n ∈ N} una sucesión de eventos. Sea A = lı́m sup An .
n→∞
1. Si
∞
X
n=1
P (An ) < ∞ entonces P (A) = 0.
∞
X
2. Si A1 , A2 , . . . son independientes y
n=1
P (An ) = ∞ entonces P (A) = 1.
Demostración. (1) Para cada n en N,
P (A) ≤ P (
∞
[
k=n
Ak ) ≤
∞
X
P (Ak ).
k=n
P∞
Como n=1 P (An ) < ∞, el lado derecho tiende a cero cuando n tiende a
infinito. Esto implica que P (A) = 0.
(2) Es suficiente
S demostrar que para todo número natural n se cumple la
igualdad P ( ∞
k=n Ak ) = 1, pues la intersección numerable de eventos con
probabilidad uno tiene probabilidad uno. Para cada m > n,
1 − P(
∞
[
k=n
Ak ) ≤ 1 − P (
m
[
Ak )
k=n
= P(
m
\
Ack )
k=n
m
Y
=
[1 − P (Ak )]
k=n
≤ exp(−
m
X
P (Ak )).
k=n
Para obtener la última expresión se usaPla desigualdad 1 − x ≤ e−x , válida
∞
para cualquier número real x. Como
n=1 P (An ) = ∞,
S∞el lado derecho
tiende a cero cuando m tiende a infinito. Por lo tanto P ( k=n Ak ) = 1 para
cualquier valor de n y entonces P (A) = 1.
34
EJERCICIOS
97. Enuncie con precisión el lema de Borel-Cantelli.
35
Capı́tulo 2
Variables aleatorias
En este capı́tulo se estudian los conceptos de variable aleatoria, función de
distribución, función de densidad y esperanza. Se estudian también algunas
distribuciones de probabilidad de variables aleatorias discretas y continuas
particulares. A partir de ahora y en el resto del curso consideraremos como
elemento base un espacio de probabilidad (Ω, F, P ).
2.1.
Variables aleatorias
Definición 12 Una variable aleatoria es una función X : Ω → R tal que
para cualquier conjunto Boreliano B, se cumple que el conjunto X −1 B es
un elemento de F.
Esto es, una variable aleatoria (v.a.) es una función de Ω en R tal que la imagen inversa de cualquier conjunto Boreliano es un elemento de la σ-álgebra
del espacio de probabilidad. Esta condición se conoce como “medibilidad”
en teorı́a de la medida. Decimos entonces que dicha función es “medible”
respecto de las σ-álgebras F y B(R).
Se justifica a continuación las razones técnicas por las cuales se le pide a
una función X : Ω → R que cumpla la condición de medibilidad. Recordemos que P es una medida de probabilidad definida sobre el espacio medible
(Ω, F). Si X es una variable aleatoria entonces podemos trasladar la medida
de probabilidad P al espacio medible (R, B(R)) del siguiente modo. Si B es
un conjunto Boreliano definimos PX (B) = P (X −1 B), lo cual es consistente
pues el conjunto X −1 B es un elemento de F, dominio de definición de P . La
función PX : B(R) → [0, 1] resulta ser una medida de probabilidad y se le llama por tanto la “medida de probabilidad inducida” por la variable aleatoria
X. De este modo se construye el espacio de probabilidad (R, B(R), PX ).
36
Si B es un conjunto Boreliano, se usan los sı́mbolos X −1 B y (X ∈ B)
para denotar el conjunto {ω ∈ Ω : X(ω) ∈ B}. Por ejemplo el conjunto
{ω ∈ Ω : X(ω) ∈ [0, ∞)} puede ser denotado por X −1 [0, ∞) o (X ∈ [0, ∞)),
o simplemente por (X ≥ 0), incluyendo los paréntesis. Veamos otro ejemplo.
Si (a, b) es un intervalo de la recta real, se puede usar el sı́mbolo X −1 (a, b) o
(X ∈ (a, b)) o bien (a < X < b) para denotar el conjunto {ω ∈ Ω : X(ω) ∈
(a, b)}. Para hacer la escritura más corta, a menudo se omite el argumento
ω de una v.a. X y se omite también el término “variable aleatoria” para X
asumiendo, en la mayorı́a de las veces, que lo es.
Para comprobar que una función X : Ω → R es realmente una variable
aleatoria, la definición requiere verificar la condición X −1 B ∈ F para cualquier
conjunto Boreliano B. En muy pocos casos tal condición puede comprobarse de manera tan general. La siguiente proposición establece que no es
necesario demostrar la condición de medibilidad para cualquier conjunto
Boreliano B, sino que es suficiente tomar intervalos de la forma (∞, x] para
cada x en R. Este resultado, como uno puede imaginar, es de suma utilidad
para demostrar que una función dada es variable aleatoria. Lo usaremos con
frecuencia en el resto del capı́tulo.
Proposición 17 Una función X : Ω → R es una variable aleatoria si y solo
si el conjunto X −1 (−∞, x] es un elemento de F para cada x en R.
Demostración.
(⇒) Si X es variable aleatoria entonces claramente se cumple que para
cualquier número real x el conjunto X −1 (−∞, x] es un elemento de F.
(⇐)Ahora suponga que para cada real x, el conjunto X −1 (−∞, x] es un
elemento de F. Sean B y C las colecciones
B = {B ∈ B(R) : X −1 B ∈ F},
C = {(−∞, x] : x ∈ R}.
Entonces claramente C ⊆ B ⊆ B(R). La primera contención es por hipótesis
y la segunda es por definición de la colección B. Suponga por un momento
que B es una σ-álgebra de subconjuntos de R. Entonces B es una σ-álgebra
que contiene a C. Por lo tanto σ(C) = B(R) ⊆ B. Esto implica que B =
B(R) y entonces X es variable aleatoria. Resta entonces hacer ver que B es
efectivamente una σ-álgebra.
(i) Primeramente tenemos que R ∈ B pues R ∈ B(R) y X −1 R = Ω ∈ F.
(ii) Sea B ∈ B. Entonces B ∈ B(R) y X −1 B ∈ F. Entonces B c ∈ B(R) y
X −1 B c = (X −1 B)c ∈ F. Es decir, B c ∈ B.
(iii) Sea B1 , B2 , . . . una sucesión en B. Es decir, para cada n número natu∞
∞
[
[
X −1 Bn =
Bn ∈ B(R) y
ral, Bn ∈ B(R) y X −1 Bn ∈ F. Entonces
n=1
37
n=1
X
−1
∞
[
n=1
Bn ∈ F. Es decir,
∞
[
n=1
Bn ∈ B.
Además de la condición anterior para demostrar que una función es variable aleatoria existen otras condiciones igualmente equivalentes y útiles. Por
ejemplo X es variable aleatoria si para cada x en R, X −1 (−∞, x) ∈ F, o
X −1 (x, ∞) ∈ F, o X −1 [x, ∞) ∈ F. Cualquiera de estas condiciones es necesaria y suficiente para que X sea variable aleatoria. También la condición
X −1 (a, b) ∈ F para cualquier intervalo (a, b) de R es equivalente para que
X sea variable aleatoria. La demostración de todas estas aseveraciones es
completamente análoga al caso demostrado arriba y se pide desarrollar los
detalles en la sección de ejercicios.
Considere los espacios medibles (Ω, F) y (R, B(R)). Si X es una función de
Ω en R entonces se denota por σ(X) a la mı́nima σ-álgebra de subconjuntos
de Ω respecto de la cual X es variable aleatoria. Es decir,
σ(X) = {X −1 B : B ∈ B(R)}.
Es sencillo probar que tal colección de imágenes inversas es efectivamente
una σ-álgebra. Claramente X es variable aleatoria si y solo si σ(X) ⊆ F.
A continuación se demuestra que algunas operaciones básicas entre variables
aleatorias producen nuevas variables aleatorias. Suponga que (Ω, F, P ) es un
espacio de probabilidad dado. Todas las variables aleatorias que se consideran a continuación están definidas sobre este espacio de probabilidad.
Proposición 18 La función constante X = c es una v.a.
Demostración. Sea B un elemento cualquiera de B(R). Para la función constante X = c se tiene que X −1 B = Ω si c ∈ B, y X −1 B = ∅ si c ∈
/ B. En
ambos casos el conjunto X −1 B es un elemento de F, por lo tanto X = c es
v.a.
Proposición 19 Si X es v.a. y c es una constante entonces cX es v.a.
Demostración. Comprobaremos que para cada número real x, el conjunto
(cX)−1 (−∞, x] es un elemento de F. Tenemos tres casos. Si c > 0 entonces el
conjunto (cX ≤ x) = (X ≤ x/c) es un elemento de F pues X es v.a. Si c < 0
entonces nuevamente el conjunto (cX ≤ x) = (X ≥ x/c) es un elemento de
F pues X es v.a. Finalmente si c = 0 entonces claramente cX = 0 es v.a.
por la proposición anterior.
Proposición 20 Si X y Y son v.a.s entonces X + Y es v.a.
38
Demostración. Probaremos que para cada número real x, el conjunto (X +
Y )−1 (x, ∞) = (X + Y > x) es un elemento de F. Para ello usaremos la
igualdad
[
(X + Y > x) =
(X > r) ∩ (Y > x − r).
(2.1)
r∈Q
Es claro que de esta igualdad se concluye que el conjunto (X + Y > x) es un
elemento de F pues tanto X como Y son variables aleatorias y la operación
de unión involucrada es numerable. Resta entonces demostrar (2.1).
(⊆) Sea ω en Ω tal que X(ω) + Y (ω) > x. Entonces X(ω) > x − Y (ω).
Como los números racionales son un conjunto denso en R, tenemos
que existe un número racional r tal que X(ω) > r > x − Y (ω). Por
lo tanto X(ω) > r y Y (ω) > x − r. De aqui se desprende que ω es un
elemento del lado derecho.
S
(⊇) Sea ahora ω un elemento de r∈Q (X > r)∩(Y > x−r). Entonces existe
un número racional r0 tal que X(ω) > r0 y Y (ω) > x − r0 . Sumando
obtenemos X(ω) + Y (ω) > x y por lo tanto ω es un elemento del lado
izquierdo.
Proposición 21 Si X y Y son v.a.s entonces XY es v.a.
Demostración. Suponga primero el caso particular X = Y . Entonces necesitamos probar que para todo número real x, el conjunto (X 2 ≤ x) es
un elemento de F. Pero esto es cierto pues (X 2 ≤ x) = ∅ si x < 0 y
√
√
(X 2 ≤ x) = (− x ≤ X ≤ x) si x ≥ 0. En ambos casos, (X 2 )−1 (−∞, x]
es un elemento de F. Para el caso general X 6= Y usamos la fórmula de
interpolación
(X + Y )2 − (X − Y )2
.
XY =
4
Por lo demostrado antes, XY es efectivamente una v.a.
Como consecuencia de la proposición anterior se cumple que si multiplicamos
X por si misma n veces entonces X n es variable aleatoria. Por lo tanto toda
función polinomial de una variable aleatoria es también variable aleatoria.
Proposición 22 Sean X y Y v.a.s con Y 6= 0. Entonces X/Y es v.a.
Demostración. Primeramente demostramos que 1/Y es v.a. Para cualquier
número real y > 0 tenemos que
1
1
1
( ≤ y) = ( ≤ y, Y > 0) ∪ ( ≤ y, Y < 0)
Y
Y
Y
1
1
= (Y ≥ , Y > 0) ∪ (Y ≤ , Y < 0)
y
y
1
= (Y ≥ ) ∪ (Y < 0),
y
39
que es un elemento de F puesto que Y es v.a. Por otro lado, si y < 0 tenemos
que
(
1
1
1
≤ y) = ( ≤ y, Y > 0) ∪ ( ≤ y, Y < 0)
Y
Y
Y
1
1
= (Y ≤ , Y > 0) ∪ (Y ≥ , Y < 0)
y
y
1
= ∅ ∪ (Y ≥ , Y < 0)
y
1
= ( ≤ Y < 0).
y
Nuevamente vemos que este conjunto es un elemento de F puesto que Y es
v.a. Finalmente cuando y = 0 obtenemos una vez mas un elemento de F
pues
(
1
1
1
≤ 0) = ( ≤ 0, Y > 0) ∪ ( ≤ 0, Y < 0)
Y
Y
Y
= ∅ ∪ (Y < 0)
= (Y < 0).
Esto demuestra que 1/Y es v.a. Como el producto de v.a.s es nuevamente
una v.a. concluimos entonces que X/Y es v.a.
Proposición 23 Si X y Y son v.a.s entonces máx{X, Y } y mı́n{X, Y } son
variables aleatorias.
Demostración. Para cualquier número real x,
(máx{X, Y } ≤ x) = (X ≤ x, Y ≤ x) = (X ≤ x) ∩ (Y ≤ x).
Análogamente
(mı́n{X, Y } ≥ x) = (X ≥ x, Y ≥ x) = (X ≥ x) ∩ (Y ≥ x).
En ambos casos los dos conjuntos del lado derecho son elementos de F. Por
lo tanto el lado izquierdo también pertenece a F.
Como consecuencia de la proposición anterior se obtiene que tanto X + =
max{0, X} como X − = −min{0, X} son variables aleatorias.
Proposición 24 Si X es v.a. entonces |X| es v.a.
Demostración. Si x ≥ 0 entonces |X|−1 (−∞, x] = {ω : −x ≤ X(ω) ≤
x} ∈ F, y si x < 0 entonces |X|−1 (−∞, x] = ∅ ∈ F, de modo que |X| es
v.a. Alternativamente se puede escribir |X| = X + + X − y por lo expuesto
anteriormente |X| es v.a.
Demostraremos a continuación que el recı́proco de la proposición anterior
es falso. Esto es, si X : Ω → R es una función tal que |X| es v.a. entonces
40
no necesariamente X es v.a. Considere por ejemplo el espacio muestral Ω =
{−1, 0, 1} junto con la σ-álgebra F = {∅, {0}, {−1, 1}, Ω}. Sea X : Ω → R
la función identidad X(ω) = w. Entonces |X| es v.a. pues para cualquier
conjunto Boreliano B,

Ω
si 0, 1 ∈ B,



{−1,
1}
si 0 ∈
/ B y 1 ∈ B,
|X|−1 B =
{0}
si 0 ∈ B y 1 ∈
/ B,



∅
si 0, 1 ∈
/ B.
Es decir, |X|−1 B es un elemento de F. Sin embargo X no es v.a. pues
X −1 {−1} = {−1} no es un elemento de F.
Proposición 25 Sea {Xn : n ∈ N} una sucesión de v.a.s. Entonces sup{Xn }
n
e ı́nf {Xn }, cuando existen, son v.a.s
n
Demostración. Este resultado se sigue directamente de las siguientes igualdades. Para cualquier x en R
∞
\
(sup Xn ≤ x) =
n
n=1
∞
\
(ı́nf Xn ≥ x) =
n
n=1
(Xn ≤ x) ∈ F,
(Xn ≥ x) ∈ F.
Proposición 26 Sea {Xn : n ∈ N} una sucesión de v.a.s. Entonces lı́m sup Xn
n→∞
y lı́m inf Xn , cuando existen, son v.a.s
n→∞
Demostración. Esto es consecuencia de la proposición anterior pues
1. lı́m sup Xn = ı́nf (sup Xn ) es v.a.,
n→∞
k
n≥k
2. lı́m inf Xn = sup(ı́nf Xn ) es v.a.
n→∞
k
n≥k
Proposición 27 Sea {Xn : n ∈ N} es una sucesión de v.a.s tales que
lı́m Xn (ω) existe para cada ω ∈ Ω. Entonces lı́m Xn es v.a.
n→∞
n→∞
Demostración. Si lı́m sup Xn y lı́m inf Xn coinciden entonces lı́m Xn existe
n→∞
n→∞
n→∞
y es el valor lı́mite común. Por lo anterior, lı́m Xn es v.a.
n→∞
41
EJERCICIOS
98. Demuestre que la función constante X(ω) = c es una variable aleatoria.
99. Demuestre que la función identidad X(ω) = ω no es variable aleatoria
cuando Ω = {1, 2, 3} y F = {∅, {1}, {2, 3}, Ω}.
100. Sea Ω = {−1, , 0, 1} y F = {∅, {0}, {−1, 1}, Ω}. Considere la función
identidad X(ω) = ω. Demuestre que X 2 es variable aleatoria pero X
no lo es.
101. Demuestre que X es variable aleatoria si y solo si X −1 (−∞, x) ∈ F
para cada x ∈ R.
102. Demuestre que X es variable aleatoria si y solo si X −1 [x, ∞) ∈ F para
cada x ∈ R.
103. Demuestre que X es variable aleatoria si y solo si X −1 (x, ∞) ∈ F para
cada x ∈ R.
104. Demuestre que X es variable aleatoria si y solo si X −1 (a, b) ∈ F para
cada (a, b) ⊆ R.
105. Demuestre que si X es v.a. entonces |X| también lo es.
106. Mediante un contraejemplo demuestre que si |X| es v.a. entonces no
necesariamente X es v.a.
107. Sea (Ω, F) un espacio medible tal que F = {∅, Ω, A, Ac } con A ⊆ Ω.
Demuestre que toda función medible X : Ω → R es constante en A y
en Ac . Por lo tanto toda función medible respecto de esta σ-álgebra
toma a los sumo dos valores distintos.
108. Sea c una constante y X una v.a. Demuestre directamente que cX es
v.a.
109. Sea c una constante y X una v.a. Demuestre directamente que X + c
es v.a.
110. Sea c una constante y sea X una variable aleatoria. Demuestre directamente que tanto X ∨ c com X ∧ c son variables aleatorias.
111. Demuestre directamente que la suma y diferencia de dos variables
aleatorias es variable aleatoria.
112. Sea X una variable aleatoria. Demuestre que la parte entera de X,
denotada por ⌊X⌋, es una variable aleatoria discreta.
113. Demuestre que el conjunto de v.a.s definidas sobre un espacio de probabilidad es un espacio vectorial con las operaciones usuales de suma y
producto por escalares.
114. Demuestre directamente que el producto y cociente (cuando exista) de
dos variables aleatorias es variable aleatoria.
42
115. Sean X y Y v.a.s. Demuestre que tanto X ∨Y como X ∧Y son variables
aleatorias.
116. Sea {Xn : n ∈ N} una sucesión de v.a.s. Demuestre que, si existen,
tanto sup{Xn } como ı́nf {Xn } son variables aleatorias.
n
n
117. Demuestre que si X es variable aleatoria entonces también lo son X n
y 2X 3 − 5X.
118. Demuestre que X es variable aleatoria si y solo si tanto X + = máx{0, X}
como X − = − mı́n{0, X} lo son.
119. Sea A ⊆ Ω. Demuestre que la función indicadora 1A : Ω → R es
variable aleatoria si y solo si el conjunto A es medible.
120. Sean A, B ⊆ Ω. Diga falso o verdadero. Demuestre en cada caso.
a) A, B medibles =⇒ 1A + 1B es v.a.
b) 1A + 1B es v.a. =⇒ A, B son medibles.
121. Sean A, B subconjuntos disjuntos de Ω y sean a, b dos números reales
distintos. Demuestre que
a1A + b1B es v.a. ⇐⇒ A, B son medibles.
Una de estas implicaciones resulta falsa cuando se omite la condición
de que los números a y b son distintos. ¿Cuál de ellas es?
122. Sean A1 , . . . , An subconjuntos disjuntos de Ω y a1 , . . . , an constantes
distintas. Demuestre que
n
X
i=1
ai 1Ai es v.a. ⇐⇒ Ai es medible para i = 1, . . . , n.
123. Sean A y B dos eventos, y sean 1A y 1B las correspondientes funciones
indicadoras. Directamente de la definición demuestre que las funciones
1A + 1B y 1A · 1B son variables aleatorias.
124. Sean X y Y dos variables aleatorias. Demuestre que los conjuntos
(X = Y ), (X ≤ Y ), (X > Y ) y (X 6= Y ) son eventos. Sugerencia:
Proceda como en la fórmula (2.1) de la página 39.
125. Sea X una variable aleatoria y g : (R, B(R)) → (R, B(R)) una función
Borel medible. Demuestre que g(X) = g ◦ X : Ω → R es también una
variable aleatoria.
Sugerencia: Demuestre que la colección B = {B ∈ B(R) : g −1 B ∈
B(R)} coincide con B(R) usando los siguientes dos resultados: (1) Dada
una función continua de R en R, la imagen inversa de un conjunto
abierto es nuevamente un conjunto abierto. (2) Todo conjunto abierto
de R distinto del vacı́o puede expresarse como una unión numerable
de intervalos abiertos.
43
126. Sea X una v.a. Demuestre que
a) Y = eX es v.a.
b) Y = sen X es v.a.
c) Y = cos X es v.a.
127. Sea X : Ω → R una función. Proporcione un ejemplo en el que X 2 sea
variable aleatoria pero X no lo sea.
128. Sea X : Ω → R una función. Proporcione un ejemplo en el que X 2 sea
variable aleatoria pero |X| no lo sea.
129. Sean X1 , . . . , Xn v.a.s. Demuestre que
n
1X
a) X̄ =
Xi
n
es v.a.
i=1
n
b) S 2 =
1 X
(Xi − X̄)2
n−1
es v.a.
i=1
130. Sea X una variable aleatoria y sean a < b dos constantes. Demuestre
que las siguientes funciones son variables aleatorias.
X si X < a,
a) Y =
a si X ≥ a.

 a si X < a,
X si a ≤ X ≤ b,
b) Y =

b si X > b, .
X si |X| ≤ a,
c) Y =
0 si |X| > a.
131. Sean (Ω1 , F1 ) y (Ω2 , F2 ) dos espacios medibles y sea
X : (Ω1 , F1 ) → (Ω2 , F2 )
una función medible. Suponga que P : F1 → [0, 1] es una medida de
probabilidad. Demuestre que
P ◦ X −1 : F2 → [0, 1]
es también una medida de probabilidad. A la medida P ◦ X −1 se le
llama “medida de probabilidad inducida” por X.
2.2.
Función de distribución
Toda variable aleatoria tiene asociada una función llamada “función de distribución”. En esta sección se define este importante concepto y se demuestran algunas de sus propiedades.
44
Definición 13 La función de distribución de X es la función F (x) : R → R
definida como sigue
F (x) = P (X ≤ x).
Cuando sea necesario especificar la variable aleatoria en cuestión se escribe
FX (x), pero en general se omite el subı́ndice X cuando no haya posibilidad de confusión. El argumento de la función es la letra minúscula x que
puede tomar cualquier valor real. Por razones obvias a esta función se le
conoce también con el nombre de “función de acumulación de probabilidad”
o “función de probabilidad acumulada’’. Observe que la función de distribución de una variable aleatoria está definida sobre la totalidad del conjunto
de números reales y toma valores en el intervalo [0, 1]. La función de distribución es importante pues, como se ilustrará más adelante, contiene ella
toda la información de la variable aleatoria y la correspondiente medida de
probabilidad. A continuación se estudian algunas propiedades de la función
de distribución.
Proposición 28 Sea F (x) la función de distribución de una variable aleatoria. Entonces
1.
2.
lı́m F (x) = 1.
x→+∞
lı́m F (x) = 0.
x→−∞
3. Si x1 ≤ x2 entonces F (x1 ) ≤ F (x2 ).
4. F (x) es continua por la derecha, es decir, F (x+) = F (x).1
Demostración. (1) Sea {xn : n ∈ N} una sucesión cualquiera de números
reales creciente a infinito y sean los eventos An = (X ≤ xn ). Entonces
{An : n ∈ N} es una sucesión de eventos creciente cuyo lı́mite es Ω. Por la
propiedad de continuidad
lı́m F (xn ) =
n→∞
lı́m P (An )
n→∞
= P (Ω)
= 1.
Como R es un espacio métrico lo anterior implica que F (x) converge a uno
cuando x tiende a infinito.
(2) Sea {xn : n ∈ N} una sucesión cualquiera de números reales decreciente
a menos infinito y sean los eventos An = (X ≤ xn ). Entonces {An : n ∈ N}
1
La expresión F (x+) significa el lı́mite por la derecha de la función F en el punto x.
45
es una sucesión de eventos decreciente al conjunto vacı́o. Por la propiedad
de continuidad
lı́m F (xn ) =
n→∞
lı́m P (An )
n→∞
= P (∅)
= 0.
Por lo tanto, F (x) converge a cero cuando x tiende a menos infinito.
(3) Para x1 ≤ x2 ,
F (x1 ) ≤ F (x1 ) + P (x1 < X ≤ x2 )
= P [(X ≤ x1 ) ∪ (x1 < X ≤ x2 )]
= P (X ≤ x2 )
= F (x2 ).
(4) Sea {xn : n ∈ N} una sucesión cualquiera de números reales no negativos
y decreciente a cero. Entonces
F (x + xn ) = F (x) + P (x < X ≤ x + xn ),
en donde An = (x < X ≤ x + xn ) es una sucesión de eventos decreciente al
conjunto vacı́o. Por lo tanto
lı́m F (x + xn ) = F (x).
n→∞
Es decir
F (x+) = F (x).
El recı́proco de la proposición anterior es válido y justifica la importancia
de la función de distribución. Se enuncia a continuación este interesante
resultado cuya demostración omitiremos y puede encontrarse por ejemplo
en [8].
Proposición 29 Sea F (x) : R → R una función que satisface las cuatro
propiedades de la proposición anterior. Entonces existe un espacio de probabilidad y una variable aleatoria cuya función de distribución es F (x).
Como consecuencia tenemos la siguiente definición general.
Definición 14 Una función F (x) : R → R es llamada “función de distribución” si cumple con las cuatro propiedades anteriores.
Veamos algunas otras propiedades que establecen la forma de calcular probabilidades usando la función de distribución.
46
Proposición 30 Para cualquier número x y para cualesquiera números
reales a ≤ b,
1. P (X < x) = F (x−).2
2. P (X = x) = F (x) − F (x−).
3. P (X ∈ (a, b]) = F (b) − F (a).
4. P (X ∈ [a, b]) = F (b) − F (a−).
5. P (X ∈ (a, b)) = F (b−) − F (a).
6. P (X ∈ [a, b)) = F (b−) − F (a−).
Demostración. (1) Sea {xn : n ∈ N} una sucesión cualquiera de números
reales no negativos y decreciente a cero. Sea An el evento (X ≤ a − xn ).
Entonces {An : n ∈ N} es una sucesión de eventos decreciente al evento
(X < a). Por la propiedad de continuidad
P (X < a) =
=
lı́m P (An )
n→∞
lı́m F (a − xn )
n→∞
= F (a−).
Para (2) simplemente escribimos
P (X = x) = P (X ≤ x) − P (X < x)
= F (x) − F (x−).
Las igualdades (3),(4),(5) y (6) se siguen directamente de (1) y (2).
Observe que como F(x) es una función no decreciente y continua por la
derecha, la probabilidad P (X = x) = F (x) − F (x−) representa el tamaño
del salto o discontinuidad de la función de distribución en el punto x. En
consecuencia, cuando F (x) es una función continua y para a < b,
F (b) − F (a) = P (X ∈ (a, b])
= P (X ∈ [a, b])
= P (X ∈ (a, b))
= P (X ∈ [a, b)).
Es decir, incluir o excluir los extremos de un intervalo no afecta el cálculo
de la probabilidad de dicho intervalo. Por lo tanto para cualquier número x,
P (X = x) = 0. Finalizamos esta sección con un resultado interesante cuya
prueba es simple.
Proposición 31 Toda función de distribución tiene a lo sumo un número
numerable de discontinuidades.
2
La expresión F (x−) significa el lı́mite por la izquierda de la función F en el punto x.
47
Demostración. Sea D el conjunto de puntos de discontinuidad de una función
de distribución F (x). Para cada número natural n defina los subconjuntos
Dn = {x ∈ D :
1
1
< F (x) − F (x−) ≤ }.
n+1
n
Cada conjunto Dn tiene a lo sumo n elementos. Como D =
concluye que D es numerable.
S∞
n=1 Dn
se
EJERCICIOS
132. Demuestre que las siguientes funciones son de distribución.
a) F (x) = 1 − e−x para x > 0.
b) F (x) = 1 − (1 + x)e−x para x > 0.

si x < −1,
 0
(x + 1)/2 si x ∈ [−1, 1],
c) F (x) =

1
si x > 1.
133. Investigue si las siguientes funciones son de distribución.
a) F (x) = x para x ∈ R.
2
b) F (x) = 1 − e−x para x > 0.
c) F (x) = e−1/x para x > 0.
ex
para x ∈ R.
d ) F (x) =
1 + ex
ex
e) F (x) = x
para x ∈ R.
e + e−x
134. Sean F (x) y G(x) dos funciones de distribución. Determine si las siguientes funciones son de distribución.
a) aF (x) + (1 − a)G(x) con 0 ≤ a ≤ 1.
b) F (x) + G(x).
c) F (x)G(x).
135. Sea X con función de distribución
(
0
F (x) =
4
1− 2
x
si x < 2,
si x ≥ 2.
Grafique y demuestre que F (x) es una función de distribución. Calcule
además P (X ≤ 4), P (X > 1), P (4 < X < 6) y P (X = 2).
136. Sea X con función de distribución

0




 0.2
0.5
F (x) =


0.9



1
48
si
si
si
si
si
x < 0,
0 ≤ x < 1,
1 ≤ x < 3,
3 ≤ x < 4,
x ≥ 4.
Grafique y demuestre que F (x) es una función de distribución. Calcule
además P (X ≤ 1), P (X = 1), P (0 < X < 3), P (X = 4) y P (X ≥ 3).
137. Sea X con función de distribución F(x). Demuestre que
a) lı́m F (x) = 1.
x→∞
b)
lı́m F (x) = 0.
x→−∞
c) x1 ≤ x2 =⇒ F (x1 ) ≤ F (x2 ).
d ) F (x+) = F (x).
138. Sea X con función de distribución F(x). Demuestre que
a) P (X < x) = F (x−).
b) P (X = x) = F (x) − F (x−).
c) P (X > x) = 1 − F (x).
139. Sea X con función de distribución F(x). Demuestre que para x ≤ y
a) P (x < X ≤ y) = F (y) − F (x).
b) P (x < X < y) = F (y−) − F (x).
c) P (x ≤ X ≤ y) = F (y) − F (x−).
d ) P (x ≤ X < y) = F (y−) − F (x−).
140. En la escuela rusa de probabilidad se define la función de distribución
de una variable aleatoria X como F (x) = P (X < x). Observe el signo
“<” en lugar de “≤” usado en nuestra definición. Demuestre que en
este caso la función de distribución es continua por la izquierda.
141. Sea F (x) una función de distribución continua. Demuestre que para
para cualquier entero n ≥ 1, las siguientes funciones también son de
distribución.
a) G(x) = [F (x)]n .
b) G(x) = 1 − [1 − F (x)]n .
142. Sea X con función de distribución F (x). Diga falso o verdadero. Demuestre en cada caso.
a) F (x) = P (X < x) + P (X = x).
b) 1 − F (x) = P (X ≥ x).
c) 1 − P (X < x) − P (X > x) = P (X = x).
143. Encuentre FY (y) en términos de FX (x) cuando
a) Y = aX + b con a, b constantes.
b) Y = eX .
c) Y = e−X .
d ) Y = X 2.
49
e) Y = X + = máx{0, X}.
f ) Y = X − = − mı́n{0, X}.
g) Y = |X|.
h) Y = −X.
i ) Y = sen X.
144. Sea X con función de distribución FX (x) y sean a < b dos constantes.
Calcule y grafique la función de distribución de
X si X < a,
a) Y =
a si X ≥ a.

 a si X < a,
X si a ≤ X ≤ b,
b) Y =

b si X > b.
X si |X| ≤ a,
c) Y =
0 si |X| > a.
145. Sean F (x) y G(x) dos funciones de distribución continuas y estrictamente crecientes. Demuestre que
a) si F (x) ≥ G(x) entonces F −1 (y) ≤ G−1 (y).
b) si X tiene función de distribución F (x) entonces Y = G−1 (F (X))
tiene función de distribución G(x).
c) si F (x) ≥ G(x) entonces existen variables aleatorias X y Y cuyas
funciones de distribución son F (x) y G(x) respectivamente, y son
tales que X ≤ Y . Sugerencia: Use el inciso anterior.
2.3.
Tipos de variables aleatorias
Las variables aleatorias se clasifican en al menos dos tipos: discretas y continuas. La definición es la siguiente. Sea X una variable aleatoria con función
de distribución F (x).
Definición 15 La variable aleatoria X se llama “discreta” si su correspondiente función de distribución F (x) es una “función constante por pedazos”.
Sean x1 , x2 , . . . los puntos de discontinuidad de F (x). En cada uno de estos
puntos el tamaño de la discontinuidad es P (X = xi ) = F (xi ) − F (xi −) > 0.
A la función f (x) que indica estos incrementos se le llama “función de densidad” de X y se define como sigue
P (X = x) si x = x1 , x2 , . . .
(2.2)
f (x) =
0
otro caso.
50
En este caso discreto la función f (x) siempre existe y se le llama también
“función de masa de probabilidad” o simplemente “función de probabilidad”
de la variable aleatoria X. Cuando sea necesario especificarlo se escribe
fX (x) en lugar de f (x). Observe
P que f (x) es una función no negativa que
suma uno en el sentido que
i f (xi ) = 1. Recı́procamente toda función
de la forma (2.2) que cumpla estas dos propiedades se le llama “función de
densidad”, sin que haya necesariamente una variable aleatoria de por medio.
Es posible reconstruir la función de distribución a partir de la función de
densidad mediante la relación
X
F (x) =
f (xi ).
xi ≤x
Definición 16 La variable aleatoria X se llama “continua” si su correspondientes función de distribución F (x) es una función continua. Cuando existe
una función integrable f ≥ 0 tal que
Z x
F (x) =
f (u) du,
(2.3)
−∞
para cualquier valor de x, entonces se dice que X es “absolutamente continua”. En tal caso a la función f (x) se le llama “función de densidad” de
X.
No todas las variables aleatorias continuas tienen función de densidad, y
aún cuando ésta exista puede no ser única pues basta modificarla en un
punto para que sea ligeramente distinta y a pesar de ello seguir cumpliendo (2.3). Es claro que la función de densidad de una variable aleatoria absolutamente continua es no negativa y su integral sobre toda la recta real es
uno. Recı́procamente toda función f (x) no negativa que integre uno en R se
llama función de densidad. Si X es absolutamente continua con función de
distribución F (X) y función de densidad continua f (x) entonces el teorema
fundamental del cálculo establece que, a partir de (2.3), F ′ (x) = f (x).
Una variable aleatoria que no es discreta ni continua se llama “variable
aleatoria mixta”, y un ejemplo de este tipo de variables se presenta a continuación.
Ejemplo 9 (Variable aleatoria que no es discreta ni continua.) Sea X una
variable aleatoria con función de distribución
1 − e−x si x > 0,
F (x) =
0
si x ≤ 0.
Como F (x) es continua entonces X es una variable aleatoria continua. Sea
Y = X ∧M con M > 0 constante. Observe que Y está acotada superiormente
51
por la constante M . La función de distribución de Y es

si y ≥ M,
 1
−x
1−e
si 0 < y < M,
F (y) =

0
si x ≤ 0.
Esta función no es constante por pedazos pues es creciente en (0, M ) y tampoco es continua pues tiene una discontinuidad en y = M . Por lo tanto Y
es una variable aleatoria que no es discreta ni continua.
EJERCICIOS
146. Encuentre la constante c que hace a f (x) una función de densidad.
c
para x = 1, 2, . . .
x(x + 1)
b) f (x) = ce−x para x = 1, 2, . . .
c
c) f (x) =
para x = 1, 2, . . .
x!
d ) f (x) = cx2 para 0 < x < 1.
a) f (x) =
e) f (x) = cxe−2x
f ) f (x) =
cx−2
2
para x > 0.
para x > 1.
cex
para x ∈ R.
(1 + ex )2
h) f (x) = cx(1 − x) para 0 < x < 1.
c
para 0 < x < 1.
i ) f (x) = √
1 − x2
c
j ) f (x) =
para x ∈ R.
1 + x2
g) f (x) =
147. Demuestre que las siguientes funciones son de densidad. Encuentre
la correspondiente función de distribución y demuestre que satisface
las propiedades de toda función de distribución. Grafique ambas funciones.
a) f (x) = 2x para x ∈ [0, 1].
3
b) f (x) = x2 para x ∈ [−1, 1].
2
1
c) f (x) = 1 − x para x ∈ [0, 2].
2
2
d ) f (x) = 2 x para x ∈ [0, m] con m > 0.
m
1
e) f (x) =
para x ∈ [0, 1/2].
(1 − x)2
1
f ) f (x) = e|x| para x ∈ R.
2
148. Demuestre que las siguientes funciones son de distribución. Encuentre
la correspondiente función de densidad y compruebe que efectivamente
es una función de densidad. Grafique ambas funciones.
52
a) F (x) =
0
1

 0
x
b) F (x) =

1
si x < 0,
si x ≥ 0.
si x ≤ 0,
si 0 < x < 1,
si x ≥ 1.
ex
.
1 + ex
Z
1 x −|u|
d ) F (x) =
e
du.
2 −∞
c) F (x) =
149. Sea f (x) una función de densidad y sea c una constante. Demuestre
que f (x + c) es también una función de densidad.
150. Diga falso o verdadero. Demuestre en cada caso.
a) Toda función de densidad es acotada.
b) Toda función de distribución es acotada.
151. Sea X absolutamente continua y sea Y = aX + b con a 6= 0, b constantes. Demuestre que
fY (y) =
2.4.
1
fX ((y − b)/a).
|a|
Integral de Riemann-Stieltjes
En esta sección se define la integral de Riemann-Stieltjes. Ésta es una integral de la forma
Z b
h(x) dF (x)
a
y constituye una generalización de la integral de Riemann. Las funciones
h(x) y F (x) deben cumplir ciertas propiedades para que la integral tenga
sentido y esté bien definida. Al integrando h(x) se le pide inicialmente que
sea una función acotada en el intervalo [a, b], aunque después se relajará esta
condición. A la función integradora F (x) se le pide que sea continua por la
derecha, monótona no decreciente y tal que F (∞)−F (−∞) < M para algún
número M > 0. Observe que F (x) debe cumplir propiedades casi idénticas
a las de una función de distribución y de hecho la notación es la misma.
Esto no es coincidencia pues usaremos las funciones de distribución como
funciones integradoras.
Presentamos a continuación la definición de la integral de Riemann- Stieltjes
bajo las condiciones arriba señaladas. En [8] puede encontrarse una exposición más completa y rigurosa de esta integral. Nuestro objetivo en esta sección es simplemente presentar la definición y mencionar algunas propiedades.
53
Sea {a = x0 < x1 < · · · < xn = b} una partición finita del intervalo [a, b] y
defina
h̄(xi ) = sup{h(x) : xi−1 ≤ x ≤ xi },
h(xi ) = ı́nf{h(x) : xi−1 ≤ x ≤ xi }.
Se define la suma superior e inferior de Riemann-Stieltjes como sigue
S̄n =
Sn =
n
X
i=1
n
X
i=1
h̄(xi )[F (xi ) − F (xi−1 )],
h(xi )[F (xi ) − F (xi−1 )].
Ahora se hace n tender a infinito de tal forma que la longitud máx{|xi −
xi−1 | : 1 ≤ i ≤ n} tienda a cero. Si sucede que
−∞ < lı́m S n = lı́m S̄n < ∞,
n→∞
n→∞
entonces el valor común se denota por
Z b
h(x) dF (x),
a
y se le llama la integral de Riemann-Stieltjes de la función h(x) respecto
de la función F (x) sobre el intervalo [a, b]. Cuando la función h(x) no es
acotada se define

si h(x) < N,
 −N
h(x) si |h(x)| ≤ N,
hN (x) =

N
si h(x) > N.
y entonces
Z
b
h(x) dF (x) = lı́m
a
Z
N →∞ a
b
hN (x) dF (x),
cuando este lı́mite existe. Se puede extender la definición de esta integral de
la siguiente forma
Z b
Z ∞
h(x) dF (x),
h(x) dF (x) = lı́m
−∞
a,b→∞ a
cuando el lı́mite del lado derecho exista.
La integral de Riemann-Stieltjes tiene muchas propiedades semejantes a la
integral de Riemann. Enunciaremos a continuación algunas de ellas. Primeramente es lineal tanto en el integrando como en el integrador, es decir, si α
es constante entonces
Z b
Z b
Z b
(αh1 (x) + h2 (x)) dF (x) = α
h1 (x) dF (x) +
h2 (x) dF (x),
a
a
a
Z b
Z b
Z b
h(x) d(αF1 (x) + F2 (x)) = α
h(x) dF1 (x) +
h(x) dF2 (x).
a
a
54
a
Cuando h(x) tiene primera derivada continua se cumple la fórmula
Z b
Z b
h(x) dF (x) = h(b)F (b) − h(a)F (a) −
F (x)h′ (x) dx.
a
a
De particular importancia en la teorı́a de la probabilidad son los siguientes
dos casos particulares. Cuando F (x) es diferenciable entonces
Z b
Z b
h(x) dF (x) =
h(x)F ′ (x) dx.
a
a
De modo que integrar respecto de una función de distribución absolutamente
continua se reduce a efectuar una integral de Riemann. El otro caso interesante sucede cuando F (x) es constante excepto en los puntos x1 , x2 , . . . en
donde tiene saltos positivos de tamaño p(x1 ), p(x2 ), . . . respectivamente y
h(x) es continua. En este caso y suponiendo convergencia
Z b
∞
X
h(xi )p(xi ).
h(x) dF (x) =
a
i=1
Por lo tanto integrar respecto de la función de distribución de una variable
aleatoria discreta se reduce a efectuar una suma. Finalmente enunciamos
la propiedad que ilustra el hecho de que la integral de Riemann es un caso
particular de la integral de Riemann-Stieltjes. Cuando F (x) = x se cumple
Z b
Z b
h(x) dx.
h(x) dF (x) =
a
a
EJERCICIOS
152. Sea F (x) una función de distribución absolutamente continua. Demuestre que para cualesquiera números naturales n y m
Z ∞
m
.
F n (x) dF m (x) =
n
+
m
−∞
2.5.
Caracterı́sticas numéricas
Se estudian a continuación algunas caracterı́sticas numéricas asociadas a
variables aleatorias. Se definen los conceptos de esperanza, varianza y más
generalmente los momentos de una variable aleatoria utilizando la integral
de Riemann-Stieltjes.
2.5.1.
Esperanza
La esperanza de una variable aleatoria es un número que representa el
promedio ponderado de los posible valores que toma la variable aleatoria
y se calcula como se indica a continuación.
55
Definición 17 Sea X con función de distribución F (x) y sea g : R → R
una función Borel medible. La esperanza de g(X) denotada por E[g(X)] se
define como el número
Z ∞
E[g(X)] =
g(x) dF (x).
−∞
cuando esta integral sea absolutamente convergente.
En particular, cuando g(x) = x y suponiendo que la integral existe,
Z ∞
E(X) =
x dF (x).
−∞
A la esperanza se le conoce también con el nombre de: “media”, “valor
esperado”, “valor promedio” o “valor medio”, y en general se usa la letra
griega µ (mu) para denotarla. Cuando X es discreta con función de densidad
f (x) su esperanza, si existe, se calcula como sigue
X
E(X) =
xf (x).
x
Cuando X es absolutamente continua con función de densidad f (x) entonces
su esperanza, si existe, es
Z ∞
E(X) =
xf (x) dx.
−∞
La integral o suma arriba mencionados pueden no existir y en ese caso se
dice que la variable aleatoria no tiene esperanza finita. Véase el ejercicio 156
en la página 57 para algunos ejemplos de esta situación. Se muestran a
continuación algunos ejemplos sencillos del cálculo de la esperanza.
Ejemplo 10 Sea X discreta con valores en el conjunto {1, 2, . . .} y con
función de densidad f (x) = P (X = x) = 1/2x . Entonces
E(X) =
∞
X
x=1
∞
X
x
xf (x) =
= 1.
2x
x=1
Ejemplo 11 Sea X continua con función de densidad f (x) = 2x para 0 <
x < 1. Entonces
Z 1
Z ∞
2
x · 2x dx = .
xf (x) dx =
E(X) =
3
0
−∞
Más generalmente,
n
E(X ) =
Z
∞
n
x f (x) dx =
−∞
Z
0
56
1
xn · 2x dx =
2
.
n+2
Establecemos a continuación algunas propiedades de la esperanza.
Proposición 32 Sean X y Y con esperanza finita y sea c una constante.
Entonces
1. E(c) = c.
2. E(cX) = cE(X).
3. Si X ≥ 0 entonces E(X) ≥ 0.
4. Si X ≤ Y entonces E(X) ≤ E(Y ).
5. E(X + Y ) = E(X) + E(Y ).
Las cuatro primeras propiedades de la esperanza se siguen directamente de
la definición.
EJERCICIOS
153. Calcule la esperanza de X, si existe, cuando ésta tiene función de
densidad
a) f (x) =
b) f (x) =
1
5 para x
1 1
e x! para
= −2, −1, 0, 1, 2.
x = 0, 1, 2, . . ..
154. Calcule la esperanza de X, si existe, cuando ésta tiene función de
densidad
a) f (x) = |x| para −1 < x < 1.
b) f (x) = 21 e|x| para x ∈ R.
155. Sean X con esperanza finita y sea c una constante. Demuestre que
a) E(c) = c.
b) E(cX) = cE(X).
c) E(X + c) = E(X) + c.
d ) Si X ≥ 0 entonces E(X) ≥ 0.
e) Si X ≤ Y entonces E(X) ≤ E(Y ).
156. Demuestre que E(X) no existe cuando X tiene función de densidad
1
para x = 1, 2, . . .
x(x + 1)
3
b) f (x) = 2 2 para x ∈ Z − {0}.
π x
a) f (x) =
57
1
para x > 1.
x2
1
d ) f (x) =
para x ∈ R.
π(1 + x2 )
c) f (x) =
157. (La paradoja de San Petersburgo.) Se lanza una moneda equilibrada
repetidas veces hasta que una de las caras en particular aparece por
primera vez. Si n es el número de lanzamientos realizados entonces un
jugador recibe 2n unidades monetarias. ¿Cuál debe ser el pago inicial
justo para ingresar a este juego?
158. Sea {A1 , A2 , . . .} una colección de eventos que forman una partición de
Ω tal que P (Ai ) > 0 para i ≥ 1. Sea X una variable aleatoria discreta
con esperanza finita. Para cualquier evento A con probabilidad positiva
defina
X
E(X|A) =
xP (X = x|A).
x
Demuestre que
E(X) =
∞
X
E(X|Ai )P (Ai ).
i=1
159. Demuestre que
a) E(mı́n{X, Y }) ≤ mı́n{E(X), E(Y )}.
b) E(máx{X, Y }) ≥ máx{E(X), E(Y )}.
160. Sea X > 0 con esperanza finita. Demuestre que
1
1
≤E
.
E(X)
X
161. Sea X ≥ 0 discreta con valores x1 , . . . , xk . Demuestre que
E(X n+1 )
= máx xi ,
n→∞ E(X n )
1≤i≤k
p
n
E(X n ) = máx xi .
b) lı́m
a) lı́m
n→∞
1≤i≤k
162. Sea X discreta con valores 0, 1, . . . y con esperanza finita. Demuestre
que
∞
X
E(X) =
P (X ≥ n).
n=1
163. Sea X ≥ 0 con esperanza finita y sea p ∈ (0, 1). Suponga que se cumple
P (X ≥ k) ≤ pk para k = 0, 1, . . . Demuestre que
E(X) ≤
58
1
.
1−p
164. Sea X ≥ 0 con esperanza finita y para cada número natural n defina
el evento An = (n − 1 ≤ X < n). Demuestre que
∞
X
n=1
(n − 1)1An ≤ X <
∞
X
n1An .
n=1
En consecuencia demuestre las desigualdades
∞
X
n=1
P (X ≥ n) ≤ E(X) < 1 +
∞
X
n=1
P (X ≥ n).
165. Sea X con función de distribución F (x) y con esperanza finita. Demuestre que
Z 0
Z ∞
F (x)dx.
[1 − F (x)]dx −
E(X) =
−∞
0
166. Sea X con media µ y función de distribución continua F (x). Demuestre
que
Z
Z
µ
F (x)dx =
−∞
∞
µ
[1 − F (x)]dx.
167. Sea X con función de distribución F (x) y con esperanza finita. Demuestre que
a) lı́m x[1 − F (x)] = 0.
x→∞
b)
2.5.2.
lı́m xF (x) = 0.
x→−∞
Varianza
La varianza de una variable aleatoria es una medida del grado de dispersión
de los diferentes valores tomados por la variable aleatoria. Su definición es
la siguiente.
Definición 18 La varianza de X, denotada por Var(X), se define como el
número no negativo
Var(X) = E (X − E(X))2
cuando esta esperanza existe.
Cuando X es discreta con función de densidad f (x) y esperanza finita µ, la
varianza de X, cuando existe, se calcula como sigue
X
Var(X) =
(x − µ)2 f (x).
x
59
Cuando X es absolutamente continua con función de densidad f (x) y esperanza finita µ entonces la varianza de X, cuando existe, es
Z ∞
Var(X) =
(x − µ)2 f (x) dx.
−∞
La varianza se denota regularmente por el sı́mbolo σ 2 (sigma cuadrada).
Nuevamente la varianza puede no existir y en ese caso decimos que la variable aleatoria no tiene varianza finita. Observe que para calcular Var(X) se
necesita conocer primero E(X).
Proposición 33 Sean X y Y con varianza finita. Entonces
1. Var(X) ≥ 0.
2. Var(c) = 0.
3. Var(cX) = c2 Var(X).
4. Var(X + c) = Var(X).
5. Var(X) = E(X 2 ) − E 2 (X).
La demostración de estas propiedades es sencilla pues todas ellas se siguen
directamente de la definición y de la propiedad lineal de esperanza. Otras
propiedades de la varianza aparecen más adelante.
EJERCICIOS
168. Calcule la varianza de X, si existe, cuando ésta tiene función de densidad
a) f (x) = 1/5 para x = −2, −1, 0, 1, 2.
b) f (x) = e−1 /x! para x = 0, 1, 2, . . .
169. Calcule la varianza de X, si existe, cuando ésta tiene función de densidad
a) f (x) = |x| para −1 < x < 1.
b) f (x) = 21 e|x| para x ∈ R.
170. Sean X y Y con varianza finita y sea c una constante. Demuestre que
a) Var(X) ≥ 0.
b) Var(c) = 0.
c) Var(cX) = c2 Var(X).
60
d ) Var(X + c) = Var(X).
e) Var(X) = E(X 2 ) − E 2 (X).
171. Sea X con valores en [a, b]. Demuestre que
a) a ≤ E(X) ≤ b.
b) 0 ≤ Var(X) ≤ (b − a)2 /4.
172. Sea X con varianza finita. Demuestre que la función g(u) = E[(X−u)2 ]
se minimiza cuando u = E(X). En consecuencia para cualquier valor
de u,
Var(X) ≤ E[(X − u)2 ].
173. Sea c una constante. Demuestre que
E(X − c)2 = Var(X) + [E(X) − c]2 .
174. Sea X con media µ y varianza σ 2 . Demuestre que
E|X − µ| ≤ σ.
Sugerencia: Var(|X − µ|) ≥ 0.
175. Diga falso o verdadero. Demuestre en cada caso.
a) Si X ≤ Y entonces Var(X) ≤ Var(Y ).
b) Var(X) ≤ E(X 2 ).
2.5.3.
Momentos
Los momentos de una variable aleatoria son números que representan alguna caracterı́stica de la distribución de probabilidad asociada. Bajo ciertas
condiciones el conjunto de momentos determinan de manera única a la distribución de probabilidad.
Definición 19 Sea X una v.a. con esperanza µ y sea n un número natural.
Cuando existe,
1. E(X n ) es el n-ésimo “momento” de X.
2. E|X|n es el n-ésimo “momento absoluto” de X.
3. E[(X − µ)n ] es el n-ésimo “momento central” de X.
4. E|X − µ|n es el n-ésimo “momento central absoluto” de X.
Observe que el primer momento de X es E(X) y el segundo momento central
es Var(X). Bajo ciertas condiciones los momentos de una variable aleatoria
61
determinan la distribución de probabilidad de la misma. Por ejemplo, si X
es tal que E(X), E(X 2 ), . . . son todos finitos y si se cumple que la serie
∞ n
X
t
n=0
n!
E(X n )
es absolutamente convergente para algún t > 0, entonces la sucesión de
momentos determina de manera única a la distribución de X. Las condiciones enunciadas para la determinación de la distribución de probabilidad
son suficientes pero no necesarias.
EJERCICIOS
176. Calcule el n-ésimo momento de X, si exsite, cuando ésta tiene función
de densidad
a) f (x) = 1/5 para x = −2, −1, 0, 1, 2.
b) f (x) = e−1 /x! para x = 0, 1, 2, . . .
177. Calcule el n-ésimo momento de X, si existe, cuando ésta tiene función
de densidad
a) f (x) = |x| para −1 < x < 1.
b) f (x) = 21 e|x| para x ∈ R.
178. Sea X tal que E|X|n < ∞ para algún natural n. Demuestre que para
m = 1, . . . , n,
E|X|m ≤ E|X|n .
Esta desigualdad establece que los momentos absolutos anteriores a n
existen cuando el n-ésimo existe.
179. Sea A un evento y sea 1A la función indicadora de A. Demuestre que
a) E(1A ) = P (A).
b) E(1nA ) = P (A).
c) Var(1A ) = P (A)(1 − P (A)).
d ) Var(1A ) ≤ 14 .
180. Sea X ≥ 0 con n-ésimo momento finito. Demuestre que
Z ∞
n
E(X ) = n
xn−1 [1 − F (x)] dx.
0
181. Sea X discreta con valores 0, 1, . . . y con segundo momento finito.
Demuestre que
2
E(X ) =
∞
X
n=1
(2n − 1)P (X ≥ n).
62
182. (Desigualdad de Cauchy-Schwarz.) Sean X y Y con segundo momento
finito. Demuestre que
E 2 (XY ) ≤ E(X 2 )E(Y 2 ).
Sugerencia: Observe que para cualquier valor real de t, E[(tX +Y )2 ] ≥
0. Desarrolle el cuadrado y encuentre una ecuación cuadrática en t,
¿qué puede decir de su discriminante?
183. Use la desigualdad de Cauchy-Schwarz para demostrar que el espacio
L2 (Ω, F, P ) consistente de todas las variables aleatorias X tales que
E|X|2 < ∞, es un espacio vectorial.
184. Demuestre que si X es una variable aleatoria acotada, es decir, existe
k > 0 tal que P (|X| ≤ k) = 1, entonces todos los momentos de X
existen.
2.6.
Distribuciones discretas
En esta sección se estudian algunas distribuciones discretas de probabilidad
de uso común. Véase el apéndice A al final del libro para algunas otras
distribuciones de probabilidad o para consultar algunas otras propiedades
de las distribuciones enunciadas en esta sección.
Distribución uniforme discreta. Se dice que X tiene una distribución
uniforme sobre el conjunto {x1 , . . . , xn } si la probabilidad de que X tome
cualquiera de estos valores es 1/n. Esta distribución surge en espacios de
probabilidad equiprobables, esto es, en situaciones en donde se tienen n
resultados diferentes y todos ellos tienen la misma probabilidad de ocurrir. Los juegos de loterı́a justos son un ejemplo donde puede aplicarse esta
distribución. Se escribe X ∼ unif{x1 , . . . , xn } y para x = x1 , . . . , xn
f (x) = P (X = x) =
1
.
n
La gráfica de la función de densidad unif{1, 2, 3, 4, 5, 6, 7} aparece en la
figura 2.1. Es fácil ver que
n
E(X) =
1X
xi ,
n
i=1
Var(X) =
n
1X
(xi − E(X))2 .
n
i=1
EJERCICIOS
185. Sea X con distribución unif{1, . . . , n}. Demuestre que
63
fHxL
1
€€€€
7
1
2
4
3
5
6
7
x
Figura 2.1: Función de densidad de la distribución unif{1, 2, 3, 4, 5, 6, 7}.
n+1
.
2
(n + 1)(2n + 1)
b) E(X 2 ) =
.
6
n2 − 1
.
c) Var(X) =
12
a) E(X) =
186. Se escogen al azar y de manera independiente dos números a y b dentro del conjunto {1, . . . , n}. Demuestre que la probabilidad de que el
cociente a/b sea menor o igual a uno es (n + 1)/2n.
Distribución Bernoulli. Un “ensayo Bernoulli” es un experimento aleatorio con únicamente dos posibles resultados, llamados genéricamente “éxito”
y “fracaso”, y con probabilidades respectivas p y 1 − p. Se define la variable
aleatoria X como aquella función que lleva el resultado ”éxito” al número
1 y el resultado ”fracaso” al número 0. Entonces se dice que X tiene una
distribución Bernoulli con parámetro p ∈ (0, 1). Se escribe X ∼ Ber(p) y la
correspondientes función de densidad es

 1 − p si x = 0,
p
si x = 1,
f (x) =

0
otro caso.
La gráfica de la función de densidad de la distribución Ber(p) para p =0.7
aparece en la figura 2.2. Es sencillo verificar que
E(X) = p,
Var(X) = p(1 − p).
EJERCICIOS
187. Compruebe que la función de densidad de la distribución Ber(p) efectivamente lo es. Obtenga además la correspondiente función de distribución. Grafique ambas funciones.
64
fHxL
0.7
0.3
x
1
Figura 2.2: Función de densidad de la distribución Ber(p) para p = 0,7.
188. Sea X con distribución Ber(p). Demuestre que
a) E(X) = p.
b) E(X n ) = p para n ≥ 1.
c) Var(X) = p(1 − p).
Distribución binomial. Suponga que se realizan n ensayos independientes
Bernoulli en donde la probabilidad de éxito en cada uno de ellos es p. Si
denotamos por E el resultado “éxito” y por F el resultado “fracaso” entonces
el espacio muestral consiste de todas las posibles sucesiones de tamaño n
de caracteres E y F. Usando el principio multiplicativo, es fácil ver que el
conjunto Ω tiene 2n elementos. Si ahora se define la variable aleatoria X
como el número de éxitos en cada una de estas sucesiones entonces X toma
los valores 0, 1, . . . , n y se dice que X tiene una distribución binomial con
parámetros n y p. Se escribe X ∼ bin(n, p) y para x = 0, 1, . . . , n
n
px (1 − p)n−x .
f (x) = P (X = x) =
x
fHxL
fHxL
fHxL
0.3
0.3
0.3
0.2
0.2
0.2
0.1
0.1
0.1
1
2
3
4
5
6
7
8
(a)
9 10
x
1
2
3
4
5
(b)
6
7
8
9 10
x
1
2
3
4
5
6
7
8
9 10
x
(c)
Figura 2.3: Función de densidad de la distribución bin(n, p) para n = 10 y (a) p = 0,3,
(b) p = 0,5, (c) p = 0,7.
En la figura 2.3 se muestra el comportamiento de la función de densidad de
la distribución bin(n, p) para n = 10 y varios valores del parámetro p. Se
65
puede demostrar que
E(X) = np,
Var(X) = np(1 − p).
EJERCICIOS
189. Use el teorema del binomio para comprobar que la función de densidad
de la distribución bin(n, p) efectivamente lo es.
190. Sea X con distribución bin(n, p). Demuestre que
a)
b)
c)
d)
e)
E(X) = np.
E(X 2 ) = np(1 − p + np).
Var(X) = np(1 − p).
E(X − np)3 = npq(q − p).
E(X − np)4 = 3n2 p2 q 2 + npq(1 − 6qp).
191. Sea X con distribución bin(n, p). Demuestre que Y = n − X tiene
distribución bin(n, 1 − p).
192. Sea X con distribución bin(n, p). Demuestre que
n−x
p
·
· P (X = x).
1−p x+1
b) P (X = x − 1)P (X = x + 1) ≤ P 2 (X = x).
a) P (X = x + 1) =
193. Se lanza una moneda equilibrada 6 veces. Calcule la probabilidad de
que cada cara caiga exactamente 3 veces.
194. Se lanza una moneda equilibrada 2n veces. Calcule la probabilidad de
que ambas caras caigan el mismo número de veces.
Distribución geométrica. Suponga que se tiene una sucesión infinita de
ensayos independientes Bernoulli. Se define X como el número de fracasos
antes de obtener el primer éxito. Se dice entonces que X tiene una distribución geométrica con parámetro p. Se escribe X ∼ geo(p) y para x = 0, 1, . . .
f (x) = P (X = x) = p(1 − p)x .
La gráfica de la función de densidad geo(p) aparece en la figura 2.4 para
p =0.4. Para la distribución geo(p) se tiene que
E(X) =
Var(X) =
1−p
,
p
1−p
.
p2
En algunos textos se define también la distribución geométrica como el
número de ensayos (no el de fracasos) antes del primer éxito. La distribución
cambia ligeramente.
66
fHxL
0.4
0.3
0.2
0.1
1
2
3
4
5
6
7
8
9 10
x
Figura 2.4: Función de densidad de la distribución geo(p) con p = 0,4.
EJERCICIOS
195. Compruebe que la función de densidad de la distribución geo(p) efectivamente lo es.
196. Sea X con distribución geo(p). Demuestre que
1−p
.
p
1−p
b) Var(X) =
.
p2
a) E(X) =
197. Sea X con distribución geo(p). Demuestre que P (X ≥ n) = (1 − p)2 .
Ahora use este resultado y la fórmula del ejercicio 162 en la página 58
para demostrar que E(X) = (1 − p)/p.
198. Sea X con distribución geo(p). Demuestre que
P (X ≥ x + y | X ≥ x) = P (X ≥ y).
Distribución Poisson. Se dice que X tiene una distribución Poisson con
parámetro λ > 0 y se escribe X ∼ Poisson(λ) cuando para x = 0, 1, . . .
f (x) = P (X = x) =
λx −λ
e .
x!
En la figura 2.5 aparece la gráfica de la función de densidad de la distribución
Poisson(λ) para λ = 2. Puede demostrarse que
E(X) = λ,
Var(X) = λ.
67
fHxL
0.3
0.2
0.1
1
2
3
4
5
6
7
8
x
Figura 2.5: Función de densidad de la distribución Poisson(λ) con λ = 2.
EJERCICIOS
199. Compruebe que la función de densidad de la distribución Poisson(λ)
efectivamente lo es.
200. Sea X con distribución Poisson(λ). Demuestre que
a) E(X) = λ.
b) E(X 2 ) = λ(λ + 1).
c) Var(X) = λ.
d ) E(X 3 ) = λE(X + 1)2 .
201. Sean X y Y independientes ambas con distribución Poisson con parámetros λ1 y λ2 respectivamente. Demuestre que X + Y tiene distribución
Poisson(λ1 + λ2 ).
202. Sea X con distribución Poisson(λ). Demuestre que
λ
· P (X = x).
x+1
b) P (X = x − 1)P (X = x + 1) ≤ P 2 (X = x).
a) P (X = x + 1) =
203. Sea X con distribución Poisson(λ). Demuestre que
1
a) P (X ∈ {1, 3, 5, . . .}) = (1 − e−2λ ).
2
1
b) P (X ∈ {0, 2, 4, . . .}) = (1 + e−2λ ).
2
204. Convergencia de la distribución binomial a la Poisson. Para cada entero positivo n, sea Xn con distribución bin(n, λ/n) con λ > 0. Demuestre que para k = 0, 1, . . .
lı́m P (Xn = k) = e−λ
n→∞
68
λk
k!
Distribución binomial negativa. Suponga una sucesión infinita de ensayos independientes Bernoulli en donde la probabilidad de éxito en cada
ensayo es p. Sea X el número de fracasos antes de obtener el r-ésimo éxito. Se dice entonces que X tiene una distribución binomial negativa con
parámetros r y p. Se escribe X ∼ bin beg(r, p) y para x = 0, 1 . . .
r+x−1
pr (1 − p)x .
f (x) = P (X = x) =
x
Es claro que esta distribución es una generalización de la distribución geométrica, la cual se obtiene cuando r = 1. Se puede demostrar que
E(X) =
Var(X) =
r(1 − p)
p
r(1 − p)
.
p2
EJERCICIOS
205. Compruebe que la función de densidad de la distribución bin neg(r, p)
efectivamente lo es.
206. Sea X con distribución bin neg(r, p). Demuestre que
r(1 − p)
.
p
r(1 − p)
.
b) Var(X) =
p2
a) E(X) =
Distribución hipergeométrica. Suponga que se tiene un conjunto de N
objetos de los cuales K son de una primera clase y N −K son de una segunda
clase. Suponga que de este conjunto se toma una muestra de tamaño n, la
muestra es sin reemplazo y el orden de los objetos seleccionados no importa.
Se define X como el número de objetos de la primera clase contenidos en
la muestra seleccionada. Entonces X puede tomar los valores 0, 1, 2, . . . , n,
suponiendo n ≤ K. Decimos que X tiene una distribución hipergeométrica
con parámetros N , K y n. Se escribe X ∼ hipergeo(N, K, n) y para x =
0, 1, . . . , n
N −K
K
n−x
x
.
f (x) = P (X = x) =
N
n
Es posible comprobar que
K
,
N
K N −K N −n
.
Var(X) = n
N N N −1
E(X) = n
69
EJERCICIOS
207. Compruebe que la función de densidad de la distribución hipergeo(N, K, n)
efectivamente lo es.
208. Sea X con distribución hipergeo(N, K, n). Demuestre que cuando N, K
y N −K tienden a infinito de tal forma que K/N → p y (N −K)/N →
(1 − p) entonces
n
px (1 − p)n−x .
P (X = x) →
x
2.7.
Distribuciones continuas
Ahora se estudian algunas distribuciones de probabilidad de variables aleatorias continuas. Algunas otras distribuciones continuas serán estudiadas en
el Capı́tulo 5 que trata sobre distribuciones de probabilidad que surgen en
la estadı́stica.
Distribución uniforme continua. Se dice que X tiene distribución uniforme en el intervalo (a, b) y se escribe X ∼ unif(a, b), cuando para x ∈ (a, b),
f (x) =
1
.
b−a
En la figura 2.6 se muestra la gráfica de la función de densidad unif(a, b)
fHxL
1
€€€€
2
1
2
3
4
x
Figura 2.6: Función de densidad unif(a, b) con a = 1 y b = 3.
con a = 1 y b = 3. Es fácil verificar que
E(X) =
Var(X) =
70
a+b
,
2
(b − a)2
.
12
EJERCICIOS
209. Compruebe que la función de densidad de la distribución unif(a, b)
efectivamente lo es. Calcule además la correspondiente función de distribución. Grafique ambas funciones.
210. Sea X con distribución unif(a, b). Demuestre que
a+b
.
2
bn+1 − an+1
b) E(X n ) =
.
(n + 1)(b − a)
a) E(X) =
c) Var(X) =
(b − a)2
.
12
211. Sea X con distribución unif(0, 1). Demuestre que E(X n ) = 1/(n + 1).
212. Sea X con distribución unif(−1, 1). Demuestre que

 1
si n es par,
E(X n ) =
n+1
 0
si n es impar.
213. Sea X con distribución unif(0, 1). Obtenga la distribución de
a) Y = 10X − 5.
b) Y = 4X(1 − X).
214. Sea X con distribución unif(0, 1) y sea 0 < p < 1. Demuestre que la
variable aleatoria Y = 1 + ⌊ln X/ ln p⌋ tiene distribución geo(p). La
expresión ⌊x⌋ denota la parte entera de x.
Distribución exponencial. Se dice que X tiene una distribución exponencial con parámetro λ > 0 y se escribe X ∼ exp(λ) cuando para x > 0,
f (x) = λe−λx .
La gráfica de la función de densidad exponencial para λ = 3 aparece en la
figura 2.7. Es muy sencillo verificar que
E(X) =
Var(X) =
1
,
λ
1
.
λ2
EJERCICIOS
215. Compruebe que la función de densidad de la distribución exp(λ) efectivamente lo es.
71
fHxL
3
2
1
1
2
x
Figura 2.7: Función de densidad exp(λ) con λ = 3.
216. Sea X con distribución exp(λ). Demuestre que
a) F (x) = 1 − e−λx para x > 0.
b) F (x + y) − F (y) = F (x)[1 − F (y)] para x, y > 0.
217. Sea X con distribución exp(λ). Demuestre que
a) E(X) =
1
.
λ
b) Var(X) =
1
.
λ2
218. Sea X con distribución exp(λ). Demuestre que
P (X ≥ x + y | X ≥ x) = P (X ≥ y).
La distribución exponencial es la única distribución continua que satisface esta propiedad llamada “pérdida de memoria”.
219. Sea X una variable aleatoria con función de distribución F (x) continua, estrictamente creciente y tal que 0 < F (x) < 1. Demuestre que la
variable aleatoria Y = − ln F (X) tiene distribución exp(λ) con λ = 1.
220. Se dice que X tiene distribución exponencial bilateral (o doble) con
parámetro λ > 0 si su función de densidad es, para x en R,
1
f (x) = λe−λ|x| .
2
Demuestre que
a) E(X) = 0.
b) Var(X) =
2
.
λ2
Distribución gama. Se dice que X tiene distribución gama con parámetros
λ > 0 y n > 0 si para x > 0,
f (x) =
λ
(λx)n−1 e−λx .
Γ(n)
72
En tal caso se escribe X ∼ gama(n, λ). La gráfica de la función de densidad
fHxL
1
€€€€
5
1
€€€€€€€
10
1
2
4
3
x
Figura 2.8: Función de densidad gama(λ, n) con λ = 3 y n = 5.
gama para λ = 3 y n = 5 aparece en la figura 2.8. El término Γ(n) es la
“función gama” definida como sigue
Z ∞
Γ(n) =
tn−1 e−t dt
0
para valores de n tal que la integral es convergente. Esta función satisface
las siguientes propiedades
1. Γ(n + 1) = nΓ(n).
2. Γ(n + 1) = n! para n entero positivo.
3. Γ(2) = Γ(1) = 1.
√
4. Γ(1/2) = π.
Observe que cuando n = 1 la distribución gama(n, λ) se reduce a la distribución exp(λ). Resolviendo un par de integrales se puede demostrar que
E(X) =
Var(X) =
n
,
λ
n
.
λ2
EJERCICIOS
221. Compruebe que la función de densidad de la distribución gama(n, λ)
efectivamente lo es.
222. Demuestre que la distribución gama(n, λ) con n = 1 se reduce a la
distribución exp(λ).
73
223. Sea X con distribución gama(n, λ). Demuestre que la función de distribución de X es, para x > 0,
F (x) = 1 −
n−1
X
j=0
e−λx
(λx)j
.
j!
224. Sea X con distribución gama(n, λ). Demuestre que
n
a) E(X) = .
λ
Γ(m + n)
b) E(X m ) = m
para m = 1, 2, . . ..
λ Γ(n)
n
c) Var(X) = 2 .
λ
225. Demuestre las siguientes propiedades de la función gama.
a)
b)
c)
d)
Γ(n + 1) = nΓ(n).
Γ(n + 1) = n! para n entero.
Γ(2) = Γ(1) = 1.
√
Γ(1/2) = π.
1 · 3 · 5 · · · (2n − 1) √
e) Γ(n + 1/2) =
π para n entero.
2n
Distribución beta. Se dice que X tiene distribución beta con parámetros
a > 0 y b > 0, y se escribe X ∼ beta(a, b) cuando para x ∈ (0, 1),
f (x) =
1
xa−1 (1 − x)b−1 .
B(a, b)
En la figura 2.9 aparece la gráfica de la función de densidad beta(a, b) para
fHxL
2
1
0.5
1
x
Figura 2.9: Función de densidad beta(a, b). De derecha a izquierda a = 2 y b = 6, a = 4
y b = 4, a = 6 y b = 2. La linea horizontal corresponde a a = 1 y b = 1.
varios valores de los parámetros a y b. El término B(a, b) se conoce como la
“función beta” y se define como sigue
Z 1
B(a, b) =
xa−1 (1 − x)b−1 dx,
0
74
para a > 0 y b > 0. Esta función satisface las siguientes propiedades.
1. B(a, b) = B(b, a).
2. B(a, b) =
Γ(a)Γ(b)
.
Γ(a + b)
En este caso
E(X) =
Var(X) =
a
,
a+b
ab
.
(a + b + 1)(a + b)2
EJERCICIOS
226. Compruebe que la función de densidad de la distribución beta(a, b)
efectivamente lo es.
227. Sea X con distribución beta(a, b). Demuestre que
a
.
a+b
B(a + n, b)
b) E(X n ) =
.
B(a, b)
ab
c) Var(X) =
.
(a + b + 1)(a + b)2
a) E(X) =
228. Sea X con distribución beta(a, b). Demuestre que
E(X)(1 − E(X))
−1 .
a) a = E(X)
Var(X)
E(X)(1 − E(X))
−1 .
b) b = (1 − E(X))
Var(X)
E(X)(1 − E(X))
c) a + b =
− 1.
Var(X)
229. Demuestre las siguientes propiedades de la función beta.
a) B(a, b) = B(b, a).
Γ(a)Γ(b)
b) B(a, b) =
.
Γ(a + b)
1
c) B(a, 1) = .
a
1
d ) B(1, b) = .
b
a
e) B(a + 1, b) = B(a, b + 1).
b
a
B(a, b).
f ) B(a + 1, b) =
a+b
75
b
B(a, b).
a+b
h) B(1/2, 1/2) = π.
g) B(a, b + 1) =
230. Sea X con distribución beta(1/2, 1/2). En este caso se dice que X tiene
una distribución arcoseno.
a) Calcule y grafique f (x).
b) Demuestre directamente que f (x) es una función de densidad.
c) Calcule directamente que E(X) = 1/2 y Var(X) = 1/8.
231. Sea X con distribución beta(a, b).

 0
xa
F (x) =

1
Demuestre que para a > 0 y b = 1,
si x ≤ 0,
si 0 < x < 1,
si x ≥ 1.
232. Sea X con distribución beta(a, b). Demuestre que para a = 1 y b > 0,

si x ≤ 0,
 0
b
1 − (1 − x) si 0 < x < 1,
F (x) =

1
si x ≥ 1.
233. Demuestre que X tiene distribución beta(a, b) si y solo si 1 − X tiene
distribución beta(b, a).
234. Demuestre que la distribución beta(a, b) con a = b = 1 se reduce a la
distribución unif(0, 1).
Distribución normal. Esta es posiblemente la distribución de probabilidad de mayor importancia. Se dice que X tiene una distribución normal o
Gausiana si su función de densidad es
f (x) = √
1
2πσ 2
e−(x−µ)
2 /2σ 2
,
en donde µ ∈ R y σ 2 > 0 son dos parámetros. Se escribe X ∼ N(µ, σ 2 ).
La gráfica de la función de densidad normal aparece en la Figura 2.10 para
µ = 3 y σ 2 = 2. No es difı́cil probar que
E(X) = µ,
Var(X) = σ 2 .
En particular se dice que X tiene una distribución normal “estándar” si
µ = 0 y σ 2 = 1. En este caso particular
1
2
f (x) = √
e−x /2 .
2π
Es posible transformar una variable aleatoria normal no estándar en una
estándar mediante la siguiente operación llamada “estandarización”.
76
fHxL
1
€€€€€€€
20
1
2
3
4
5
x
6
Figura 2.10: Función de densidad de la distribución N(µ, σ2 ) para µ = 3 y σ2 = 2.
Proposición 34 Si X ∼ N(µ, σ 2 ) entonces Z =
X −µ
∼ N(0, 1).
σ
Demostración.
FZ (z) = P (Z ≤ z)
X −µ
= P(
≤ z)
σ
= P (X ≤ µ + zσ)
= FX (µ + zσ).
Por lo tanto
fZ (z) = σfX (µ + zσ)
1
2
e−z /2 .
= √
2π
Es también fácil de demostrar que el recı́proco del resultado anterior es
válido. Comúnmente se usa la letra Z para denotar una variable aleatoria
con distribución N(0, 1). En particular se usa la notación Φ(z) = P (Z ≤ z).
EJERCICIOS
235. Demuestre que la función de densidad de la distribución N(µ, σ 2 )
a) es efectivamente una función de densidad.
b) es simétrica respecto de x = µ.
c) alcanza su máximo en x = µ.
d ) tiene puntos de inflexión en x = µ ± σ.
236. Sea X con distribución N(µ, σ 2 ). Demuestre que
a) E(X) = µ.
77
b) Var(X) = σ 2 .
237. Sea X con distribución N(µ, σ 2 ). Demuestre que
0
si n es impar,
n
E|X − µ| =
1 · 3 · 5 · · · (n − 1)σ n si n es par.
238. Demuestre que X tiene distribución N(µ, σ 2 ) si y solo si Z = (X −µ)/σ
tiene distribución N(0, 1).
239. Sea X con distribución N (0, 1). Demuestre que

 0
si n es impar,
E(X n ) =
(2n)!
 n
si n es par.
2 n!
240. Sea X con distribución N(µ, σ 2 ). Demuestre que Y = aX + b, con
a 6= 0, tiene una distribución normal. Encuentre los parámetros correspondientes.
241. Sea X con distribución N(µ, σ 2 ). Demuestre que Y = −X tiene una
distribución normal. Encuentre los parámetros correspondientes.
242. Sea X con distribución N(0, 1). Demuestre que X 2 tiene una distribución χ2 (1). Recı́procamente,
¿será cierto que si Y tiene distribución
√
2
χ (1) entonces Y tiene distribución N(0, 1)?
243. Sea X con distribución N(0, 1). Encuentre la función de densidad de
Y = |X|.
244. (El cociente de Mills.) Sea φ(x) la función de densidad de la distribución normal estándar y sea Φ(x) la correspondiente función de distribución. Demuestre que
a) φ′ (x) + xφ(x) = 0.
1
1
1 − Φ(x)
1
1
3
b)
− 3 <
< − 3+ 5
x x
φ(x)
x x
x
para x > 0.
Distribución log normal. Si X tiene distribución N(µ, σ 2 ) entonces Y =
eX tiene una distribución log normal(µ, σ 2 ) y su función de densidad es,
para y ∈ (0, ∞),
(ln y − µ)2
1
exp −
f (y) = √
.
2σ 2
y 2πσ 2
La gráfica de la función de densidad de la distribución lognormal (µ, σ 2 )
aparece en la figura 2.11 para µ = 3 y σ 2 = 2. Se puede demostrar que
E(Y ) = exp(µ + σ 2 /2),
Var(Y ) = exp(2µ + 2σ 2 ) − exp(2µ + σ 2 ).
Otras distribuciones continuas de interés se encuentran en el capı́tulo sobre
distribuciones muestrales.
78
fHxL
1
€€€€€€€
20
5
10
15
20
x
Figura 2.11: Función de densidad de la distribución log normal(µ, σ 2 ) con µ = 3 y
σ 2 = 2.
EJERCICIOS
245. Demuestre que la función de densidad de una distribución log normal(µ, σ 2 )
efectivamente lo es.
246. Sea X con distribución log normal(µ, σ 2 ). Demuestre que
a) E(X) = exp{µ + σ 2 /2}.
b) Var(X) = exp{2µ + 2σ 2 } − exp{2µ + σ 2 }.
c) E(ln X) = µ.
d ) Var(ln X) = σ 2 .
79
Capı́tulo 3
Vectores aleatorios
En este capı́tulo se extiende el concepto de variable aleatoria con valores
en R a variables aleatorias con valores en Rn y se estudian algunos conceptos relacionados. Recordemos que tenemos siempre como elemento base un
espacio de probabilidad (Ω, F, P ).
3.1.
Vectores aleatorios
Definición 20 Un vector aleatorio es una función X : Ω → Rn tal que para
cualquier conjunto B en B(Rn ), se cumple que X −1 B es un elemento de F.
Un vector aleatorio puede representarse en la forma X = (X1 , . . . , Xn ) en
donde cada Xi es una función de Ω en R. Demostraremos a continuación
que la definición anterior es equivalente a definir un vector aleatorio como
un vector de variables aleatorias.
Proposición 35 Una función X = (X1 , . . . , Xn ) : Ω → Rn es un vector
aleatorio si y solo si cada coordenada Xi : Ω → Rn es una variable aleatoria.
Demostración. Sea (X1 , . . . , Xn ) un vector aleatorio. Entonces la imagen
inversa de cualquier conjunto de Borel de Rn es un elemento de la σ-álgebra
del espacio de probabilidad. En particular, la imagen inversa del conjunto
B × Ω × · · · × Ω pertenece a F para cualquier Boreliano B de R. Pero esta
imagen inversa es simplemente X1−1 B. Esto demuestra que X1 es variable
aleatoria y de manera análoga se procede con las otras coordenadas del
vector. Suponga ahora que cada coordenada de una función (X1 , . . . , Xn ) :
80
Ω → Rn es una variable aleatoria. Considere la colección B = {B ∈ B(Rn ) :
(X1 , . . . , Xn )−1 B ∈ F}. Como cada coordenada es una variable aleatoria,
los conjuntos de Borel de Rn de la forma B1 × · · · × Bn , en donde cada Bi
es un Boreliano de R, es un elemento de la colección B. Entonces
B(R) × · · · × B(R) ⊆ B ⊆ B(Rn ).
Es fácil demostrar que la colección B es una σ-álgebra. Asi que
σ(B(R) × · · · × B(R)) ⊆ B ⊆ B(Rn ).
Pero ambos extremos de esta ecuación coinciden. De modo que B = B(Rn )
y por lo tanto la función (X1 , . . . , Xn ) es un vector aleatorio.
Para simplificar la escritura donde sea posible se usan únicamente vectores
aleatorios bidimensionales, esto es, de la forma (X, Y ). En la mayorı́a de los
casos las definiciones y resultados son fácilmente extendidos a dimensiones
mayores.
Definición 21 Se dice que el vector (X, Y ) es discreto si cada coordenada
es una v.a. discreta y es continuo en caso de que cada coordenada lo sea.
3.2.
Distribución conjunta
A menudo es necesario considerar probabilidades de eventos que involucran
a dos o mas variables aleatorias al mismo tiempo y de manera conjunta. El
concepto fundamental en este caso es el de función de distribución conjunta
que se define a continuación.
Definición 22 La función de distribución de un vector (X, Y ), denotada
por F (x, y) : R2 → [0, 1], se define como sigue
F (x, y) = P (X ≤ x, Y ≤ y).
En palabras, la función F (x, y) es la probabilidad de que X sea menor o igual
a x y al mismo tiempo Y sea menor o igual que y, esto es la probabilidad del
evento (X ≤ x) ∩ (Y ≤ y). A la función F (x, y) se le conoce también como
“función de distribución bivariada” de X y Y . Cuando sea necesario especificarlo se escribe FX,Y (x, y) en lugar de F (x, y) y debe ser claro la forma de
extender la definición para el caso de un vector aleatorio multidimensional.
Las funciones de distribución conjuntas satisfacen propiedades semejantes
al caso unidimensional. Estudiaremos a continuación algunas de ellas.
Proposición 36 La distribución conjunta F (x, y) satisface las siguientes
propiedades.
81
1.
2.
lı́m F (x, y) = 1.
x,y→∞
lı́m
x,y→−∞
F (x, y) = 0.
3. F (x, y) es no decreciente en cada variable.
4. F (x, y) es continua por la derecha en cada variable.
5. Si a < b y c < d entonces
F (b, d) − F (a, d) − F (b, c) + F (a, c) ≥ 0.
La demostración de las propiedades (1)-(4) es completamente análoga al
caso unidimensional y por tanto la omitiremos. Respecto a la propiedad (5)
observe que
F (b, d) − F (a, d) − F (b, c) + F (a, c) = P (a < X ≤ b, c < Y ≤ d).
De modo que (5) se traduce simplemente en solicitar que la probabilidad de
que (X, Y ) tome valores en el cuadrado (a, b]×(c, d] sea no negativa. A diferencia del caso unidimensional, las propiedades (1) a (4) no son suficientes
para asegurar que una función F (x, y) asigna probabilidad no negativa a
cualquier cuadrado (a, b] × (c, d]. Véase por ejemplo el ejercicio 250 en la
página 83 en donde tal condición falla. Por tanto en el caso de dimensión
dos y superiores es necesario pedir tal condición.
Definición 23 Una función cualquiera F (x, y) : R2 → [0, 1], no necesariamente definida en términos de un vector aleatorio, es una función de distribución conjunta si cumple con las cinco propiedades enunciadas en la
proposición anterior.
Para tres dimensiones se dice que F (x1 , x2 , x3 ) : R3 → [0, 1] es una función
de distribución si cumple las primeras cuatro propiedades anteriores y la
quinta se reemplaza por la siguiente condición. Para cualesquiera números
reales a1 < b1 , a2 < b2 y a3 < b3 ,
F (b1 , b2 , b3 ) − F (a1 , b2 , b3 ) − F (b1 , a2 , b3 ) − F (b1 , b2 , a3 )
+F (a1 , a2 , b3 ) + F (a1 , b2 , a3 ) + F (b1 , a2 , a3 )
−F (a1 , a2 , a3 ) ≥ 0.
Se puede demostrar que el lado izquierdo de esta desigualdad corresponde
a la probabilidad del evento (a1 < X1 ≤ b1 , a2 < X2 ≤ b2 , a3 < X3 ≤ b3 ) y
entonces el requisito es que naturalmente este número sea no negativo.
Más generalmente, una función F (x1 , . . . , xn ) : Rn → [0, 1] es una función
de distribución si cumple las primeras cuatro propiedades anteriores y adicionalmente para cualesquiera números reales a1 < b1 , a2 < b2 , . . ., an < bn ,
X
(−1)#a F (x1 , . . . , xn ) ≥ 0,
xi ∈{ai ,bi }
82
en donde #a es el número de veces que alguna de las variables xi toma el
valor ai en la evaluación de la función F . Nuevamente la suma corresponde a
la probabilidad del evento (a1 < X1 ≤ b1 , . . . , an < Xn ≤ bn ), y la condición
establece simplemente que este número sea no negativo.
Finalmente enunciamos un resultado que establece la importancia de la función de distribución y que es consecuencia del caso unidimensional.
Proposición 37 Sea F (x1 , . . . , xn ) : Rn → R una función que satisface las
cinco propiedades anteriores. Entonces existe un espacio de probabilidad y
una vector aleatorio cuya función de distribución es F (x1 , . . . , xn ).
EJERCICIOS
247. Grafique y demuestre que las siguientes funciones son de distribución.
1 1
a) F (x, y) = (1 − e−x )( + tan−1 y) para x ≥ 0.
2 π
b) F (x, y) = 1 − e−x − e−y + e−x−y para x, y ≥ 0.
248. Investigue si las siguientes funciones son de distribución.
a) F (x, y) = 1 − e−xy para x, y ≥ 0.
b) F (x, y) = 1 − e−x−y para x, y ≥ 0.
249. Demuestre que la siguiente función no es de distribución.
0 si x + y < 0,
F (x, y) =
1 si x + y ≥ 0.
250. Demuestre que la siguiente función no es de distribución.
mı́n{1, máx{x, y}} si x, y > 0,
F (x, y) =
0
otro caso.
251. Sean F (x) y G(x) dos funciones de distribución. Demuestre o proporcione un contraejemplo para las siguientes afirmaciones.
a) F (x)G(x) es una función de distribución univariada.
b) F (x)G(y) es una función de distribución bivariada.
252. Diga falso o verdadero. Justifique en cada caso.
a) P (X > x, Y > y) = 1 − P (X ≤ x, Y ≤ y).
b) P (X ≤ x, Y ≤ y) ≤ P (X ≤ x).
c) P (X ≤ x) = P (X ≤ x, Y ≤ x) + P (X ≤ x, Y > x).
83
d ) P (X + Y ≤ x) ≤ P (X ≤ x).
e) P (XY < 0) ≤ P (X < 0).
253. Sean X y Y variables aleatorias con función de distribución conjunta
F (x, y). Demuestre que para cualesquiera números reales a < b y c < d,
P (a < X ≤ b, c < Y ≤ d) = F (b, d) + F (a, c) − F (a, d) − F (b, c).
254. Sean X1 , X2 y X3 variables aleatorias con función de distribución conjunta F (x1 , x2 , x3 ). Demuestre que para cualesquiera números reales
a1 < b1 , a2 < b2 y a3 < b3 , la probabilidad
P (a1 < X1 ≤ b1 , a2 < X2 ≤ b2 , a3 < X3 ≤ b3 )
es igual a
F (b1 , b2 , b3 ) − F (a1 , b2 , b3 ) − F (b1 , a2 , b3 ) − F (b1 , b2 , a3 )
+F (a1 , a2 , b3 ) + F (a1 , b2 , a3 ) + F (b1 , a2 , a3 )
−F (a1 , a2 , a3 ).
255. Sea (X, Y ) un vector con función de distribución conjunta FX,Y (x, y).
Demuestre que para todo (x, y) en R2 ,
p
FX (x) + FY (y) − 1 ≤ FX,Y (x, y) ≤ FX (x)FY (y).
256. Considere el espacio Ω = [0, 1] × [0, 1] junto con σ(B[0, 1] × B[0, 1]) y
P la medida de probabilidad uniforme sobre Ω. Sea X : Ω → R2 el
vector aleatorio dado por
X(ω1 , ω2 ) = (ω1 ∧ ω2 , ω1 ∨ ω2 ).
Demuestre que X es efectivamente un vector aleatorio y encuentre su
función de distribución.
257. Sea X con función de distribución F (x). Demuestre que F (x) es continua en x = x0 si y solo si P (X = x0 ) = 0.
3.3.
Densidad conjunta
Como en el caso unidimensional, los vectores discretos o absolutamente continuos tienen asociada una función de densidad la cual se define a continuación.
Definición 24 La función de densidad de un vector discreto (X, Y ) es la
función f (x, y) : R2 → R dada por
f (x, y) = P (X = x, Y = y).
84
Es evidente que la función de densidad de un vector discreto es una función
no negativa y tal que
XX
f (x, y) = 1.
x
y
Recı́procamente, toda función no negativa f (x, y) : R2 → R que sea estrictamente positiva únicamente en un subconjunto discreto de R2 y que sume
uno, se llama función de densidad conjunta.
Ejemplo 12 La función
f (x, y) =
0
1 x+y
2
para x, y = 1, 2, . . .
otro caso.
es de densidad pues es no negativa y suma uno,
∞
X
f (x, y) =
x,y=1
∞
X
x,y=1
1
2x+y
=(
∞
X
1 2
) = 1.
2x
x=1
La definición de función de densidad de un vector continuo es la siguiente.
Definición 25 Sea (X, Y ) un vector continuo con función de distribución
F (x, y). Se dice que (X, Y ) es “absolutamente continuo” si existe una función no negativa e integrable f (x, y) : R2 → R tal que para todo (x, y) en R2
se cumple la igualdad
Z x Z y
F (x, y) =
f (u, v) dv du.
−∞
−∞
A la función f (x, y) se le denota por fX,Y (x, y) y se le llama función de
densidad conjunta de X y Y .
Es claro que la función de densidad conjunta f (x, y) de un vector absolutamente continuo es no negativa y cumple la condición
Z ∞Z ∞
f (x, y) dx dy = 1.
−∞
−∞
Recı́procamente, toda función no negativa f : R2 → R que integre uno se
llama “función de densidad”. En particular, cuando f (x, y) es continua,
f (x, y) =
∂2
F (x, y).
∂y∂x
85
EJERCICIOS
258. Grafique y demuestre que las siguientes son funciones de densidad.
1
para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = 4xy para 0 ≤ x, y ≤ 1.
a) f (x, y) =
c) f (x, y) = 6x2 y para 0 ≤ x, y ≤ 1.
d ) f (x, y) = 49 x2 y 2 para −1 ≤ x, y ≤ 1.
e) f (x, y) = e−x−y para x, y > 0.
f ) f (x, y) = e−x para 0 < y < x.
259. Calcule la constante c que hace a f una función de densidad.
a) f (x) = cx para 0 ≤ x ≤ 1.
b) f (x, y) = cx para 0 < y < x < 1.
c) f (x, y) = c(x + y) para 0 ≤ x, y ≤ 1.
d ) f (x, y) = c(x2 + 21 xy) para 0 < x < 1, 0 < y < 2.
e) f (x, y, z) = c(x + y + z) para 0 ≤ x, y, z ≤ 1.
f ) f (x1 , . . . , xn ) = c(x1 + · · · + xn ) para 0 ≤ x1 , . . . , xn ≤ 1.
260. Encuentre la función de densidad del vector (X, Y ) cuya función de
distribución es
1 1
a) F (x, y) = (1 − e−x )( + tan−1 y) para x ≥ 0.
2 π
b) F (x, y) = 1 − e−x − e−y + e−x−y para x, y ≥ 0.
261. Encuentre la función de distribución del vector (X, Y ) cuya función de
densidad es
1
para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = e−x−y para x, y > 0.
a) f (x, y) =
c) f (x, y) = e−y para 0 < x < y.
d ) f (x, y) = 2e−x−y para 0 < x < y.
262. Sean f (x) y g(x) dos funciones de densidad. Demuestre o proporcione
un contraejemplo para las siguientes afirmaciones.
a) f (x)g(x) es una función de densidad univariada.
b) f (x)g(y) es una función de densidad bivariada.
263. Sean X y Y independientes ambas con distribución exp(λ). Encuentre
la función de densidad y de distribución de
a) W = máx{X, Y }.
b) W = mı́n{X, Y }.
86
3.4.
Distribución marginal
Dada la función de distribución conjunta F (x, y) de un vector aleatorio
(X, Y ) es posible obtener la función de distribución de cada variable aleatoria
por separado mediante el siguiente procedimiento.
Definición 26 Sea (X, Y ) un vector con función de distribución F (x, y). A
la función
F (x) = lı́m F (x, y)
y→∞
se le conoce como la “función de distribución marginal” de X. Análogamente
se define la función de distribución marginal de Y como
F (y) = lı́m F (x, y).
x→∞
No es difı́cil verificar que las funciones de distribución marginales son efectivamente funciones de distribución univariadas. En el caso de que se tenga
una función de densidad conjunta, se pueden obtener las funciones de densidad individuales como indica la siguiente definición.
Definición 27 Sea (X, Y ) un vector absolutamente continuo con función
de densidad f (x, y). A la función
Z ∞
f (x) =
f (x, y) dy
−∞
se le conoce como la “función de densidad marginal” de X. Análogamente
se define la función de densidad marginal de Y como
Z ∞
f (y) =
f (x, y) dx.
−∞
Si (X, Y ) es un vector discreto la integral se reemplaza por una suma.
Tampoco es difı́cil comprobar que las funciones de densidad marginales son
efectivamente funciones de densidad univariadas. Las dos definiciones anteriores pueden extenderse de manera evidente cuando se tenga un vector
aleatorio de cualquier dimensión finita.
87
EJERCICIOS
264. Suponiendo el caso absolutamente continuo, demuestre que la función
de densidad marginal,
Z ∞
fX,Y (x, y)dy
x 7→ fX (x) =
−∞
es efectivamente una función de densidad.
265. Demuestre que la función de distribución marginal
x 7→ FX (x) = lı́m FX,Y (x, y)
y→∞
es efectivamente una función de distribución.
266. Encuentre las funciones de distribución marginales del vector (X, Y )
cuya función de distribución conjunta es
a) F (x, y) = (1 − e−x )(1 − e−y ) para x, y > 0.
2
2
b) F (x, y) = (1 − e−x )(1 − e−y ) para x, y > 0.
267. Encuentre las funciones de densidad marginales del vector (X, Y ) cuya
función de densidad conjunta es
1
para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = 4xy para 0 < x, y < 1.
a) f (x, y) =
c) f (x, y) = 24x(1 − x − y) para x, y > 0 y x + y < 1.
1
d ) f (x, y) = (x + 2y) para 0 < x < 2 y 0 < y < 1.
4
2
e) f (x, y) = (4x + y) para 0 < x, y < 1.
5
1
f ) f (x, y) =
para 0 < y < x < 1.
x
268. Sea 0 < a < 1 y defina la función
f (x, y) = ax (1 − a)y para x, y = 1, 2, . . .
a) Demuestre que f (x, y) es una función de densidad.
b) Calcule las funciones de densidad marginales.
3.5.
Distribución condicional
La siguiente definición es una extensión del concepto elemental de probabilidad condicional de eventos.
88
Definición 28 Sea (X, Y ) un vector con función de densidad fX,Y (x, y) y
sea y tal que fY (y) 6= 0. A la función
x 7→ fX|Y (x|y) =
fX,Y (x, y)
fY (y)
se le conoce como la “función de densidad condicional” de X dado que Y
toma el valor y.
No es difı́cil comprobar que la función x 7→ fX|Y (x|y) es efectivamente una
función de densidad, tanto en el caso discreto como en el continuo. Observe
que el valor y de Y permanece fijo y la función es vista como una función
de la variable real x. Se pueden definir también funciones de distribución
condicionales de la siguiente forma.
Definición 29 Sea (X, Y ) un vector aleatorio absolutamente continuo con
función de densidad fX,Y (x, y) y sea y tal que fY (y) 6= 0. A la función
Z x
x 7→ FX|Y (x|y) =
fX|Y (u|y) du
−∞
se le conoce como la “función de distribución condicional” de X dado que
Y toma el valor y. Cuando el vector aleatorio (X, Y ) es discreto la integral
se substituye por la suma correspondiente.
Nuevamente resulta que la función x 7→ FX|Y (x|y) es efectivamente una función de distribución. En el caso absolutamente continuo tenemos la relación
fX|Y (x|y) =
∂
F
(x|y).
∂x X|Y
EJERCICIOS
269. Demuestre que la función de distribución condicional
Z x
x 7→ FX|Y (x|y) =
fX|Y (u|y) du
−∞
es efectivamente una función de distribución.
270. Demuestre que la función de densidad condicional
x 7→ fX|Y (x|y) =
fX,Y (x, y)
fY (y)
es efectivamente una función de densidad.
89
271. Sea (X, Y ) un vector aleatorio absolutamente continuo. Demuestre la
fórmula
∂
F
(x|y).
fX|Y (x|y) =
∂x X|Y
272. (Pérdida de memoria en la distribución exponencial.) Sea X con distribución exp(λ) y sea t > 0 fijo. Demuestre que la distribución condicional de X − t dado que X ≥ t sigue siendo exp(λ).
273. Calcule fX|Y (x|y) para las siguientes funciones de densidad conjunta.
1
para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = 4xy para 0 < x, y < 1.
a) f (x, y) =
c) f (x, y) = 24x(1 − x − y) para x, y > 0 y x + y < 1.
1
d ) f (x, y) = (x + 2y) para 0 < x < 2 y 0 < y < 1.
4
2
e) f (x, y) = (4x + y) para 0 < x, y < 1.
5
1
f ) f (x, y) =
para 0 < y < x < 1.
x
274. Calcule FX|Y (x|y) para las siguientes funciones de distribución conjunta.
1 1
a) F (x, y) = (1 − e−x )( + tan−1 y) para x ≥ 0.
2 π
b) F (x, y) = 1 − e−x − e−y + e−x−y para x, y ≥ 0.
275. Se hacen tres lanzamientos de una moneda equilibrada. Sea X la v.a.
que denota el número de caras que se obtienen en los dos primeros
lanzamientos y sea Y la v.a. que denota el número de cruces en los dos
últimos lanzamientos. Calcule
a) fX,Y (x, y).
b) fX (x) y fY (y).
c) fY |X (y|x) para x = 0, 1, 2.
276. Sea (X, Y ) un vector con función de densidad
fX,Y (x, y) =
x+y
8
para 0 ≤ x, y ≤ 2.
Compruebe que f (x, y) es una función de densidad y calcule
a) P (Y > X).
b) P (X > 1 | Y < 1).
c) fX (x) y fY (y).
d ) fX|Y (x|y) y fY |X (y|x).
e) FX,Y (x, y), FX (x) y FY (y).
90
277. Sea (X, Y ) un vector con función de densidad
fX,Y (x, y) = 8xy para 0 < x < y < 1.
Compruebe que f (x, y) es una función de densidad y calcule
a) P (X + Y < 1).
b) P (Y < 1/2 | X < 1/2).
c) fX (x) y fY (y).
d ) fX|Y (x|y) y fY |X (y|x).
278. Sea (X, Y ) un vector con función de densidad
fX,Y (x, y) = 4x(1 − y) para 0 < x, y < 1.
Compruebe que f (x, y) es efectivamente una función de densidad y
calcule
a) FX,Y (x, y), FX (x) y FY (y).
b) P (X > 1/2).
c) P (1/4 < Y < 3/4 | X < 1/2).
d ) fX (x) y fY (y).
e) fX|Y (x|y) y fY |X (y|x).
3.6.
Independencia de variables aleatorias
Podemos ahora definir el importante concepto de independencia de variables
aleatorias. Para ello usaremos la siempre existente función de distribución.
Definición 30 Se dice que X y Y son independientes si para cada (x, y) en
R2 se cumple la igualdad
FX,Y (x, y) = FX (x)FY (y).
Esta es una extensión de la definición de independencia de dos eventos A y B,
P (A ∩ B) = P (A)P (B). Cuando la función de densidad conjunta fX,Y (x, y)
existe entonces la igualdad anterior es equivalente a la expresión
fX,Y (x, y) = fX (x)fY (y).
El concepto de independencia puede ser extendido claramente al caso de
varias variables aleatorias de la forma siguiente. Se dice que X1 , X2 , . . . , Xn
son independientes si para cualquier (x1 , x2 , . . . , xn ) en Rn se cumple
FX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) = FX1 (x1 )FX2 (x2 ) · · · FXn (xn ).
91
Más aún, una sucesión infinita de variables aleatorias es independiente si
cualquier subconjunto finito de ella lo es.
Ejemplo 13 Sea (X, Y ) un vector aleatorio con función de densidad
f (x, y) = 4xy para 0 ≤ x, y ≤ 1.
La gráfica de esta función aparece en la Figura 3.1.
4
3
fHx,yL 2
1
0
0.25
0.5
x
0.75
1
0.75
0.5
y
0.25
10
Figura 3.1: Función de densidad del Ejemplo 13
La función de densidad marginal de X se calcula como sigue. Para 0 ≤ x ≤
1,
Z ∞
fX (x) =
f (x, y)dy
−∞
1
=
Z
4xydy
0
= 2x.
Por lo tanto
fX (x) = 2x para 0 ≤ x ≤ 1,
Análogamente
fY (y) = 2y para 0 ≤ y ≤ 1.
En consecuencia X y Y son independientes pues para cada par (x, y) se
cumple
fX,Y (x, y) = fX (x)fY (y).
EJERCICIOS
279. Demuestre la variable aleatoria constante X = c es independiente de
cualquier otra variable aleatoria.
280. Sea X independiente de cualquier otra variable aleatoria. Demuestre
que X es constante.
92
281. Demuestre que los eventos A y B son independientes si y solo si las
variables aleatorias 1A y 1B lo son.
282. Determine si las siguientes son funciones de densidad de variables
aleatorias independientes.
1
para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = 2x para 0 < x, y < 1.
a) f (x, y) =
c) f (x, y) = 2e−x−y para 0 < x < y.
d ) f (x, y) = e−x−y para x, y > 0.
3
e) f (x, y) = (x2 + y 2 ) para x, y ∈ [−1, 1].
8
283. Determine si las siguientes son funciones de distribución de variables
aleatorias independientes.
a) F (x, y) = (1 − e−x )(1 − e−y ) para x, y > 0.
2
2
b) F (x, y) = (1 − e−x )(1 − e−y ) para x, y > 0.
284. Demuestre que X y Y son independientes si y solo si para cualesquiera
números reales x y y,
P (X > x, Y > y) = P (X > x)P (Y > y).
285. Demuestre que X y Y son independientes si y solo si para cualesquiera
números reales a < b y c < d,
P (a < X ≤ b, c < Y ≤ d) = P (a < X ≤ b) P (c < Y ≤ d).
286. Sean X1 , . . . , Xn variables aleatorias independientes cada una con distribución Ber(p). Calcule
P (X1 + · · · + Xn = k) para k = 0, 1, . . . , n.
287. Sean X y Y independientes ambas con distribución unif{1, . . . , n}.
Encuentre la distribución de (U, V ) = (X + Y, X − Y ). Determine si
U y V son independientes.
288. Sean X ≥ 0 y Y ≥ 0 independientes con valores enteros y con esperanza finita. Demuestre que
E(mı́n{X, Y }) =
∞
X
n=1
P (X ≥ n)P (Y ≥ n).
289. Sean X y Y independientes ambas con distribución unif{−1, 1}. Sea
Z = XY . Demuestre que X, Y y Z son independientes dos a dos pero
no lo son en su conjunto.
93
290. Sean X y Y independientes con distribución Poisson(λ1 ) y Poisson(λ2 )
respectivamente. Demuestre que la distribución condicional de X dado
que X + Y = n es bin(n, λ1 /(λ1 + λ2 )).
291. Sean X y Y independientes con distribución unif{0, 1, . . . , n} y unif{0, 1, . . . , m}
respectivamente. Encuentre la función de densidad de Z = X + Y .
292. Sean X1 , . . . , Xn independientes con distribución geo(p). Demuestre
que X1 + · · · + Xn tiene distribución bin neg(n, p).
293. Sean X y Y independientes. Encuentre la función de distribución de
W en términos de FX (x) y FY (y) cuando
a) W = máx{X, Y }.
b) W = mı́n{X, Y }.
294. Sean X y Y independientes ambas con distribución exp(λ) y sea a una
constante. Calcule
a) P (máx{X, Y } ≤ aX).
b) P (mı́n{X, Y } ≤ aX).
295. Usando la siguiente tabla, construya
de un vector discreto (X, Y ) con la
independientes.
x\y 0
0
·
1
·
la función de densidad f (x, y)
condición de que X y Y sean
1
·
·
Compruebe que la función que propone es efectivamente una función
de densidad y que la condición de independencia se cumple.
296. Sea (X, Y ) un vector discreto con distribución de probabilidad uniforme en el conjunto
{1, . . . , n} × {1, . . . , m},
con n y m enteros positivos. Demuestre que X y Y son independientes.
297. Sea (X, Y ) un vector aleatorio con función de densidad
x+y
1
f (x, y) = c
para x = 0, 1, 2 y y = 1, 2.
2
Encuentre el valor de la constante c y determine si X y Y son independientes. Calcule además las probabilidades P (X = 1), P (X = 2 | Y =
2) y P (XY = 2).
298. Sean X y Y independientes con distribución exponencial con parámetros λ1 y λ2 respectivamente. Demuestre que
P (Y > X) =
94
λ1
.
λ1 + λ 2
299. Sean X y Y independientes con distribución bin(n, p) y bin(m, p) respectivamente. Demuestre que X + Y tiene distribución bin(n + m, p)
a) haciendo el cálculo directamente.
b) razonando probabilı́sticamente en términos de ensayos Bernoulli.
300. Sean X y Y independientes con distribución Poisson con parámetros
λ1 y λ2 respectivamente. Demuestre que X + Y tiene distribución
Poisson(λ1 + λ2 ).
301. Sea (X, Y, Z) un vector aleatorio con función de densidad
fX,Y,Z (x, y, z) = 8xyz para 0 ≤ x, y, z ≤ 1.
a) Compruebe que f (x, y, z) es una función de densidad.
b) Calcule P (X < Y < Z) y P (X + Y + Z < 1).
c) Encuentre fX,Y (x, y), fX,Z (x, z) y fY,Z (y, z).
d ) Determine si X, Y y Z son independientes.
302. Sea (X, Y, Z) un vector aleatorio con función de densidad
fX,Y,Z (x, y, z) = 24x para 0 < x < y < z < 1.
a) Compruebe que f (x, y, z) es una función de densidad.
b) Calcule P (X + Y < 1) y P (Z − X > 1/2).
c) Encuentre fX,Y (x, y), fX,Z (x, z) y fY,Z (y, z).
d ) Determine si X, Y y Z son independientes.
303. Sea X1 , X2 , . . . una sucesión de v.a.s independientes cada una con distribución unif[0, 1]. Demuestre que para cualquier λ > 0,
lı́m P (máx{X1 , . . . , Xn } ≤ 1 −
n→∞
λ
) = e−λ .
n
304. Sean X y Y independientes con distribución Poisson(λ1 ) y Poisson(λ2 )
respectivamente. Demuestre que
E(X | X + Y = n) = n ·
3.7.
λ1
.
λ1 + λ 2
Esperanza condicional
En esta sección se define el importante concepto de esperanza condicional
de una variable aleatoria respecto de una σ-álgebra y se estudian algunas
de sus propiedades elementales.
95
Definición 31 Sea X una variable aleatoria con esperanza finita y sea
G una sub-σ-álgebra de F. La esperanza condicional de X dado G es
una variable aleatoria denotada por E(X|G) que cumple las siguientes tres
propiedades:
1. Es G-medible.
2. Tiene esperanza finita.
3. Para cualquier evento G en G,
E[ E( X | G ) · 1G ] = E[ X · 1G ].
(3.1)
El punto importante a enfatizar es que la esperanza condicional, a pesar
de su nombre, no es un número (aunque puede serlo) sino una variable
aleatoria. Puede demostrarse que esta variable aleatoria existe y es única
casi seguramente, esto significa que si existe otra variable aleatoria con las
tres propiedades de la definición anterior entonces con probabilidad uno
coincide con E(X|G).
La esperanza condicional cumple las siguientes propiedades elementales.
a) E(E(X|G)) = E(X).
b) Si X es G-medible entonces E(X|G) = X. En particular, si c es una
constante E(c|G) = c.
c) E(aX + Y |G) = aE(X|G) + E(Y |G).
La primera propiedad se demuestra tomando el caso particular G = Ω en la
igualdad (3.1), y establece que las variables aleatorias X y E(X|G) tienen
la misma esperanza. Para la segunda propiedad observe que si X es Gmedible entonces X mismo cumple con las tres propiedades de la definición
de E(X|G), por la unicidad se obtiene la igualdad casi segura. La tercera
propiedad es consecuencia de la linealidad de la esperanza, de (3.1) y de la
unicidad.
Cuando la σ-álgebra G es la mı́nima respecto de la cual una función Y : Ω →
R es variable aleatoria, es decir G = σ(Y ), entonces la esperanza condicional
se escribe simplemente E(X|Y ) en lugar de E(X|σ(Y )). Si ω es tal que
Y (ω) = y entonces la variable aleatoria E(X|Y ) evaluada en ω es
E(X|Y )(ω) = E(X|Y = y)
Z ∞
=
xdFX|Y (x|y).
−∞
No es difı́cil verificar los siguientes casos particulares que relacionan a la
esperanza condicional con los conceptos elementales de esperanza y proba96
bilidad condicional. Para cualquier variable aleatoria X con esperanza finita,
y eventos A y B,
a) E(X| {∅, Ω} ) = E(X).
b) E(1A | {∅, Ω} ) = P (A).
c) E(1A | {∅, B, B c , Ω} ) = P (A|B)1B + P (A|B c )1B c .
La primera igualdad se sigue del hecho que E(X|G) es medible respecto de
G y de que cualquier función medible respecto de G = {∅, Ω} es constante.
La tercera condición en la definición de esperanza condicional implica que
esta constante debe ser E(X). La segunda igualdad es evidentemente un
caso particular de la primera. Para demostrar la tercera igualdad observe
que toda función medible respecto de G = {∅, B, B c , Ω} es constante tanto
en B como en B c . Además,
E[ E( 1A | G ) · 1B ] = E[ 1A · 1B ] = P (A ∩ B).
Como la variable aleatoria E( 1A | G) es constante en B, el lado izquierdo
es igual a E( 1A | G)(ω) · P (B) para cualquier ω en B. De donde se obtiene
E( 1A | G)(ω) = P (A|B) para ω en B. El análisis es análogo al considerar el
evento B c y de esto se obtiene la fórmula de la tercera propiedad.
Una introducción a la esperanza condicional ligeramente mas completa a la
presentada en esta sección, aunque también sencilla y breve, puede encontrarse en [17]. Un tratamiento más completo puede consultarse por ejemplo
en [11] o [21].
EJERCICIOS
305. Enuncie la definición de esperanza condicional de una variable respecto
de una σ-álgebra.
306. Sea X una variable aleatoria con esperanza finita y sea G = {∅, Ω}.
Demuestre que E(X|G) = E(X).
307. Demuestre que si X es G-medible entonces E(X|G) = X.
308. Demuestre que si c es una constante entonces para cualquier sub-σálgebra G, E(c|G) = c.
309. Sea A un evento y sea G = {∅, Ω}. Demuestre que E(1A |G) = P (A).
310. Sean A y B dos eventos. Demuestre que
E(1A |1B ) = P (A|B)1B + P (A|B c )1B c .
97
311. Sea (X, Y ) un vector con función de densidad
fX,Y (x, y) = 3y para 0 < x < y < 1.
Compruebe que f (x, y) es efectivamente una función de densidad y
calcule
a) P (X + Y < 1/2).
b) fX (x) y fY (y).
c) E(Y ) y E(Y |X = x).
312. Sea (X, Y ) un vector con distribución uniforme en el conjunto
{1, . . . , 6} × {1, . . . , 6}.
Calcule
a) P (X = Y ).
b) P (X + Y ≤ 6).
c) fX (x) y fY (y).
d ) E(X|X + Y = 6).
313. Sea (X, Y ) un vector con función de densidad dada por la siguiente
tabla
x\y -1
0
1
1
.3 .05 .05
2
.05 .2 .05
3
.1
.1
.1
Calcule
a) P (X = 2), P (X + Y = 1) y P (Y ≤ X).
b) fX (x) y fY (y).
c) fY |X (y|x) para x = 1, 2, 3.
d ) E(Y |X = x) para x = 1, 2, 3.
3.8.
Varianza condicional
Definición 32 Sea X con segundo momento finito. La varianza condicional
de X dado Y se define como la variable aleatoria dada por
Var(X|Y ) = E[ (X − E(X|Y ))2 | Y ].
La varianza condicional cumple las siguientes propiedades.
98
a) Var(X|Y ) = E(X 2 |Y ) − E 2 (X|Y ).
b) Var(X) = E[Var(X|Y )] + Var[E(X|Y )].
La demostración de estas fórmulas es sencilla. La primera de ellas surge a
partir de la definición al desarrollar el cuadrado y utilizar las propiedades de
linealidad de la esperanza condicional. Para la segunda propiedad, tomando
esperanza en a) se obtiene
E[Var(X|Y )] = E(X 2 ) − E[E 2 (X|Y )].
(3.2)
Por otro lado
Var[E(X|Y )] = E[E 2 (X|Y )] − E 2 [E(X|Y )]
= E[E 2 (X|Y )] − E 2 (X).
(3.3)
Sumando (3.2) y (3.3) se obtiene b).
EJERCICIOS
314. Demuestre nuevamente que
Var(X|Y ) = E(X 2 |Y ) − E 2 (X|Y ).
315. Demuestre nuevamente que
Var(X) = E[Var(X|Y )] + Var[E(X|Y )].
3.9.
Esperanza de una función de un vector aleatorio
Definición 33 Sea (X, Y ) un vector aleatorio y sea g : R2 → R una función
Borel medible. Entonces se define
Z
E[g(X, Y )] =
g(x, y)dFX,Y (x, y).
R2
Proposición 38 Sean X y Y independientes y sean g y h dos funciones
Borel medibles tales que g(X) y h(Y ) tienen esperanza finita. Entonces
E[g(X)h(Y )] = E[g(X)]E[h(Y )].
99
Demostración.
E[g(X)h(Y )] =
=
Z
ZR
2
R2
g(x)h(y)dFX,Y (x, y)
g(x)h(y)dFX (x)dFY (y)
= E[g(X)]E[h(Y )].
En particular cuando X y Y son independientes, E(XY ) = E(X)E(Y ). El
recı́proco de esta afirmación es falso. Para ello véase el ejercicio 317.
EJERCICIOS
316. Demuestre que si X y Y son independientes entonces
E(XY ) = E(X)E(Y ).
317. Demuestre que
E(XY ) = E(X)E(Y ) =⇒
6
X, Y independientes
considerando cualquiera de los siguientes ejemplos.

 1/8 si (x, y) = (−1, 1), (1, 1), (−1, 1), (1, −1),
1/2 si (x, y) = (0, 0),
a) f (x, y) =

0
otro caso.
3
b) f (x, y) = (x2 + y 2 ) para x, y ∈ [−1, 1].
8
c) X con distribución uniforme en {−1, 0, 1} y Y = 1(X6=0) .
318. Sean X y Y independentes. Diga falso o verdadero justificando en cada
caso.
a) Var(X + Y ) = Var(X) + Var(Y ).
b) Var(X − Y ) = Var(X) − Var(Y ).
c) Var(XY ) = Var(X)Var(Y ).
319. Sean X y Y independientes. Demuestre que
Var(XY ) = Var(X)Var(Y ) + E 2 (X)Var(Y ) + E 2 (Y )Var(X).
320. Sean X1 , . . . Xn independientes con la misma distribución, y sea Sn =
X1 + · · · + Xn . Suponiendo que las esperanzas indicadas existen, demuestre que E(X1 /Sn ) = 1/n. Concluya que para m ≤ n, E(Sm /Sn ) =
m/n.
100
321. Sea X1 , . . . , Xn variables aleatorias independientes con idéntica distribución y con esperanza finita. Demuestre que
E(X1 | X1 + · · · + Xn = k) =
k
.
n
322. Sea (X, Y ) un vector aleatorio discreto con función de densidad dada
por la siguiente tabla
x\y
1
2
3
-1
.1
.06
.1
0
.05
.2
.05
1
.1
.04
.3
a) Grafique f (x, y) y compruebe que efectivamente se trata de una
función de densidad conjunta.
b) Calcule y grafique las densidades marginales fX (x) y fY (y). Verifique que ambas son funciones de densidad.
c) Demuestre que X y Y no son independientes.
d ) Calcule E(XY ).
e) Calcule fX+Y (u).
323. Sea (X, Y ) un vector discreto con
siguiente tabla
x\y
2
1
2/18
2
3/18
3
1/18
función de densidad dada por la
4
3/18
5/18
1/18
6
1/18
1/18
1/18
a) Grafique f (x, y) y compruebe que efectivamente es una función
de densidad conjunta.
b) Calcule y grafique las densidades marginales fX (x) y fY (y). Verifique que ambas son efectivamente funciones de densidad.
c) Demuestre que X y Y no son independientes.
d ) Calcule E(XY ).
e) Calcule fX+Y (u).
324. Sea (X, Y ) un vector aleatorio con función de densidad dada por
8xy si 0 < y < x < 1,
f (x, y) =
0
otro caso.
a) Grafique f (x, y).
b) Encuentre y grafique las densidades marginales fX (x) y fY (y).
Verifique que ambas son efectivamente funciones de densidad.
c) Demuestre que X y Y no son independientes.
d ) Calcule E(XY ).
101
3.10.
Covarianza
En esta sección se define y estudia la covarianza entre dos variables aleatorias. Una interpretación de este número, ligeramente modificado, será dada
en la siguiente sección.
Definición 34 La covarianza de X y Y , denotada por Cov(X, Y ), es el
número
Cov(X, Y ) = E [(X − E(X))(Y − E(Y ))] .
Para que la definición anterior tenga sentido se necesita suponer que las
esperanzas E(X), E(Y ) y E(XY ) sean finitas. Estudiamos a continuación
algunas propiedades sencillas de la covarianza.
Proposición 39 La covarianza satisface las siguientes propiedades.
1. Cov(X, Y ) = E(XY ) − E(X)E(Y ).
2. Cov(X, Y ) = Cov(Y, X).
3. Cov(X, X) = Var(X).
4. Cov(a, Y ) = 0, a constante.
5. Cov(aX, Y ) = aCov(X, Y ), a constante.
6. Cov(X1 + X2 , Y ) = Cov(X1 , Y ) + Cov(X2 , Y ).
7. X,Y independientes =⇒ Cov(X, Y ) = 0.
8. Cov(X, Y ) = 0 =⇒
6
X,Y independientes.
Demostración. Para probar (1) se usa la propiedad lineal de la esperanza,
Cov(X, Y ) = E [(X − E(X))(Y − E(Y ))]
= E [XY − Y E(X) − XE(Y ) + E(X)E(Y )]
= E(XY ) − E(X)E(Y ).
Las propiedades (2), (3) y (4) se siguen directamente de la definición, lo
mismo que (5) y (6) al hacer uso de las propiedades de linealidad de la
esperanza. La proposición (7) se obtiene fácilmente de (1) pues E(XY ) =
E(X)E(Y ) cuando X y Y son independientes. Finalmente damos un ejemplo
102
para (8). Sea (X, Y ) un vector aleatorio discreto con función de densidad

 1/8 si (x, y) ∈ {(−1, −1), (−1, 1), (1, −1), (1, 1)},
1/2 si (x, y) = (0, 0),
fX,Y (x, y) =

0
otro caso.
Entonces X y Y tienen idénticas densidades marginales,


 1/4 si y ∈ {−1, 1},
 1/4 si x ∈ {−1, 1},
1/2 si y = 0,
1/2 si x = 0,
fY (y) =
fX (x) =


0
otro caso.
0
otro caso.
Puede entonces comprobarse que
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 0.
Sin embargo X y Y no son independientes pues en particular
1
P (X = 0, Y = 0) = ,
2
mientras que
1
P (X = 0)P (Y = 0) = .
4
EJERCICIOS
325. Defina Cov(X, Y ) y mencione tres de sus propiedades.
326. Diga falso o verdadero. Demuestre en cada caso.
a) Cov(X, Y ) = 0, Cov(Y, Z) = 0 =⇒ Cov(X, Z) = 0.
b) Cov(X, Y ) > 0, Cov(Y, Z) > 0 =⇒ Cov(X, Z) > 0.
c) Cov(X, Y ) = a, Cov(Y, Z) = a =⇒ Cov(X, Z) = a.
327. Diga falso o verdadero. Demuestre en cada caso.
a) Cov(X, Y ) ≥ 0.
b) Cov(aX, bY ) = ab Cov(X, Y ) con a, b constantes.
c) Cov(X, aY + b) = a Cov(X, Y ) + b con a, b constantes.
328. Sea a un número real cualquiera. Encuentre X y Y tales que
a) Cov(X, Y ) = a.
b) Cov(X, Y ) = −a.
c) Cov(X, Y ) = 0.
329. Demuestre que
a) Cov(X, Y ) = E(XY ) − E(X)E(Y ).
103
b)
c)
d)
e)
f)
Cov(X, Y ) = Cov(Y, X).
Cov(X, X) = Var(X).
Cov(X, −X) = −Var(X).
Cov(aX + b, Y ) = aCov(X, Y ).
Cov(X1 + X2 , Y ) = Cov(X1 , Y ) + Cov(X2 , Y ).
330. Demuestre que
a) X, Y independientes =⇒ Cov(X, Y ) = 0.
b) Cov(X, Y ) = 0 =⇒
6
X, Y independientes.
331. Demuestre que
Var(X ± Y ) = Var(X) + Var(Y ) ± 2 Cov(X, Y ).
332. Demuestre que
a) Var(X1 + · · · + Xn ) =
m
n
X
X
Yj ) =
Xi ,
b) Cov(
j=1
i=1
n
X
Var(Xk ) + 2
k=1
m
n X
X
X
Cov(Xj , Xk ).
j<k
Cov(Xi , Yj ).
i=1 j=1
333. Sea X1 , . . . , Xn independientes. Demuestre que
Var(X1 + · · · + Xn ) =
n
X
Var(Xk ).
k=1
334. Sean X1 , . . . , Xn independientes con idéntica distribución. Demuestre
que para k = 1, . . . , n
en donde X̄ =
1
n
n
X
Cov(Xk − X̄, X̄) = 0,
Xk .
k=1
335. Calcule la covarianza de X y Y cuya distribución conjunta es uniforme
en el conjunto {1, . . . , n} × {1, . . . , n}.
336. Calcule la covarianza de X y Y cuya función de densidad conjunta
está dada por la siguiente tabla.
x\y
-1
1
-1
1/12
3/12
0
2/12
2/12
1
3/12
1/12
337. Calcule la covarianza de X y Y cuya función de densidad conjunta
está dada por la siguiente tabla, c es una constante.
x\y
-1
1
-1
2c
3c
104
0
c
c
1
2c
3c
338. Calcule la covarianza de X y Y cuya función de densidad conjunta
está dada por la siguiente tabla.
x\y
2
4
6
1
.2
.05
.05
2
.05
.1
.1
3
.15
.15
.15
339. Calcule la covarianza de X y Y cuya función de densidad conjunta
está dada por la siguiente tabla, c es una constante.
x\y
-1
0
1
-1
0
c
0.1
0
c
0.4
c
1
0.1
c
0
340. Calcule la covarianza de X y Y cuya función de densidad conjunta es
1
para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = 3x2 y para x ∈ [−1, 1], y ∈ [0, 1].
a) f (x, y) =
c) f (x, y) = 21 e−x para |y| < x.
d ) f (x, y) = e−x−y para x, y > 0.
3.11.
Coeficiente de correlación
El coeficiente de correlación de dos variables aleatorias es un número que
mide el grado de “dependencia lineal” que existe entre ellas.
Definición 35 El coeficiente de correlación de X y Y , denotado por
ρ(X, Y ), es el número
Cov(X, Y )
ρ(X, Y ) = p
,
Var(X) Var(Y )
en donde 0 < Var(X), Var(Y ) < ∞.
La interpretación dada al coeficiente de correlación se justifica a partir de
los siguientes resultados.
105
Proposición 40 La coeficiente de correlación satisface las siguientes
propiedades.
1. X,Y independientes =⇒ ρ(X, Y ) = 0.
2. ρ(X, Y ) = 0 =⇒
6
X,Y independientes (excepto en el caso normal).
3. −1 ≤ ρ(X, Y ) ≤ 1.
4. |ρ(X, Y )| = 1 si y solo si existen constantes a y b tales que, con probabilidad uno, Y = aX + b con a > 0 si ρ(X, Y ) = 1 y a < 0 si
ρ(X, Y ) = −1.
Demostración. (1) Si X y Y son independientes entonces Cov(X, Y ) = 0 y
por lo tanto ρ(X, Y ) = 0. (2) Recuerde que la condición Cov(X, Y ) = 0 no
implica necesariamente que X y Y sean independientes. (3) Suponga primero
que X y Y son tales que E(X) = E(Y ) = 0, y Var(X) = Var(Y ) = 1. Para
cualquier valor de λ,
0 ≤ Var(X + λY )
= E (X + λY )2 − E 2 [X + λY ]
= 1 + 2λE(XY ) + λ2 .
El caso λ = 1 produce el resultado E(XY ) ≥ −1 mientras que para λ = −1
se obtiene E(XY ) ≤ 1. Es decir,
−1 ≤ E(XY ) ≤ 1.
Ahora se aplica este resultado a las variables aleatorias
X − µX
σX
y
Y − µY
,
σY
que evidentemente son centradas y con varianza unitaria. Entonces
X − µX
Y − µY
−1 ≤ E
≤ 1.
σX
σY
Esto es precisamente lo enunciado en (3) pues el término de enmedio es
ρ(X, Y ). Ahora se demuestra (4). Si X y Y son tales que Y = aX + b con
a 6= 0 y b constantes entonces
a
Cov(X, aX + b)
=
ρ(X, Y ) = p
|a|
Var(x)Var(aX + b)
Por lo tanto ρ(X, Y ) = 1 cuando a > 0 y ρ(X, Y ) = −1 cuando a < 0.
Inversamente, suponga que X y Y son tales que |ρ(X, Y )| = 1. Defina
U=
X − µX
σX
y
106
V =
Y − µY
.
σY
Entonces claramente E(U ) = E(V ) = 0 y Var(U ) = Var(V ) = 1. Por lo
tanto ρ(U, V ) = E(U V ). Es fácil ver también que |ρ(U, V )| = |ρ(X, Y )| = 1.
Si ρ(U, V ) = 1 entonces
Var(U − V ) = E[(U − V )2 ] − E 2 (U − V )
= E[(U − V )2 ]
= 2[1 − E(U V )]
= 0.
Esto significa que con probabilidad uno, la v.a. U − V es constante. Esto
es, para alguna constante c, con probabilidad uno, U − V = c. Pero esta
constante c debe ser cero pues E(U − V ) = 0. Por lo tanto,
X − µX
Y − µY
=
,
σX
σY
Y
(X − µX ). Esto establece una relación
de donde se obtiene Y = µY + σσX
lineal directa entre X y Y . En cambio, si ρ(U, V ) = −1 entonces
Var(U + V ) = E[(U + V )2 ] − E 2 (U + V )
= E[(U + V )2 ]
= 2[1 + E(U V )]
= 0.
Esto significa nuevamente que con probabilidad uno, la v.a. U + V es constante. Esto es, para alguna constante c, con probabilidad uno, U + V = c.
Nuevamente la constante c es cero pues E(U + V ) = 0. Por lo tanto,
Y − µY
X − µX
=−
,
σY
σY
σY
(X − µX ). Esto establece una relación
σX
lineal, ahora inversa, entre X y Y . Uniendo los últimos dos resultados se
obtiene que cuando |ρ(X, Y )| = 1, con probabilidad uno,
σY
σY
Y = ρ(X, Y )
X + µY − ρ(X, Y )µX
.
σX
σX
|
|
{z
}
{z
}
de donde se obtiene Y = µY −
a
b
Cuando ρ(X, Y ) = 0 se dice que X y Y son “no correlacionadas” y cuando
|ρ(X, Y )| = 1 se dice que X y Y están “perfectamente correlacionadas”
positiva o negativamente de acuerdo al signo de ρ(X, Y ).
Proposición 41 Si (X, Y ) es un vector con distribución normal bivariada
y ρ(X, Y ) = 0 entonces X y Y son independientes.
107
Demostración. La función de densidad normal bivariada esta dada por la
siguiente expresión
f (x, y) =
1
p
2πσX σY 1 − ρ2
"
#
x − µX
y − µY
y − µY 2
1
x − µX 2
}
− 2ρ
+
exp{−
2(1 − ρ2 )
σX
σX
σY
σY
2 = Var(X), µ
2
en donde µX = E(X), σX
Y = E(Y ), σY = Var(Y ), y
ρ ∈ (−1, 1). Se pueden calcular directamente las funciones de densidad
marginales y comprobar que
f (x) =
y
f (y) =
1
2
q
exp{−(x − µX )2 /2σX
}
2
2πσX
1
q
exp{−(y − µY )2 /2σY2 },
2
2πσY
2 ) y Y tiene distribución N (µ , σ 2 ).
es decir, X tiene distribución N (µX , σX
Y
Y
Después de hacer algunos cálculos sencillos se puede demostrar que ρ(X, Y ) =
ρ y comprobar finalmente que cuando ρ = 0 se verifica la igualdad fX,Y (x, y) =
fX (x)fY (y).
En resumen tenemos la siguiente tabla.
Propiedades del coeficiente de correlación
1.
2.
3.
4.
X,Y indep =⇒ ρ(X, Y ) = 0
ρ(X, Y ) = 0 =⇒
6
X,Y indep (excepto caso normal)
ρ(X, Y ) ∈ [−1, 1]
|ρ(X, Y )| = 1 ⇐⇒ Y = aX + b
EJERCICIOS
341. Escriba la definición y una interpretación del coeficiente de correlación.
Mencione además tres de sus propiedades.
342. Diga falso o verdadero. Demuestre en cada caso.
a) ρ(X, Y ) = 0, ρ(Y, Z) = 0 =⇒ ρ(X, Z) = 0.
b) ρ(X, Y ) > 0, ρ(Y, Z) > 0 =⇒ ρ(X, Z) > 0.
c) ρ(X, Y ) > 0, ρ(Y, Z) > 0 =⇒ ρ(X, Z) > 0.
d ) ρ(X, Y ) = 1, ρ(Y, Z) = 1 =⇒ ρ(X, Z) = 1.
e) ρ(X, Y ) = −1, ρ(Y, Z) = −1 =⇒ ρ(X, Z) = −1.
f ) ρ(X, Y )ρ(Y, Z) = −1 =⇒ ρ(X, Z) = −1.
g) ρ(X, Y ) = a, ρ(Y, Z) = a =⇒ ρ(X, Z) = a.
108
343. Diga falso verdadero. Demuestre en cada caso.
a) ρ(X, Y ) = ρ(Y, X).
b) ρ(aX, Y ) = a ρ(X, Y ), a constante.
c) ρ(X + a, Y ) = ρ(X, Y ), a constante.
d ) ρ(aX + b, Y ) = a ρ(X, Y ) + b; a, b constantes.
e) ρ(X1 + X2 , Y ) = ρ(X1 , Y ) + ρ(X2 , Y ).
344. Sea a un número en [−1, 1]. Encuentre X y Y tales que ρ(X, Y ) = a.
345. Demuestre que
a) X, Y independientes =⇒ ρ(X, Y ) = 0.
b) ρ(X, Y ) = 0 =⇒
6
X, Y independientes.
346. Demuestre que
a) −1 ≤ ρ(X, Y ) ≤ 1
b) ρ(X, X) = 1.
c) ρ(X, −X) = −1.
d ) ρ(X, aX + b) = 1 si a > 0.
e) ρ(X, aX + b) = −1 si a < 0.
f ) ρ(X, aX + b) = 0 si a = 0.
347. Calcule el coeficiente de correlación de X y Y cuya función de densidad
conjunta está dada por la siguiente tabla.
x\y
0
1
1
1/8
1/2
2
1/4
1/8
348. Calcule el coeficiente de correlación de X y Y cuya función de densidad
conjunta está dada por la siguiente tabla.
x\y
2
4
6
1
1/9
1/9
1/9
2
1/9
1/9
1/9
3
1/9
1/9
1/9
349. Calcule el coeficiente de correlación de X y Y con distribución conjunta
uniforme en el conjunto
a) {1, . . . , n} × {1, . . . , n}.
b) [−1, 1] × [−1, 1].
350. Sea X con distribución bin(n, p) y sea Y = n − X. Demuestre que
Cov(X, Y ) = −np(1 − p) y por lo tanto ρ(X, Y ) = −1.
109
351. Calcule el coeficiente de correlación de X y Y cuya función de densidad
conjunta es
a) f (x, y) =
b) f (x, y) =
c) f (x, y) =
1
2 sin(x + y) para x, y
1 −x
para |y| < x.
2e
−x−y
e
para x, y > 0.
∈ [0, π/2].
352. Sean X y Y independientes e idénticamente distribuidas. Demuestre
que ρ(X + Y, X − Y ) = 0.
3.12.
Esperanza y varianza de un vector aleatorio
Sea X el vector aleatorio (X1 , . . . , Xn ). Se define la esperanza de X como
el vector (E(X1 ), . . . , E(Xn )), cuando cada coordenada existe. La varianza
de X se define como la matriz cuadrada E (X − E(X))t (X − E(X)) , en
donde t significa transpuesta del vector. Observe que (X − E(X))t es un
vector columna de dimensión n × 1, mientras que (X − E(X)) es un vector
renglón de dimensión 1 × n. De modo que el producto de estos dos vectores
en el orden indicado resulta en una matriz cuadrada de dimensión n × n
cuyo elemento general es
E[(Xi − E(Xi ))(Xj − E(Xj ))] = Cov(Xi , Xj ).
Entonces



Var(X) = 

Var(X1 )
Cov(X1 , X2 )
Cov(X1 , X2 )
Var(X2 )
..
..
.
.
Cov(X1 , Xn ) Cov(X2 , Xn )
· · · Cov(X1 , Xn )
· · · Cov(X2 , Xn )
..
..
.
.
···
Var(Xn )





.
n×n
La matriz Var(X) se llama “matriz de varianzas y covarianzas” del vector
X. Es una matriz simétrica pues Cov(Xi , Xj ) = Cov(Xj , Xi ). Además es
positiva definida, esto significa que para cualquier vector θ = (θ1 , . . . , θn ) de
Rn se cumple la desigualdad
hVar(X)θ, θi =
n
X
i,j=1
Cov(Xi , Xj )θj θi ≥ 0,
en donde h·, ·i denota el producto interior usual de Rn .
EJERCICIOS
353. Calcule la esperanza y varianza del vector aleatorio (X, Y ) cuya función de densidad conjunta es
1
para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = 4xy para x, y ∈ [0, 1].
a) f (x, y) =
110
3.13.
Distribuciones multivariadas discretas
Estudiamos a continuación algunas distribuciones discretas de vectores aleatorios.
Distribución multinomial. Suponga que se tiene un experimento aleatorio
con k posibles resultados distintos. Las probabilidades para cada uno de estos
resultados son respectivamente p1 , . . . , pk . Entonces p1 + · · · + pk = 1. Ahora
suponga que se tienen n ensayos sucesivos independientes del experimento
anterior y defina las variables aleatorias discretas X1 , . . . , Xk como aquellas
que registran el número de veces que se obtienen cada uno de los k posibles
resultados en los n ensayos. Entonces se dice que X1 , . . . , Xk tienen una
distribución multinomial y su función de densidad conjunta es
n
f (x1 , . . . , xn ) =
px1 1 · · · pxnn
x1 , . . . , xn
para x1 , . . . , xn = 0, 1, . . . , n tales que x1 + · · · + xk = n. Los parámetros
de esta distribución son entonces el número de ensayos n, el número de
resultados distintos k en cada ensayo y las probabilidades p1 , . . . , pk . El
factor que aparece en paréntesis en la función de densidad conjunta se conoce
como “coeficiente multinomial” y se define como sigue
n!
n
.
=
x1 , . . . , xn
x1 ! · · · xn !
Se dice entonces que (X1 , . . . , Xk ) tiene distribución multinomial(n, k, p1 , . . . , pk ).
Observe que cuando únicamente hay dos posibles resultados en cada ensayo
(es decir k = 2) la distribución multinomial se reduce a la distribución binomial.
EJERCICIOS
354. Demuestre que la función de densidad de la distribución multinomial
efectivamente lo es.
355. Sea X = (X1 , . . . , Xk ) con distribución multinomial(n, k, p1 , . . . , pk ).
Demuestre que Xi tiene distribución marginal bin(n, pi ), para i =
1, . . . , k.
356. Sea X = (X1 , . . . , Xk ) con distribución multinomial(n, k, p1 , . . . , pk ).
Demuestre que E(X) = (np1 , . . . , npk ) y que
npi (1 − pi ) si i = j,
[Var(X)]ij =
−npi pj
si i 6= j.
Distribución hipergeométrica multivariada. Suponga que se tienen N
objetos de los cuales N1 son de un primer tipo, N2 son de un segundo
111
tipo y asi sucesivamente con Nk objetos de tipo k. Entonces N1 + · · · +
Nk = N . Suponga que de la totalidad de objetos se obtiene una muestra sin
reemplazo de tamaño n, y defina la variables X1 , . . . , Xk como aquellas que
representan el número de objetos seleccionados de cada tipo. Se dice entonces
que X1 , . . . , Xk tienen una distribución hipergeométrica multivariada y su
función de densidad conjunta es
Nk
N1
···
xk
x1
f (x1 , . . . , xk ) =
N
n
en donde cada xi toma valores en el conjunto {0, 1, . . . , n} pero sujeto a
xi ≤ Ni y además debe cumplirse que x1 + · · ·+ xk = n. Se dice entonces que
(X1 , . . . , Xk ) tiene distribución hipergeométrica multivariada (N, N1 , . . . , Nk , n).
Observe que cuando únicamente hay dos tipos de objetos (es decir k = 2) la
distribución hipergeométrica multivariada se reduce a la distribución hipergeométrica univariada. Véase la sección de ejercicios para la esperanza y
varianza de la distribución hipergeométrica multivariada.
EJERCICIOS
357. Demuestre que la función de densidad de la distribución hipergeométrica multivariada efectivamente lo es.
358. Sea X = (X1 , . . . , Xk ) con distribución hipergeométrica multivariada con parámetros (N, N1 , . . . , Nk , n). Demuestre que Xi tiene distribución hipergeométrica univariada con parámetros (N, Ni , n), para
i = 1, . . . , k.
359. Sea X = (X1 , . . . , Xk ) con distribución hipergeométrica multivariada
Nk
N1
con parámetros (N, N1 , . . . , Nk , n). Demuestre que E(X) = (n , . . . , n )
N
N
y que

N N − Ni N − n

 n· i ·
·
si i = j,
N
N
N −1
[Var(X)]ij =
N N n−N

 n· i · j ·
si i 6= j.
N N N −1
3.14.
Distribuciones multivariadas continuas
Ahora estudiamos algunas distribuciones continuas de vectores aleatorios.
Distribución normal multivariada. Se dice que las variables aleatorias
continuas X y Y tienen una distribución normal bivariada si su función de
densidad conjunta es
f (x, y) =
1
p
2πσX σY 1 − ρ2
112
1
exp{−
2(1 − ρ2 )
"
x − µX
σX
2
− 2ρ
x − µX
σX
y − µY
σY
+
y − µY
σY
para cualesquiera valores reales de x y y, y en donde −1 < ρ < 1, σX > 0,
σY > 0, y µX , µY dos constantes reales sin restricción. Se escribe X ∼
2 , µ , σ 2 , ρ). Puede demostrarse que X tiene una distribución marginal
N(µX , σX
Y
Y
2
N(µX , σX ) y Y tiene distribución marginal N(µY , σY2 ). Además el parámetro
ρ resulta ser el coeficiente de correlación entre X y Y . Véase el ejercicio 362
en la página 113 acerca de un ejemplo en el cual las densidades marginales
de un vector bivariado son normales pero la distribución conjunta no lo es.
Cuando µX = µY = 0 y σX = σY = 1 la distribución se llama “normal
bivariada estándar”.
EJERCICIOS
360. Demuestre que la función de densidad de la distribución normal bivariada efectivamente lo es.
2 , µ , σ 2 , ρ).
361. Sea (X, Y ) un vector con distribución normal bivariada N(µX , σX
Y
Y
Demuestre que X tiene distribución marginal N(µX , σY2 ) y Y tiene distribución marginal N(µY , σY2 ). Véase el siguiente ejercicio para verificar
que el recı́proco de este resultado es falso.
362. Sea f (x, y) la función de densidad normal bivariada estándar con ρ =
0. Defina
2f (x, y) si xy < 0,
g(x, y) =
0
si xy ≥ 0.
Demuestre que g(x, y) es una función de densidad bivariada que no
tiene distribución normal pero cuyas densidades marginales son normales.
2 , µ , σ 2 , ρ).
363. Sea (X, Y ) un vector con distribución normal bivariada (µX , σX
Y
Y
Demuestre que E(X) = (µX , µY ), ρ(X, Y ) = ρ y que
2
σX
ρσX σY
Var(X, Y ) =
.
ρσX σY
σY2
2 , µ , σ 2 , ρ).
364. Sea (X, Y ) un vector con distribución normal bivariada (µX , σX
Y
Y
Demuestre que la distribución condicional de X dado que Y = y es
Y
normal con media µY + ρ σσX
(x − µX ) y varianza σY2 (1 − ρ2 ), y que la
distribución condicional de Y dado que X = x es normal con media
2 (1 − ρ2 )
µX + ρ σσX
(y − µY ) y varianza σX
Y
113
2 #
}
Capı́tulo 4
Transformaciones
Si X es una variable aleatoria con distribución conocida y φ es una función
tal que Y = φ(X) es otra variable aleatoria ¿cuál es la distribución de Y ? En
este capı́tulo se da respuesta a esta pregunta tanto en el caso unidimensional
como en el caso de vectores aleatorios. En particular, se encuentran fórmulas
explı́citas para la función de densidad de la suma, resta, producto y cociente
de dos variables aleatorias absolutamente continuas.
4.1.
Transformación de una variable aleatoria
Suponga que X es una variable aleatoria y φ es una función tal que Y = φ(X)
es otra variable aleatoria. En esta sección se estudia un resultado que provee
de una fórmula para la función de densidad de Y en términos de la función
de densidad de X. Gráficamente
Ω
X
// R
φ
//77 R
Y =φ(X)
Teorema 1 (Teorema de cambio de variable) Sea X una variable
aleatoria continua con valores dentro del intervalo (a, b) ⊆ R y con función
de densidad fX (x). Sea φ : (a, b) → R una función continua, estrictamente
creciente o decreciente y con inversa φ−1 diferenciable. Entonces la variable
aleatoria Y = φ(X) toma valores dentro del intervalo φ(a, b) y tiene función
de densidad
fY (y) = fX (φ−1 (y)) |
d −1
φ (y)| para y ∈ φ(a, b).
dy
114
Demostración. Suponga primero el caso φ estrictamente creciente. Entonces
FY (y) = P (Y ≤ y)
= P (φ(X) ≤ y)
= P (X ≤ φ−1 (y))
= FX (φ−1 (y)).
Derivando
fY (y) = fX (φ−1 (y))
d −1
φ (y).
dy
Para φ estrictamente decreciente
FY (y) = P (Y ≤ y)
= P (φ(X) ≤ y)
= P (X ≥ φ−1 (y))
= 1 − FX (φ−1 (y)).
Entonces
−1
fY (y) = fX (φ
d −1
(y)) − φ (y) .
dy
En cualquiera caso se obtiene el resultado del teorema.
Ejemplo 14 (Distribución log normal) Sea X con distribución N(µ, σ 2 ) y
sea φ la función estrictamente creciente y = φ(x) = ex con inversa diferenciable φ−1 (y) = ln y. Entonces la variable aleatoria Y = eX toma valores
en el intervalo φ(−∞, ∞) = (0, ∞) y aplicando la proposición anterior su
función de densidad es
(ln y − µ)2
1
exp −
fY (y) = √
para y ∈ (0, ∞).
2σ 2
y 2πσ 2
A la distribución de Y se le conoce como la distribución log normal(µ, σ 2 ).
Se puede demostrar que
σ2
)
2
Var(Y ) = exp(2µ + 2σ 2 ) − exp(2µ + σ 2 ).
E(Y ) = exp(µ +
EJERCICIOS
365. Sea X con distribución unif(0, 1) y sea λ > 0. Demuestre que la variable
aleatoria Y = −(ln X)/λ tiene distribución exp(λ).
366. Sea X con distribución exp(λ). Encuentre la función de densidad y de
distribución de Y = 1 − exp(−λX).
367. Encuentre la distribución de Y = 1/X cuando X tiene distribución
115
a) unif(0, 1).
b) exp(λ).
368. Encuentre la distribución de Y = X n para cada n en N cuando X
tiene distribución
a) unif(0, 1).
b) exp(λ).
369. Sea X con distribución unif(−1, 1). Encuentre la función de densidad
de Y = X 2 .
370. Sea X absolutamente continua con función de distribución F (x). Demuestre que Y = F (X) tiene distribución unif[0, 1].
371. Encuentre la función de densidad de Y
de densidad

 1/2
1/(2x2 )
fX (x) =

0
= 1/X cuando X tiene función
si 0 < x ≤ 1,
si x > 1,
otro caso.
372. Sea X con distribución unif(a, b). Encuentre la distribución de la variable aleatoria Y = X/(b − X).
4.2.
Transformación de un vector aleatorio
Suponga ahora que (X, Y ) es un vector con función de densidad conocida y φ
es una función tal que (U, V ) = φ(X, Y ) es otro vector aleatorio. El problema
es encontrar la función de densidad del nuevo vector (U, V ). Gráficamente
Ω
(X,Y )
// R2
φ
//66 R2
(U,V )=φ(X,Y )
Teorema 2 (Teorema de cambio de variable) Sea (X, Y ) un vector
continuo con valores en I ⊆ R2 y con función de densidad fX,Y (x, y). Sea
φ(x, y) : I → R2 una función continua con inversa φ−1 (u, v) diferenciable.
Entonces el vector (U, V ) = φ(X, Y ) toma valores en φ(I) y tiene función
de densidad
fU,V (u, v) = fX,Y (φ−1 (u, v)) |J(u, v)| para (u, v) ∈ φ(I)
en donde
∂φ−1
1
∂u
J(u, v) = ∂φ−1
2
∂u
116
∂φ−1
1
∂v−1
∂φ2
∂v
.
(4.1)
Demostración (intuitiva). Sea
(U, V ) = φ(X, Y ) = (φ1 (X, Y ), φ2 (X, Y ))
con inversa
−1
(X, Y ) = φ−1 (U, V ) = (φ−1
1 (U, V ), φ2 (U, V )).
Sea A el cuadrado de área infinitesinal de esquinas con coordenadas (x, y), (x+
dx, y), (x, y +dy) y (x+dx, y +dy). Bajo la transformación φ las coordenadas
de las esquinas del cuadrado A se transforman en las siguientes coordenadas
(x, y) 7→ (φ1 (x, y), φ2 (x, y)).
(x + dx, y) 7→ (φ1 (x + dx, y), φ2 (x + dx, y))
∂
∂
.
φ1 (x, y)dx, φ2 (x, y) +
φ2 (x, y)dx.
= (φ1 (x, y) +
∂x
∂x
(x, y + dy) 7→ (φ1 (x, y + dy), φ2 (x, y + dy))
∂
∂
.
φ1 (x, y)dy, φ2 (x, y) +
φ2 (x, y)dy.
= (φ1 (x, y) +
∂y
∂y
(x + dx, y + dy) 7→ (φ1 (x + dx, y + dy), φ2 (x + dx, y + dy))
∂
∂
.
= (φ1 (x, y) +
φ1 (x, y)dx +
φ1 (x, y)dy,
∂x
∂y
∂
∂
φ2 (x, y)dx +
φ2 (x, y)dy).
φ2 (x, y) +
∂x
∂y
Sea B el elemento de área φ(A). Entonces P ((X, Y ) ∈ A) = P ((U, V ) ∈ B).
Por lo tanto
fX,Y (x, y) dxdy = fU,V (u, v) × “Área de B”.
En donde
∂φ1 ∂φ2 ∂φ2 ∂φ1 dxdy
“Área de B” = −
∂x ∂y
∂x ∂y ∂φ1 ∂φ1 ∂x
∂y dxdy.
= ∂φ
∂φ2 2
∂x
∂y
Además |J(x, y)| =
1
. Por lo tanto
|J(u, v)|
fX,Y (x, y) dxdy = fU,V (u, v)
dxdy
.
|J(u, v)|
De esta ecuación obtenemos
−1
fU,V (u, v) = fX,Y (φ−1
1 (u, v), φ2 (u, v))|J(u, v)|.
117
Como ejemplo de aplicación de la proposición anterior, en las secciones siguientes utilizaremos la fórmula (4.1) para encontrar expresiones para la función de densidad de la suma, diferencia, producto y cociente de dos variables
aleatorias. Las fórmulas generales sobre transformaciones encontradas en estas dos primeras secciones se resumen en la siguiente tabla.
Transformación de variables aleatorias
1. Y = φ(X)
=⇒
2. (U, V ) = φ(X, Y )
fY (y) = fX (φ−1 (y)) |
=⇒
d −1
φ (y)|
dy
fU,V (u, v) = fX,Y (φ−1 (u, v)) |J(u, v)|
∂φ−1
1
∂u
en donde J(u, v) = ∂φ−1
2
∂u
∂φ−1
1
∂v−1
∂φ2
∂v
EJERCICIOS
373. Sean X y Y independientes ambas con distribución unif(0, 1). Encuentre la función de densidad del vector
a) (X, X + Y ).
b) (X + Y, X − Y ).
374. Sean X y Y independientes ambas con distribución unif(−1, 1). Encuentre la función de densidad de
a) (X + Y, X − Y ).
b) |Y − X|.
c) (X − Y, Y − X).
375. Sea (X, Y ) un vector con distribución uniforme en el cı́rculo unitario
2 + y 2 ≤ 1}. Encuentre la función de densidad del vector
{(x, y) : x√
(R, Θ) = ( X 2 + Y 2 , arctan(Y /X)).
4.2.1.
Distribución de la suma (convolución)
El siguiente resultado proporciona una fórmula para la función de densidad
de la suma de dos variables aleatorias absolutamente continuas.
118
Proposición 42 Sea (X, Y ) un vector continuo con función de densidad
conjunta fX,Y (x, y). Entonces X + Y tiene función de densidad
Z ∞
fX+Y (u) =
fX,Y (u − v, v) dv.
(4.2)
−∞
Demostración. Sea φ : R2 → R2 la transformación
φ(x, y) = (φ1 (x, y), φ2 (x, y))
= (x + y, y)
= (u, v)
con inversa
−1
φ−1 (u, v) = (φ−1
1 (u, v), φ2 (u, v))
= (u − v, v)
= (x, y).
El Jacobiano de la transformación inversa es
∂φ−1
∂φ−1
1
1
1
−1
∂u
= 1.
∂v−1 = J(u, v) = −1
0 1 ∂φ2 ∂φ2
∂u
∂v
Por la fórmula (4.1) la función de densidad de (X + Y, Y ) es
fX+Y,Y (u, v) = fX,Y (u − v, v).
Integrando respecto de v se obtiene (4.2).
Observe que haciendo el cambio de variable z(v) = u − v en (4.2) se obtiene
la expresión equivalente
Z ∞
fX+Y (u) =
fX,Y (z, u − z) dz.
(4.3)
−∞
En particular, cuando X y Y son independientes la fórmula (4.2) se reduce
a
Z ∞
fX+Y (u) =
fX (u − v)fY (v) dv.
−∞
Segunda demostración. Se puede demostrar la proposición anterior mediante
el procedimiento usual de encontrar primero la función de distribución de
X+Y y después derivar para encontrar la función de densidad. Por definición
FX+Y (u) = P (X + Y ≤ u)
Z Z
fX,Y (x, y) dy dx
=
=
Z
{x+y≤u}
∞ Z u−x
fX,Y (x, y) dy dx.
−∞
−∞
119
Derivando respecto de u se obtiene
Z ∞
fX,Y (x, u − x) dx,
fX+Y (u) =
−∞
que corresponde a la expresión (4.3) equivalente a (4.2).
Definición 36 La convolución de dos funciones de densidad continuas f1 y
f2 , es una función denotada por f1 ∗ f2 y definida como sigue
Z ∞
(f1 ∗ f2 )(x) =
f1 (x − y)f2 (y) dy.
−∞
En consecuencia, si X y Y son dos variables aleatorias continuas con correspondientes funciones de densidad f1 (x) y f2 (x) entonces la función de
densidad de X + Y es la convolución (f1 ∗ f2 )(x).
EJERCICIOS
376. Sea (X, Y ) un vector absolutamente continuo con función de densidad
fX,Y (x, y). Demuestre que X + Y tiene función de densidad
Z ∞
fX,Y (u − v, v) dv.
fX+Y (u) =
−∞
377. Encuentre la función de densidad de X + Y para (X, Y ) un vector con
función de densidad
1
para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = e−x−y para x, y > 0.
a) f (x, y) =
c) f (x, y) = e−y para 0 < x < y.
d ) fX,Y (x, y) = 8xy para 0 < x < y < 1.
e) fX,Y (x, y) = 4x(1 − y) para 0 < x, y < 1.
378. Encuentre la función de densidad de X + Y cuando X y Y son independientes y ambas con distribución
a) unif(0, 1).
b) exp(λ).
379. Encuentre la función de densidad de X + Y cuando X y Y son independientes y ambas con densidad
a) f (x) = 2x para 0 < x < 1.
b) f (x) = 6x(1 − x) para 0 < x < 1.
120
c) f (x) = 12 (1 + x) para −1 < x < 1.
380. Sea (X, Y, Z) un vector absolutamente continuo con función de densidad fX,Y,Z (x, y, z). Demuestre que X +Y +Z tiene función de densidad
Z ∞Z ∞
fX+Y +Z (u) =
fX,Y,Z (u − y − z, y, z) dydz.
−∞
−∞
381. Sea (X1 , . . . , Xn ) un vector aleatorio absolutamente continuo con función de densidad fX1 ,...,Xn (x1 , . . . , xn ). Demuestre que Y = X1 + · · · +
Xn tiene función de densidad
Z ∞
Z ∞
fY (u) =
···
fX1 ,...,Xn (u − v2 − · · · − vn , v2 , . . . , vn ) dv2 · · · dvn .
−∞
−∞
382. Encuentre la función de densidad de X + Y cuando X y Y tienen
distribución conjunta uniforme en el cuadrado (−1, 1) × (−1, 1).
383. Encuentre la función de densidad de X +Y +Z cuando X, Y y Z tienen
distribución conjunta uniforme en el cubo (−1, 1) × (−1, 1) × (−1, 1).
384. Encuentre la función de densidad de X1 + · · · + Xn para (X1 , . . . , Xn )
un vector con distribución uniforme en el hipercubo
(−1, 1) × · · · × (−1, 1) .
{z
}
|
n
385. Sean X y Y independientes con distribución N(µ1 , σ12 ) y N(µ2 , σ22 ) respectivamente. Demuestre que X +Y tiene distribución N(µ1 +µ2 , σ12 +
σ22 ).
386. Sean X1 , . . . , Xn independientes en donde Xi tiene distribución N(µi , σi2 )
para i = 1, . . . , n. Sean c1 , . . . , cn constantes dadas no todas cero. Demuestre que
n
n
n
X
X
X
ci Xi ∼ N(
ci µi ,
c2i σi2 ).
i=1
i=1
i=1
387. Sean X1 , . . . , Xn independientes y con idéntica distribución N(µ, σ 2 ).
Demuestre que
n
1X
Xi ∼ N(µ, σ 2 /n).
n
i=1
388. Sean X y Y independientes ambas con distribución exp(λ). Demuestre
que X + Y tiene distribución gama(λ, 2).
389. Sean X y Y independientes con distribución gama(λ, n) y gama(λ, m)
respectivamente. Demuestre que X + Y tiene distribución gama(λ, n +
m).
121
4.2.2.
Distribución de la resta
Se encontrará ahora una fórmula para la función de densidad de la diferencia
de dos variables aleatorias.
Proposición 43 Sea (X, Y ) un vector absolutamente continuo con función
de densidad fX,Y (x, y). Entonces X − Y tiene función de densidad
Z ∞
fX−Y (u) =
fX,Y (u + v, v) dv.
(4.4)
−∞
Demostración. Procedemos como en la sección anterior. Sea φ : R2 → R2 la
transformación
φ(x, y) = (φ1 (x, y), φ2 (x, y))
= (x − y, y)
= (u, v)
con inversa
−1
φ−1 (u, v) = (φ−1
1 (u, v), φ2 (u, v))
= (u + v, v)
= (x, y).
El Jacobiano de la transformación inversa es
∂φ−1
∂φ−1
1
1
1
1
∂u
∂v−1 = = 1.
J(u, v) = −1
0 1 ∂φ2 ∂φ2
∂u
∂v
Por la fórmula (4.1),
fX−Y,Y (u, v) = fX,Y (u + v, v).
Integrando respecto de v se obtiene (4.4).
Con el cambio de variable z(v) = u + v en (4.4) se obtiene la expresión
equivalente
Z ∞
fX−Y (u) =
fX,Y (z, z − u) dz.
(4.5)
−∞
Cuando X y Y son independientes la fórmula (4.4) se reduce a
Z ∞
fX (u + v)fY (v) dv.
fX−Y (u) =
−∞
Segunda demostración. Nuevamente se puede demostrar la proposición anterior mediante el procedimiento usual de encontrar primero la función de
122
distribución y después derivar para encontrar la función de densidad. Por
definición
FX−Y (u) = P (X − Y ≤ u)
Z Z
=
fX,Y (x, y) dy dx
{x−y≤u}
Z ∞Z ∞
=
fX,Y (x, y) dy dx.
−∞
x−u
Derivando respecto de u se obtiene (4.5) equivalente a (4.4).
Tercera demostración. A partir de la fórmula para la suma de dos variables aleatorias se puede construir una tercera demostración de (4.4). Por
la fórmula para la suma,
Z ∞
fX−Y (u) = fX+(−Y ) (u) =
fX,−Y (u − v, v) dv.
−∞
Haciendo el cambio de variable ν = −v se obtiene
Z ∞
fX,−Y (u + ν, −ν) dν
fX−Y (u) =
−∞
Z ∞
=
fX,Y (u + ν, ν) dν.
−∞
EJERCICIOS
390. Sea (X, Y ) un vector absolutamente continuo con función de densidad
fX,Y (x, y). Demuestre que X − Y tiene función de densidad
Z ∞
fX−Y (u) =
fX,Y (u + v, v) dv.
−∞
391. Encuentre la función de densidad de X − Y para (X, Y ) un vector con
función de densidad conjunta
1
para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = e−x−y para x, y > 0.
a) f (x, y) =
c) f (x, y) = e−y para 0 < x < y.
d ) fX,Y (x, y) = 8xy para 0 < x < y < 1.
e) fX,Y (x, y) = 4x(1 − y) para 0 < x, y < 1.
392. Encuentre la función de densidad de X − Y cuando X y Y son independientes y ambas con distribución
a) unif(0, 1).
123
b) exp(λ).
393. Encuentre la función de densidad de X − Y cuando X y Y son independientes y ambas con densidad
a) f (x) = 2x para 0 < x < 1.
b) f (x) = 6x(1 − x) para 0 < x < 1.
c) f (x) = 12 (1 + x) para −1 < x < 1.
394. Sean X y Y independientes con distribución unif(a − 1/2, a + 1/2) en
donde a es un parámetro de valor real. Demuestre que
1 − |u| si − 1 < u < 1,
fX−Y (u) =
0
otro caso.
395. Sean X y Y independientes con distribución N(µ1 , σ12 ) y N(µ2 , σ22 ) respectivamente. Demuestre que X −Y tiene distribución N(µ1 −µ2 , σ12 +
σ22 ). Observe que las medias se restan y las varianzas se suman.
4.2.3.
Distribución del producto
Ahora se encontrará una fórmula para la función de densidad del producto
de dos variables aleatorias absolutamente continuas.
Proposición 44 Sea (X, Y ) un vector continuo con función de densidad
conjunta fX,Y (x, y). Entonces XY tiene función de densidad
Z ∞
1
(4.6)
fXY (u) =
fX,Y (u/v, v) dv.
v
−∞
Demostración. Se usa nuevamente la fórmula (4.1). Sea φ : R2 → R2 la
transformación
φ(x, y) = (φ1 (x, y), φ2 (x, y))
= (xy, y)
= (u, v).
La inversa de esta transformación es, para v 6= 0,
−1
φ−1 (u, v) = (φ−1
1 (u, v), φ2 (u, v))
= (u/v, v)
= (x, y).
124
El Jacobiano de la transformación inversa es
−1 ∂φ−1
∂φ
1
1
1/v u/v 2
∂u
∂v
|J(u, v)| = −1 = −1
0
1
∂φ2 ∂φ2
∂u
∂v
Por la fórmula (4.1), para v 6= 0,
1
= .
v
1
fXY,Y (u, v) = fX,Y (u/v, v) | |.
v
Integrando respecto de v se obtiene (4.6).
Haciendo x(v) = u/v en (4.6) se obtiene la expresión equivalente
Z ∞
1
fXY (u) =
fX,Y (x, u/x) | | dx.
x
−∞
(4.7)
Cuando X y Y son independientes la fórmula (4.6) se reduce a
Z ∞
1
fX (u/v)fY (v) | | dv.
fXY (u) =
v
−∞
Segunda demostración. Usaremos el procedimiento usual de encontrar primero
la función de distribución de XY y después derivar para encontrar la función
de densidad. Por definición
FXY (u) = P (XY ≤ u)
Z Z
=
fX,Y (x, y) dy dx
=
Z
0
{xy≤u}
Z ∞
−∞
fX,Y (x, y) dydx +
u/x
Z
0
∞ Z u/x
fX,Y (x, y) dydx.
−∞
Derivando respecto de u,
Z 0
Z ∞
fXY (u) =
fX,Y (x, u/x)(−1/x) dydx +
fX,Y (x, u/x)(1/x) dydx.
−∞
0
Z ∞
=
fX,Y (x, u/x)|1/x| dx,
−∞
que corresponde a (4.7) equivalente a (4.6).
EJERCICIOS
396. Sea (X, Y ) un vector absolutamente continuo con función de densidad
fX,Y (x, y). Demuestre que XY tiene función de densidad
Z ∞
1
fXY (u) =
fX,Y (u/v, v) dv
v
−∞
125
397. Encuentre la función de densidad de XY cuando X y Y son independientes ambas con distribución
a) unif(0, 1).
b) exp(λ).
c) N(0, 1).
398. Encuentre la función de densidad de XY cuando X y Y tienen función
de densidad conjunta
1
para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = e−x−y para x, y > 0.
a) f (x, y) =
c) f (x, y) = e−y para 0 < x < y.
d ) fX,Y (x, y) = 8xy para 0 < x < y < 1.
e) fX,Y (x, y) = 4x(1 − y) para 0 < x, y < 1.
399. Encuentre la función de densidad de XY cuando X y Y son independientes y ambas con densidad
a) f (x) = 2x para 0 < x < 1.
b) f (x) = 6x(1 − x) para 0 < x < 1.
c) f (x) = 21 (1 + x) para −1 < x < 1.
4.2.4.
Distribución del cociente
Finalmente se encontrará una fórmula para el cociente de dos variables
aleatorias absolutamente continuas.
Proposición 45 Sea (X, Y ) un vector continuo con función de densidad
conjunta fX,Y (x, y) y tal que Y 6= 0. Entonces X/Y tiene función de densidad
Z ∞
fX/Y (u) =
fX,Y (uv, v) |v| dv.
(4.8)
−∞
Demostración. Procederemos como en las secciones anteriores. Sea φ : R2 →
R2 la transformación
φ(x, y) = (φ1 (x, y), φ2 (x, y))
= (x/y, y)
= (u, v)
126
para y 6= 0 y con inversa
−1
φ−1 (u, v) = (φ−1
1 (u, v), φ2 (u, v))
= (uv, v)
= (x, y).
El Jacobiano de la transformación inversa es
∂φ−1
∂φ−1
1
1
v u
∂u
∂v
|J(u, v)| = −1 = 0 1
∂φ
∂φ−1
2
2
∂u
∂v
Por la fórmula (4.1)
= v.
fX/Y,Y (u, v) = fX,Y (uv, v) |v|.
De donde se obtiene (4.8).
Haciendo x(v) = uv en (4.8) se obtiene la expresión equivalente
Z ∞
fX/Y (u) =
fX,Y (x, x/u) |x/u2 | dx.
(4.9)
−∞
Observe nuevamente que cuando X y Y son independientes el integrando en
la fórmula (4.8) se escribe como el producto de las densidades marginales.
Segunda demostración. Ahora usaremos el procedimiento usual de encontrar primero la función de distribución y después derivar para encontrar la
función de densidad.
FX/Y (u) = P (X/Y ≤ u)
Z Z
=
fX,Y (x, y) dy dx
=
Z
0
{x/y≤u}
Z x/u
−∞
fX,Y (x, y) dydx +
−∞
Z
0
∞Z ∞
fX,Y (x, y) dydx.
x/u
Derivando respecto de u,
Z ∞
Z 0
2
fX,Y (x, x/u)(x/u2 ) dx
fX,Y (x, x/u)(−x/u ) dx +
fX/Y (u) =
0
Z−∞
∞
2
fX,Y (x, x/u)|x/u | dx,
=
−∞
que corresponde a (4.9) equivalente a (4.8).
Tercera demostración. A partir de la fórmula para el producto de dos variables aleatorias se puede construir una tercera demostración de (4.8) de la
forma siguiente.
Z ∞
1
fX/Y (u) = fX·(1/Y ) (u) =
fX,1/Y (u/v, v) dv.
v
−∞
127
Haciendo el cambio de variable x = 1/v se obtiene
Z ∞
fX,1/Y (ux, 1/x)|x| dx
fX/Y (u) =
−∞
Z ∞
=
fX,Y (ux, x)|x| dx.
−∞
EJERCICIOS
400. Sea (X, Y ) un vector absolutamente continuo con función de densidad fX,Y (x, y) tal que Y 6= 0. Demuestre que X/Y tiene función de
densidad
Z ∞
fX/Y (u) =
fX,Y (uv, v) |v| dv
−∞
401. Encuentre la función de densidad de X/Y para (X, Y ) un vector con
función de densidad conjunta
1
para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = e−x−y para x, y > 0.
a) f (x, y) =
c) f (x, y) = e−y para 0 < x < y.
d ) f (x, y) = 8xy para 0 < x < y < 1.
e) f (x, y) = 4x(1 − y) para 0 < x, y < 1.
f ) f (x, y) = 2e−x−y para 0 < x < y.
402. Encuentre la función de densidad de X/Y cuando X y Y son independientes y ambas con distribución
a) exp(λ).
b) unif(0, 1).
403. Encuentre la función de densidad de X/Y cuando X y Y son independientes y ambas con densidad
a) f (x) = 2x para 0 < x < 1.
b) f (x) = 6x(1 − x) para 0 < x < 1.
c) f (x) = 12 (1 + x) para −1 < x < 1.
404. Sean X y Y independientes con distribución exp(λ). Encuentre la función de densidad de
a) X/(X + Y ).
b) Y /(X + Y ).
405. Sean X y Y independientes ambas con distribución normal estándar.
Demuestre que la variable aleatoria Y /X tiene distribución Cauchy.
128
Las fórmulas encontradas se resumen en la siguiente tabla.
Fórmulas para la suma, diferencia, producto y cociente de dos v.a.s
1. fX+Y (u) =
Z
∞
Z
∞
−∞
2. fX−Y (u) =
fX,Y (u − v, v) dv
fX,Y (u + v, v) dv
−∞
3. fXY (u) =
Z
4. fX/Y (u) =
∞
−∞
Z
∞
1
fX,Y (u/v, v) dv
v
−∞
fX,Y (uv, v) |v| dv
129
Capı́tulo 5
Distribuciones muestrales y
estadı́sticas de orden
Se estudian ahora algunas distribuciones de probabilidad que surgen en la
estadı́stica y otras áreas de aplicación de la probabilidad.
Primeramente se define una “muestra aleatoria” como una colección de variables aleatorias X1 , . . . , Xn que cumplen la condición de ser independientes y
de tener cada una de ellas la misma distribución de probabilidad. Al número
n se le llama tamaño de la muestra aleatoria. A menudo se escribe m.a. para
abreviar el término “muestra aleatoria” y se usan las siglas v.a.i.i.d. para
denotar el término “variables aleatorias independientes e idénticamente distribuidas”. Por lo tanto una m.a. es una colección de v.a.i.i.d.
Se define también una “estadı́stica” como una variable aleatoria de la forma
g(X1 , . . . , Xn ) en donde X1 , . . . , Xn es una m.a. y g es una función de Rn en
R que es Borel medible. Por ejemplo la “media muestral” es una estadı́stica
denotada por X̄ y definida como sigue
n
1X
Xi .
X̄ =
n
i=1
Observe que X̄ es una combinación lineal de los elementos de la m.a. y por
lo tanto es una v.a. Otro ejemplo importante de estadı́stica es la “varianza
muestral”, denotada por S 2 y definida como sigue
n
S2 =
1 X
(Xi − X̄)2 .
n−1
i=1
Observe que en el denominador aparece el término n − 1. La media y la
varianza muestrales tienen la caracterı́stica de ser estimadores insesgados
para la media y la varianza respectivamente de una distribución cualquiera.
En particular, cuando la muestra aleatoria proviene de una distribución
normal resulta que la media y la varianza muestrales son variables aleatorias
130
independientes. Utilizaremos este interesante e inesperado resultado más
adelante y cuya demostración puede encontrarse en [13].
Proposición 46 Sea X1 , . . . Xn una m.a. de la distribución N(µ, σ 2 ). Entonces las estadı́sticas X̄ y S 2 son independientes.
Este resultado no es válido para cualquier distribución de probabilidad, por
ejemplo no es difı́cil verificar lo contrario para una muestra aleatoria de la
distribución Ber(p).
En la siguiente esección se estudian algunas distribuciones de probabilidad
estrechamente relacionadas con la media y la varianza muestral.
EJERCICIOS
406. Sea X1 , . . . , Xn una m.a. tomada de una distribución con media µ y
varianza σ 2 . Demuestre que
a) E(X̄) = µ.
b) E(S 2 ) = σ 2 .
Estos resultados son de importancia en estadı́stica y muestran que X̄
y S 2 son estimadores insesgados de los parámetros µ y σ 2 respectivamente.
407. Sea X1 , . . . , Xn una m.a. tomada de una distribución con media µ y
varianza σ 2 . Demuestre que
a) Var(X̄) = σ 2 /n.
408. Sea X1 , . . . Xn una m.a. de la distribución Ber(p). Demuestre que las
estadı́sticas X̄ y S 2 no son independientes.
5.1.
Distribuciones muestrales
Estudiamos a continuación algunas distribuciones de probabilidad que surgen en la estadı́stica al considerar funciones de una muestra aleatoria.
Distribución ji-cuadrada. Se dice que X tiene una distribución ji-cuadrada
con n > 0 grados de libertad si su función de densidad es, para x > 0,
1
f (x) =
Γ(n/2)
n/2
1
xn/2−1 e−x/2 .
2
En este caso se escribe X ∼ χ2 (n). En la figura 5.1 puede apreciarse el
comportamiento de la función de densidad de esta distribución para varios
131
valores del parámetro n. Se puede demostrar que
E(X) = n
Var(X) = 2n.
fHxL
1
€€€€
2
1
2
3
4
5
6
7
8
9
x
Figura 5.1: Función de densidad de la distribución χ2 (n) para n = 1, 2, 3, 4 de arriba
hacia abajo sobre el eje vertical.
Observe que la distribución χ2 (n) con n = 2 se reduce a la distribución
exp(λ) con λ = 1/2. La distribución ji-cuadrada puede encontrarse como
indica el siguiente resultado.
Proposición 47 Si X ∼ N(0, 1) entonces X 2 ∼ χ2 (1).
Demostración. Para x > 0,
FX 2 (x) = P (X 2 ≤ x)
√
√
= P (− x ≤ X ≤ x)
√
√
= FX ( x) − FX (− x).
Derivando
√
√
1
1
fX 2 (x) = fX ( x) √ + fX (− x) √
2 x
2 x
√
1
= fX ( x) √
x
1
1
= √ e−x/2 √
x
2π
1/2
1
1
=
x1/2−1 e−x/2
Γ(1/2) 2
correspondiente a la densidad χ2 (1).
La suma de dos o mas variables aleatorias independientes con distribución
ji-cuadrada es nuevamente una variable aleatoria ji-cuadrada y sus grados de
132
libertad son la suma de los grados de libertad de cada uno de los sumandos.
Este es el contenido de la siguiente proposición.
Proposición 48 Sean X1 , . . . , Xm independientes tales que Xi ∼ χ2 (ni ),
para i = 1, . . . , m. Entonces
n
X
i=1
Xi ∼ χ2 (n1 + · · · + nm ).
Demostración. Es suficiente demostrar el resultado para el caso de dos variables aleatorias. Sean X y Y independientes con distribución ji-cuadrada con
grados de libertad n y m respectivamente. Este ligero cambio en la notación
nos evitará el uso de subı́ndices. Por la fórmula (4.2), para u > 0,
Z u
fX+Y (u) =
fX (u − v)fY (v) dv
0
=
=
n/2
1
(u − v)n/2−1 e−(u−v)/2
2
0
m/2
1
1
v m/2−1 e−v/2 dv
Γ(m/2) 2
(n+m)/2
1
1
e−u/2
Γ(n/2)Γ(m/2) 2
Z u
(u − v)n/2−1 v m/2−1 dv.
Z
u
1
Γ(n/2)
0
Haciendo el cambio de variable w(v) = v/u en la integral se obtiene
(n+m)/2
1
1
fX+Y (u) =
e−u/2 u(n+m)/2−1
Γ(n/2)Γ(m/2) 2
Z 1
(1 − w)n/2−1 wm/2−1 dw.
0
La integral resultante es B(n/2, m/2). Entonces
(n+m)/2
1
B(n/2, m/2)
e−u/2 u(n+m)/2−1
fX+Y (u) =
Γ(n/2)Γ(m/2) 2
(n+m)/2
1
1
=
e−u/2 u(n+m)/2−1 .
Γ((n + m)/2) 2
Esta última expresión es la función de densidad de la distribución χ2 (n+m).
El resultado anterior puede demostrarse de una manera más simple y elegante usando la función generadora de momentos o la función caracterı́stica,
presentadas en el siguiente capı́tulo.
133
Proposición 49 Sean X1 , . . . , Xn independientes con distribución N(µ, σ 2 ).
Entonces
n
X
(Xi − µ)2
∼ χ2 (n).
σ2
i=1
Demostración. Esto es una consecuencia sencilla de las dos proposiciones
anteriores. Como cada Xi tiene distribución N(µ, σ 2 ) para i = 1, . . . , n,
entonces (Xi − µ)/σ tiene distribución N(0, 1). Por lo tanto
(Xi − µ)2
∼ χ2 (1).
σ2
En consecuencia
n
X
(Xi − µ)2
σ2
i=1
∼ χ2 (n).
Enunciamos el siguiente resultado cuya demostración se pide realizar en
el ejercicio 517 de la página 170, una vez que contemos con la poderosa
herramienta de las funciones generadoras de momentos.
Proposición 50 Sean X y Y independientes tales que X tiene distribución
χ2 (n) y X + Y tiene distribución χ2 (m). Suponga m > n. Entonces Y tiene
distribución χ2 (m − n).
Con ayuda de esta proposición se demuestra ahora el siguiente resultado de
particular importancia en estadı́stica.
Proposición 51 Sean X1 , . . . , Xn independientes con distribución N(µ, σ 2 ).
Entonces
n−1 2
S ∼ χ2 (n − 1).
σ2
Demostración.
n
X
i=1
2
(Xi − µ)
=
n
X
i=1
=
n
X
i=1
Diviendo entre σ 2
n
X
(Xi − µ)2
i=1
σ2
[(Xi − X̄) + (X̄ − µ)]2
(Xi − X̄)2 + n(X̄ − µ)2 .
n−1 2
=
S +
σ2
134
X̄ − µ
√
σ/ n
2
.
El término del lado izquierdo tiene distribución χ2 (n) mientras que el segundo sumando del lado derecho tiene distribución χ2 (1). Por la Proposición 50
y recordando que X̄ y S 2 son independientes, se concluye que el primer
sumando del lado derecho tiene distribución χ2 (n − 1).
EJERCICIOS
409. Demuestre que la función de densidad de la distribución χ2 (n) efectivamente lo es.
410. Demuestre que la distribución χ2 (n) con n = 2 se reduce a la distribución exp(λ) con λ = 1/2.
411. Demuestre que la distribución gama(n/2, λ) con λ = 1/2 se reduce a
la distribución χ2 (n).
412. Sea X con distribución χ2 (n). Demuestre que
a) E(X) = n.
Γ(m + n/2)
para m = 1, 2, . . .
Γ(n/2)
c) Var(X) = 2n.
b) E(X m ) = 2m
413. Demuestre que si X ∼ N(0, 1) entonces X 2 ∼ χ2 (1).
414. Sean X1 , . . . , Xn independientes con distribución N(µ, σ 2 ). Demuestre
que
(X̄ − µ)2
∼ χ2 (1).
σ 2 /n
415. Demuestre que si X1 , . . . , Xm son independientes tales que Xi ∼ χ2 (ni )
para i = 1, . . . , m entonces
m
X
i=1
Xi ∼ χ2 (n1 + · · · + nm ).
416. Sean X1 , . . . , Xn independientes con distribución N(0, 1). Demuestre
que
n
X
Xi2 ∼ χ2 (n).
i=1
417. Sean X1 , . . . , Xn independientes tales que cada Xi tiene distribución
N(µi , σi2 ) para i = 1, . . . , n. Demuestre que
n
X
(Xi − µi )2
i=1
σi2
135
∼ χ2 (n).
418. Sean X1 , . . . , Xn independientes con distribución N(µ, σ 2 ). Demuestre
que
(n − 1) 2
S ∼ χ2 (n − 1),
σ2
419. Sean X y √
Y independientes ambas con distribución normal estándar.
Sean R = X 2 + Y 2 y θ = tan−1 (Y /X). Demuestre que
a) R2 tiene distribución χ2 (n) con n = 2 grados de libertad.
b) tan θ tiene distribución Cauchy.
c) R y θ son independientes.
Distribución t. La variable aleatoria X tiene una distribución t de Student
con n > 0 grados de libertad si su función de densidad está dada por
Γ((n + 1)/2)
f (x) = √
(1 + x2 /n)−(n+1)/2
nπ Γ(n/2)
para − ∞ < x < ∞.
En este caso se escribe X ∼ t(n). Esta distribución apareció por primera vez
en 1908 en un trabajo publicado por William Gosset bajo el el seudónimo de
”Student”. En la figura 5.2 puede apreciarse el comportamiento de la función
de densidad de la distribución t(n) para varios valores del parámetro n. Se
puede demostrar que
E(X) = 0,
y Var(X) =
n
n−2
para n > 2.
fHxL
2
1
-2
-1
1
2
x
Figura 5.2: Función de densidad de la distribución t(n) para n = 1, 2, 3, 4 de abajo hacia
arriba.
La primera igualdad establece entonces que la distribución t(n) se encuentra
siempre centrada en cero para cualquier valor del parámetro n. Se muestran
a continuación algunas formas en las que surge esta distribución.
136
Proposición 52 Sean X ∼ N(0, 1) y Y ∼ χ2 (n) independientes. Entonces
X
p
∼ t(n).
Y /n
Demostración. Por independencia, la función de densidad conjunta de X y
Y es, para y > 0,
1
1
2
fX,Y (x, y) = √ e−x /2 ·
Γ(n/2)
2π
n/2
1
y n/2−1 e−y/2 .
2
Se aplica la fórmula (4.1) para la transformación
p
φ(x, y) = (x, x/ y/n)
con inversa
φ−1 (s, t) = (s, ns2 /t2 ).
El Jacobiano de la transformación inversa es
∂x/∂s ∂x/∂t 1
0
J(s, t) = =
2sn/t2 −2ns2 /t3
∂y/∂s ∂y/∂t Por lo tanto
= −2ns2 /t3 .
fS,T (s, t) = fX (s)fY (ns2 /t2 ) · 2ns2 /t3
n/2 n/2−1 n−2
1
1
n
s
1 −s2 /2
2
2
·
e−ns /2t · 2ns2 /t3 .
= √ e
n−2
Γ(n/2) 2
t
2π
Integrando respecto de s,
1
nn/2
fT (t) = √
2π 2n/2−1 Γ(n/2)tn+1
Z
∞
s e
=
1
+ n2
2
2t
ds.
0
Ahora efectuamos el cambio
de variable r(s) = s2
emos dr = 2s 21 + 2tn2 ds, y entonces
fT (t) =
2
n −s
1
2
+
nn/2
1
√
2π 2n/2−1 Γ(n/2)tn+1 2 1 + n2 (n+1)/2
2
2t
1
Γ((n + 1)/2)
√
,
nπ Γ(n/2) (1 + t2 /n)(n+1)/2
n
2t2
, de donde obten-
Z
∞
r(n−1)/2 e−r dr
0
correspondiente a la función de densidad de la distribución t(n).
El siguiente resultado es de particular importancia en estadı́stica para efectuar estimaciones del parámetro µ de una población normal cuando la varianza
σ 2 es desconocida.
137
Proposición 53 Sea X1 , . . . , Xn una m.a. de una distribución N(µ, σ 2 ).
Entonces
X̄ − µ
√ ∼ t(n − 1).
S/ n
Demostración. Use la Proposición 52 aplicada a las variables aleatorias independientes
X̄ − µ
√
∼ N (0, 1)
σ/ n
n−1 2
y
S ∼ χ2 (n − 1).
σ2
EJERCICIOS
420. Demuestre que la función de densidad de una distribución t(n) efectivamente lo es.
421. Sea X con distribución t(n). Demuestre que
a) E(X) = 0.
b) Var(X) =
n
n−2
para n > 2.
422. Demuestre que la distribución t(n+1) tiene momentos finitos de orden
menor o igual a n pero ningún otro momento de orden superior.
423. Sean X ∼ N(0, 1) y Y ∼ χ2 (n) independientes. Demuestre que
X
p
∼ t(n).
Y /n
424. Sea X1 , . . . , Xn una m.a. de una población N(µ, σ 2 ). Demuestre que
X̄ − µ
√ ∼ t(n − 1).
S/ n
Distribución F. La variable aleatoria X tiene una distribución F de Snedecor
con parámetros n > 0 y m > 0 si su función de densidad es, para x > 0,
f (x) =
Γ((n + m)/2) n n/2 n/2−1 n −(n+m)/2
1+ x
.
x
Γ(n/2) Γ(m/2) m
m
138
fHxL
fHxL
3
€€€€
4
3
€€€€
4
1
2
3
4
x
1
2
(a)
3
x
4
(b)
Figura 5.3: Función de densidad de la distribución F(n, m) para (a) n = 1, 10, 100 y
m = 5 de abajo hacia arriba sobre el eje vertical en x = 1, y (b) n = 5 y m = 1, 5, 50 de
abajo hacia arriba sobre el eje vertical en x = 1.
Se escribe X ∼ F(n, m). En la figura 5.3 se muestra el comportamiento de
la función de densidad de la distribución F(n, m) para varios valores de los
parámetros n y m. Puede demostrarse que
E(X) =
Var(X) =
m
para m > 2,
m−2
2m2 (m + n − 2)
para m > 4.
n(m − 2)2 (m − 4)
Los siguientes resultados indican la forma de obtener la distribución F .
Proposición 54 Sean X ∼ χ2 (n) y Y ∼ χ2 (m) independientes. Entonces
X/n
∼ F(n, m).
Y /m
Demostración. Aplique la fórmula (4.8) para la función de densidad del
cociente de dos variables aleatorias.
Proposición 55 Si X ∼ t(n) entonces X 2 ∼ F(1, n).
Demostración. Aplique la fórmula
√
√
1
1
fX 2 (x) = fX ( x) √ + fX (− x) √ .
2 x
2 x
139
EJERCICIOS
425. Demuestre que la función de densidad de la distribución F(n, m) efectivamente lo es.
426. Sea X con distribución F(n, m). Demuestre que
m
para m > 2.
m−2
2m2 (m + n − 2)
para m > 4 .
b) Var(X) =
n(m − 2)2 (m − 4)
a) E(X) =
427. Sea X con distribución F(n, m). Demuestre que Y = 1/X tiene distribución F(m, n). Observe el cambio en el orden de los parámetros.
Este resultado es útil para obtener valores de F que no aparecen en
tablas.
428. Sea X con distribución F(n, m). Demuestre que cuando m tiende a
infinito la función de densidad de nX converge puntualmente a la
función de densidad de la distribución χ2 (n).
429. Sean X ∼ χ2 (n) y Y ∼ χ2 (m) independientes. Demuestre que
X/n
∼ F(n, m).
Y /m
430. Demuestre que si X ∼ t(n) entonces X 2 ∼ F(1, n).
5.2.
Estadı́sticas de orden
Dada una muestra aleatoria X1 , . . . , Xn , podemos evaluar cada una de estas
variables en un punto muestral ω cualquiera y obtener una colección de
números reales X1 (ω), . . . , Xn (ω). Estos números pueden ser ordenados de
menor a mayor incluyendo repeticiones. Si X(i) (ω) denota el i-ésimo número
ordenado, tenemos entonces la colección no decreciente de números reales
X(1) (ω) ≤ · · · ≤ X(n) (ω).
Ahora hacemos variar el argumento ω y lo que se obtiene son las ası́ llamadas
estadı́sticas de orden. Este proceso de ordenamiento resulta ser de importancia en algunas aplicaciones. Tenemos entonces la siguiente definición.
140
Definición 37 Sea X1 , . . . , Xn una muestra aleatoria. A las variables
aleatorias ordenadas
X(1) = mı́n{X1 , . . . , Xn }
..
.
X(n) = máx{X1 , . . . , Xn }
se les conoce con el nombre de “estadı́sticas de orden” A X(1) se le llama
primera estadı́stica de orden, a X(2) se le llama segunda estadı́stica de orden,
etc. A X(i) se le llama i-ésima estadı́stica de orden, i = 1, . . . , n.
Nuestro objetivo en esta sección es encontrar algunas fórmulas relacionadas
con las distribuciones de probabilidad de las estadı́sticas de orden cuando
se conoce la distribución de cada variable de la muestra aleatoria.
5.2.1.
Distribuciones individuales
Comenzamos encontrando la distribución de la primera y de la última estadı́stica de orden de manera individual.
Proposición 56 Sea X1 , . . . , Xn una m.a. de una distribución continua con
función de densidad f (x) y función de distribución F (x). Entonces
1. fX(1) (x) = nf (x) [1 − F (x)]n−1 .
2. fX(n) (x) = nf (x) [F (x)]n−1 .
Demostración. Para verificar (1) se calcula primero la función de distribución
FX(1) (x) = P (X(1) ≤ x)
= P (mı́n{X1 , . . . , Xn } ≤ x)
= 1 − P (mı́n{X1 , . . . , Xn } > x)
= 1 − P (X1 > x, . . . , Xn > x)
= 1 − [P (X1 > x)]n
= 1 − [1 − F (x)]n .
Derivando
fX(1) (x) = nf (x) [1 − F (x)]n−1 .
Para demostrar (2) se procede de manera análoga,
FX(n) (x) = P (X(n) ≤ x)
141
= P (máx{X1 , . . . , Xn } ≤ x)
= P (X1 ≤ x, . . . , Xn ≤ x)
= [P (X1 ≤ x)]n
= [F (x)]n .
Por lo tanto
fX(n) (x) = nf (x) [F (x)]n−1 .
Ahora presentamos el resultado general de la función de densidad de la iésima estadı́stica de orden.
Proposición 57 Sea X1 , . . . , Xn una m.a. de una distribución continua con
función de densidad f (x) y función de distribución F (x). Entonces
n
fX(i) (x) =
i f (x)[F (x)]i−1 [1 − F (x)]n−i .
i
Demostración. Sea Yi la variable aleatoria dada por
1 si Xi ≤ x,
Yi = 1(−∞,x] (Xi ) =
0 si Xi > x,
en donde Xi es el i-ésimo elemento de la muestra aleatoria. Las variables
Y1 , . . . , Yn son independientes y cada una de ellas puede considerarse un
ensayo Bernoulli con probabilidad de éxito, es decir tomar el valor 1, igual
a P (Xi ≤ x) = F (x). Entonces la suma Y1 + · · · + Yn corresponde al número
de v.a.s Xi que cumplen la condición Xi ≤ x y por lo tanto esta suma tiene
distribución bin(n, p) con p = F (x). Entonces
FX(i) (x) = P (X(i) ≤ x)
= P (Y1 + · · · + Yn ≥ i)
n X
n
=
[F (x)]j [1 − F (x)]n−j .
j
j=i
Derivando y después simplificando,
n X
n
f (x)[F (x)]j−1 [1 − F (x)]n−j−1 [j − nF (x)]
fX(i) (x) =
j
j=i
n X
n
f (x)[F (x)]j−1 [1 − F (x)]n−j−1 [j(1 − F (x)) − (n − j)F (x)]
=
j
j=i
n
i f (x)[F (x)]i−1 [1 − F (x)]n−i .
=
i
142
Observe que la fórmula recién demostrada se reduce a las que aparecen en la
Proposición 56 cuando i = 1 e i = n. Ahora presentamos una demostración
corta e intuitiva del mismo resultado.
Segunda demostración. Sea h > 0 arbitrario y considere los siguientes tres
intervalos ajenos (−∞, x], (x, x + h] y (x + h, ∞). La probabilidad de que
i − 1 variables de la muestra tomen un valor en el intervalo (−∞, x], una de
ellas en (x, x+h] y el resto n−i en (x+h, ∞) es, de acuerdo a la distribución
multinomial,
n!
[F (x)]i−1 [F (x + h) − F (x)][1 − F (x + h)]n−i .
(i − 1)! 1! (n − i)!
Haciendo h tender a cero se obtiene
n
fX(i) (x) =
i f (x)[F (x)]i−1 [1 − F (x)]n−i .
i
Sea X1 , . . . , Xn una m.a. A la variable aleatoria R = X(n) −X(1) se le conoce
como el “rango” de la muestra. El siguiente resultado provee de una fórmula
para la función de densidad de R.
Proposición 58 Sea X1 , . . . , Xn una m.a. tomada de una distribución continua con función de densidad f (x) y función de distribución F (x). Entonces
para r > 0,
Z ∞
f (y)f (y − r)[F (y) − F (y − r)]n−2 dy.
fR (r) = n(n − 1)
−∞
Demostración. Se calcula primero la distribución conjunta FX(1) ,X(n) (x, y).
Para x ≤ y,
FX(1) ,X(n) (x, y) = P (X(1) ≤ x, X(n) ≤ y)
= P (X(n) ≤ y) − P (X(n) ≤ y, X(1) > x)
= [F (y)]n − P (x < X1 ≤ y, . . . , x < Xn ≤ y)
= [F (y)]n − [F (y) − F (x)]n .
Por lo tanto,
∂2
[F (y) − F (x)]n
∂x∂y
= n(n − 1)f (y)f (x)[F (y) − F (x)]n−2 .
fX(n) ,X(1) (x, y) = −
143
Ahora se usa la fórmula (4.4) para la diferencia de dos variables aleatorias.
Para r > 0 y n ≥ 2,
Z ∞
fX(n) −X(1) (r) = n(n − 1)
f (y)f (y − r)[F (y) − F (y − r)]n−2 dy.
−∞
EJERCICIOS
431. Sea X1 , . . . , Xn una m.a. tomada de una distribución continua F (x)
con función de densidad f (x). Demuestre nuevamente que
a) fX(1) (x) = nf (x) [1 − F (x)]n−1 .
b) fX(n) (x) = nf (x) [F (x)]n−1 .
432. Demuestre que las funciones fX(1) (x) y fX(n) (x) del ejercicio anterior
son efectivamente funciones de densidad.
433. Sea X1 , . . . , Xn una m.a. de una distribución continua F (x) con función de densidad f (x). Demuestre nuevamente que
n
i f (x)[F (x)]i−1 [1 − F (x)]n−i
fX(i) (x) =
i
y compruebe que ésta es efectivamente una función de densidad.
434. Compruebe que la fórmula de la Proposición 57 se reduce a la fórmulas
(1) y (2) de la Proposición 56 cuando i = 1 e i = n respectivamente.
435. Sea X1 , . . . , Xn una m.a. de una distribución unif(0, 1). Demuestre
que la i-ésima estadı́stica de orden tiene distribución beta(i, n + 1 − i).
Encuentre por lo tanto su esperanza y varianza.
436. Sea X1 , . . . , Xn una m.a. de una distribución exp(λ). Encuentre la
función de densidad de la i-ésima estadı́stica de orden.
437. Sean X(1) , X(2) las estadı́sticas de orden de una m.a. de tamaño dos
√
de una distribución N(µ, σ 2 ). Demuestre que E[X(1) ] = µ − σ/ π.
438. Sean X(1) , X(2) las estadı́sticas de orden de una m.a. de tamaño dos
de una distribución N(µ, σ 2 ). Calcule E[X(2) ].
439. Sea X1 , . . . , Xn una m.a. de una distribución F (x). Sea x un número
real cualquiera y para i = 1, . . . , n defina
Yi = 1(−∞,x] (Xi ).
Demuestre que Y1 , . . . , Yn son independientes cada una de ellas con
distribución Ber(n, p) con p = F (x). Este hecho fue utilizado en el
procedimiento para encontrar la función de densidad de la i-ésima
estadı́stica de orden en la Proposición 57.
144
440. Sean X1 y X2 absolutamente continuas e independientes y defina Y =
máx{X1 , X2 }. Demuestre que
a) FY (y) = FX1 (y)FX2 (y).
b) fY (y) = FX1 (y)fX2 (y) + fX1 (y)FX2 (y).
c) fY (y) = 2FX (y)fX (y) cuando X1 y X2 tienen la misma distribución.
441. Use el ejercicio anterior para encontrar la función de densidad de
Y = máx{X1 , X2 } cuando X1 y X2 son independientes cada una con
distribución
a) unif(0, 1).
b) exp(λ).
442. Sean X1 y X2 absolutamente continuas e independientes. Defina Y =
mı́n{X1 , X2 }. Demuestre que
a) FY (y) = 1 − [1 − FX1 (y)][1 − FX2 (y)].
b) fY (y) = [1 − FX1 (y)]fX2 (y) + fX1 (y)[1 − FX2 (y)].
c) fY (y) = 2[1 − FX (y)]f (y) cuando X1 y X2 tienen la misma distribución.
443. Use el ejercicio anterior para encontrar la función de densidad de
Y = mı́n{X1 , X2 } cuando X1 y X2 son independientes cada una con
distribución
a) unif(0, 1).
b) exp(λ).
444. Sea X1 , . . . , Xn una m.a. de una distribución continua F (x) con función de densidad f (x). Sea R = X(n) − X(1) el rango de la muestra.
Demuestre que para r > 0 y n ≥ 2,
Z ∞
fR (r) = n(n − 1)
f (y)f (y − r)[F (y) − F (y − r)]n−2 dy.
−∞
445. Se escogen n puntos al azar del intervalo unitario (0, 1). Demuestre que
la función de densidad de la distancia máxima R entre cualesquiera
dos puntos es
n(n − 1)rn−2 (1 − r) si 0 < r < 1,
fR (r) =
0
otro caso.
5.2.2.
Distribución conjunta
Ahora presentamos dos resultados acerca de la distribución conjunta de las
estadı́sticas de orden. El primer resultado es acerca de la distribución conjunta de todas ellas y después consideraremos la distribución de cualesquiera
dos.
145
Proposición 59 Sea X1 , . . . , Xn una m.a. de una distribución continua con
función de densidad f (x). Para x1 < · · · < xn ,
fX(1) ,...,X(n) (x1 , . . . , xn ) = n!f (x1 ) · · · f (xn ).
Demostración. Se considera la función de distribución conjunta de todas las
estadı́sticas de orden y después se deriva n veces para encontrar la función
de densidad. Para x1 < x2 < · · · < xn ,
FX(1) ,...,X(n) (x1 , . . . , xn ) = P (X(1) ≤ x1 , X(2) ≤ x2 , . . . , X(n) ≤ xn ).
Como (X(2) ≤ x2 ) = (x1 < X(2) ≤ x2 ) ∪ (X(2) ≤ x1 ) se obtiene la expresión
FX(1) ,...,X(n) (x1 , . . . , xn ) = P (X(1) ≤ x1 , x1 < X(2) ≤ x2 , . . . , X(n) ≤ xn )
+ P X(1) ≤ x1 , X(2) ≤ x1 , . . . , X(n) ≤ xn ).
Observe que el segundo sumando no depende de x2 asi que al tomar la derivada respecto de esta variable, éste término desaparece. De manera análoga
procedemos con los eventos (X(3) ≤ x3 ) hasta (X(n) ≤ xn ). Al final se obtiene
fX(1) ,...,X(n) (x1 , . . . , xn )
=
∂n
P (X(1) ≤ x1 , x1 < X(2) ≤ x2 , . . . , xn−1 < Xn ≤ xn ).
∂x1 · · · ∂xn
Como ahora los intervalos involucrados son disjuntos, la distribución multinomial asegura que
P (X(1) ≤ x1 , x1 < X(2) ≤ x2 , . . . , xn−1 < Xn ≤ xn )
= n! P (X1 ≤ x1 , x1 < X2 ≤ x2 , . . . , xn−1 < Xn ≤ xn )
= n! F (x1 )[F (x2 ) − F (x1 )] · · · [F (xn ) − F (xn−1 )],
en donde la última igualdad se sigue de la independencia e idéntica distribución de las variables de la muestra. Ahora solo resta derivar para encontrar
el resultado.
La siguiente es una prueba corta pero no formal del mismo resultado.
Segunda demostración. Sea x1 < x2 < · · · < xn y h > 0 suficientemente
pequeño tal que los intervalos (x1 , x1 + h], (x2 , x2 + h], . . . , (xn , xn + h] son
ajenos. La probabilidad de que las variables aleatorias tomen valores cada una de ellas en uno y solo uno de estos intervalos es, de acuerdo a la
distribución multinomial,
n!
[F (x1 + h) − F (x1 )] · · · [F (xn + h) − F (xn )].
1! · · · 1!
Haciendo h tender a cero se obtiene
fX(1) ,...,X(n) (x1 , . . . , xn ) = n!f (x1 ) · · · f (xn ).
146
Ahora nos interesa encontrar una fórmula para la densidad conjunta de
cualesquiera dos estadı́sticas de orden.
Proposición 60 Sea X1 , . . . , Xn una m.a. de una distribución continua con
función de distribución F (x) y función de densidad f (x). Sea i < j. Para
x < y,
n
fX(i) ,X(j) (x, y) =
i(j − i) f (x)f (y)
i, j − i, n − j
[F (x)]i−1 [F (y) − F (x)]j−i−1 [1 − F (y)]n−j .
Demostración intuitiva. Para x < y considere los intervalos ajenos (−∞, x],
(x, x + h], (x + h, y], (y, y + h] y (y + h, ∞) para h > 0 suficientemente
pequeña. La probabilidad de que i − 1 variables de la muestra tomen un
valor en (−∞, x], una de ellas en (x, x + h], j − i + 1 variables en (x + h, y],
otra en (y, y + h] y el resto n − j variables tomen un valor en (y + h, ∞) es,
de acuerdo a la distribución multinomial,
n!
[F (x + h) − F (x)][F (y) − F (x + h)]j−i−1
(i − 1)! 1! (j − i − 1)! 1! (n − j)!
[F (x)]i−1 [F (y + h) − F (y)][1 − F (y + h)]n−j .
Haciendo h tender a cero se obtiene la fórmula anunciada.
EJERCICIOS
446. Sea X1 , . . . , Xn una m.a. de una distribución continua con función de
densidad f (x). Demuestre nuevamente que para x1 < x2 < · · · < xn ,
fX(1) ,...,X(n) (x1 , . . . , xn ) = n!f (x1 ) · · · f (xn )
y compruebe que ésta es efectivamente una función de densidad.
447. A partir de la fórmula para fX(1) ,...,X(n) (x1 , . . . , xn ) calcule la función
de densidad marginal de X(1) encontrando nuevamente que
fX(1) (x) = nf (x)[1 − F (x)]n−1 .
448. A partir de la fórmula para fX(1) ,...,X(n) (x1 , . . . , xn ) calcule la función
de densidad marginal de X(n) encontrando nuevamente que
fX(n) (x) = nf (x)[F (x)]n−1 .
147
449. A partir de la fórmula para fX(1) ,...,X(n) (x1 , . . . , xn ) calcule la función de
densidad marginal de X(i) para i = 1, . . . , n encontrando nuevamente
que
n
fX(i) (x) =
i f (x)[F (x)]i−1 [1 − F (x)]n−i .
i
450. Sea X1 , . . . , Xn una m.a. de una distribución continua con función de
distribución F (x) y función de densidad f (x). Sea i < j. Demuestre
nuevamente que para x < y,
n
fX(i) ,X(j) (x, y) =
i(j − i) f (x)f (y)
i, j − i, n − j
[F (x)]i−1 [F (y) − F (x)]j−i−1 [1 − F (y)]n−j
y compruebe que ésta es una función de densidad bivariada.
451. A partir de la fórmula para fX(i) ,X(j) (x, y) calcule la función de densidad marginal de X(i) encontrando nuevamente que
fX(i) (x) =
n
i
i f (x)[F (x)]i−1 [1 − F (x)]n−i .
452. Sea X1 , . . . , Xn una m.a. de una distribución unif(0, 1). Encuentre la
función de densidad de
a) X(1) y X(2) conjuntamente.
b) R = X(n) − X(1) .
453. Sea X1 , . . . , Xn una m.a. de una distribución unif(0, 1). Encuentre la
función de densidad de la mediana muestral
a) para n impar.
b) para n par.
454. Sea X1 , . . . , Xn una m.a. de una distribución unif(0, 1). Encuentre la
función de densidad del vector (X(1) , . . . , X(n) ).
455. Sea X1 , . . . , Xn una m.a. de una distribución unif(0, 1). Calcule el coeficiente de correlación entre X(i) y X(j) .
456. Sea X1 , . . . , Xn una m.a. de una distribución continua F (x) con función de densidad f (x). Demuestre directamente que para x < y,
fX(1) ,X(n) (x, y) = n(n − 1)f (x)f (y)[F (y) − F (x)]n−2 .
457. Utilice el ejercicio anterior para obtener la densidad conjunta de X(1)
y X(n) para una m.a. de tamaño n de una distribución
a) unif(0, 1).
b) exp(λ).
148
458. Calcule la covarianza entre X(1) y X(n) para una m.a. de tamaño n de
una distribución
a) unif(0, 1).
b) exp(λ).
149
Capı́tulo 6
Convergencia
En este capı́tulo se presenta una introducción al tema de convergencia de
variables aleatorias. Se estudian distintas formas en que una sucesión de
variables aleatorias puede converger.
6.1.
Convergencia puntual
Sea X1 , X2 , . . . una sucesión infinita de variables aleatorias. Al evaluar cada
variable de la sucesión en algún ω de Ω se obtiene la sucesión numérica
X1 (ω), X2 (ω), . . .. Suponga que esta sucesión converge a un cierto número
real denotado por X(ω). Si lo anterior se cumple para todos y cada uno de
los elementos de Ω entonces se dice que la sucesión de variables aleatorias
”converge puntualmente” y su lı́mite es la función X : Ω → R definida
naturalmente por
X(ω) = lı́m Xn (ω).
n→∞
Hemos demostrado al inicio de nuestro curso que en esta situación la función lı́mite X es efectivamente una variable aleatoria. Formalmente tenemos
entonces la siguiente defininición.
Definición 38 La sucesión X1 , X2 , . . . converge puntualmente a X si para
cada ω en Ω
X(ω) = lı́m Xn (ω).
n→∞
Por ejemplo, suponga el espacio medible ([0, 1], B[0, 1]) y defina la sucesión
de variables aleatorias Xn (ω) = ω n . Entonces para ω ∈ [0, 1), Xn (ω) → 0.
Mientras que para ω = 1, Xn (ω) = 1. De esta manera la sucesión converge
puntualmente a la variable aleatoria
0 si ω ∈ [0, 1),
X(ω) =
1 si ω = 1.
150
La convergencia puntual resulta ser muy fuerte pues se pide la convergencia
de la sucesión evaluada en cada uno de los elementos de Ω. Uno puede
ser menos estricto y pedir por ejemplo que la convergencia se efectúe en
todo el espacio Ω excepto en un subconjunto de probabilidad cero. Este
tipo de convergencia más relajada se llama ”convergencia casi segura” y
se estudia en las siguientes secciones junto con otros tipos de convergencia
menos restrictivos.
6.2.
Convergencia casi segura
Definición 39 La sucesión X1 , X2 , . . . converge casi seguramente a X si
P {ω ∈ Ω : lı́m Xn (ω) = X(ω)} = 1.
n→∞
Por lo tanto, en la convergencia casi segura se permite que para algunos
valores de ω la sucesión numérica X1 (ω), X2 (ω), . . . pueda no converger, sin
embargo el subconjunto de Ω en donde esto suceda debe tener probabilic.s.
dad cero. Para indicar la convergencia casi segura se escribe Xn −→ X o
bien lı́m Xn = X c.s. A menudo se utiliza el término ”convergencia casi
n→∞
dondequiera” o bien ”convergencia casi siempre” para denotar este tipo de
convergencia. Observe que omitiendo el argumento ω, la condición para la
convergencia casi segura se escribe en la forma más corta
P ( lı́m Xn = X) = 1.
n→∞
En donde se asume que el conjunto ( lı́m Xn = X) es medible de tal forma
n→∞
que aplicar la probabilidad tiene sentido.
Veamos un ejemplo. Considere el espacio de probabilidad ([0, 1], B[0, 1], P )
con P la medida uniforme, es decir, P (a, b) = b − a. Defina la sucesión de
variables aleatorias
1 si 0 ≤ ω ≤ 1/n,
Xn (ω) =
0 otro caso.
Entonces Xn converge casi seguramente a la variable aleatoria constante
cero. Para demostrar esto se necesita verificar que P (lı́mn→∞ Xn = 0) = 1.
Pero esta igualdad es evidente a partir del hecho de que
{ω ∈ Ω : lı́m Xn (ω) = 0} = (0, 1]
n→∞
cuya probabilidad es uno. El punto ω = 0 es el único punto muestral para
c.s.
el cual Xn (ω) no converge a cero. Esto demuestra que Xn −→ 0.
151
EJERCICIOS
c.s.
459. Sean a y b constantes. Demuestre que si Xn −→ X entonces
c.s.
a) aXn −→ aX.
c.s.
b) Xn + b −→ X + b.
c.s.
c.s.
460. Suponga que Xn −→ X y Yn −→ Y . Demuestre que
c.s.
a) Xn + Yn −→ X + Y.
c.s.
b) Xn Yn −→ XY.
c.s.
c) Xn /Yn −→ X/Y si Y, Yn 6= 0.
461. Considere el espacio de probabilidad ([0, 1], B[0, 1], P ) con P la medida
de probabilidad uniforme. Demuestre que
c.s.
n1[0,1/n) −→ 0.
6.3.
Convergencia en probabilidad
Definición 40 La sucesión X1 , X2 , . . . converge en probabilidad a X si para
cada ǫ > 0
lı́m P {ω ∈ Ω : |Xn (ω) − X(ω)| > ǫ} = 0.
n→∞
p
Para denotar la convergencia en probabilidad se escribe Xn −→ X, y omitiendo el argumento ω la condición se escribe
lı́m P (|Xn − X| > ǫ) = 0.
n→∞
Más adelante se demostrará que la convergencia en probabilidad es un tipo
de convergencia aún más relajada que la convergencia casi segura.
EJERCICIOS
p
462. Sean a y b constantes. Demuestre que si Xn −→ X entonces
p
a) aXn −→ aX.
p
b) Xn + b −→ X + b.
p
p
463. Suponga que Xn −→ x y Yn −→ y, en donde x y y son dos números
reales fijos. Demuestre que
p
a) Xn + Yn −→ x + y.
152
p
b) Xn Yn −→ xy.
p
c) Xn /Yn −→ x/y si Yn , y 6= 0.
p
d ) Si g es continua en x entonces g(Xn ) −→ g(x).
p
p
464. Demuestre que si Xn −→ X y Yn −→ Y entonces
p
Xn + Yn −→ X + Y.
465. Sean X1 , X2 , . . . variables aleatorias independientes cada una con distribución unif(a, b). Demuestre que cuando n tiende a infinito
p
a) mı́n{X1 , . . . , Xn } −→ a.
p
b) máx{X1 , . . . , Xn } −→ b.
6.4.
Convergencia en media
Definición 41 La sucesión X1 , X2 , . . . converge en media a X si
lı́m E|Xn − X| = 0.
n→∞
Observe que para este tipo de convergencia tanto los elementos de la sucesión
como el lı́mite mismo deben ser variables aleatorias con esperanza finita. A
este tipo de convergencia también se le llama ”convergencia en L1 ” y se le
L1
m
denota por Xn −→ X o Xn −→ X.
EJERCICIOS
m
466. Sean a y b constantes. Demuestre que si Xn −→ X entonces
m
a) aXn −→ aX.
m
b) Xn + b −→ X + b.
m
m
467. Suponga que Xn −→ X y Yn −→ Y . Demuestre que
m
a) Xn + Yn −→ X + Y .
Proporcione un contraejemplo para las siguientes afirmaciones
m
b) Xn Yn −→ XY .
m
c) Xn /Yn −→ X/Y si Y, Yn 6= 0.
m
468. Use la desigualdad de Cauchy-Schwarz para demostrar que si Xn −→
X entonces
lı́m E(Xn ) = E(X).
n→∞
153
6.5.
Convergencia en media cuadrática
Definición 42 La sucesión X1 , X2 , . . . converge en media cuadrática a X
si
lı́m E|Xn − X|2 = 0.
n→∞
En la convergencia en media cuadrática se asume que tanto los elementos de
la sucesión como el lı́mite mismo son variables aleatorias con segundo momento finito. A este tipo de convergencia también se le llama ”convergencia
L2
m.c.
en L2 ” y se le denota por Xn −→ X o Xn −→ X.
EJERCICIOS
m.c.
469. Sean a y b constantes. Demuestre que si Xn −→ X entonces
m.c.
a) aXn −→ aX.
m.c.
b) Xn + b −→ X + b.
m.c.
470. Use la desigualdad de Cauchy-Schwarz para demostrar que si Xn −→
m.c.
X y Yn −→ Y entonces
m.c.
Xn + Yn −→ X + Y.
6.6.
Convergencia en distribución
Definición 43 La sucesión X1 , X2 , . . . converge en distribución a X si
lı́m FXn (x) = FX (x)
n→∞
para todo punto x en donde FX (x) es continua.
d
En este caso se escribe Xn −→ X. A este tipo de convergencia se le conoce
también con el nombre de ”convergencia débil” y ello se debe a que esta
forma de convergencia es la menos restrictiva de todas las mencionadas
anteriormente.
Por ejemplo considere la sucesión X1 , X2 , . . . en donde Xn tiene distribución
154
d
N(0, σ 2 /n). Demostraremos que Xn −→ 0. Como
Z x
1
2
2
e−u /2(σ /n) du,
FXn (x) = p
2
2πσ /n −∞
entonces

si x < 0,
 0
1/2 si x = 0,
lı́m FXn (x) =
n→∞

1
si x > 0.
Por otro lado, la variable aleatoria constante X = 0 tiene función de distribución
0 si x < 0,
FX (x) =
1 si x ≥ 0.
d
Tenemos entonces que Xn −→ 0 pues lı́m FXn (x) = FX (x) para todo punto
n→∞
x donde FX (x) es continua, esto es, para todo x en el conjunto R \ {0}.
Observe que no hay convergencia de las funciones FXn (x) en el punto de
discontinuidad x = 0.
En resumen tenemos la siguiente tabla con las definiciones de los distintos
tipos de convergencia mencionados.
Convergencia
Definición
Puntual
Xn (ω) → X(ω) para cada ω en Ω
Casi segura
P (Xn → X) = 1
En media
E|Xn − X| → 0
En media cuadrática
E|Xn − X|2 → 0.
En probabilidad
P (|Xn − X| > ǫ} → 0
En distribución
FXn (x) → FX (x) en puntos de continuidad x de FX
EJERCICIOS
471. Considere el espacio de probabilidad ([0, 1], B[0, 1], P ) en donde P es la
medida de probabilidad uniforme. Sea Xn = 1[0,1/2+1/n) y X = 1[1/2,1] .
d
Demuestre que Xn −→ X.
472. Sea Xn con distribución unif[1/2 − 1/n, 1/2 + 1/n]. Demuestre que
d 1
Xn −→ .
2
155
473. Sea Xn con distribución unif{0, 1, . . . , n}. Demuestre que
1
d
Xn −→ unif[0, 1].
n
474. Sea c una constante. Demuestre que
p
Xn −→ c
6.7.
⇐⇒
d
Xn −→ c.
Relaciones generales entre los tipos de convergencia
En esta sección se establecen las relaciones entre los distintos tipos de convergencia de variables aleatorias vistos en la sección anterior. En la figura 6.1
se ilustran de manera gráfica estas relaciones. En esta gráfica la contención
se interpreta como implicación, por ejemplo la convergencia casi segura implica la convergencia en probabilidad y ésta a su vez implica la convergencia
en distribución. Éstos y otros resultados se demuestran a continuación.
Figura 6.1: Relación entre los tipos de convergencia.
Proposición 61 Convergencia c.s. =⇒ convergencia en prob.
c.s.
Demostración. Suponga Xn −→ X. Sea ǫ > 0 y defina los eventos
An =
∞
[
(|Xk − X| > ǫ).
k=n
Esta sucesión es decreciente y su lı́mite es entonces la intersección de todos
los eventos. Como (|Xn − X| > ǫ) ⊆ An entonces
P (|Xn − X| > ǫ) ≤ P (An ).
156
Por lo tanto
lı́m P (|Xn − X| > ǫ) ≤
n→∞
lı́m P (An )
n→∞
= P ( lı́m An )
n→∞
∞
\
= P(
An )
n=1
= P (|Xn − X| > ǫ para cada n ≥ 1 )
= P ( lı́m Xn 6= X)
n→∞
= 0.
El recı́proco de la proposición anterior es falso, es decir, la convergencia en
probabilidad no implica necesariamente la convergencia casi siempre. Para
ilustrar esta afirmación se proporciona a continuación un contraejemplo.
Convergencia en prob. =⇒
6
Convergencia c.s. Considere el espacio ((0, 1), B(0, 1), P )
con P la medida de probabilidad uniforme. Defina los eventos
A1 = (0, 1/2), A2 = (1/2, 1),
A3 = (0, 1/3), A4 = (1/3, 2/3), A5 = (2/3, 1),
A6 = (0, 1/4), A7 = (1/4, 2/4), A8 = (2/4, 3/4), A9 = (3/4, 1),
······
p
Sea Xn = 1An . Entonces Xn −→ 0 pues para cualquier ǫ tal que 0 < ǫ < 1
lı́m P (|Xn − 0| > ǫ) = lı́m P (An ) = 0.
n→∞
n→∞
Sin embargo la sucesión no converge casi seguramente pues
{w ∈ Ω : lı́m Xn (w) existe } = ∅.
n→∞
Convergencia en m. =⇒
6
Convergencia c.s. Considere la sucesión de variables
m
Xn como en el ejemplo anterior. Entonces Xn −→ 0 pues E|Xn −0| = 1/n →
0. Sin embargo esta sucesión no converge c.s. pues P (lı́m Xn = 0) = P (∅) =
0.
Convergencia c.s. =⇒
6
convergencia en m. Considere el espacio ((0, 1), B(0, 1), P )
con P la medida de probabilidad uniforme. Defina la suceción Xn = n1(0,1/n) .
Entonces Xn converge a 0 c.s. pues P (lı́m Xn = 0) = P (Ω) = 1. Sin embargo
no hay convergencia en media pues E|Xn − 0| = 1.
Proposición 62 Convergencia en m.c. =⇒ convergencia en media.
157
Demostración. La desigualdad de Jensen establece que para u convexa
u(E(X)) ≤ E(u(X)).
Tomando u(x) = x2 se obtiene
E 2 |Xn − X| ≤ E|Xn − X|2 ,
de donde se sigue el resultado. Alternativamente la última desigualdad es
consecuencia de la desigualdad de Cauchy-Schwarz.
Proposición 63 Convergencia en media =⇒ convergencia en prob.
Demostración. Para cualquier ǫ > 0 sea An = (|Xn − X| > ǫ).
E|Xn − X| = E(|Xn − X| · 1An ) + E(|Xn − X| · (1 − 1An ))
≥ E(|Xn − X| · 1An )
≥ ǫP (|Xn − X| > ǫ).
Por hipótesis el lado izquierdo tiende a cero cuando n tiende a infinito. Por
lo tanto
lı́m P (|Xn − X| > ǫ) = 0.
n→∞
Proposición 64 Convergencia en prob. =⇒ convergencia en dist.
Demostración. Sea x un punto de continuidad de FX (x). Para cualquier
ǫ>0
FXn (x) = P (Xn ≤ x)
= P (Xn ≤ x, |Xn − X| ≤ ǫ) + P (Xn ≤ x, |Xn − X| > ǫ)
≤ P (X ≤ x + ǫ) + P (|Xn − X| > ǫ).
El segundo sumando del lado derecho tiende a cero cuando n tiende a infinito
p
pues por hipótesis Xn −→ X. Entonces para cualquier ǫ > 0,
lı́m sup FXn (x) ≤ FX (x + ǫ).
n→∞
Por la continuidad lateral,
lı́m sup FXn (x) ≤ FX (x).
n→∞
158
Ahora se demuestra la desigualdad inversa. Para cualquier ǫ > 0
FX (x − ǫ) = P (X ≤ x − ǫ)
= P (X ≤ x − ǫ, |Xn − X| ≤ ǫ) + P (X ≤ x − ǫ, |Xn − X| > ǫ)
≤ P (Xn ≤ x) + P (|Xn − X| > ǫ).
Nuevamente el segundo sumando tiende a cero cuando n tiende a infinito.
Entonces
FX (x − ǫ) ≤ lı́m inf FXn (x).
n→∞
Por la continuidad en x,
FX (x) ≤ lı́m inf FXn (x).
n→∞
En resumen
FX (x) ≤ lı́m inf FXn (x) ≤ lı́m sup FXn (x) ≤ FX (x).
n→∞
n→∞
El converso de la proposición anterior es falso, es decir, la convergencia en
distribución no siempre implica la convergencia en probabilidad.
Convergencia en dist. =⇒
6
convergencia en prob. Sea X con distribución
N(0, 1) y sea
X
si n es par,
Xn =
−X si n es impar.
Entonces claramente cada Xn también tiene distribución N(0, 1) y por lo
d
tanto lı́m FXn (x) = FX (x), es decir, Xn −→ X. Sin embargo la sucesión
n→∞
no converge en probabilidad a X pues para valores impares de n,
P (|Xn − X| > ǫ) = P (2|X| > ǫ)
> 1/2 para ǫ pequeña.
Lo anterior demuestra que lı́m P (|Xn − X| > ǫ) 6= 0.
n→∞
EJERCICIOS
475. Enuncie con precisión la definición de convergencia de variables aleatorias: casi segura, en media, en media cuadrática, en probabilidad, en
distribución.
476. Establezca las relaciones existentes entre los siguientes tipos de convergencia de variables aleatorias: convergencia en distribución, en probabilidad, convergencia casi segura, convergencia en media y convergencia en media cuadrática.
159
477. Demuestre que la convergencia casi siempre implica la convergencia en
probabilidad.
478. Demuestre que la convergencia en media cuadrática implica la convergencia en media.
479. Demuestre que la convergencia en media cuadrática implica la convergencia en probabilidad.
480. Demuestre que la convergencia en probabilidad implica la convergencia
en distribución.
481. Sea A1 , A2 , . . . una sucesión de eventos tal que lı́m An = A. ¿En
n→∞
qué sentido la sucesión de variables aleatorias 1An converge a 1A ?
d
d
482. Demuestre que si Xn −→ X y Yn −→ Y entonces no necesariamente
d
a) cXn −→ cX, c constante.
d
b) Xn + Yn −→ X + Y .
483. Sea Xn con distribución N(µn , σn2 ) y X con distribución N(µ, σ 2 ).
Suponga µn → µ y σn2 → σ 2 , con σn2 , σ 2 > 0. ¿En qué sentido Xn → X?
d
484. Suponga Xn −→ X en donde Xn y X son variables aleatorias absolutamente continuas. ¿Bajo qué condiciones fXn (x) → fX (x)?
6.8.
Dos resultados importantes de convergencia
Sea X1 , X2 , . . . una sucesión de variables aleatorias con esperanza finita.
Suponga que Xn converge puntualmente a X. Es natural preguntarse si
la sucesión de números E(Xn ) converge a E(X). Tal convergencia numérica equivaldrı́a a poder intercambiar las operaciones de lı́mite y esperanza.
En esta sección se enuncian sin demostración dos resultados que establecen
condiciones bajo las cuales se cumple que E(Xn ) converge a E(X).
Teorema 3 (Teorema de convergencia monótona) Si Xn converge puntualmente a X y es tal que 0 ≤ X1 ≤ X2 ≤ · · · entonces
lı́m E(Xn ) = E(X).
n→∞
Por lo tanto la condición de que la sucesión de variables aleatorias sea
monótona no decreciente es suficiente para poder afirmar que E(Xn ) converge a E(X). El segundo resultado que se enuncia a continuación establece
otro tipo de condición suficiente para obtener la misma conclusión.
160
Teorema 4 (Teorema de convergencia dominada) Si Xn converge puntualmente a X y existe Y con esperanza finita tal que |Xn | ≤ Y para toda
n, entonces
lı́m E(Xn ) = E(X).
n→∞
Es decir, es suficiente que exista una variable aleatoria con esperanza finita
que sea cota superior de la sucesión para poder afirmar que E(Xn ) converge a
E(X). Estos dos resultados son de suma utilidad y su demostración aparece
en textos avanzados de probabilidad [11], [16], [21]. Se utilizan en la última
parte de este curso para formalizar algunas demostraciones.
161
Capı́tulo 7
Funciones generadoras
En este capı́tulo se estudia la función generadora de probabilidad, la función
generadora de momentos y la función caracterı́stica. Estas funciones son
transformaciones de las distribuciones de probabilidad y constituyen una
herramienta muy útil en la teorı́a moderna de la probabilidad.
7.1.
Función generadora de probabilidad
Definición 44 La función generadora de probabilidad de X es la función
G(t) = E(tX )
definida para valores reales de t tal que la esperanza existe.
Cuando sea necesario especificarlo se escribe GX (t) en lugar de G(t) y se
usan las letras f.g.p. en lugar de ”función generadora de probabilidad”. Esta
función se utiliza principalmente en el caso de variables aleatorias discretas, por comodidad supondremos que éstas toman valores en el conjunto
{0, 1, . . .} que corresponde al caso de las variables aleatorias discretas estudiadas en este curso. Entonces
G(t) =
∞
X
tk P (X = k).
k=0
Por lo tanto la f.g.p. es una serie de potencias en t con coeficientes dados
por la distribución de probabilidad (por ende el nombre) y cuyo radio de
convergencia es por lo menos uno.
La existencia de la f.g.p. no está garantizada para toda distribución de probabilidad. Sin embargo cuando existe, determina de manera única a la dis162
tribución en el siguiente sentido. Si X y Y tienen la misma distribución de
probabilidad entonces claramente GX (t) = GY (t) para valores de t donde
esta esperanza exista. Inversamente, sean X y Y tales que GX (t) y GX (t)
existen y coinciden en algún intervalo no trivial alrededor del cero. Entonces
X y Y tienen la misma distribución de probabilidad.
Ésta y otras propiedades generales de la f.g.p. se estudian a continuación y
más adelante se ilustran estos resultados con un ejemplo.
Proposición 65
1. Sean X y Y variables aleatorias con valores en {0, 1, . . .} tales que
GX (t) y GY (t) existen y coinciden en algún intervalo no trivial alrededor de t = 0. Entonces X y Y tienen la misma distribución de probabilidad.
2. Si GX (t) existe entonces
dn
G
(t)
= E[X(X − 1) · · · (X − n + 1)].
X
dtn
t=1
3. Si X y Y son independientes y cuyas f.g.p. existen entonces
GX+Y (t) = GX (t)GY (t).
Demostración. (1) Sean an = P (X = n) y bn = P (Y = n) para n ≥ 0. La
condición GX (t) y GX (t) se escribe
∞
X
n
t an =
∞
X
tn bn .
n=0
n=0
Para que estas dos series de potencias en t coincidan en algún intervalo no
trivial alrededor del cero, sus coeficientes deben forzosamente coincidir. Es
decir an = bn para n ≥ 0. (2) Como las series de potencia se pueden derivar
término a término conservándose el mismo radio de convergencia se tiene
que
′
G (t) =
∞
d X k
t P (X = k)
dt
k=0
∞
X
d k
=
t P (X = k)
dt
k=0
=
∞
X
ktk−1 P (X = k).
k=1
163
Al evaluar en t = 1 se obtiene
G′ (1) =
∞
X
kP (X = k) = E(X).
k=1
De manera análoga se demuestra para las derivadas superiores. (3) Cuando
X y Y son independientes,
GX+Y (t) = E(tX+Y )
= E(tX tY )
= E(tX )E(tY )
= GX (t)GY (t).
Ejemplo 15 Sea X con distribución Poisson(λ). Entonces la f.g.p. de X
es G(t) = e−λ(1−t) . En efecto,
G(t) =
∞
X
tn e−λ
n=0
= e−λ
∞
X
(λt)n
n!
n=0
−λ λt
= e
e
−λ(1−t)
= e
λn
n!
.
Observe que en este caso la f.g.p. se encuentra definida para cualquier valor
de t. Calculamos a continuación la esperanza y varianza de la distribución
Poisson(λ) con ayuda de la f.g.p. Al derivar una vez se obtiene G′ (t) =
λe−λ(1−t) y al evaluar en t = 1, E(X) = G′ (1) = λ. Derivando por segunda
vez, G′′ (t) = λ2 e−λ(1−t) , y en t = 1 se obtiene E(X(X − 1)) = G′′ (1) = λ2 .
Por lo tanto Var(X) = E(X 2 ) − E 2 (X) = λ2 + λ − λ2 = λ.
Ahora se muestra el uso de la f.g.p. para determinar la distribución de una
variable aleatoria. Suponga que X y Y son independientes con distribución
Poisson(λ1 ) y Poisson(λ2 ) respectivamente. Entonces
MX+Y (t) = MX (t)MY (t)
= e−λ1 (1−t) e−λ2 (1−t)
= e−(λ1 +λ2 )(1−t) .
Esta expresión corresponde a la f.g.p. de la distribución Poisson con parámetro
λ1 + λ2 . Se concluye entonces que X + Y se distribuye Poisson(λ1 + λ2 ).
Las funciones generadoras de probabilidad para algunas otras distribuciones
discretas se encuentran en la sección de ejercicios y también en el primer
apéndice al final del libro.
164
EJERCICIOS
485. Sea X con varianza finita y con f.g.p. G(t). Demuestre que
a) E(X) = G′ (1).
b) E(X 2 ) = G′′ (1) + G′ (1).
c) Var(X) = G′′ (1) + G′ (1) − [G′ (1)]2 .
486. Sea X con f.g.p. GX (t) y sean a y b dos constantes. Demuestre que
GaX+b (t) = tb GX (ta ).
487. Sea X con distribución Ber(p). Demuestre que
a) G(t) = 1 − p + pt.
b) E(X) = p usando G(t).
c) Var(X) = p(1 − p) usando G(t).
488. Sea X con distribución bin(n, p). Demuestre que
a) G(t) = (1 − p + pt)n .
b) E(X) = np usando G(t).
c) Var(X) = np(1 − p) usando G(t).
489. Sean X1 , . . . , Xn independientes cada una con distribución Ber(p). Use
la f.g.p. para demostrar que X1 + · · · + Xn tiene distribución bin(n, p).
490. Sean X y Y independientes con distribución bin(n, p) y bin(m, p) respectivamente. Use la f.g.p. para demostrar que X + Y tiene distribución bin(n + m, p).
491. Sea X con distribución bin(N, p) en donde N es una v.a. con distribución bin(m, r). Use la f.g.p. para demostrar que X tiene distribución
bin(m, rp).
492. Sea X con distribución geo(p). Demuestre que
a) G(t) = p/[1 − t(1 − p)].
b) E(X) = (1 − p)/p usando G(t).
c) Var(X) = (1 − p)/p2 usando G(t).
493. Sea X con distribución Poisson(λ). Demuestre que
a) G(t) = e−λ(1−t) .
b) E(X) = λ usando G(t).
c) Var(X) = λ usando G(t).
494. Sean X y Y independientes con distribución Poisson con parámetros
λ1 y λ2 respectivamente. Use la f.g.p. para demostrar nuevamente que
X + Y tiene distribución Poisson(λ1 + λ2 ).
165
495. Sea X con distribución bin neg(r, p). Demuestre que
a) G(t) = [p/(1 − t(1 − p))]r .
b) E(X) = r(1 − p)/p usando G(t).
c) Var(X) = r(1 − p)/p2 usando G(t).
496. Sean X1 , . . . , Xn independientes tales que Xk tiene f.g.p. Gk (t) para
k = 1, . . . , n. Demuestre que
GX1 +···+Xn (t) =
n
Y
Gk (t).
k=1
497. Demuestre que la condición GX+Y (t) = GX (t)GY (t) no implica que
X y Y son independientes.
498. Sea X1 , X2 , . . . una sucesión de v.a.i.i.d. con f.g.p. GX (t). Sea N otra
v.a. con valores en N, independiente de la sucesión y con f.g.p. GN (t).
Sea
Y = X1 + · · · + X N .
Demuestre que
a) GY (t) = GN (GX (t)).
b) E(Y ) = E(N )E(X) usando GY (t).
c) Var(Y ) = E 2 (X)Var(N ) + E(N )Var(X) usando GY (t).
7.2.
Función generadora de momentos
La función generadora de momentos es otra función que se puede asociar a
algunas distribuciones de probabilidad aunque su existencia no está garantizada para todas las distribuciones. Cuando existe, determina de manera
única a la distribución de probabilidad asociada y tiene propiedades semejantes a las de la f.g.p. estudiada en la sección anterior. La función generadora de momentos se utiliza tanto para variables aleatorias discretas como
continuas.
Definición 45 La función generadora de momentos de X es la función
M (t) = E(etX )
definida para valores reales de t para los cuales esta esperanza existe.
Nuevamente, cuando sea necesario especificarlo se escribe MX (t) en lugar de
M (t) y se usan las letras f.g.m. en lugar de ”función generadora de momentos”. La parte importante de esta función es su existencia en una vecindad
166
no trivial alrededor del cero. Observe que la f.g.m. y la f.g.p. están relacionadas, cuando existen, por la igualdad M (t) = G(et ). Se demuestran a
continuación algunas propiedades básicas de la f.g.m. y después se muestra
su utilidad mediante un ejemplo.
Proposición 66
1. Sea X tal que su f.g.m. M (t) existe. Entonces todos los momentos X
existen y
dn
M (t)
= E(X n ).
n
dt
t=0
2. Sean X y Y son independientes y cuyas f.g.m. existen. Entonces
MX+Y (t) = MX (t)MY (t).
3. Las variables X y Y tienen la misma distribución si y solo si MX (t) =
MY (t) para cada t ∈ (−ǫ, ǫ) con ǫ > 0 .
Demostración. (1) El teorema de convergencia dominada permite obtener la
derivada a través de la esperanza de modo que
d
E(etX )
dt
d
= E( etX )
dt
= E(XetX ).
d
M (t) =
dt
Al evaluar en t = 0 se obtiene el primer momento. Análogamente se prueba
para derivadas superiores. (2) Cuando X y Y son independientes se tiene
que
MX+Y (t) = E(et(X+Y ) )
= E(etX · etY )
= E(etX )E(etY )
= MX (t)MY (t)
(3) Si X es tal que su función generadora de momentos existe entonces todos
sus momentos existen y éstos determinan de manera única a la distribución
de probabilidad.
Ejemplo 16 Sea X con distribución gama(n, λ). Entonces para t < λ,
Z ∞
(λx)n−1
M (t) =
etx
λe−λx dx
Γ(n)
0
Z ∞
[(λ − t)x]n−1
n
−n
(λ − t)e−(λ−t)x dx
= λ (λ − t)
Γ(n)
0
167
= λn (λ − t)−n .
Calculamos ahora la esperanza y varianza de X con ayuda de la f.g.m.
Derivando una vez, M ′ (t) = λn n(λ − t)−n−1 , al evaluar en t = 0 se obtiene E(X) = n/λ. Derivando nuevamente, M ′′ (t) = λn n(n + 1)(λ − t)−n−2 ,
por lo tanto E(X 2 ) = M ′′ (0) = n(n + 1)/λ2 . Entonces Var(X) = n(n +
1)/λ2 − n2 /λ2 = n/λ2 .
Suponga que X y Y son independientes cada una con distribución gama(n, λ)
y gama(m, λ) respectivamente. Entonces la f.g.m. de X + Y es
MX+Y (t) = MX (t)MY (t)
= λn (λ − t)−n · λm (λ − t)−m
= λn+m (λ − t)−n−m .
Ésta es nuevamente la expresión de la f.g.m. de la distribución gama, ahora
con parámetros n + m y λ. Se concluye entonces X + Y tiene distribución
gama(n + m, λ).
Como hemos mencionado antes, no todas las distribuciones de probabilidad
permiten calcular la función generadora de momentos dentro de un intervalo
alrededor del cero, ni todos los cálculos son tan sencillos como en el ejemplo
mostrado. Por ejemplo la f.g.m. de la distribución Cauchy estándar no existe
para valores de t distintos de cero como se pide demostrar en el ejercicio 522.
Finalizamos esta sección con el enunciado sin demostración de un resultado
acerca de convergencia de funciones generadoras.
Proposición 67 Sea X1 , X2 , . . . una sucesión de variables aleatorias cuyas
funciones generadoras de momentos existen todas ellas en algún intervalo no
d
trivial alrededor del cero. Entonces Xn → X si y solo si MXn (t) → MX (t).
En la sección de ejercicios se pueden encontrar las funciones generadoras de
momentos de algunas otras distribuciones discretas y continuas, asi como en
el primer apéndice al final del libro.
EJERCICIOS
499. Sea X con varianza finita y con f.g.m. M (t). Demuestre que
a) E(X) = M ′ (0).
b) E(X 2 ) = M ′′ (0).
c) Var(X) = M ′′ (0) − (M ′ (0))2 .
168
500. Sean X y Y independientes e idénticamente distribuidas con f.g.m.
M (t). Demuestre que MX−Y (t) = M (t)M (−t).
501. Sea X con f.g.m. MX (t) y sean a y b dos constantes. Demuestre que
MaX+b (t) = etb MX (at).
502. Sea X con f.g.m. MX (t). Diga falso o verdadero. Demuestre en cada
caso.
a) MX (t) ≥ 0.
b) M2X (t) = MX (2t).
503. Sea X con distribución Ber(p). Demuestre que
a) M (t) = 1 − p + pet .
b) E(X) = p usando M (t).
c) E(X n ) = p usando M (t).
d ) Var(X) = p(1 − p) usando M (t).
504. Sea X con distribución bin(n, p). Demuestre que
a) M (t) = (1 − p + pet )n .
b) E(X) = np usando M (t).
c) Var(X) = np(1 − p) usando M (t).
505. Sean X1 , . . . , Xn independientes cada una con distribución Ber(p). Use
la f.g.m. para demostrar que X1 + · · · + Xn tiene distribución bin(n, p).
506. Sean X y Y independientes con distribución bin(n, p) y bin(m, p) respectivamente. Use la f.g.m. para demostrar que X + Y tiene distribución bin(n + m, p)
507. Sea X con distribución geo(p). Demuestre que
p
.
1 − (1 − p)et
b) E(X) = (1 − p)/p usando M (t).
a) M (t) =
c) Var(X) = (1 − p)/p2 usando M (t).
508. Sea X con distribución Poisson(λ). Demuestre que
a) M (t) = exp[λ(et − 1)].
b) M ′′ (t) = M ′ (t) + λet M ′ (t).
c) E(X) = λ usando M (t).
d ) Var(X) = λ usando M (t).
e) E[(X − λ)3 ] = λ usando M (t).
509. Sea X con distribución unif(a, b). Demuestre que
a) M (t) =
ebt − eat
.
(b − a)t
169
b) E(X) = (a + b)/2 usando M (t).
c) Var(X) = (b − a)2 /12 usando M (t).
510. Sea X con distribución exp(λ). Demuestre que
a) M (t) = λ/(λ − t) para t < λ.
b) E(X) = 1/λ usando M (t).
c) Var(X) = 1/λ2 usando M (t).
511. Sea X con distribución N(µ, σ 2 ). Demuestre que
a) M (t) = exp(µt + 21 σ 2 t2 ).
b) E(X) = µ usando M (t).
c) Var(X) = σ 2 usando M (t).
512. Sean X y Y variables aleatorias independientes con distribución N(µ1 , σ12 )
y N(µ2 , σ22 ) respectivamente. Use la f.g.m. para demostrar que X + Y
tiene distribución N(µ1 + µ2 , σ12 + σ22 ).
513. Sea X con distribución gama(n, λ). Demuestre que
a) M (t) = [λ/(λ − t)]n para t < λ.
b) E(X) = n/λ usando M (t).
c) Var(X) = n/λ2 usando M (t).
514. Sean X y Y independientes ambas con distribución exp(λ). Use la
f.g.m. para demostrar que X + Y tiene distribución gama(2, λ).
515. Sean X y Y independientes con distribución gama(n, λ) y gama(m, λ)
respectivamente. Use la f.g.m. para demostrar que X + Y tiene distribución gama(n + mλ).
516. Sea X con distribución χ2 (n). Demuestre que
a) M (t) = [1/(1 − 2t)]n/2 para t < 1/2.
b) E(X) = n usando M (t).
c) Var(X) = 2n usando M (t).
517. Use la f.g.m. para demostrar que si X y Y son independientes tales
que X tiene distribución χ2 (n) y X + Y tiene distribución χ2 (m) con
m > n, entonces Y tiene distribución χ2 (m − n). Este es el contenido
de la proposición 50 en la página 134.
518. Sean X y Y independientes con distribución χ2 (n) y χ2 (m) respectivamente. Use la f.g.m. para demostrar que X + Y tiene distribución
χ2 (n + m).
519. Sea X con distribución N(µ, σ 2 ). Use la f.g.m. para demostrar que
a) −X tiene distribución N(−µ, σ 2 ).
170
b) aX + b tiene distribución N(aµ + b, a2 σ 2 ) con a 6= 0.
c) X 2 tiene distribución χ2 (1).
520. Sean X1 , . . . , Xn independientes tales que Xk tiene f.g.m. Mk (t) para
k = 1, . . . , n. Demuestre que
MX1 +···+Xn (t) =
n
Y
Mk (t).
k=1
521. Demuestre que la condición MX+Y (t) = MX (t)MY (t) no implica que
X y Y son independientes. Considere la distribución conjunta
1
f (x, y) = [1 + xy(x2 − y 2 )] para
4
− 1 < x, y < 1.
522. Sea X con distribución Cauchy estándar. Demuestre que
1 si t = 0,
MX (t) =
∞ si t 6= 0.
7.3.
Función caracterı́stica
Finalmente se estudia en esta sección la función caracterı́stica y se enuncian algunas de sus propiedades. Ésta es una función definida para cada
distribución de probabilidad y a diferencia de las funciones generadoras de
probabilidad y de momentos estudiadas antes, siempre existe. Su definición
es la siguiente.
Definición 46 La función caracterı́stica de X es la función
φ(t) = E eitX
definida para cualquier número real t, en donde i es la unidad de los números
imaginarios.
Observe que la función caracterı́stica es una función de los números reales
en los números complejos y puede escribirse de la forma siguiente
φ(t) = E(cos tX) + iE(sen tX).
Nuevamente se escribe φX (t) cuando sea necesario especificar que se trata de la función caracterı́stica de X. Se escribe simplemente f.c. en lugar
de ”función caracterı́stica”. Observe que la f.c., la f.g.m. y la f.g.p. están
171
relacionadas, cuando existen, por las igualdades φ(t) = M (it) = G(eit ). La
existencia de la f.c. se sigue del siguiente análisis
Z ∞
itx
e dF (x)
|φ(t)| = Z −∞
∞
|eitx | dF (x)
≤
Z−∞
∞
dF (x)
=
−∞
= 1.
De modo que φ(t) es un número complejo de norma menor o igual a uno
para cualquier valor de t. Los momentos de la variable aleatoria pueden ser
generados con la f.c. a través de la fórmula φ(n) (0) = in E(X n ), en efecto,
por el teorema de convergencia dominada se puede derivar a través de la
esperanza y entonces
d
φ(t) =
dt
d
E(eitX )
dt
d itX
= E
e
dt
= E(iXeitX ).
Evaluando en t = 0 se obtiene el resultado cuando n = 1. Análogamente se
calculan las derivadas superiores.
Como en las funciones generadoras anteriores, cuando X y Y son independientes se cumple que φX+Y (t) = φX (t)φY (t) pues
φX+Y (t) = E(eit(X+Y ) )
= E(eitX · eitY )
= E(eitX )E(eitY )
= φX (t)φY (t).
El siguiente resultado permite determinar la función de distribución de una
variable aleatoria cuando se conoce su función de distribución.
Proposición 68 (Fórmula de inversión de Lèvy) Sea X con función
de distribución F y función caracterı́stica φ(t). Si x < y son puntos de
continuidad de F entonces
Z T −itx
e
− e−ity
1
φ(t) dt.
F (y) − F (x) = lı́m
T →∞ 2π −T
it
Con ayuda de este teorema de inversión probaremos que las funciones de
distribución determinan de manera única a las distribuciones de probabilidad.
172
Proposición 69 (Teorema de unicidad) Si X y Y son tales que
φX (t) = φY (t) para todo t entonces X y Y tienen la misma distribución.
Demostración. Por el teorema de inversión de Lèvy, la igualdad φX (t) =
φY (t) implica que para cualesquiera dos puntos de continuidad x < y para
ambas distribuciones se tiene que
FX (y) − FX (x) = FY (y) − FX (x).
Al hacer x tender a −∞, se obtiene que FX (y) = FY (y), para todos los
valores y puntos de continuidad de ambas funciones de distribución. Como
las funciones de distribución tienen a lo sumo un número numerable de
discontinuidades, FX = FY .
En el caso absolutamente continuo se tiene la siguiente fórmula.
Proposición 70 (Fórmula de inversión en el caso abs. continuo)
Sea X absolutamente continua con función de densidad f (x) y función
caracterı́stica φ(t). Entonces
Z ∞
1
e−itx φ(t) dt.
f (x) =
2π −∞
Demostración. Para x < y dos puntos de continuidad de F , por el teorema
de inversión de Lèvy,
Z T −itx
e
− e−ity
1
F (y) − F (x) = lı́m
φ(t) dt
T →∞ 2π −T
it
Z ∞ −itx
e
− e−ity
1
φ(t) dt
=
2π −∞
it
Z ∞ Z y
1
−itx
=
e
dx φ(t) dt.
2π −∞ x
Z y Z ∞
1
−itx
=
e
φ(t) dt dx.
2π −∞
x
Por lo tanto el integrando debe ser la función de densidad de X.
Observe que se puede utilizar la fórmula de inversión anterior únicamente
cuando se conoce que la función caracterı́stica proviene de una variable
aleatoria absolutamente continua.
Ahora se demuestra un resultado que será de utilidad en la última parte
del curso. Establece que la convergencia en distribución es equivalente a la
convergencia puntual de las correspondientes funciones caracterı́sticas.
173
Proposición 71 (Teorema de Continuidad) Sean X, X1 , X2 , . . . varid
ables aleatorias. Entonces Xn → X si y solo si φXn (t) → φX (t).
Demostración.
d
(⇒) Suponga Xn → X. Entonces por el teorema de convergencia dominada,
lı́m φXn (t) =
n→∞
lı́m E(cos tXn ) + iE(sen tXn )
n→∞
= E(cos tX) + iE(sen tX)
= φX (t).
(⇐) Suponga φXn (t) → φX (t). Entonces para dos puntos de continuidad
x < y comunes a cada FXn y FX , el teorema de inversión de Lèvy
establece que
Z
T
e−itx − e−ity
φ(t) dt.
it
−T
Z T −itx
i
e
− e−ity h
1
lı́m φXn (t) dt.
= lı́m
n→∞
T →∞ 2π −T
it
Z T −itx
−ity
e
−e
1
[φXn (t)] dt.
= lı́m lı́m
n→∞ T →∞ 2π −T
it
= lı́m FXn (y) − FXn (x).
1
FX (y) − FX (x) = lı́m
T →∞ 2π
n→∞
Haciendo x tender a −∞,
FX (y) = lı́m FXn (y).
n→∞
Finalmente se muestra con ejemplos la forma de encontrar la función caracterı́stica para algunas distribuciones.
Ejemplo 17 Sea X con distribución bin(n, p). Encontraremos la función
caracterı́stica de X.
n
X
n
φ(t) =
px (1 − p)n−x
eitx
x
x=0
n X
n
(peit )x (1 − p)n−x
=
x
x=0
= (1 − p + peit )n .
174
Ejemplo 18 Sea X con distribución N(µ, σ 2 ). Entonces la función caracterı́stica de X se calcula como sigue,
Z ∞
1
2
2
φ(t) =
eitx · √
e−(x−µ) /2σ dx
2
2πσ
Z−∞
∞
1
2
2
2
2
√
e−(x −2x(µ−itσ )+µ )/2σ dx
=
2πσ 2
−∞
Z ∞
1
2 2
2
(−µ2 +(µ−itσ 2 )2 )/2σ 2
√
= e
e−[x−(µ−itσ )] /2σ dx
2
−∞
{z
}
| 2πσ
N (µ−itσ 2 ,σ 2 )
2 σ 2 /2
= eitµ−t
.
EJERCICIOS
523. Defina con precisión la función caracterı́stica y mencione tres de sus
propiedades.
524. Encuentre la f.c. de una v.a. con función de densidad
a) f (x) =
1
para x = 1, 2, . . .
x!(e − 1)
b) f (x) = 12 e−|x| .
525. Demuestre que |φ(t)| ≤ 1.
526. Demuestre que φaX+b (t) = eitb φX (at), con a, b constantes.
527. Demuestre que si x 7→ F (x) es simétrica entonces t 7→ φ(t) es real.
528. Demuestre que si t 7→ φ(t) es real entonces x 7→ F (x) es simétrica.
529. Demuestre que la función caracterı́stica es una función uniformemente
continua.
530. Demuestre que la f.c. satisface φ(−t) = φ(t), en donde z denota el
complejo conjugado de z.
531. Sean X y Y independientes y con idéntica distribución. Demuestre que
φX−Y (t) = |φX (t)|2 .
532. Sea X con distribución Ber(p). Demuestre que
a) φ(t) = (1 − p + peit ).
b) E(X) = p usando φ(t).
c) Var(X) = p(1 − p) usando φ(t).
d ) E(X n ) = p usando φ(t), n ≥ 1 entero.
533. Sea X con distribución bin(n, p). Demuestre que
175
a) φ(t) = (1 − p + peit )n .
b) E(X) = np usando φ(t).
c) Var(X) = np(1 − p) usando φ(t).
534. Sea X con distribución Poisson(λ). Demuestre que
it
a) φ(t) = e−λ(1−e ) .
b) E(X) = λ usando φ(t).
c) Var(X) = λ usando φ(t).
535. Sea X con distribución geo(p). Demuestre que
a) φ(t) = p/(1 − qeit ).
b) E(X) = (1 − p)/p usando φ(t).
c) Var(X) = (1 − p)/p2 usando φ(t).
536. Sea X tiene distribución bin neg(r, p). Demuestre que
a) φ(t) = [p/(1 − (1 − p)eit )]r .
b) E(X) = r(1 − p)/p usando φ(t).
c) Var(X) = r(1 − p)/p2 usando φ(t).
537. Sea X con distribución unif(−a, a). Demuestre que
φ(t) = (sen at)/at.
538. Sea X con distribución unif(a, b). Demuestre que
a) φ(t) = [eibt − eiat ]/[it(b − a)].
b) E(X) = (a + b)/2 usando φ(t).
c) Var(X) = (b − a)2 /12 usando φ(t).
539. Sea X con distribución N(µ, σ 2 ). Demuestre que
a) φ(t) = exp(iµt − σ 2 t2 /2).
b) E(X) = µ usando φ(t).
c) Var(X) = σ 2 usando φ(t).
540. Sea X con distribución exp(λ). Demuestre que
a) φ(t) = λ/(λ − it).
b) E(X) = 1/λ usando φ(t).
c) Var(X) = 1/λ2 usando φ(t).
541. Sea X con distribución gama(n, λ). Demuestre que
a) φ(t) = [λ/(λ − it)]n .
b) E(X) = n/λ usando φ(t).
c) Var(X) = n/λ2 usando φ(t).
176
542. Sean X y Y independientes ambas con distribución exp(λ). Use la f.c.
para demostrar que X + Y tiene distribución gama(2, λ).
543. Sean X y Y independientes con distribución gama(n, λ) y gama(m, λ)
respectivamente. Use la f.c. para demostrar que X + Y tiene distribución gama(n + m, λ).
544. Demuestre que si X y Y son independientes entonces
φX+Y (t) = φX (t)φY (t).
545. Demuestre que la condición φX+Y (t) = φX (t)φY (t) no implica que
X y Y son independientes considerando por ejemplo la distribución
conjunta
1
f (x, y) = [1 + xy(x2 − y 2 )] para
4
− 1 < x, y < 1.
546. Sea X con función de distribución
F (x) =
ex
.
1 + ex
Demuestre que F (x) es efectivamente una función de distribución y
calcule φ(t). Con ayuda de ésta encuentre E(X) y Var(X).
547. Sean X y Y independientes. Demuestre que
Z ∞
Z ∞
φXY (t) =
φY (tx)dFX (x) =
φX (ty)dFY (y).
−∞
−∞
548. Mediante el cálculo de residuos se puede demostrar que la distribución
Cauchy estándar tiene función caracterı́stica
Z ∞
1
dx = e−|t| .
φ(t) =
eitx
2)
π(1
+
x
−∞
Suponiendo este resultado, encuentre el error en el siguiente argumento
para encontrar la f.g.m. de la distribución Cauchy: “Como φ(t) = e−|t|
y M (t) = φ(−it) entonces M (t) = e−|−it| = e−|t| .”
549. Sean X1 , . . . , Xn v.a.i.i.d. con distribución Cauchy estándar, es decir,
la función caracterı́stica de cada una de estas variables es
φ(t) = e−|t| .
Use este resultado para demostrar que la v.a. Sn = (X1 + · · · + Xn )/n
tiene distribución Cauchy estándar para cualquier valor de n.
177
Capı́tulo 8
Teoremas lı́mite
En este capı́tulo estudiamos dos de los teoremas más importantes en probabilidad, la ley de los grandes números y el teorema del lı́mite central.
8.1.
Desigualdades de Markov y de Chebyshev
Proposición 72 (Desigualdad de Markov) Sea X ≥ 0 con esperanza
finita. Para cualquier ǫ > 0,
P (X > ǫ) ≤
E(X)
.
ǫ
(8.1)
Demostración.
E(X) = E( X · 1(X>ǫ) + X · 1(X≥ǫ) )
≥ E( X · 1(X>ǫ) )
≥ E( ǫ · 1(X>ǫ) )
= ǫP (X > ǫ).
La desigualdad de Markov establece que la probabilidad de que X exceda
un valor ǫ está acotada superiormente por la media entre ǫ. Las siguientes
desigualdades equivalentes a la demostrada también se conocen como desigualdades de Markov. Para cualquier ǫ > 0,
E|X|
.
ǫ
E|X|n
.
2. P (|X| > ǫ) ≤
ǫn
1. P (|X| > ǫ) ≤
178
Figura 8.1: Andrei Andreyevich Markov (Rusia 1856–1922).
Proposición 73 (Desigualdad de Chebyshev) Sea X con media µ y
varianza σ 2 < ∞. Para cualquier ǫ > 0,
P (|X − µ| > ǫ) ≤
σ2
.
ǫ2
(8.2)
Demostración.
σ 2 = E (X − µ)2
= E (X − µ)2 · 1(|X−µ|>ǫ) + (X − µ)2 · 1(|X−µ|≤ǫ)
≥ E (X − µ)2 · 1(|X−µ|>ǫ)
≥ E ǫ2 · 1(|X−µ|>ǫ)
= ǫ2 P (|X − µ| > ǫ).
La desigualdad de Chebyshev dice que la probabilidad de que X difiera
de su media en mas de ǫ está acotada superiormente por la varianza entre
ǫ2 . A esta desigualdad también se le conoce con el nombre de desigualdad
de Chebyshev-Bienaymé. Las siguientes desigualdades son versiones equivalentes de la desigualdad de Chebyshev. Para cualquier ǫ > 0,
1. P (|X − µ| > ǫσ) ≤ 1/ǫ2 .
2. P (|X − µ| ≤ ǫσ) ≥ 1 − 1/ǫ2 .
3. P (|X − µ)| ≤ ǫ) ≥ 1 −
σ2
.
ǫ2
179
Figura 8.2: Pafnuty Lvovich Chebyshev (Rusia 1821–1894).
Proposición 74 (Desigualdad de Chebyshev extendida) Sea X una
variable aleatoria y sea g ≥ 0 una función no decreciente tal que g(X) tiene
esperanza finita. Para cualquier ǫ > 0,
P (X > ǫ) ≤
E[g(X)]
.
g(ǫ)
(8.3)
Demostración.
E[g(X)] = E[ g(X) · 1(X>ǫ) + g(X) · 1(X≥ǫ) ]
≥ E[ g(X) · 1(X>ǫ) ]
≥ E[ g(ǫ) · 1(X>ǫ) ]
= g(ǫ)P (X > ǫ).
A partir de la desigualdad de Chebyshev extendida y con una función g
adecuada se pueden obtener tanto la desigualdad de Chebyshev como la
desigualdad de Markov. En la siguiente sección se usará la desigualdad de
Chebyshev para demostrar la ley débil de los grandes números.
180
En resumen tenemos la siguiente tabla.
Desigualdades de Markov y de Chebyshev
1. Markov: Para ǫ > 0
a) X ≥ 0 =⇒ P (X > ǫ) ≤ E(X)/ǫ
b) P (|X| > ǫ) ≤ E|X|/ǫ
c) P (|X| > ǫ) ≤ E|X|n /ǫn
2. Chebyshev: Para ǫ > 0
a) P (|X − µ| > ǫ) ≤ Var(X)/ǫ2
b) P (X > ǫ) ≤ E[g(X)]/g(ǫ) con g ≥ 0 no decreciente
EJERCICIOS
550. Enuncie y demuestre la desigualdad de Markov.
551. Demuestre la desigualdad de Markov siguiendo los siguientes pasos.
Suponga X ≥ 0.
a) Para ǫ > 0 defina
Xǫ =
ǫ si X > ǫ,
0 si X ≤ ǫ.
b) Compruebe que Xǫ ≤ X.
c) Tome esperanzas de ambos lados y calcule E(Xǫ ).
552. Demuestre directamente las siguientes versiones de la desigualdad de
Markov. Para cualquier ǫ > 0,
E|X|
.
ǫ
E|X|n
.
b) P (|X| > ǫ) ≤
ǫn
a) P (|X| > ǫ) ≤
553. Demuestre que la convergencia en media implica la convergencia en
probabilidad usando la desigualdad de Markov aplicada a la variable
aleatoria no negativa |Xn − X|.
554. Enuncie y demuestre la desigualdad de Chebyshev.
555. Use la desigualdad de Chebyshev para demostrar directamente que la
convergencia en media cuadrática implica la convergencia en probabilidad.
556. Demuestre la desigualdad de Chebyshev (8.2) usando la desigualdad
de Markov (8.1) aplicada a la v.a. no negativa |X − µ|.
181
557. Use la desigualdad de Chebyshev para demostrar que si X es una
variable aleatoria tal que E(X) = a y E(X 2 ) = 0 entonces X es
constante casi seguramente, es decir, P (X = a) = 1.
558. Sea X con media µ y varianza σ 2 . Use la desigualdad de Chebyshev
para estimar la probabilidad de que X tome valores entre µ − ǫσ y
µ + ǫσ para ǫ > 0 constante.
559. Enuncie y demuestre la versión de Chebyshev extendida.
560. A partir de la desigualdad de Chebyshev extendida (8.3) demuestre la
desigualdad de Chebyshev (8.2) y la desigualdad de Markov (8.1).
561. Demuestre que P (|X| > ǫ) ≤
E|X|
para ǫ > 0,
ǫ
a) usando la desigualdad de Chebyshev extendida.
b) de manera directa.
562. Demuestre que P (|X| > ǫ) ≤
E|X|n
para ǫ > 0 y n ∈ N,
ǫn
a) usando la desigualdad de Chebyshev extendida.
b) de manera directa.
563. Demuestre que P (X > ǫ) ≤
E(etX )
para ǫ > 0 y t > 0,
eǫt
a) usando la desigualdad de Chebyshev extendida.
b) de manera directa.
564. Sea X con función de densidad

 1/18 si x = −1, 1,
16/18 si x = 0,
f (x) =

0
otro caso.
Demuestre que P (|X − µ| > 3σ) y la estimación dada por la desigualdad de Chebyshev para esta probabilidad coinciden. Este ejercicio demuestra que en general la cota superior dada por la desigualdad de
Chebyshev es óptima, es decir, no puede establecerse una cota superior más pequeña.
565. Considere la siguiente versión de la desigualdad de Chebyshev
P (|X − µ| ≤ ǫσ) ≥ 1 − 1/ǫ2 .
Encuentre el mı́nimo valor de ǫ > 0 de tal modo que la probabilidad
de que una variable aleatoria tome valores entre µ − ǫσ y µ + ǫσ sea
al menos 0.90.
182
8.2.
Ley de los grandes números
En esta sección se estudia uno de los teoremas más importantes de la teorı́a
clásica de la probabilidad. Se conoce como la ley de los grandes números y
establece que, bajo ciertas condiciones, el promedio de variables aleatorias
converge a una constante cuando el número de sumandos crece a infinito.
Más precisamente el resultado es el siguiente.
Teorema 5 (Ley débil de los grandes números) Sean X1 , X2 , . . . independientes tales que E(Xi ) = µ. Para cualquier ǫ > 0,
n
1X
lı́m P (|
Xi − µ| ≥ ǫ) = 0.
n→∞
n
i=1
Demostración. (Suponiendo segundo momento finito.) Sea Sn = (X1 + · · · +
Xn )/n. Entonces E(Sn ) = µ y Var(Sn ) ≤ σ 2 /n asumiendo Var(Xi ) ≤ σ 2 <
∞. La desigualdad de Chebyshev aplicada a Sn establece que para cualquier
ǫ > 0 se cumple P (|Sn − µ| ≥ ǫ) ≤ σ 2 /nǫ2 . Basta ahora tomar el lı́mite
cuando n tiende a infinito para obtener el resultado requerido.
La ley débil de los grandes números establece entonces que la variable aleatoria Sn = (X1 + · · · + Xn )/n converge en probabilidad a la media común
µ. Observe que para la demostración de este resultado no hemos supuesto
idéntica distribución para las variables aleatorias involucradas, únicamente
que tengan la misma media, que sean independientes y aunque las varianzas
pueden ser diferentes, se ha necesitado que sean uniformemente acotadas.
Damos a continuación un ejemplo sencillo de aplicación de este resultado y
más adelante demostraremos una versión más fuerte de la ley de los grandes
números.
Ejemplo 19 (Definición de probabilidad frecuentista) Considere un
experimento aleatorio cualquiera y sea A un evento. Se repite sucesivamente
el experimento y se observa en cada ensayo la ocurrencia o no ocurrencia del
evento A. Sea Xk la variable que toma el valor uno si en el k-ésimo ensayo
se observa A y cero en caso contrario. Entonces X1 , X2 , . . . son variables
aleatorias independientes con distribución Ber(p) en donde p es la probabilidad desconocida del evento A. Entonces E(Xk ) = p y Var(Xk ) = p(1 − p).
La ley débil de los grandes números asegura que la fracción de ensayos en los
que se observa el evento A converge, en probabilidad, a la constante desconocida p cuando el número de ensayos crece a infinito. Esta es la definición
frecuentista de la probabilidad y hemos entonces corroborado su validez con
ayuda de la ley de los grandes números.
La siguiente versión de la ley de los grandes números asegura que bajo ciertas
183
condiciones la convergencia de (X1 + · · · + Xn )/n a la media µ es más fuerte,
es casi segura.
Teorema 6 (Ley fuerte de los grandes números) Sean X1 , X2 , . . . independientes e identicamente distribuidas tales que E(Xi ) = µ. Entonces
n
1X
Xi = µ) = 1.
n→∞ n
P ( lı́m
i=1
Demostración. (Suponiendo cuarto momento finito.) Dada la idéntica distribución cualquier elemento de la sucesión se denota simplemente por X.
Observe que E(X − µ) = 0. Entonces por independencia,
n
X
E[( (Xi − µ))4 ] = nE[(X − µ)4 ] + 3n(n − 1)σ 4
i=1
= an + bn2 ,
para ciertas
Pconstante a y b. Por la desigualdad de Chebyshev (8.3) aplicada
a la v.a. | ni=1 (Xi − µ)| y la función g(x) = x4 se obtiene, para ǫ > 0,
P (|
n
X
i=1
(Xi − µ)| ≥ nǫ) ≤
an + bn2
.
(nǫ)4
Pn
P
Sea el evento An = (| n1 i=1 Xi − µ| ≥ ǫ). Entonces ∞
n=1 P (An ) < ∞. Por
el lema de Borel Cantelli la probabilidad de que ocurra una infinidad de
eventos An es cero, es decir, con probabilidad uno, solo un número finito de
estos eventos ocurre. Por lo tanto con probabilidad uno, existe un número
natural n a partir del cual ningún evento An se verifica. Es decir,
n
1X
P ( lı́m |
Xi − µ| < ǫ) = 1.
n→∞ n
i=1
Como esta afirmación vale para cualquier ǫ > 0, se cumple que
n
1X
Xi = µ) = 1.
n→∞ n
P ( lı́m
i=1
EJERCICIOS
566. Enuncie la ley débil de los grandes números y use la desigualdad de
Chebyshev para demostrarla.
184
567. Use la ley débil de los grandes números para demostrar que si Xn tiene
distribución bin(n, p) entonces cuando n → ∞,
1
p
Xn −→ p.
n
568. Enuncie la ley fuerte de los grandes números.
569. (Ley de los grandes números en media cuadrática.) Demuestre que
si X1 , X2 , . . . es una sucesión de v.a.s independientes con media µ y
varianza σ 2 entonces
n
1X
m.c.
Xi −→ µ.
n
i=1
Observe que no se pide la hipótesis de idéntica distribución para las
variables aleatorias y que este resultado no es consecuencia de la ley
fuerte.
570. Sean X1 , . . . , Xn independientes con distribución N(µ, σ 2 ). Para cualquier
valor de n,
X1 + · · · + X n
∼ N(µ, σ 2 /n).
n
¿Contradice esto la ley de los grandes números?
571. En el ejercicio 549 se pide usar la f.c. para demostrar que si X1 , . . . , Xn
son v.a.i.i.d. con distribución Cauchy estándar entonces el promedio
Sn = (X1 + · · · + Xn )/n tiene distribución Cauchy estándar independientemente del valor de n. ¿Contradice esto la ley de los grandes
números?
8.3.
Teorema del lı́mite central
Concluimos el curso con el célebre y famoso teorema del lı́mite central. Este
resultado es de amplio uso en estadı́stica y otras ramas de aplicación de la
probabilidad.
Teorema 7 (Teorema del lı́mite central) Sean X1 , X2 . . . independientes e identicamente distribuidas tales que E(Xi ) = µ y Var(Xi ) = σ 2 < ∞.
Para cualquier x en R,
(X1 + · · · + Xn ) − nµ
√
≤ x = P (Z ≤ x),
lı́m P
n→∞
nσ
en donde Z tiene distribución N(0, 1).
185
Este resultado establece entonces que la variable aleatoria
(X1 + · · · + Xn ) − nµ
√
nσ
converge en distribución a una variable aleatoria normal estándar sin importar la distribución original de las variables X. Observe que la suma
(X1 + · · · + Xn ) tiene media nµ y varianza nσ 2 , de modo que la expresión de
arriba es una especie de estandarización de esta variable. Equivalentemente
este resultado puede enunciarse del siguiente modo
1
n (X1
+ · · · + Xn ) − µ d
√
−→ N(0, 1).
σ/ n
A fin de dar una demostración simple de este resultado supondremos adicionalmente que los elementos de la sucesión tienen momentos finitos de
cualquier orden. Esta demostración hace uso de la función caracterı́stica.
Demostración.(Suponiendo todos los momentos finitos.) Observe que
[(X1 − µ)/σ + · · · + (Xn − µ)/σ]
(X1 + · · · + Xn ) − nµ
√
√
=
nσ
n
en donde cada sumando del numerador en el lado derecho es una variable con
media cero y varianza uno. Asi pues, sin pérdida de generalidad supondremos
que cada Xi tiene media cero y varianza uno y consideraremos la suma
Zn =
X1 + · · · + X n
√
.
n
d
Se desea probar que Zn → N(0, 1). Para ello es suficiente demostrar que
2 /2
lı́m φZn (t) = e−t
n→∞
.
Tenemos que por independencia e idéntica distribución,
h
√ i
√ n
.
φZn (t) = E eit(X1 +···+Xn )/ n = φX t/ n
Por lo tanto,
√
ln φZn (t) = n ln φX (t/ n)
itE(X) i2 t2 E(X 2 ) i3 t3 E(X 3 )
√
= n ln 1 +
+ ··· .
+
+
2!n
n
3!n3/2
1
1
Usando la fórmula ln(1 + x) = x − x2 + x3 − · · · y factorizando potencias
2
3
de it se obtiene
ln φZn (t) = E(X 2 ) − E 2 (X) i2 t2 /2
E(X 3 ) E(X)E(X 2 ) E 3 (X) i3 t3
√ + ···
√ −
√
+ √
+
n
3! n
2 n
3 n
186
El primer sumando es −t2 /2 y todos los términos a partir del segundo sumando se anulan cuando n tiende a infinito. Por lo tanto,
lı́m ln φZn (t) = −t2 /2.
n→∞
Como la función logaritmo es una función continua tenemos que
ln lı́m φZn (t) = −t2 /2.
n→∞
De donde se obtiene
2 /2
lı́m φZn (t) = e−t
n→∞
.
EJERCICIOS
572. Enuncie con precisión el teorema del lı́mite central.
573. Use el teorema del lı́mite central para estimar la probabilidad de obtener mas de 520 águilas en 1000 lanzamientos de una moneda honesta.
574. Sea {Xn : n = 1, 2, . . .} una sucesión de v.a.i.i.d. con distribución
Poisson(λ) con λ = 1. Use el teorema del lı́mite central para demostrar
que
n
1 X nk
1
lı́m n
= .
n→∞ e
k!
2
k=0
575. La probabilidad de ocurrencia de un evento en un ensayo es de 0.3.
¿Cuál es la probabilidad de que la frecuencia relativa de este evento
en 100 ensayos se encuentre entre 0.2 y 0.5?
187
Apéndice A
Distribuciones de
probabilidad
Se presenta a continuación una lista con algunas distribuciones de probabilidad de uso común. Las letras µ y σ 2 denotan la esperanza y varianza
respectivamente. La función generadora de probabilidad es G(t), la generadora de la momentos es M (t) y la función caracterı́stica es φ(t).
DISTRIBUCIONES UNIVARIADAS DISCRETAS
Distribución uniforme
X ∼ unif{x1 , . . . , xn } con n ∈ N.
f (x) = 1/nPpara x = x1 , . . . , xn .
E(X) = n1 nj=1 xj .
P
Var(X) = n1 nj=1 (xj − µ)2 .
P
M (t) = n1 nj=1 exj t .
Distribución Bernoulli
X ∼ Ber(p) con p ∈ (0, 1).
f (x) = px (1 − p)1−x para x = 0, 1.
E(X) = p.
Var(X) = p(1 − p).
G(t) = 1 − p + pt.
M (t) = (1 − p) + pet .
Distribución binomial
X ∼ bin(n, p) con n ∈ {1, 2, . . .} y p ∈ (0, 1).
188
n
f (x) =
px (1 − p)n−x para x = 0, 1, . . . , n.
x
E(X) = np.
Var(X) = np(1 − p).
G(t) = (1 − p + pt)n .
M (t) = [(1 − p) + pet ]n .
Distribución geométrica
X ∼ geo(p), con p ∈ (0, 1) y q = 1 − p
f (x) = p(1 − p)x para x = 0, 1, . . .
E(X) = q/p.
Var(X) = q/p2 .
G(t) = p/[1 − t(1 − p)].
M (t) = p/[1 − (1 − p)et ].
Distribución Poisson
X ∼ Poisson(λ) con λ > 0.
λx
f (x) = e−λ
para x = 0, 1, . . .
x!
E(X) = λ.
Var(X) = λ.
G(t) = e−λ(1−t) .
M (t) = exp[λ(et − 1)].
Distribución binomial negativa
X ∼ binneg(r, p) con
p ∈ (0, 1) y r ∈ {1, 2, . . .}.
r+x−1
f (x) =
pr (1 − p)x para x = 0, 1, . . .
x
E(X) = r(1 − p)/p.
Var(X) = r(1 − p)/p2 .
G(t) = [p/(1 − t(1 − p))]r .
M (t) = [p/(1 − qet )]r .
Distribución hipergeométrica
X ∼ hipergeo(N,
N,
K, n∈ {1, 2, . . .} y n ≤ K ≤ N .
K, n) con
N
N −K
K
para x = 0, 1, . . . , n.
/
f (x) =
n
n−x
x
E(X) = nK/N .
N −K N −n
Var(X) = n K
N N N −1 .
DISTRIBUCIONES UNIVARIADAS CONTINUAS
189
Distribución uniforme
X ∼ unif(a, b) con a < b.
f (x) = 1/(b − a) para x ∈ (a, b).
F (x) = (x − a)/(b − a) para x ∈ (a, b).
E(X) = (a + b)/2.
Var(X) = (b − a)2 /12.
M (t) = (ebt − eat )/(bt − at).
Distribución exponencial
X ∼ exp(λ) con λ > 0.
f (x) = λe−λx para x > 0.
F (x) = 1 − e−λx para x > 0.
E(X) = 1/λ.
Var(X) = 1/λ2 .
M (t) = λ/(λ − t) para t < λ.
Distribución gama
X ∼ gama(n, λ) con λ > 0 y n > 0.
(λx)n−1 −λx
f (x) =
λe
para x > 0.
Γ(n)
P
j
F (x) = 1 − e−λx n−1
j=0 (λx) /j! para x > 0.
E(X) = n/λ.
Var(X) = n/λ2 .
M (t) = [λ/(λ − t)]n para t < λ.
Distribución beta
X ∼ beta(a, b) con a > 0, b > 0.
f (x) = xa−1 (1 − x)b−1 /B(a, b) para x ∈ (0, 1).
E(X) = a/(a + b).
Var(X) = ab/[(a + b + 1)(a + b)2 ].
Distribución normal
X ∼ N(µ, σ 2 ) con µ ∈ R y σ 2 > 0.
1
2
2
f (x) = √
e−(x−µ) /2σ .
2
2πσ
E(X) = µ.
Var(X) = σ 2 .
M (t) = exp(µt + σ 2 t2 /2).
φ(t) = exp(iµt − σ 2 t2 /2).
Cuando µ = 0 y σ 2 = 1 se obtiene la distribución normal estándar.
190
Distribución ji-cuadrada
X ∼ χ2 (n) con n > 0.
n/2
1
1
f (x) =
xn/2−1 e−x/2 para x > 0.
Γ(n/2) 2
E(X) = n.
Var(X) = 2n.
M (t) = (1 − 2t)−n/2 para t < 1/2.
Distribución t
X ∼ t(n) con n > 0.
Γ(n + 1/2)
x2
f (x) = √
(1 + )−n−1/2 .
n
nπ Γ(n/2)
E(X) = 0.
Var(X) = n/(n − 2) para n > 2.
M (t) no existe para t 6= 0.
φ(t) = exp(|t|).
Distribución log normal
X ∼ log normal(µ, σ 2 ) con µ ∈ R y σ 2 > 0.
1
f (x) = √
exp[−(ln x − µ)2 /2σ 2 ] para x > 0.
x 2πσ 2
E(X) = exp(µ + σ 2 /2).
E(X n ) = exp(nµ + n2 σ 2 /2).
Var(X) = exp(2µ + 2σ 2 ) − exp(2µ + σ 2 ).
Distribución Pareto
X ∼ Pareto(a, b) con a, b > 0.
aba
f (x) =
para x > 0.
(a + x)a+1
F (x) = 1 − [b/(b + x)]a para x > 0.
E(X) = b/(a − 1) para a > 1.
Var(X) = ab2 /[(a − 1)2 (a − 2)] para a > 2.
Distribución Weibull
X ∼ Weibull(r, λ) con r, λ > 0.
r
f (x) = e−(λx) rλr xr−1 para x > 0.
r
F (x) = 1 − e−(λx) para x > 0.
E(X) = Γ(1 + 1/r)/λ.
Var(X) = [Γ(1 + 2/r) − Γ2 (1 + 1/r)]/λ2 .
Distribución Cauchy
191
X ∼ Cauchy(a, b) con b > 0.
1
f (x) =
.
bπ[1 + ((x − a)/b)2 ]
E(X) y Var(X) no existen.
Cuando a = 0 y b = 1 se obtiene la distribución Cauchy estándar. En este
caso,
1
.
f (x) =
π(1 + x2 )
F (x) = 1/2 + (arctan x)/π.
192
Apéndice B
Formulario
El alfabeto griego
A α alpha
B β beta
Γ γ gamma
∆ δ delta
E ǫ, ε epsilon
Z ζ zeta
H η eta
Θ θ, ϑ theta
I ι iota
K κ kappa
Λ λ lambda
M µ mu
N ν nu
Ξ ξ xi
O o omikron
Π π pi
P ρ, ̺ rho
Σ σ, ς sigma
T τ tau
Υ υ upsilon
Φ φ, ϕ phi
X χ chi
Ψ ψ psi
Ω ω omega
1. σ-álgebra
a) Ω ∈ F.
b) A ∈ F ⇒ Ac ∈ F.
∞
[
c) A1 , A2 , . . . ∈ F ⇒
n=1
An ∈ F.
2. Axiomas de la probabilidad
a) P (Ω) = 1.
b) P (A) ≥ 0, para A ∈ F.
c) A1 , A2 , . . . ∈ F ajenos dos a dos ⇒ P (
3. Esperanza E(X) =
Z
∞
x dF (x)
−∞
a) E(c) = c
b) E(cX) = cE(X)
193
∞
[
n=1
An ) =
∞
X
n=1
P (An ).
c) E(X + Y ) = E(X) + E(Y )
d ) X ≥ 0 =⇒ E(X) ≥ 0.
e) X ≤ Y =⇒ E(X) ≤ E(Y ).
4. Varianza Var(X) = E(X − µ)2 .
Es un número no negativo que indica el grado de dispersión de la
variable aleatoria. Cumple
a)
b)
c)
d)
Var(cX) = c2 Var(X).
Var(X + c) = Var(X).
Var(X) = E(X 2 ) − E 2 (X).
Var(X + Y ) 6= Var(X) + Var(Y ) (excepto caso independencia).
5. Covarianza Cov(X, Y ) = E [(X − E(X))(Y − E(Y ))].
a)
b)
c)
d)
e)
f)
g)
h)
Cov(X, Y ) = E(XY ) − E(X)E(Y ).
Cov(X, Y ) = Cov(Y, X).
Cov(X, X) = Var(X).
Cov(a, Y ) = 0, a constante.
Cov(aX, Y ) = aCov(X, Y ), a constante.
Cov(X1 + X2 , Y ) = Cov(X1 , Y ) + Cov(X2 , Y ).
X, Y indep =⇒ Cov(X, Y ) = 0.
Cov(X, Y ) = 0 =⇒
6
X, Y indep (excepto caso normal).
Cov(X, Y )
.
6. Coeficiente de correlación ρ(X, Y ) = p
Var(X) Var(Y )
Es un número en [−1, 1] que representa una medida del grado de dependencia lineal entre dos variables aleatorias. Cuando Y = aX + b
con a 6= 0 y b constantes se cumple |ρ(X, Y )| = 1 y viceversa. Si X y Y
son independientes entonces ρ(X, Y ) = 0, el recı́proco es falso excepto
en el caso normal.
7. Transformaciones
Si X es una variable aleatoria y φ es una función estrictamente monótona
y con inversa diferenciable entonces la variable aleatoria Y = φ(X)
tiene función de densidad
d
fY (y) = fX (φ−1 (y)) | φ−1 (y)|.
dy
En el caso bidimensional, si (U, V ) = φ(X, Y ) con φ continua y con
inversa diferenciable entonces
fU,V (u, v) = fX,Y (φ−1 (u, v)) |J(u, v)|,
−1 ∂φ−1
∂φ
1
1
∂u
∂v
en donde J(u, v) = −1 .
−1
∂φ2 ∂φ2
∂u
∂v
En particular se cumplen las siguiente fórmulas
194
a) fX+Y (u) =
Z
∞
Z−∞
∞
fX,Y (u − v, v) dv
b) fX−Y (u) =
fX,Y (u + v, v) dv
−∞
Z ∞
1
c) fXY (u) =
fX,Y (u/v, v) dv
v
Z−∞
∞
d ) fX/Y (u) =
fX,Y (uv, v) |v| dv
−∞
8. Función generadora de probabilidad G(t) = E(tX ).
Se utiliza principalmente para distribuciones discretas. Cuando existe
determina de manera única a la distribución de probabilidad. Genera
los momentos factoriales a través de la fórmula
G(n) (1) = E[X(X − 1) · · · (X − n + 1)],
cuando estos momentos existen. Cumple además
a) X, Y indep ⇒ GX+Y (t) = GX (t)GY (t), el recı́proco es falso.
9. Función generadora de momentos M (t) = E(etX ).
Esta función no existe para todas las distribuciones de probabilidad.
Cuando existe en algún intervalo no trivial alrededor de t = 0 determina de manera única a la distribución de probabilidad. Genera los
momentos a través de la fórmula M (n) (0) = E(X n ). Además cumple
a) X, Y indep ⇒ MX+Y (t) = MX (t)MY (t), el recı́proco es falso.
d
b) Xn → X si y solo si MXn (t) → MX (t) para cada t en (−ǫ, ǫ),
ǫ > 0.
10. Función caracterı́stica φ(t) = E(eitX ).
Es una función que siempre existe y determina de manera única a
la distribución de probabilidad. Genera los momentos a través de la
fórmula φ(n) (0) = in E(X n ) cuando estos momentos existen. Además
cumple
a) X, Y indep ⇒ φX+Y (t) = φX (t)φY (t), el recı́proco es falso.
d
b) Xn → X si y solo si φXn (t) → φX (t) para cada t en R.
Z T
1
1 − e−ith −itx
c) F (x + h) − F (x) = lı́m
e
φ(t) dt (Lèvy).
T →∞ 2π −T
it
Z T
1
e−itx φ(t) dt.
d ) f (x) = lı́m
T →∞ 2π −T
n
1X
Xi −→ µ
n
11. Ley de los grandes números
i=1
12. Teorema del lı́mite central
(X1 + · · · + Xn ) − nµ d
√
−→ N(0, 1)
nσ
195
Apéndice C
Tabla de la distribución
normal estándar
1
Φ(x) = √
2π
Z
x
2 /2
e−t
dt
−∞
x
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.0
0.1
0.2
0.3
0.4
0.5000
0.5398
0.5793
0.6179
0.6554
0.5040
0.5438
0.5832
0.6217
0.6591
0.5080
0.5478
0.5871
0.6255
0.6628
0.5120
0.5517
0.5910
0.6293
0.6664
0.5160
0.5557
0.5948
0.6331
0.6700
0.5199
0.5596
0.5987
0.6368
0.6736
0.5239
0.5636
0.6026
0.6406
0.6772
0.5279
0.5675
0.6064
0.6443
0.6808
0.5319
0.5714
0.6103
0.6480
0.6844
0.5359
0.5753
0.6141
0.6517
0.6879
0.5
0.6
0.7
0.8
0.9
0.6915
0.7257
0.7580
0.7881
0.8159
0.6950
0.7291
0.7611
0.7910
0.8186
0.6985
0.7324
0.7642
0.7939
0.8212
0.7019
0.7357
0.7673
0.7967
0.8238
0.7054
0.7389
0.7704
0.7995
0.8264
0.7088
0.7422
0.7734
0.8023
0.8289
0.7123
0.7454
0.7764
0.8051
0.8315
0.7157
0.7486
0.7794
0.8078
0.8340
0.7190
0.7517
0.7823
0.8106
0.8365
0.7224
0.7549
0.7852
0.8133
0.8399
1.0
1.1
1.2
1.3
1.4
0.8413
0.8643
0.8849
0.9032
0.9192
0.8438
0.8665
0.8869
0.9049
0.9207
0.8461
0.8686
0.8888
0.9066
0.9222
0.8485
0.8708
0.8907
0.9082
0.9236
0.8508
0.8729
0.8925
0.9099
0.9251
0.8531
0.8749
0.8944
0.9115
0.9265
0.8554
0.8770
0.8962
0.9131
0.9279
0.8577
0.8790
0.8980
0.9147
0.9292
0.8599
0.8810
0.8997
0.9162
0.9306
0.8621
0.8830
0.9015
0.9177
0.9319
1.5
1.6
1.7
1.8
1.9
0.9332
0.9452
0.9554
0.9641
0.9713
0.9345
0.9463
0.9564
0.9649
0.9719
0.9357
0.9474
0.9573
0.9656
0.9726
0.9370
0.9484
0.9582
0.9664
0.9732
0.9382
0.9495
0.9591
0.9671
0.9738
0.9394
0.9505
0.9599
0.9678
0.9744
0.9406
0.9515
0.9608
0.9686
0.9750
0.9418
0.9525
0.9616
0.9693
0.9756
0.9429
0.9535
0.9625
0.9699
0.9761
0.9441
0.9545
0.9633
0.9706
0.9767
2.0
2.1
2.2
2.3
2.4
0.9772
0.9821
0.9861
0.9893
0.9918
0.9778
0.9826
0.9864
0.9896
0.9920
0.9783
0.9830
0.9868
0.9898
0.9922
0.9788
0.9834
0.9871
0.9901
0.9925
0.9793
0.9838
0.9875
0.9904
0.9927
0.9798
0.9842
0.9878
0.9906
0.9929
0.9803
0.9846
0.9881
0.9909
0.9931
0.9808
0.9850
0.9884
0.9911
0.9932
0.9812
0.9854
0.9887
0.9913
0.9934
0.9817
0.9857
0.9890
0.9916
0.9936
2.5
2.6
2.7
2.8
2.9
0.9938
0.9953
0.9965
0.9974
0.9981
0.9940
0.9955
0.9966
0.9975
0.9982
0.9941
0.9956
0.9967
0.9976
0.9982
0.9943
0.9957
0.9968
0.9977
0.9983
0.9945
0.9959
0.9969
0.9977
0.9984
0.9946
0.9960
0.9970
0.9978
0.9984
0.9948
0.9961
0.9971
0.9979
0.9985
0.9949
0.9962
0.9972
0.9979
0.9985
0.9951
0.9963
0.9973
0.9980
0.9986
0.9952
0.9964
0.9974
0.9981
0.9986
3.0
3.1
3.2
3.3
3.4
0.9987
0.9990
0.9993
0.9995
0.9997
0.9987
0.9991
0.9993
0.9995
0.9997
0.9987
0.9991
0.9994
0.9995
0.9997
0.9988
0.9991
0.9994
0.9996
0.9997
0.9988
0.9992
0.9994
0.9996
0.9997
0.9989
0.9992
0.9994
0.9996
0.9997
0.9989
0.9992
0.9994
0.9996
0.9997
0.9989
0.9992
0.9995
0.9996
0.9997
0.9990
0.9993
0.9995
0.9996
0.9997
0.9990
0.9993
0.9995
0.9997
0.9998
196
Bibliografı́a
[1] Blake I.F. (1979) An introduction to applied probability. Wiley.
[2] Cohn D.L. (1980) Measure theory. Birkhäuser.
[3] Feller W. (1978) Introducción a la teorı́a de las probabilidades y sus
aplicaciones. Vol. I y II. Limusa.
[4] Grimmett G.R., Stirzaker D.R. (1982) Probability and random processes. Clarendon Press.
[5] Grimmett G.R., Stirzaker D.R. (1986) Probability: an introduction. Oxford University Press.
[6] Grimmett G.R. , Stirzaker D.R. (2001) One thousand exercises in probability. Oxford University Press.
[7] Halmos P.R. (1960) Measure theory. Van Nostrand.
[8] Harris B. (1966) Theory of probability. Addison–Wesley.
[9] Hoel P., Port S., Stone C. (1971) Probability theory. Houghton Mifflin
Co.
[10] Jacod D., Protter P. (2000) Probability essentials. Springer–Verlag.
[11] Karr A.F. (1993) Probability. Springer–Verlag.
[12] Laha R. G., Rohatgi V. K. (1979) Probability theory. John Wiley &
Sons.
[13] Miller I., Miller M. (1999) John E. Freund’s mathematical statistics 6th ed. Prentice–Hall.
[14] Mood A.M., Graybill F.A., Boes D.C. (1974) Introduction to the theory
of statistics. McGraw Hill.
[15] Parzen E. (1960) Modern probability theory and its applications. Wiley.
[16] Resnick S.I. (1999) A probability path. Birkhäuser.
[17] Rincón L. (2004) ¿Qué es la esperanza condicional? Miscelánea
Matemática. No. 37, Agosto 2004, SMM.
197
[18] Romano J.P. , Siegel A.F. (1986) Counterexamples in probability and
statistics. Chapman & Hall.
[19] Rosenthal J.S. (2000) A first look at rigorous probability theory. World
Scientific.
[20] Ross S. (1976) A first course in probability. Prentice Hall.
[21] Williams D. (1991) Probability with martingales. Cambridge University
Press.
[22] Williams D. (2001) Weighing the odds: a course in probability ans statistics. Cambridge University Press.
198
Índice
σ-álgebra, 5
generada, 8
mı́nima generada, 8
σ-álgebra, 4
de Borel, 11
beta, 74, 190
binomial, 65, 188
binomial negativa, 68, 189
Cauchy, 191
exponencial, 71, 190
exponencial doble, 72
F de Snedecor, 138
gama, 72, 190
geométrica, 66, 189
hipergeométrica, 69, 189
hipergeométrica multivariada, 111
ji-cuadrada, 131, 191
log normal, 78, 115, 191
multinomial, 110
normal, 76, 190
normal bivariada, 112
Pareto, 191
Poisson, 67, 189
t de Student, 136, 191
uniforme continua, 70, 190
uniforme discreta, 63, 188
Weibull, 191
Borel-Cantelli, 34
Coeficiente de correlación, 105
Conjunto
Borel medible, 11
Boreliano, 11
de Borel, 11
medible, 5
Continuidad de la prob, 29, 30
Convergencia
casi dondequiera, 151
casi segura, 151
casi siempre, 151
débil, 154
de eventos, 15
en distribución, 154
en media, 153
en media cuadrática, 154
en probabilidad, 152
puntual, 150
puntual de v.a.s, 150
Convolución, 120
Covarianza, 102
Desigualdad
de Bonferroni, 28
de Boole, 24
de Cauchy-Schwarz, 62
de Chebyshev, 179, 180
de Kounias, 28
de Markov, 178
Distribución
arcoseno, 75
Bernoulli, 64, 188
Espacio
de probabilidad, 4, 5
medible, 5
muestral, 4
Esperanza
condicional, 96
de un vector, 99
de una función de un vector, 99
de una v.a., 55
Estadı́sticas de orden, 141
Estadı́stica, 130
Evento, 4
Función caracterı́stica, 171
fórmula de inversión, 172, 173
teorema de continuidad, 174
teorema de unicidad, 173
199
Función de densidad
condicional, 89
conjunta, 84
marginal, 87
Función de distribución, 44
condicional, 89
conjunta, 81
marginal, 87
Función generadora
de momentos, 166
de probabilidad, 162
de un vector, 99
de una v.a., 59
muestral, 130
Vector aleatorio, 80
continuo, 81
discreto, 81
Independencia
de σ-álgebras, 33
de eventos, 32
de v.a.s, 91
Integral de Riemann-Stieltjes, 53
Lı́mite inferior, 15
Lı́mite superior, 15
Ley de los grandes números, 183
débil, 183
fuerte, 184
Matriz de varianzas, 99
Media, 56
muestral, 130
Medida de probabilidad, 5, 20
Momentos, 61
absolutos, 61
centrales, 61
centrales absolutos, 61
Muestra aleatoria, 130
Teorema
de cambio de variable, 114, 116
de convergencia dominada, 160
de convergencia monótona, 160
del lı́mite central, 185
Valor esperado, 56
Valor medio, 56
Valor promedio, 56
Variable aleatoria, 36
continua, 51
discreta, 50
mixta, 51
Varianza
condicional, 98
200
Descargar