PROBABILIDAD CON APLICACIONES M. WOODROOFE UNIVERSIDAD AUTÓNOMA CHAPINGO DIVISIÓN DE CIENCIAS FORESTALES DEPARTAMENTO DE ESTADÍSTICA, MATEMÁTICA Y CÓMPUTO MICHAEL WOODROOFE Profesor de Matemáticas y Estadística Universidad de Michigan Probabilidad con Aplicaciones v NOTA DEL TRADUCTOR El propósito de la traducción de este libro es proporcionar a los estudiantes de la licenciatura en estadística de la Universidad Autónoma Chapingo los elementos fundamentales de la probabilidad en su lenguaje materno para evitar una doble complejidad que se generaría en aquellos no habilitados en el inglés. Si se optó por una traducción en lugar de la elaboración de un texto fue por el reconocimiento que el traductor tiene de la estructura, el orden, el manejo de los fundamentos y el alcance de los ejercicios incluidos que en general están presentes en los textos de esta naturaleza elaborados en las grandes universidades. No puede ser descartado ir a las fuentes reconocidas inmersas en los lugares donde se ha desarrollado el conocimiento científico de interés. De acuerdo al plan de estudios de la licenciatura mencionada se deberán cubrir los primeros cinco capítulos del libro en el curso semestral de Probabilidad I y los siguientes cinco capítulos en el curso semestral de Probabilidad II. Sólo como tópicos especiales se deberán usar los últimos dos capítulos. La impresión de este material sólo tiene propósitos docentes y no tiene absolutamente ninguna intención de lucro. Esta versión, por la premura que se tiene de ser usada en los cursos señalados, no tuvo una corrección de estilo, problema que será superado en la siguiente edición. Francisco J. Zamudio S. Enero del 2000 vii TABLA DE CONTENIDO Nota del Traductor ................................................................................................................. v Prefacio ................................................................................................................................. xiii 1 El Modelo Clásico............................................................................................................. 1 1.1. Introducción ................................................................................................................ 1 1.2. Análisis Combinatorio................................................................................................. 3 1.3 Modelos de Urnas...................................................................................................... 10 1.4. Muestras Desordenadas ............................................................................................. 15 1.5. Muestras Ordenadas .................................................................................................. 21 1.6. Problemas de Ocupación ........................................................................................... 27 1.7. El Teorema Binomial Generalizado .......................................................................... 30 1.8. La Fórmula de Stirling .............................................................................................. 33 1.9. Problemas .................................................................................................................. 36 2 Probabilidad Axiomática ............................................................................................... 43 2.1 Probabilidad, Frecuencia, y Grado de Creencia ........................................................ 43 2.2 Un Modelo Matemático ............................................................................................ 48 2.3 Algunas Consecuencias Elementales de los Primeros Dos Axiomas ....................... 53 2.4 Combinaciones de Eventos ....................................................................................... 59 2.5 Equivalentes del Tercer Axioma ............................................................................... 63 viii 2.6 3 4 5 6 Problemas .................................................................................................................. 67 Probabilidad Condicional e Independencia ................................................................ 73 3.1 Probabilidad Condicional.......................................................................................... 73 3.2 El Teorema de Bayes ................................................................................................ 79 3.3 Independencia ........................................................................................................... 84 3.4 Algunas Propiedades de Independencia.................................................................... 88 3.5 Ensayos Repetidos: Espacios Producto .................................................................... 91 3.6 Problemas .................................................................................................................. 94 Las Probabilidades Binomiales y Relacionadas ........................................................ 101 4.1 Las Probabilidades Binomiales ............................................................................... 101 4.2 Las Probabilidades Binomiales Negativas .............................................................. 107 4.3 Teorema de Poisson: La Ley de Eventos Raros ..................................................... 110 4.4 La Curva Normal .................................................................................................... 113 4.5 Aproximación Normal ............................................................................................ 116 4.6 Los Teoremas de Demoivre-Laplace ...................................................................... 121 4.7 Problemas ................................................................................................................ 127 Variables Aleatorias .................................................................................................... 133 5.1 Variables Aleatorias ................................................................................................ 133 5.2 Distribuciones Discretas ......................................................................................... 139 5.3 Distribuciones Absolutamente Continuas ............................................................... 143 5.4 Las Distribuciones Gama y Beta............................................................................. 147 5.5 Funciones de Distribución ...................................................................................... 154 5.6 Cálculos con Funciones de Distribución................................................................. 160 5.7 Medianas y Modas .................................................................................................. 162 5.8 Propiedades de las Funciones de Distribución ....................................................... 165 5.9 Problemas ................................................................................................................ 169 Vectores Aleatorios ...................................................................................................... 175 6.1 Distribuciones Bivariadas ....................................................................................... 175 6.2 Distribuciones Marginales e Independencia ........................................................... 181 6.3 Mayores Dimensiones ............................................................................................. 187 NOTA DEL TRADUCTOR ix 6.4 Ejemplos .................................................................................................................. 194 6.5 Problemas ................................................................................................................ 198 7 Teoría de Distribuciones .............................................................................................. 203 7.1 Distribuciones Univariadas ..................................................................................... 203 7.2 Distribuciones Multivariadas .................................................................................. 210 7.3 Convoluciones ......................................................................................................... 214 7.4 Jacobianos ............................................................................................................... 219 7.5 Muestreo de una Distribución Normal .................................................................... 226 7.6 Descomposición Radioactiva .................................................................................. 232 7.7 Problemas ................................................................................................................ 237 8 Esperanza ...................................................................................................................... 243 8.1 Esperanza ................................................................................................................ 243 8.2 Propiedades de la Esperanza ................................................................................... 249 8.3 La Media y la Varianza ........................................................................................... 253 8.4 La Función Generatriz de Momentos ...................................................................... 258 8.5 Covarianza y Correlación ........................................................................................ 268 8.6 Ejemplos .................................................................................................................. 274 8.7 Problemas ................................................................................................................ 278 9 Teoremas Límites ......................................................................................................... 285 9.1 Algunas Desigualdades Útiles ................................................................................. 285 9.2 La Ley Débil de los Grandes Números ................................................................... 288 9.3 Variaciones de la Ley Débil de los Grandes Números ........................................... 292 9.4 El Teorema del Límite Central ................................................................................ 296 9.5 Distribuciones de Valores Extremos ....................................................................... 303 9.6 Problemas ................................................................................................................ 308 10 Esperanza y Distribuciones Condicionales ............................................................ 311 10.1 Funciones Masa y Densidades Condicionales ..................................................... 311 10.2 Probabilidad Condicional .................................................................................... 321 10.3 Esperanza Condicional ........................................................................................ 327 10.4 Dimensiones Mayores .......................................................................................... 333 x Teoría de Decisión ............................................................................................... 338 10.6 Procesos Ramificados .......................................................................................... 343 10.7 Problemas ............................................................................................................ 348 11 10.5 Caminatas Aleatorias ............................................................................................... 353 Sucesión Infinita de Variables Aleatorias ........................................................... 353 11.2 El Problema de la Ruina del Jugador .................................................................. 356 11.3 Los Lemas de Borel-Cantelli ............................................................................... 361 11.4 Recurrencia .......................................................................................................... 364 11.5 Convergencia con Probabilidad1 ......................................................................... 365 11.6 Algunas Desigualdades........................................................................................ 368 11.7 La Ley Fuerte de los Grandes Números .............................................................. 373 11.8 La Ley del Logaritmo Iterado .............................................................................. 376 11.9 Problemas ............................................................................................................ 381 12 11.1 Martingalas ............................................................................................................... 387 Sistemas de Juego ................................................................................................ 387 12.2 Martingalas .......................................................................................................... 390 12.3 Propiedades Elementales de las Martingalas ....................................................... 394 12.4 El Teorema de la Interrupción Opcional ............................................................. 396 12.5 Aplicaciones del Teorema de la Interrupción Opcional ...................................... 402 12.6 La Desigualdad de la Submartingala ................................................................... 405 12.7 Problemas ............................................................................................................ 407 13 12.1 Apéndices .................................................................................................................. 411 13.1 Apéndice A. Teoría de Conjuntos ....................................................................... 411 13.2 Apéndice B. Integración ...................................................................................... 414 13.3 Apéndice C. Tablas.............................................................................................. 420 13.4 Apéndice D. Referencias ..................................................................................... 425 13.5 Apéndice E. Respuestas a Problemas Seleccionados .......................................... 427 Índice.................................................................................................................................... 435 Índice ................................................................................................................................ 435 NOTA DEL TRADUCTOR xi xiii PREFACIO Este libro se ha desarrollado de varios diferentes cursos que he dado en la Universidad de Michigan durante los pasados pocos años. Los estudiantes en estos cursos fueron esencialmente de los dos últimos años de la licenciatura y del primer año de postgrado en matemáticas y campos relacionados como la ingeniería, estadística, psicología matemática, y econometría, y este libro está diseñado para tal audiencia. Las versiones preliminares del libro usadas en estos cursos se han visto beneficiadas de los comentarios de los estudiantes. El libro tiene varios propósitos. Primero, como libro de texto, intenta introducir a sus lectores a los conceptos básicos de probabilidad y familiarizarlos con la teoría matemática de la probabilidad. Un conocimiento estudiado de las secciones sin asterisco de los Capítulos 1 a 10 debe permitir al lector entender las aplicaciones de la teoría de probabilidades a muchos fenómenos científicos y sociales. Otro objetivo, igualmente importante, es desarrollar la intuición del lector acerca de la probabilidad. El libro contiene numerosos ejemplos y varias aplicaciones a problemas científicos y estadísticos. Además, muchos temas han sido enfocados desde más de un punto de vista. El libro también está intentado para servir de referencia para aquellos cuyo entrenamiento formal en probabilidad no continúa más allá del nivel introductorio. Así, el libro contiene mucho material que encuentra múltiples aplicaciones pero que no sería usualmente presentado en un curso introductorio. Este material adicional ha sido colocado en secciones xiv al pie de página y puede ser omitido sin pérdida de continuidad. Le puede proveer también a un instructor una amplia selección de tópicos especiales de los cuales el puede seleccionar uno o dos para estudios a profundidad. El libro se divide naturalmente en tres partes. Los Capítulos 1 a 4 tratan la probabilidad combinatoria e introducen las nociones de espacio muestral, probabilidad estadística y subjetiva, probabilidad condicional, e independencia. Las nociones de variable aleatoria, distribución de probabilidad, y esperanza son entonces introducidas y desarrolladas en los Capítulos 5 a 10. Finalmente, los Capítulos 11 y 12 introducen al lector a los procesos estocásticos y desarrollan las caminatas aleatorias y las martingalas. Las secciones sin asterisco de los Capítulos 1 a 10 forman la base para un curso introductorio fuerte en la teoría de probabilidades. El prerrequisito para una lectura inteligente de este libro es 2 años de cálculo. Conocimiento adicional es deseable para los Capítulos 11 y 12, pero no es esencial. El libro se ha beneficiado de la discusión que he tenido con Bill Ericson, Richard Olshen, Herb Robbins, Norman Starr, y Jim Wendel. Patricia Holly hizo un trabajo eficiente con la mecanografía, y Charles Séller y Francis Smock ayudaron con la corrección de estilo. A todos mis sinceras gracias. MICHAEL WOODROOFE 1 1 El Modelo Clásico 1.1. INTRODUCCIÓN Comenzaremos nuestro estudio de la teoría de la probabilidad con juegos de azar. En este capítulo estudiamos juegos de azar que deben resultar en uno de un número finito de posibles sucesos, la totalidad de los cuales puede ser especificada antes de que el juego sea jugado. Por ejemplo, la mayoría de los juegos de carta son de esta naturaleza. Nuestra meta en este capítulo es construir un modelo matemático para tales juegos y desarrollar algunas de las propiedades más simples del modelo. El modelo que escogimos es denominado el modelo clásico porque fue el primer modelo de probabilidad en ser estudiado.1 Dado un juego de azar particular, como descrito anteriormente, denotaremos al conjunto de posibles sucesos del juego por S, y denominaremos a S el espacio muestral.2 Subconjuntos de S serán denominados eventos, y un evento A S se dirá que ocurre si y sólo si el suceso real del juego es un elemento de A. Por ejemplo, si nuestro juego consiste de lanzar una vez un dado balanceado, podríamos tomar S para ser el conjunto {1, 2, 3, 4, 5, 6} con la convención de que k S representa el suceso de que una cara mostrando exactamente k puntos aparece. El evento de que un número non de puntos aparezca es entonces A = {1, 3, 5}, y el evento de que únicamente un punto aparezca es {1}. 1 1 Referencias a trabajos sobre la historia de la probabilidad son dadas al final del capítulo. 2 2 Espacio de sucesos sería mejor, pero usaremos la terminología convencional espacio muestral. 2 INTRODUCCIÓN Si S es el espacio muestral para un juego particular y A S es un evento, definimos la probabilidad de A para ser P A A S (1.1) donde para cualquier subconjunto B S, |B| denota el número de elementos distintos de B. Así, dentro del modelo clásico, la probabilidad de un evento es el cociente del número de sucesos que implican la ocurrencia del evento al número total de posibles sucesos. Por ejemplo, en el juego del dado mencionado anteriormente, la probabilidad del evento A = {1, 3, 5} de que un número non de puntos aparezca es P(A) = 3/6 = 1/2, mientras que la probabilidad de que sólo un punto aparezca es P({1}) = 1/6. La Ecuación (1.1) define una función cuyo dominio es la clase (o conjunto) de todos los subconjuntos de S. Así, la probabilidad es una propiedad de conjuntos (eventos) A S, no de puntos s S. En particular, si s S, nos referiremos a {s}, el conjunto cuyo único elemento es s, como el evento de que el suceso de nuestro juego será s. La Ecuación (1.1) entonces requiere P({s}) = 1/|S|. El símbolo P(s) no ha sido definido. Para referencia posterior, observamos que la función P de la Ecuación (1.1) tiene las siguientes propiedades: 0 P A P S 1 P A B P A PB (1.2) AB (1.3) P A 1 P A (1.4) si donde A B denota la unión de A y B, AB denota la intersección de A y B, A' denota el complemento de A, y denota el conjunto vacío.1 Por ejemplo, para establecer (1.3) simplemente observe que si AB = , entonces |A B| = |A| + |B|, así que P(A B) = P(A) + P(B) por (1.1). La Ecuación (1.4) entonces se sigue de P(A) + P(A') = P(S) = 1, y (1.2) es obvia. Estas propiedades son algunas veces útiles en reducir un cálculo complicado a una serie de cálculos más sencillos. EJEMPLO 1.1.1 Si dos dados balanceados distinguibles son lanzados, podemos describir el suceso del juego por un par ordenado (x,y), donde x denota el número de puntos sobre el primer dado y y el 1 3 Algunos elementos de la teoría de conjuntos son revisados en el Apéndice A. EL MODELO CLÁSICO 3 número sobre el segundo. Así, podemos tomar S para ser el conjunto de pares ordenados (x,y), donde x y y son enteros entre 1 y 6. Una inspección muestra que hay |S| = 36 elementos en S. Calculemos la probabilidad del evento A de que la suma de puntos sobre los dos dados es 7. Claramente A 1,6,2,5,3,4,4,3,5,2,6,1 así que |A| = 6. Por tanto, P(A) = 1/6. //// Aunque el ejemplo es completamente simple, repagará su estudio cuidadoso, porque la técnica empleada en el Ejemplo 1.1.1 será empleada a través de este capítulo. Observe que dimos una cuidadosa descripción del espacio muestral (conjunto de posibles sucesos) y del evento A cuya probabilidad deseábamos calcular. Después que esto fue hecho, el cálculo de P(A) sólo involucró contar el número de elementos en A, contar el número de elementos en S, y dividir. Conceptualmente, todos los problemas que encontraremos en este capítulo son tan simples como el Ejemplo 1.1.1, aunque el conteo real puede convertirse en algo un poquito más complicado. Muchos estudiantes tienen dificultad con la teoría de probabilidad elemental porque ellos no conceptualizan los problemas apropiadamente. Eso es, ellos no toman el tiempo y el esfuerzo para definir su espacio muestral y evento cuidadosamente. Como un resultado, ellos no saben qué contar. Por tanto, repetimos: El primer paso en calcular cualquier probabilidad en este capítulo debe ser una definición cuidadosa del espacio muestral y del evento cuya probabilidad tiene que ser calculada. La Ecuación (1.1) refleja una suposición acerca del juego bajo consideración. Es decir, supone que los varios sucesos del experimento son igualmente verosímiles en el sentido de que P({s}) = 1/|S| para toda s S. Por lo tanto estamos confrontados con la siguiente cuestión: ¿A qué juegos aplica el modelo clásico? Discutimos esta cuestión en la Sección 2.1. Por el momento, suponemos que el lector ha tenido suficiente experiencia con tales términos como "azar," "verosímil," y "probabilidad" para identificar juegos a los cuales el modelo clásico aplica. 1.2. ANÁLISIS COMBINATORIO Al principio, todos los cálculos que son derivados del modelo clásico son completamente directos. Indudablemente, para calcular P(A) de (1.1) uno sólo tiene que contar el número de elementos distintos en A, contar el número de distintos elementos en S, y dividir el anterior por el último. En la práctica, sin embargo, a menudo es imposible contar el número de elementos en A o S por simple inspección. Por ejemplo, si deseáramos calcular la probabilidad recibir un 'full' en un juego de póquer, no podríamos realistamente esperar listar 4 ANÁLISIS COMBINATORIO todas las posibles manos de póquer y contar el número que contiene tres cartas de una denominación y dos de otra. ¿Por qué? Porque, como veremos en el Ejemplo 1.2.4a, hay 2,598,960 distintas manos de póquer. Lo que necesitamos es un método eficiente de conteo, uno que nos permita contar el número total de distintas manos de póquer sin, de hecho, listarlas, por ejemplo. El cuerpo de técnicas que consiste de este método eficiente de conteo es conocido como análisis combinatorio y es el tópico de la presente sección. Si Z es un conjunto no vacío y k es un entero positivo, entonces definimos una keta ordenada de elementos de Z para ser un arreglo (z1,z2,,zk) con zi Z para i = 1,2,, k. zi es denominada la iésima componente de (z1,z2,,zk) para i = 1,2,, k. Cuando no hay peligro de confusión, omitiremos la frase "de elementos de Z," y cuando k = 2 o 3, referiremos a las ketas ordenadas como pares ordenados y tripletas ordenadas, respectivamente. Dos ketas ordenadas son iguales si y sólo si ellas tienen los mismos elementos en el mismo orden. Eso es, (z1,,zk) = (w1,,wk) si y sólo si zi = zi para i = 1,, k. La noción de una keta ordenada de elementos de Z debe ser contrastada con la noción de un subconjunto {z1,,zk} Z de Z. Dos subconjuntos {z1,,zk} y {w1,,zj} son iguales si ellos listan los mismos elementos, aun cuando ellos los listen en diferentes ordenes o con repetición. Por ejemplo, {1,2} = {2,1} = {2,1,2}, pero (1,2) (2,1). La distinción es simple pero importante. Una keta ordenada de elementos de Z, digamos (z1,z2,,zk), con distintas componentes (eso es, zi zj para i j) es denominada una permutación de k elementos de Z. Un subconjunto {z1,,zk) con k distintos elementos es denominado una combinación de k elementos de Z. Muchos de los problemas en este capítulo serán expresados en términos de permutaciones y combinaciones. El análisis combinatorio que necesitaremos será derivado del siguiente principio básico, que adoptamos como un axioma. El principio básico del análisis combinatorio Suponer que podemos seleccionar dos objetos x y y en ese orden. Si tenemos m distintas selecciones para x y n distintas selecciones para y, donde m y n son enteros positivos, entonces podemos seleccionar el par ordenado (x,y) en mn distintas formas. Más generalmente, suponer que k 2 es un entero y que los objetos x1,... xk son seleccionados secuencialmente; eso es, primero x1, entonces x2,. Si xi puede ser seleccionada en ni distintas formas, i = 1,, k, entonces la keta ordenada (x1,... xk) puede ser seleccionada en n n1n2nk distintas formas. EL MODELO CLÁSICO 5 La segunda afirmación del principio básico puede, de hecho, ser derivada de la primera por inducción matemática. Dejamos la derivación como un ejercicio para el lector interesado y nos dirigimos directamente a algunos ejemplos. EJEMPLO 1.2.1 De un menú que contiene 3 sopas, 2 ensaladas, 6 platos principales, y 3 postres, 3 2 6 3 = 108 diferentes comidas pueden ser ordenadas. Simplemente tome x1 para ser la sopa, x2 para ser la ensalada, x3 para ser el plato principal, y x4 para ser el postre y aplique el principio básico con k = 4. //// Debe ser enfatizado que el principio básico permite al conjunto de objetos del cual xi es seleccionado depender de la selección de x1,,xi-1. Únicamente el número de posibles selecciones ni debe ser fijado con anticipación. EJEMPLO 1.2.2 Si un hombre tiene camisas color rojo, verde, y oro y corbatas color rojo, verde, y oro, ¿cuántas formas puede el escoger diferentes colores para su camisa y corbata? 3 2 = 6, porque él tiene 3 posibilidades para el color de su camisa y, después de eso, sólo 2 para el color de su corbata. Aquí, por supuesto, los dos colores de los cuales el selecciona el color de su corbata dependerá del color que el seleccionó para su camisa. //// Teorema 1.2.1 Sea Z un conjunto conteniendo n 1 distintos elementos, y sea k 1 un entero. Entonces, hay nk distintas ketas ordenadas (z1,,zk) con zi Z , i = 1,, k. Si k n, entonces hay nk nn 1n k 1 (2.1) distintas ketas ordenadas con distintas componentes, eso es, zi zj para i j. PRUEBA Para seleccionar una keta ordenada (z1,,zk) con zi Z, i = 1,, k, tenemos n selecciones para z1, n selecciones para z2, y en general, n selecciones para zi, i = 1,, k. Por tanto, por el principio básico, tenemos nnn = nk selecciones para (z1,,zk). Si k n y requerimos que las zi sean distintas, entonces aún tenemos n selecciones para z1 pero sólo n 1 para z2, que debe ser diferente de z1, y sólo n 2 para z3, que debe diferir de ambas z1 y z2. En general, tendremos n i + 1 selecciones para zi, i = 1,, k, y por lo tanto n(n 1)(n k +1) = (n)k selecciones para (z1,,zk). 6 ANÁLISIS COMBINATORIO //// EJEMPLO 1.2.3 Si cuatro dados distinguibles son lanzados, hay 64 = 1296 sucesos distinguibles. De estos hay (6)4 = 360 sucesos distinguibles para los cuales ninguna pareja de dados muestra el mismo número de puntos. Indudablemente, podemos aplicar el teorema con Z = {1,,6} permitiendo que zi denote el número de puntos que aparecen sobre el iésimo dado, i = 1, 4. //// La notación (n)k ha sido definida por (2.1) cuando n y k son enteros positivos para los cuales k n. Ahora extendemos esta notación definiendo nk 0 si n0 1 n 0 (2.2 a) k <0 o k >n (2.2 b) para n = 0, 1, 2,. Encontraremos también conveniente escribir n! (leer "n factorial") para (n)n. Así, 0! = 1, y n! nn 12 1 (2.3) para n = 1, 2,. El Teorema 1.2.1 entonces asegura que si Z contiene n 1 distintos elementos, hay n! permutaciones de los n elementos de Z. Para referencia posterior, observamos que n k n! n k ! (2.4 a) ni j ni n i j (2.4 b) para enteros no negativos n, i, j, y k con k n. Nuestro siguiente resultado da el número de combinaciones de k elementos que pueden ser seleccionados de un conjunto que contiene n elementos. Teorema 1.2.2 Sea Z un conjunto conteniendo n 0 distintos elementos, y sea k un entero para el cual 0 k n. Entonces hay n n! k k!n k ! (2.5) EL MODELO CLÁSICO 7 n distintos subconjuntos de tamaño k contenidos en Z. Aquí (2.5) define la notación . k PRUEBA Si k = 0 o n = 0, el resultado es obvio, porque el único subconjunto de n tamaño cero es el conjunto vacío, y, por definición, = 1, n = 0, 1,. Por tanto, 0 podemos restringir nuestra atención a positivos n y k. Una keta ordenada con k distintos componentes puede ser seleccionada en dos pasos: primero, seleccionamos un subconjunto de tamaño k; entonces arreglamos el subconjunto en un orden definido. Seleccionando una permutación de k elementos de Z es por lo tanto equivalente a seleccionar un par ordenado (Z0,), donde Z0 es un subconjunto de tamaño k y es una permutación de los k elementos de Z0. Denote A el número de subconjuntos de tamaño k. Entonces, puesto que hay (n)k distintas ketas ordenadas con distintas componentes y k! formas en las cuales arreglar un subconjunto de tamaño k en un orden definido (ambos por el Teorema 1.2.1), tenemos (n)k = Ak! por el principio básico. Resolviendo para A, encontramos A nk k! n n! k!n k ! k como se aseveró. //// El Teorema 1.2.2 es especialmente útil en problemas que involucran juegos de cartas. Para hacer esto preciso, definimos una mano de póquer para ser una combinación de cinco cartas (subconjunto de tamaño 5) tomada de una baraja estándar de 52 cartas.1 Análogamente, definimos una mano de bridge para ser una combinación de 13 cartas tomadas de una baraja estándar. Así, dos manos que contienen las mismas cartas arregladas en diferentes órdenes son consideradas como idénticas. EJEMPLO 1.2.4 a 52 Hay = 2,598,960 distintas manos de póquer. 5 b 52 Hay distintas manos de bridge. 13 c m indistinguibles bolas rojas y n indistinguibles bolas blancas pueden ser arregladas en 1 Eso es, una baraja que consiste de 4 palos, espadas, corazones, diamantes, y tréboles, y las 13 denominaciones ases, doses, treses,, reinas, reyes, con exactamente uno de cada denominación en cada palo. 8 ANÁLISIS COMBINATORIO n m n m configuraciones distinguibles. m n Indudablemente, una configuración distinguible está determinada por los m lugares ocupados por las bolas rojas. //// una hilera para formar n Los números son conocidos como coeficientes binomiales porque aparecen en el k teorema binomial, que establece que para números reales a y b y para enteros no negativos n, n k n k a b k 0 k a bn n (2.6) De hecho, el teorema binomial se sigue fácilmente del Teorema 1.2.2, porque si (a + b)n = (a + b) (a + b) (a + b) es expandido en una suma de potencias de a multiplicadas por potencias de b, entonces akbn-k aparecerá tantas veces como podamos seleccionar a de k de n los factores y b de los restantes n k. Por el Ejemplo 1.2.4c esto puede ser hecho en k formas. n En la secuela, será a menudo conveniente usar la notación cuando k sea un entero k n negativo o un entero positivo que exceda a n. Definimos = 0 en ambos casos. Observe k n que con la definición extendida es aún verdadero que hay subconjuntos de tamaño k k contenidos en un conjunto de n elementos. Concluimos esta sección con una extensión del Teorema 1.2.2. Sea Z un conjunto no vacío, finito. Definimos una partición de Z para ser una keta ordenada (Z1,,Zk), donde Z1,,Zk son subconjuntos disjuntos de Z para los cuales k Zi Z i 1 Permitimos a algunos de los Zi ser vacíos. Si (Z1,,Zk) es una partición del conjunto Z, los números ri = |Zi|, i = 1,, k, serán llamados números partición. Claramente, r1,,rk cumplen ri 0 i 1, ,k k y ri Z i 1 (2.7) EL MODELO CLÁSICO 9 Por ejemplo, si Z = {1,2,3,4}, entonces tomando Z1 = {1}, Z2 = {2,3}, y Z3 = {4} define una partición para la cual r1 = 1, r2 = 2, y r3 = 1. En nuestro siguiente teorema nos proponemos contestar la siguiente cuestión: Dados los enteros r1,,rk que satisfacen (2.7), ¿cuántas particiones (Z1,,Zk) para las cuales |Zi| = ri, i = 1,, k, existen? Teorema 1.2.3 Sea Z un conjunto que contiene n elementos distintos, y sean r1,,rk enteros que satisfacen (2.7), Entonces hay n! r1!rk ! (2.8) distintas particiones (Z1,,Zk) de Z con |Zi| = ri, i = 1,, k. PRUEBA Aplicaremos el principio básico. Al escoger Z1, estamos simplemente seleccionando un subconjunto de tamaño r1 de Z, un conjunto conteniendo n elementos. n Por el Teorema 1.2.2, esto puede ser hecho en distintas formas. Después, debemos r1 seleccionar Z2 de los restantes n r1 elementos en Z Z1. Esto puede ser hecho en n r1 distintas formas. En general, debemos seleccionar Zi de los n (r1 + + ri-1) r2 elementos de Z (Z1 Zi-1), y esto puede ser hecho en n r1 ri1 ni ri distintas formas, i = 2,, k. Por tanto, por el principio básico, (Z1,,Zk) puede ser seleccionada en n n r1 n r1 rk 1 rk r1 r2 (2.9) distintas formas. Finalmente, escribiendo los coeficientes binomiales en términos de factoriales ahora encontramos que (2.9) es n r1 ! n r1 rk 1 ! n! r1! n r1 ! r2! n r1 r2 ! rk! n r1 rk ! = como se aseveró. n! r1! rk! //// 10 MODELOS DE URNAS EJEMPLO 1.2.5 a Si Z ={1,2,3,4}, entonces hay 4!/2! = 12 particiones de Z para las cuales r1 = 1, r2 = 2, y r3 = 1. b Una baraja de cartas puede ser particionada en cuatro manos de bridge en 52!/(13!)4 diferentes formas. Los números n n! r1 , ,rk r1! rk! (2.10) son llamados coeficientes multinomiales. Hay también un teorema multinomial que establece que para números reales a1,,ak y enteros no negativos n n k a1 ak n r ,,r a1r ak r 1 1 k donde la sumatoria se extiende sobre todos los enteros no negativos r1,,rk para los cuales r1 ++rk = n. La prueba del teorema binomial es similar a esa del teorema binomial y será omitida. Revisemos brevemente. En esta sección, hemos presentado cuatro reglas de conteo—el principio básico, fórmulas para el número de ketas ordenadas, una fórmula para el número de combinaciones, y una fórmula para el número de particiones. Cuando son usadas con una ligera cantidad de ingenio, estas cuatro reglas nos permitirán calcular una amplia variedad de probabilidades interesantes. Puesto que ellas contienen la cantidad mínima de análisis combinatorio con que la teoría de la probabilidad puede ser dominada, ellas deben ser entendidas y memorizadas. Más análisis combinatorio será encontrado en la Sección 1.6 y en los problemas al final de este capítulo. 1.3 MODELOS DE URNAS En esta sección y las siguientes dos, estudiaremos modelos para el siguiente juego: de una urna que contiene bolas de varios colores, una muestra es tomada y examinada. Eso es, algunas de las bolas son extraídas de la urna y examinadas. Estamos interesados en la probabilidad de que la muestra tenga alguna propiedad particular, tal como contener tres bolas de un color específico. Aquí los términos "bolas," "colores," y "urna" no son para ser tomados literalmente sino como substitutos de los términos más prosaicos "objetos," "tipos EL MODELO CLÁSICO 11 de objetos," y "grupo de objetos." Así, nuestro modelo tiene una aplicabilidad más amplia que la que puede parecer en principio. Indudablemente, con una interpretación propia de los términos "bolas," "colores,” y "urna," cada uno de los siguientes ejemplos puede ser expresado como un problema de urnas. EJEMPLO 1.3.1 a Encuestas de opinión Un grupo de personas (la muestra) es seleccionada de un grupo más grande de personas (la urna) y requerida su opinión sobre algún tema político o candidato. Aquí podemos considerar a las personas como bolas y las diferentes opiniones como colores diferentes. b Muestreo de aceptación De un lote de productos manufacturados (la urna) un sublote (la muestra) es seleccionada y examinada para productos defectuosos. Aquí podemos considerar los productos defectuosos como bolas de un color y los productos no defectuosos como bolas de otro. c Juego Podemos considerar una mano de póquer como una muestra de cinco cartas de una baraja de cartas (la urna) y las cartas de diferentes denominaciones (o de diferentes palos) como bolas de diferentes colores. Asimismo, si un dado es lanzado repetidamente, los números de puntos que aparecen sobre los lanzamientos sucesivos pueden ser considerados como una muestra de los enteros 1,,6, que, a su vez, pueden ser considerados como bolas de seis diferentes colores. d Coleccionando cupones Si un productor regala varios tipos de cupones con su producto, podemos considerar los cupones como bolas, los tipos como colores, y los cupones colectados por una persona en particular como la muestra. //// Hay varios tipos de muestras que pueden ser tomadas de una urna, y será conveniente distinguirlas. Primero, las bolas pueden ser tomadas secuencialmente (eso es, una a la vez) o simultáneamente (todas a la vez). Denote Z el conjunto de bolas en la urna. Si las bolas son tomadas secuencialmente, entonces podemos describir el suceso de nuestro juego por la keta ordenada (z1,,zk) de elementos de Z, donde z1 denota la primera bola tomada de la urna, z2 la segunda,, y k denota el número total de bolas tomadas. Así, referiremos a (z1,,zk) como una muestra ordenada de tamaño k. Si las bolas son tomadas simultáneamente, ya no hace sentido hablar de una primera bola o segunda bola y podemos describir el suceso de nuestro muestreo sólo por el subconjunto (combinación) {z1,,zk} de distintos elementos de Z que fueron seleccionados. Referiremos a {z1,,zk} como una muestra desordenada de tamaño k. Debemos, por supuesto, tener k |Z| en el caso de muestras desordenadas. Hay otra distinción adicional para ser considerada en el caso de muestras ordenadas. 12 MODELOS DE URNAS Podemos, ya sea, remplazar cada bola después de que ha sido tomada y examinada, o no. En el primer caso, nosotros diremos que el muestreo fue realizado con reemplazo, y en el segundo, nosotros diremos que el muestreo fue realizado sin reemplazo. No consideraremos aquí el esquema más complicado en el cual algunas de las bolas son remplazadas y otras no lo son. Ahora estableceremos modelos para cada uno de los tres tipos de muestreo. Muestras desordenadas Si una muestra desordenada de tamaño k es tomada de una urna conteniendo n bolas, entonces tomamos el espacio muestral S para ser el conjunto de todos los subconjuntos de tamaño k que pueden ser tomados de la urna. Por el Teorema 1.2.2, hay n entonces |S| = posibles sucesos. k Muestras ordenadas con reemplazo Si una muestra ordenada de tamaño k es tomada con reemplazo de una urna con n bolas, entonces podemos tomar el espacio muestral S para ser el conjunto de todas las ketas ordenadas (z1,,zk) con zi Z, el conjunto de bolas, i = 1,, k. En este caso, hay |S| = nk posibles sucesos por el Teorema 1.2.1. Muestras ordenadas sin reemplazo Si una muestra ordenada de tamaño k es tomada sin reemplazo de una urna conteniendo n bolas, entonces podemos tomar el espacio muestral S para ser el conjunto de todas las ketas ordenadas (z1,,zk) con zi zj para i j y zi Z, el conjunto de bolas en la urna, i = 1,, k. En este caso, hay |S| = (n)k posibles sucesos por el Teorema 1.2.1. Diremos que una muestra ha sido tomada al azar cuando estemos suponiendo que todas las muestras del tamaño y tipo en cuestión son igualmente verosímiles. En este caso podemos calcular muchas probabilidades interesantes de (1.1) y los resultados de la Sección 1.2. Para estos cálculos, es imperativo que el lector no confunda el espacio muestral S con el conjunto de bolas en la urna. El espacio muestral apropiado depende sobre el tipo de muestreo y ha sido definido arriba. EJEMPLO 1.3.2 Todas las partes del ejemplo se refieren a una urna que contiene 4 bolas rojas y 4 bolas blancas. Así, hay n = 8 bolas en la urna. a Si una muestra ordenada de tamaño 2 es tomada al azar con reemplazo, ¿cuál es la probabilidad de que la muestra contendrá 2 bolas rojas? El espacio muestral S consiste de todos los pares ordenados (z1,z2) que pueden ser tomados de la urna. Por tanto, |S| = 82 por el EL MODELO CLÁSICO 13 Teorema 1.2.1. Requerimos la probabilidad del evento A, que consiste de todos los pares ordenados (z1,z2)para los cuales z1 y z2 son ambos rojos. Así, para seleccionar un elemento de A, tenemos 4 selecciones para z1 y 4 selecciones para z2 (puesto que el muestreo es con reemplazo). Por tanto, hay |A| = 42 = 16 elementos en A, así que P(A) = 16/64 = ¼. b Si el muestreo es sin reemplazo, encontraríamos |S| = 8 7 = 56, |A| = 4 3 = 12, y P(A) = 12/56 = 3/14. c Calculemos la probabilidad de tomar 2 bolas rojas cuando una muestra aleatoria desordenada de tamaño 2 es tomada de la urna. En este caso el espacio muestral S consiste de todos los subconjuntos de tamaño 2 que pueden ser tomados de las 8 bolas, así que |S| = 8 = 28. El evento A ahora consiste de todos los subconjuntos de tamaño 2 que pueden ser 2 4 tomados de las 4 bolas rojas, así que |A| = = 6. Por tanto, P(A) = 2/28 = 3/14. Como 2 veremos en la Sección 1.5, no es accidental que las respuestas en las partes b y c sean las mismas. //// Los Ejemplos 1.3.2a a c pueden ser generalizados considerablemente, y consideraremos estas generalizaciones en las siguientes dos secciones. Concluimos esta sección con dos resultados simples pero interesantes. Si una muestra ordenada de tamaño k es tomada (ya sea con o sin reemplazo) de una urna que contiene m bolas rojas y n m blancas, es intuitivamente claro que la probabilidad de tomar una bola roja en la primera extracción es m/n. Esta es también la probabilidad de tomar una bola roja en la segunda, o tercera, o jésima extracción, j = 1,, k, como ahora mostraremos. Teorema 1.3.1 Sea una muestra aleatoria ordenada de tamaño k 1 tomada ya sea con o sin reemplazo de una urna conteniendo m bolas rojas y n m blancas, y sea Ai el evento que la iésima bola tomada es roja para i = 1,, k. Entonces, P(Ai) = m/n, i = 1,, k. PRUEBA Si el muestreo es con reemplazo, entonces hay |S| = nk posibles sucesos y Ai consiste de todas las ketas ordenadas (z1,,zk) para las cuales zi es roja. Así, hay m posibles selecciones para zi y n selecciones para zj para j i puesto que zj no está restringida por Ai para j i. Por el principio básico, hay |Ai| = nnmnn = mnk-1 sucesos en Ai, y por lo tanto P(Ai) = m/n, como se aseveró. Si el muestreo es sin reemplazo, la situación es ligeramente más complicada, y daremos la prueba sólo para el caso especial donde i = 2. Claramente, A2 = A1A2 A1' A2 con 14 MODELOS DE URNAS A1A2 A1' A2 A1 A1' = , así que P(A2) = P(A1A2) + P( A1' A2 ). así, necesitamos sólo calcular P(A1A2) y P( A1' A2 ). En el muestreo sin reemplazo hay |S| = (n)k posibles sucesos. Ahora A1A2 consiste de todas las ketas ordenadas (z1,,zk) para las cuales z1 es roja y z2 es roja y zj no está restringida para j = 3,,k, así que hay m selecciones para z1, m 1 selecciones para z2, y (n 2)k-2 selecciones para (z3,,zk). Así, |A1A2| = m(m 1)(n 2)k-2 por el principio básico. Por tanto, P(A1A2) = m(m 1) (n 2)k-2/(n)k = m(m 1)/n(n 1). Análogamente, P( A1' A2 ) = m(n m)/n (n 1), así que P A2 m m 1 m n m m n n 1 n como se aseveró. //// EJEMPLO 1.3.3 En la rifa de reclutamiento nacional, bolas numeradas con los días del año son extraídas secuencialmente y sin reemplazo de una urna. ¿Cuál es la probabilidad de que la última bola tomada estará numerada con un día de Enero? Podemos considerar las bolas numeradas con días en Enero como bolas rojas y las otras como bolas blancas. Entonces tenemos una muestra aleatoria sin reemplazo de tamaño k = 365 de una urna conteniendo m = 31 bolas rojas y n m = 334 bolas blancas. La probabilidad deseada es por lo tanto m/n = 31/365 = 0.085.† //// Ahora consideremos una urna que contiene n bolas de diferentes colores. Si una muestra aleatoria ordenada de tamaño k es tomada con reemplazo, ¿cuál es la probabilidad de que las k bolas tomadas serán de diferentes colores? Eso es, si la repetición es permitida en la muestra, ¿cuál es la probabilidad de que ninguna repetición ocurra? Teorema 1.3.2 Si una muestra aleatoria ordenada de tamaño k es tomada con reemplazo de una urna conteniendo n bolas de diferentes colores, entonces la probabilidad de que todas las bolas en la muestra sean de diferentes colores es k i 1 pn ,k 1 k i 1 PRUEBA El espacio muestral S consiste de todas las ketas ordenadas (z1,,zk) que pueden ser seleccionadas de las n bolas, y así |S| = nk por el Teorema 1.2.1. El evento A de que todas † 5 Respuestas numéricas a menudo serán redondeadas. Son exactas a el número de decimales dados. EL MODELO CLÁSICO 15 las bolas en la muestra sean de diferentes colores consiste de todas las ketas ordenadas (z1,,zk) con distintas componentes, así que |A| = (n)k, de nuevo por el Teorema 1.2.1. Así, P A n k nk 1 2 k 1 1 1 1 1 n n n como se aseveró. //// EJEMPLO 1.3.4 a Si un dado balanceado es lanzado seis veces, ¿cuál es la probabilidad de que ninguna cara aparezca más de una vez? Por (3.1) esta probabilidad es simplemente (6)6/66 = 6!/66 = 0.0154, puesto que los seis tiros seleccionan una muestra de tamaño k = 6 de los enteros {1,,6}. Así, aunque las caras son igualmente verosímiles de aparecer sobre cualquier lanzamiento, la probabilidad de que todas ellas aparezcan durante seis lanzamientos es menor a 1 en 50. b Si 25 personas se reúnen en una fiesta, ¿cuál es la probabilidad que todos ellos tengan diferentes cumpleaños? Consideremos los 365 días del año como bolas de diferentes colores y los cumpleaños de las personas como una muestra aleatoria con reemplazo de las 365 bolas. Sea A el evento de que ninguna pareja tenga el mismo cumpleaños. Así, P(A) = p365,25 = 0.44. Eso es, si 25 personas se reúnen en una fiesta, la probabilidad que ninguna pareja tenga el mismo cumpleaños es menor a 0.5. //// Una aproximación sencilla a pn,k será dada en el Ejemplo 1.7.2. 1.4. MUESTRAS DESORDENADAS En esta sección consideramos problemas que surgen cuando una muestra aleatoria desordenada de tamaño k 1 es tomada de una urna conteniendo m bolas rojas y n m bolas blancas. Aquí m y n son enteros no negativos con n k. ¿Cuál es la probabilidad de obtener exactamente r bolas rojas en la muestra, donde r es un entero no negativo con r k? La respuesta es provista por el siguiente teorema, que generaliza el Ejemplo 1.3.2c. Teorema 1.4.1 Si una muestra aleatoria desordenada de tamaño k es tomada de una urna que contiene m bolas rojas y n m bolas blancas con k n, entonces la probabilidad de que la muestra contendrá exactamente r bolas rojas es 16 MUESTRAS DESORDENADAS m n m r k r pr n k (4.1) para r = 0, 1,, k. PRUEBA El espacio muestral S para este problema es el conjunto de todas las n muestras desordenadas que pueden ser tomadas de una urna. Por tanto, hay |S| = k posibles sucesos. Sea A S el evento consistiendo de todas las muestras desordenadas que contienen exactamente r bolas rojas . Necesitamos encontrar |A|. Una muestra desordenada que contiene exactamente r bolas rojas puede ser seleccionada en dos pasos. Primero, seleccione un subconjunto de tamaño r de las m bolas rojas en la urna; entonces seleccione un subconjunto de tamaño k r de las n m bolas blancas en la urna. Eso es, un elemento de A corresponde unívocamente a un par ordenado (Z0,Z1), donde Z0 es una combinación de r bolas rojas y Z1 es una combinación de k r bolas blancas . El primer paso requiere la selección de un subconjunto de tamaño r de un m conjunto de m elementos y puede por lo tanto ser realizado en formas por el r n m Teorema 1.2.2. Análogamente, el segundo paso puede ser realizado en formas k r por el mismo teorema. Por tanto, m n m A r k r m n m por el principio básico. Así, P A A S r k r n , como se aseveró. k //// La probabilidad de obtener exactamente r bolas rojas es, por supuesto, cero si r > m o k r > n m. El lector debe verificar que nuestras convenciones acerca de los coeficientes binomiales dan pr = 0 en estos casos. Los números pr son conocidos como las probabilidades hipergeométricas. Para tablas de las probabilidades hipergeométricas para 0 r k, 0 m n, 1 k n, y 1 n 20, ver Beyer (1966). EJEMPLO 1.4.1 EL MODELO CLÁSICO 17 En estos ejemplos, consideramos una mano de póquer como una muestra aleatoria desordenada de tamaño 5 tomada de una baraja estándar de 52 cartas. a La probabilidad que una mano de póquer contenga exactamente 3 ases es 4 48 3 2 0.001736 52 5 (4.2) porque podemos considerar los 4 ases como bolas rojas y las 48 no ases como bolas blancas. El Teorema 1.4.1 entonces se aplica con m = 4, n = 52, k = 5, y r = 3. Más generalmente, la Ecuación (4.2) da la probabilidad de obtener exactamente tres cartas de cualquier denominación especificada, tal como reyes, reinas, etc.. b ¿Cuál es la probabilidad de que una mano de póquer contenga exactamente 3 cartas de una denominación no especificada (3 de una clase)? Sea A el evento de que la mano contenga 3 cartas de alguna denominación. Entonces podemos seleccionar un elemento de A en tres pasos. Primero, seleccionamos una denominación; entonces seleccionamos 3 cartas de las 4 cartas de esa denominación; entonces seleccionamos 2 cartas de las restantes 48 cartas. El primer paso puede ser realizado en 13 formas puesto que hay 13 4 48 denominaciones, y los últimos dos pueden ser realizados en formas por la 3 2 parte a. Por tanto, la probabilidad deseada es 4 48 3 2 13 0.0226 52 5 c La probabilidad de obtener exactamente 4 ases es 4 48 4 1 0.0000184 52 5 18 MUESTRAS DESORDENADAS de nuevo por el Teorema 1.4.1. Por tanto, la probabilidad de obtener al menos 3 ases es .001736 + .0000184 = 0.00175 por la Ecuación (1.3). La probabilidad de obtener al menos 3 de cualquier denominación puede ahora ser calculada como en la parte b. d La probabilidad de obtener exactamente 2 ases es 4 48 2 3 0.03993 52 5 que también da la probabilidad de obtener exactamente 2 cartas de cualquier denominación especificada. Sin embargo, la probabilidad de obtener exactamente 2 4 48 52 cartas de una denominación no especificada no es 13 , puesto que es 2 3 5 posible obtener más de un par en una sola mano. e La probabilidad de que una mano de póquer contenga exactamente 3 corazones es 13 39 52 //// . Aquí podemos considerar los corazones como bolas rojas. 3 2 2 EJEMPLO 1.4.2 Muestreo de aceptación. Considere una compañía que mercadea sus bienes en lotes de tamaño n = 100. Suponer que cada lote contiene un número desconocido m de elementos defectuosos y de que es desventajoso para la compañía liberar un lote que contenga más de 5 elementos defectuosos. Suponer también que el proceso de inspección de los elementos en un lote es caro. Entonces la compañía puede desear inspeccionar sólo una muestra seleccionada aleatoriamente de cada lote, para liberar inmediatamente aquellos lotes de los cuales las muestras no contengan defectuosos, e inspeccionar todos los elementos en aquellos lotes de los cuales las muestras contengan al menos un defectuoso. La probabilidad de que un lote particular sea liberado (i.e., que la muestra no contendrá defectuosos) es entonces 100 m k q k , m 100 k EL MODELO CLÁSICO 19 porque podemos considerar los elementos defectuosos como bolas rojas y los no defectuosos como bolas blancas. Por supuesto, si m > 5, entonces q(k,m) es la probabilidad de liberar un lote malo, uno que contiene demasiados defectuosos. ¿Qué tan grande es esta probabilidad? La respuesta depende de los parámetros m y k. Valores típicos están dados en la Tabla 1. La compañía puede desear controlar la probabilidad de liberar un lote malo seleccionando el tamaño de muestra k. Eso es, la compañía puede desear seleccionar k de tal manera que la probabilidad de liberar un lote malo es a lo más un número especificado . ¿Qué tan grande debe ser k para que la probabilidad de liberar un lote malo sea a lo más = 0.05? Puesto que q(k,m) es una función decreciente de m, será suficiente seleccionar k de tal manera que q(k,6) 0.05. La tabla indica que 40 es un tamaño de muestra suficientemente grande. De hecho, 39 es el valor más pequeño de k para el cual q(k,6) 0.05. //// El Teorema 1.4.1 se extiende del caso de dos colores al caso de varios. Así, considere una urna que contiene bolas de c diferentes colores. Sea n1 el número de bolas del primer color, n2 el número de bolas del segundo color, y, en general, sea ni el número de bolas del iésimo color, i = 1,, c. Entonces hay n = n1 + + nc bolas en la urna. Suponer ahora que una muestra desordenada de tamaño k es tomada al azar de la urna, sean k1,,kc enteros no negativos para los cuales k1 + + kc = k. Entonces podemos calcular la probabilidad de que la muestra contenga exactamente k1 bolas del primer color, exactamente k2 bolas del segundo color, etc. Tabla 1 k m 10 25 40 50 3 0.727 0.418 0.212 0.121 6 0.522 0.169 0.042 0.013 9 0.371 0.066 0.007 0.001 Teorema 1.4.2 Con la notación del párrafo anterior, la probabilidad de que la muestra contenga exactamente ki bolas de color i, i = 1,, c es n1 nc k1 kc n k Ya que la notación es algo difícil, ejemplificamos el Teorema 1.4.2 antes de probarlo. 20 MUESTRAS DESORDENADAS EJEMPLO 1.4.3 a ¿Cuál es la probabilidad de que una mano de póquer contenga 3 ases y 2 reyes? Consideremos los ases como bolas rojas, los reyes como bolas negras, y el resto como bolas blancas. Entonces, tenemos n1 = 4 bolas rojas, n2 = 4 bolas negras, y n3 = 44 bolas blancas, y requerimos la probabilidad de obtener una muestra que contenga k1 = 3 bolas rojas, k2 = 2 bolas negras, y k3 = 0 bolas blancas. Por el Teorema 1.4.2, esto es 4 3 4 44 4 4 2 0 3 2 0.00000923 52 52 5 5 (4.3) Más generalmente, (4.3) da la probabilidad de que una mano de póquer contendrá 3 cartas de una denominación especificada y 2 de otra. b ¿Cuál es la probabilidad de obtener 3 cartas de una denominación no especificada y 2 de otra (un full)? Podemos seleccionar un par ordenado de distintas denominaciones en (13)2 formas por el Teorema 1.2.1; después podemos seleccionar 3 cartas de la 4 4 44 4 4 primera denominación y 2 de la segunda en formas por la parte 3 2 0 3 2 4 4 52 a. Por tanto, la probabilidad deseada es 13 2 0.00144. 3 2 5 c La probabilidad de obtener 2 ases, 2 reyes, y 1 carta que no sea ni as ni rey es 4 4 44 52 0.00061, por el Teorema 1.4.2. Ésta es también la probabilidad 2 2 1 5 de que una mano tenga exactamente 2 cartas de una denominación especificada, exactamente 2 cartas de otra, y 1 que no esté en ninguna de las denominaciones dadas. d La probabilidad de obtener exactamente 2 cartas de cada una de dos denominaciones 13 4 no especificadas es 2 2 2 44 1 52 0.0475 . De hecho, podemos seleccionar un 5 13 conjunto de dos distintas denominaciones en formas; después podemos seleccionar una 2 2 4 44 mano con exactamente 2 cartas de cada una de estas dos denominaciones en 2 1 formas por la parte c. Observe que multiplicamos por (13)2 en una situación análoga en la EL MODELO CLÁSICO parte b. 21 //// EJEMPLO 1.4.4 Encuestas de opinión. Suponer que un electorado consiste de n individuos de los cuales na favorecen al candidato A, nb favorecen al candidato B, y nu están indecisos. Para aprender acerca de la opinión colectiva del electorado, una muestra aleatoria desordenada de tamaño k es seleccionada del mismo, y los miembros de la muestra son interrogados por sus opiniones. Si ka, kb, y ku son enteros no negativos para los cuales ka + kb + ku = k, ¿cuál es la probabilidad que ka miembros de la muestra favorecerán a A, kb favorecerán a B, y ku estarán indecisos? La respuesta puede ser obtenida por una aplicación directa del Teorema 1.4.2 na nb nu n como . //// ka kb ku k PRUEBA del Teorema 1.4.2 Como en la prueba del Teorema 1.4.1, el espacio muestral para nuestro juego es el conjunto de todas las muestras desordenadas que pueden ser n tomadas de la urna. Por tanto, |S| = . Ahora requerimos la probabilidad del evento A, que k consiste de todas las muestras desordenadas conteniendo exactamente ki bolas de color i, i = 1,, c. Un elemento de A puede ser escogido en c pasos. Primero, escoja un subconjunto de tamaño k1 de las n1 bolas de color 1. Después, seleccione un subconjunto de tamaño k2 de las n2 bolas de color 2. Así, debemos tomar un subconjunto de tamaño ki de las ni ni bolas de color i, i = 1,, k. El iésimo paso puede ser realizado en formas por el ki Teorema 1.2.2. Por el principio básico, n1 n2 nc A k1 k2 kc El Teorema se sigue de (1.1). //// 1.5. MUESTRAS ORDENADAS1 Ahora consideremos muestras ordenadas. Como en la sección previa, consideraremos una urna que contiene m bolas rojas y n m bolas blancas de las cuales una muestra de tamaño k 1 6 Los principales resultados de esta sección serán derivados de nuevo en un contexto más general en las Secciones 4.1 y 4.2. 22 MUESTRAS ORDENADAS es para ser tomada, y encontraremos la probabilidad de que la muestra contenga exactamente r bolas rojas. Esta vez, sin embargo, consideraremos muestras ordenadas. En el caso de muestras ordenadas, hay una distinción importante para ser hecha entre tomar r bolas rojas en la muestra y tomar bolas rojas sobre r tomas especificadas. Por ejemplo, si una muestra aleatoria ordenada de tamaño k = 3 es tomada con reemplazo de una urna que contiene m = 1 bola roja y n m = 1 bola blanca, entonces la probabilidad de que las primeras dos bolas tomadas sean rojas y la tercera sea blanca es simplemente 1/23 = 1/8. Porque el espacio muestral S (que consiste de todas las tripletas ordenadas que pueden ser tomadas de las 2 bolas) contiene nk = 23 = 8 elementos, sólo uno de los cuales resulta en 2 bolas rojas seguidas por 1 bola blanca. Análogamente, la probabilidad de que la primera y la tercera bolas tomadas sean rojas mientras que la segunda sea blanca es también 1/8, como es la probabilidad de que la primera bola tomada sea blanca mientras que la segunda y tercera sean rojas. Así, la probabilidad de que bolas rojas sean tomadas sobre cualesquiera dos tomas especificadas es 1/8. El evento de que la muestra contenga exactamente 2 bolas rojas puede ocurrir en tres formas, sin embargo, es decir, (roja, roja, blanca), (roja, blanca, roja), y (blanca, roja, roja). Por tanto, la probabilidad de que la muestra contenga exactamente 2 bolas rojas es 3/8. Habiendo, esperamos, hecho la distinción clara, ahora desarrollaremos algunas fórmulas generales. Empezamos con el caso de r tomas especificadas. Lema 1.5.1 Sea una muestra aleatoria ordenada de tamaño k 1 tomada de una urna que contiene m bolas rojas y n m bolas blancas. Entonces la probabilidad de que bolas rojas sean tomadas sobre r tomas especificadas y bolas blancas sean tomadas sobre las tomas restantes es mr n m nk k r (5.1) si el muestreo es con reemplazo y es mr n m k r n k (5.2) si el muestreo es sin reemplazo y k n. PRUEBA Probaremos el lema para muestreo con reemplazo sólo, ya que la prueba para muestreo sin reemplazo es análoga. El espacio muestral S es entonces el conjunto de todas las ketas ordenadas (z1,,zk) que pueden ser tomadas de la urna, así |S| = nk. Denote J {1,,k} el conjunto consistente de las r tomas especificadas, y sea A el evento de que las bolas rojas son tomadas sobre tomas i J y que las bolas blancas son tomadas sobre tomas i J. Para seleccionar un elemento de A, entonces tenemos ni selecciones para la iésima bola, donde ni = m (el número de bolas rojas en EL MODELO CLÁSICO 23 la urna), si i J y ni = n m si i J. Así, hay n1n2nk = mr(n m)k-r distintos elementos en A por el principio básico. La expresión (5.1) ahora se sigue fácilmente.//// Como un corolario a el Lema 1.5.1, ahora calculamos la probabilidad de que la primera bola roja para ser tomada sea tomada sobre la késima (última) toma. Teorema 1.5.1 Si una muestra aleatoria ordenada de tamaño k es tomada de una urna que contiene m bolas rojas y n m bolas blancas, entonces la probabilidad de que la primera bola roja para ser tomada sea tomada en la késima toma es m n m nk k 1 (5.3a ) si el muestreo es con reemplazo y es m n m k 1 n k (5.3b) si el muestreo es sin reemplazo y k n. PRUEBA El evento de que la primera bola roja sea tomada en la késima toma requiere que una bola roja sea tomada sobre una toma especificada, la última. Así, (5.3a) y (5.3b) son casos especiales de (5.1) y (5.2), respectivamente. //// La expresión (5.3a) define un caso especial de las probabilidades geométricas, que encontraremos de nuevo en la Sección 4.2. EJEMPLO 1.5.1 a Si una moneda balanceada es lanzada k veces, la probabilidad de que la primera águila surgirá en el késimo lanzamiento es 2-k, porque podemos tomar los primeros k lanzamientos como una muestra ordenada con reemplazo del conjunto {águila, sol}. b Si un hombre tiene n llaves, sólo una de las cuales abrirá su puerta, y si las ensaya en un orden aleatorio (sin reemplazo), ¿cuál es la probabilidad de que el ensayará exactamente k 1 llaves incorrectas antes de encontrar la correcta? Si consideramos la llave correcta como una bola roja y las incorrectas como bolas blancas , la respuesta está dada por (5.3b) como 11 n 1 k 1 1 n n k 24 MUESTRAS ORDENADAS para k = 1, 2,. Así, el hombre es tan verosímil para ensayar una llave, como dos llaves, como tres llaves, etc. //// Ahora calcularemos la probabilidad que la muestra contendrá exactamente r bolas rojas. Teorema 1.5.2 Sea una muestra aleatoria ordenada de tamaño k tomada de una urna que tiene m bolas rojas y n m bolas blancas. Si el muestreo es con reemplazo, entonces la probabilidad que la muestra contendrá exactamente r bolas rojas es k r k r m n m r nk (5.4) para r = 0,,k. Si el muestreo es sin reemplazo, y k n, entonces la probabilidad que la muestra contendrá exactamente r bolas rojas es k m r n m k r r n k (5.5) para r = 0,,k. PRUEBA De nuevo, probaremos el teorema sólo para muestreo con reemplazo, puesto que la prueba para muestreo sin reemplazo es análoga. Así, el espacio muestral contiene |S| = nk elementos. Denote B el evento que la muestra contiene exactamente r bolas rojas . Entonces, un elemento de B puede ser seleccionado en dos pasos. Primero, seleccione un subconjunto J de tamaño |J| = r de los enteros 1,,k. Después, tome bolas rojas en aquellas tomas i J y tome bolas k blancas en aquellas tomas i J. El primer paso puede ser realizado en distintas r r k-r formas por el Teorema 1.2.2, y el segundo en m (n m) por el Lema 1.5.1. Por tanto, k k r B mr n m r por el principio básico. El teorema se sigue. EJEMPLO 1.5.2 a Si un dado balanceado es tirado 5 veces, la probabilidad de obtener exactamente 1 punto sobre la primera y última tiradas y más de 1 punto sobre la otras tres tiradas es EL MODELO CLÁSICO 25 (1/6)2(5/6)3 = 0.0161 por Lema 1.5.1. La probabilidad de obtener exactamente 1 punto 2 3 5 1 5 sobre exactamente dos lanzamientos es 0161 por Teorema 1.5.2. . 2 6 6 b Si una moneda balanceada es lanzada k veces, ¿cuál es la probabilidad de obtener exactamente r águilas? Podemos considerar águila como una bola roja y sol como una bola blanca. Así, los k lanzamientos constituyen una muestra aleatoria ordenada de una urna conteniendo m = 1 bola roja y n m = 1 bola blanca, y la probabilidad requerida k es por lo tanto 2 r . //// r En la Ecuación (5.4), sea p = m/n y q = 1 p = (n m)/n. Entonces, la primera conclusión en el Teorema 1.5.1 puede ser establecida: la probabilidad de obtener exactamente r bolas rojas cuando se muestrea con reemplazo es k r k r p q r r 0, , k (5.6) Estos números son conocidos como las probabilidades binomiales. Las encontraremos de nuevo en los Capítulos 4 y 5. Tablas de las probabilidades binomiales para 0 r k, 1 k 10, y valores seleccionados de p serán encontradas en el Apéndice C. Para tablas más extensas ver, por ejemplo, Beyer (1966) o Selby (1965). Es interesante que la probabilidad de obtener exactamente r bolas rojas en una muestra aleatoria ordenada que es tomada sin reemplazo es la misma que la probabilidad de tomar exactamente r bolas rojas en una muestra desordenada. Para ver esto observe que, por (5.5), la probabilidad que una muestra aleatoria ordenada contenga exactamente r bolas rojas es k m r n m k r r k! m r n m k r r! k r ! n k n k = m r n m k r k r ! r! n k k! m n m r k r = n k (5.7) 26 MUESTRAS ORDENADAS que es también la probabilidad que una muestra aleatoria desordenada contenga exactamente r bolas rojas. También es interesante que si m, n, y n m son todos grandes, entonces la diferencia entre las probabilidades binomiales (5.4) y las probabilidades hipergeométricas (5.5) es pequeña. Para ver esto observe que n k n k n i 1 1 n i 1 k cuando n para cada k = 1, 2, fija. Así, si n y m de tal manera que m/n p, 0 < p < 1, entonces k m r n m k r r lim n k k m n m = lim r n n r k r mr n m k r n k mr n m k r n k k p r q k r r (5.8) donde q = 1 p, para r = 0,,k para cada k fija. El valor práctico de (5.8) es que el lado izquierdo de (5.8) puede ser aproximado por el lado derecho si m y n son suficientemente grandes. De hecho, la aproximación (5.8) será buena provisto sólo que k2/n, r2/m, y (k r)2/(n m) son todos pequeños (ver Problemas 1.62 y 1.63). EJEMPLO 1.5.3 Encuestas de opinión De un electorado de n = 70,000,000 una muestra aleatoria de tamaño k es tomada, y miembros de la muestra son interrogados si ellos prefieren al candidato A o al candidato B. ¿Cuál es la probabilidad que exactamente r miembros de la muestra preferirán al candidato A? Denote m el número de personas en el electorado quienes prefieren al candidato A, y suponer, por simplicidad, que el resto n m prefieren al candidato B. Entonces, la m n m n probabilidad exacta está dada por Teorema 1.4.1 como . Por las r k r k k Ecuaciones (5.7) y (5.8), esta es aproximadamente p r q k r , donde p = m/n y q = 1 p, r 2 2 2 provisto que k /n, r /m, y (k r) /(n m) son pequeños. En particular, si 20,000,000 m 50,000,000, la aproximación es excelente para k 500. //// EL MODELO CLÁSICO 27 1.6. PROBLEMAS DE OCUPACIÓN1 En las tres secciones previas, hemos abordado extensivamente problemas que surgen cuando bolas son tomadas de una urna. Ahora dirigimos nuestra atención a problemas que surgen cuando bolas son ubicadas en urnas, o celdas, como las llamaremos en esta sección. Suponer, entonces, que tenemos k bolas que deseamos ubicar en n celdas, y preguntémonos como cuántas configuraciones distinguibles de bolas en las celdas pueden ser así formadas. Como en la Sección 1.3, debemos considerar varios casos. Podemos tener bolas distinguibles o bolas indistinguibles, y podemos permitir repetición (eso es, más de 1 bola en una celda) o no. Hay una relación definida con la teoría de muestreo de la Sección 1.3 aquí, porque podemos considerar las k bolas como seleccionando una muestra de las n celdas. En esta analogía, vemos que la distinción entre bolas distinguibles e indistinguibles hecha aquí corresponde a la distinción entre muestras ordenadas y desordenadas hecha en la Sección 1.3. Más aún, el concepto de repetición introducido arriba corresponde al concepto de reemplazo en la Sección 1.3. Por tanto, tenemos el siguiente teorema. Teorema 1.6.1 Sean n y k enteros positivos. Si k bolas distinguibles son ubicadas en n celdas, entonces hay nk arreglos distinguibles de bolas en las celdas si la repetición es permitida y hay (n)k arreglos distinguibles de bolas en las celdas si la repetición no es permitida y k n. Más aún, si k bolas indistinguibles son ubicadas en n n celdas, donde k n y la repetición no es permitida, entonces hay arreglos k distinguibles de bolas en las celdas. La característica original que encontramos cuando se ubican bolas en las celdas es que podemos ubicar bolas indistinguibles en las celdas con repetición, mientras que nosotros no definimos una muestra desordenada con reemplazo. El número de arreglos distinguibles en este caso está dado por el siguiente teorema. Teorema 1.6.2 Sean n y k enteros positivos. Si k bolas indistinguibles son ubicadas en n celdas con repetición permitida, entonces hay n k 1 n k 1 k n 1 1 7 Esta sección trata un tópico especial y puede ser omitida sin pérdida de continuidad. 28 PROBLEMAS DE OCUPACIÓN k 1 arreglos distinguibles de bolas en las celdas; y si k n, entonces hay de tales n 1 arreglos en los cuales ninguna celda permanece vacía. PRUEBA Dividamos las celdas por las líneas y representemos las bolas por círculos. Así, si n = 5 y k = 4, representamos las cinco celdas como 1 | 2 | 3 | 4 | 5. El arreglo representa el arreglo con ninguna bola en la primera celda, 2 en la segunda, ninguna en la tercera, y 1 en cada una de la cuarta y quinta celdas. Observe que necesitamos sólo n 1 = 4 líneas para representar las n = 5 celdas puesto que las paredes exteriores de la primera y última celdas no están explícitamente dibujadas. En general, podemos representar cualquier arreglo distinguible de bolas en las celdas por tal orden, donde el número de círculos a la izquierda de la primera línea da el número de bolas en la primera celda, el número de círculos entre la primera y segunda líneas da el número de bolas en la segunda celda, etc. El número de arreglos distinguibles de bolas en las celdas es por lo tanto igual al número de ordenamientos distinguibles que pueden ser formados de k círculos y n 1 líneas. Puesto que podemos escoger k de los n + k 1 lugares para ser ocupados por círculos en exactamente n k 1 n k 1 k n 1 formas por el Teorema 1.2.2 (compare Ejemplo 1.2.4c), la primera aseveración del teorema ha sido probada. La segunda ahora se sigue fácilmente. Indudablemente, si k n y requerimos que cada celda contenga al menos 1 bola, entonces estamos en libertad para ubicar sólo k' = k n de las bolas como gustemos, y podemos hacerlo así en n k 1 k 1 k n 1 distintas formas por la primera aseveración del Teorema 1.6.2. //// EJEMPLO 1.6.1 10 Si cinco dados indistinguibles son lanzados, entonces hay = 252 sucesos 5 distinguibles. Simplemente considere los dados como bolas y los enteros 1,, 6 como a EL MODELO CLÁSICO 29 celdas. Si los dados están desbalanceados, sin embargo, los sucesos distinguibles no serán igualmente verosímiles. 8 Si nueve dados indistinguibles son lanzados, entonces hay = 56 sucesos 5 distinguibles para los cuales cada uno de los enteros 1,, 6 aparece sobre al menos un dado. //// b 1 Los Teoremas 1.6.1 y 1.6.2 encuentran aplicación en mecánica estadística. Considere una región del espacio que contiene k partículas, tales como electrones o fotones, e imagine la región subdividida en n subregiones (celdas). Si las partículas son consideradas como distinguibles, y si cada arreglo de partículas en las celdas (con repetición permitida) es igualmente verosímil, entonces se dice que las partículas obedecen la estadística MaxwellBoltzmann. Aunque la estadística Maxwell-Boltzmann ciertamente parece ser una suposición razonable, no se aplica a ninguna clase conocida de partículas. Si las partículas son n k 1 indistinguibles , y si los arreglos distinguibles de partículas en las celdas (con n 1 repetición permitida) son igualmente verosímiles, entonces se dice que las partículas obedecen la estadística Bose-Einstein. Fotones obedecen la estadística Bose-Einstein. Finalmente, si las partículas son indistinguibles, si no dos pueden ocupar la misma celda y si n los arreglos distinguibles son igualmente verosímiles, entonces se dice que las partículas k obedecen la estadística Fermi-Dirac. Este modelo aplica a electrones, protones, y neutrones. EJEMPLO 1.6.2 Si las partículas obedecen la estadística de Bose-Einstein y k n, entonces la k 1 n k 1 probabilidad que cada celda sea ocupada es . n 1 n 1 a b Considere una subregión que contenga m < n celdas. Si las partículas obedecen la estadística Bose-Einstein, entonces la probabilidad de que la subregión contendrá todas m k 1 n k 1 las partículas es . m 1 n 1 c 1 Si las partículas obedecen la estadística Fermi-Dirac, entonces la probabilidad de que la 8 Ver, por ejemplo, Constant (1958), caps. 5 y 6. 30 EL TEOREMA BINOMIAL GENERALIZADO m n m subregión contenga exactamente r partículas es r k r Teorema 1.4.2. n , r = 0,, k, por el k //// Más aplicaciones del Teorema 1.6.2 serán encontradas en los problemas al final de este capítulo. 1.7. EL TEOREMA BINOMIAL GENERALIZADO Tendremos la ocasión para sumar ciertas series y aproximar ciertas funciones. En esta sección discutimos una herramienta para realizar estas operaciones, es decir, el teorema de Taylor, que el lector ha probablemente encontrado en un curso de cálculo. 1 El teorema de Taylor establece lo siguiente. Sea f una función que está definida sobre un intervalo (a,b) y tiene k derivadas ahí; si x0 (a,b), entonces k 1 1 f j 1 j! f x f x0 j x0 x x0 j 1 k k f x1 x x0 k! (7.1) para x (a,b), donde x1 yace entre x y x0 y f j denota a la jésima derivada de f, j = 1,, k. Eso es, f puede ser aproximada por un polinomio en una vecindad de cualquier punto dado x0 . EJEMPLO 1.7.1 a Tomando k = 1 en (7.1) se obtiene el teorema del valor medio, es decir, f x f x0 f x1 x x0 donde x1 yace entre x y x0. b Tomando k = 3 en (7.1) se obtiene la aproximación cuadrática f x f x0 f x0 x x0 12 f x0 x x0 r x 2 donde el término remanente r está definido por r(x) = (1/6)f'''(x1)(x x0)3. //// EJEMPLO 1.7.2 1 9 Ver, por ejemplo, Thomas (1972), pp. 150-151, para un tratamiento elemental o Rudin (1964), pp. 95-96, para un tratamiento más detallado. EL MODELO CLÁSICO 31 Considere la función f, definida por f(x) = log (1 x) para < x < 1. Las primeras dos derivadas de f son f'(x) = 1/(1 x) y f''(x) = 1/(1 x)2, así que podemos expandir f en una serie de Taylor alrededor de x0 = 0 como log 1 x x r x donde r(x) = ½(1 x1)2x2 con |x1| |x|. Observe también que para x > 0, 0 r(x) (½)x2(1 x)2. Podemos aplicar esta observación para estimar el valor del producto k 1 i pn ,k 1 n i 1 que encontramos en el Teorema 1.3.2. Indudablemente, tenemos k 1 i k k 1 i log 1 R R n 2n i 1 i 1 n k 1 log pn ,k 2 donde 1 k 1 i i 0 R 1 2 i1 n n 1 k n 2 2 k k 1 2k 1 12n 2 Aquí hemos usado el resultado del Problema 1.61 para evaluar la sumatoria de i y la sumatoria de i2. En el problema del cumpleaños del Ejemplo 1.3.4b, donde n = 365 y k = 25, encontramos que log pn,k = 0.8219 R, donde 0 R 0.0212. Eso es, exp (0.8431) pn,k exp (0.8219). Una estimación aún mejor de pn,k puede ser obtenida tomando un término adicional en la expansión de la serie de Taylor de log (1 x). //// Es claro de (7.1) que si f tiene derivadas de todos los órdenes, y si lim 1 n n f x1 x x0 0 n! cuando n para cualquier x (a,b), entonces podemos escribir f como una serie de potencias 32 EL TEOREMA BINOMIAL GENERALIZADO f x k x x0 k (7.2) k 0 para x (a,b), donde 0 = f(x0) y k = f k(x0)/k! Para k = 1, 2,. Llamaremos a (7.1) y (7.2) las expansiones de la serie de Taylor finita e infinita de f alrededor de x0, respectivamente. La Ecuación (7.2) es especialmente útil en la evaluación de series infinitas. EJEMPLO 1.7.3 a Sea f(x) = ex para < x < . Entonces f j(x) = ex para toda x y toda j 0. Expandamos f en una serie de Taylor infinita alrededor de x0 = 0. Observe primero que f j(0) = e0 = 1 para toda j 0. Más aún, si |x1| |x|, entonces |f n (x1)xn/n!| |xn|e|x|/n!, que tiende a cero cuando n para cualquier x. Por tanto, ex j 0 1 j x j! (7.3) para toda x, < x < . b Análogamente, si f(x) = 1/(1 x) para 1 < x < 1, entonces f j(x) = j!/(1 x) j + 1 para j = 0, 1, 2,. En particular, f j(0) = j! para j 0, y la expansión 1 x j 1 x j 0 (7.4a ) para 1 < x < 1 puede ser deducida del teorema de Taylor. c Una extensión útil de la parte b es la siguiente: para 1 < x < 1 y r 0 x x x j r j r j r j r xr x x 1 x k 0 r k (7.4b) //// Las Ecuaciones (7.3) y (7.4a) son conocidas como las series exponencial y geométrica, respectivamente. Las encontraremos de nuevo ocasionalmente. Otra expansión útil de la serie de Taylor requiere la generalización de los coeficientes binomiales. Si es cualquier número real, sea ()0 = 1 y defina 33 EL MODELO CLÁSICO k 1 k 1 k k! k k 1 (7.5a ) k 0, 1, 2, (7.5b) Entonces, para cualquier real , la expansión de la serie de Taylor de la función f(x) = (1 + 1 x) alrededor del punto x0 = 0 es k 0 1 x x k k 1 x 1 (7.6) La Ecuación (7.4a) es un caso especial. Que le lado derecho de (7.6) es la expansión de la serie de Taylor formal de (1 + x) es fácilmente verificado por diferenciación. Los números definidos en (7.5b) son conocidos como coeficientes binomiales k generalizados, y (7.6) es conocido como el teorema binomial generalizado. 1.8. LA FÓRMULA DE STIRLING Hemos visto que varias probabilidades interesantes pueden ser expresadas en términos de la notación n! = n(n 1)1. Es claro que para valores grandes de n el cálculo exacto de n! es una tarea formidable. En esta sección daremos una aproximación para n! Que es válida cuando n es grande. El resultado es conocido como la fórmula de Stirling. En el enunciado de la fórmula de Stirling, usaremos la siguiente notación. Si a1, a2, y b1, b2, son dos sucesiones infinitas de números reales positivos, entonces escribiremos an ~ bn si y sólo si lim anbn1 = 1 cuando n , y en este caso diremos que an es asintótica a bn. Esta notación es útil en los casos donde an y bn tienden a cero o infinito cuando n . La fórmula de Stirling ahora puede ser establecida como sigue. Teorema 1.8.1 n! ~ 2 n n 1 2 n e cuando n . De hecho, es posible dar desigualdades más exactas que relacionen n! y 1 2 n n 1 2 n e . 10 Para una prueba de que la serie converge y es igual a (1 + x) para 1 < x < 1, ver Apostol (1957), pp. 420-421. 34 LA FÓRMULA DE STIRLING Teorema 1.8.2 1. 2 n n 1 2 n e n! 2 n n 1 2 n e 1 1 12n 1 para cualquier n Diferimos la prueba del Teorema 1.8.1 a la Sección 5.4.1, y omitimos la prueba del Teorema 1 1.8.2. Así, el error relativo incurrido por usar la fórmula de Stirling, 2 n n 12 n e n! n! es positivo, y a lo más 1/(12n ). Para n 9, esto es menor que 0.01. EJEMPLO 1.8.1 Si una moneda buena es lanzada 2n veces, la probabilidad de que n águilas exactamente 2n resultarán es 4 n por el Teorema 1.5.1. Por la fórmula de Stirling, tenemos n 2n 2 n 2n! 2 2 2n n! 2 n ~ 2 2n 2 n 2 n 12 n 12 n e e 2 n 2 2 2n = 1 n (8.1) cuando n . Por ejemplo, la probabilidad de que 100 lanzamientos de una buena moneda producirán exactamente 50 águilas es aproximadamente 0.08. Es interesante observar que la última línea en (8.1) tiende a cero cuando n . Eso es, en muchos lanzamientos de una buena moneda, no debemos esperar que la moneda caiga águila exactamente la mitad de las veces. REFERENCIAS Referencias completas son dadas en el Apéndice D. La historia de la teoría de la probabilidad es discutida por Todhunter (1865) y David (1962) Una serie de artículos en Biometrika, iniciando en 1955, trata aspectos de la historia más reciente de la teoría de la probabilidad. 1 11 Para una prueba del Teorema 1.8.1, ver Feller (1968), pp. 52-54. EL MODELO CLÁSICO 35 Un tratamiento más extenso de análisis combinatorio será encontrado en Riorden (1958). Los Capítulos 2 y 3 de Feller (1968) contienen algún análisis combinatorio adicional y algunas aplicaciones adicionales del análisis combinatorio a la teoría de la probabilidad. 36 PROBLEMAS 1.9. PROBLEMAS 1.1 Dé una definición cuidadosa de un espacio muestral propio para los siguientes juegos. (a) Una moneda balanceada es lanzada dos veces; si en lugar de dos, es lanzada tres veces. (b) Un dado balanceado es lanzado tres veces. (c) Dos distintas cartas son seleccionadas secuencialmente de un paquete estándar de 52 cartas. (d) Una carta es seleccionada de cada uno de dos paquetes estándar. En cada caso el espacio muestral debe ser de tal modo seleccionado que los resultados puedan ser supuestos igualmente verosímiles. 1.2 Dar el número de posibles resultados para cada uno de los juegos descritos en el Problema 1.1. 1.3 Si dos dados balanceados, distinguibles, son lanzados, ¿cuál es la probabilidad de que la suma de puntos sobre los dos dados será 5? ¿Cuál es la probabilidad de que la diferencia (mayor menos menor) será 2? 1.4 Si una moneda balanceada es lanzada tres veces, ¿cuál es la probabilidad (a) de que habrá 2 o más águilas consecutivas; (b) de que habrá al menos 2 águilas? EL MODELO CLÁSICO 37 1.5 Si un hombre tiene 3 sombreros, 4 camisas, 4 pares de pantalones, y 2 pares de zapatos, ¿en cuántas formas puede el vestir? 1.6 ¿Cuántas palabras de 4 letras pueden ser formadas del alfabeto Inglés si permitimos cualquier cadena de 4 letras como una palabra y consideramos palabras como idénticas si y sólo si ellas listan las mismas letras en el mismo orden? 1.7 ¿ Cuántas palabras de 4 letras pueden ser formadas del alfabeto Inglés si requerimos: (a) Que la segunda letra sea vocal? (b) Exactamente una vocal? (c) Al menos una vocal? Aquí, por definición, una vocal es cualquiera de las letras a, e, i, o, u. 1.8 (a) ¿Cuántos números telefónicos de 7 dígitos pueden ser formados? (b) De estos, ¿cuántos contienen dígitos distintos? 1.9 Un cierto dispositivo electrónico contiene 100 circuitos, cada uno de los cuales puede estar abierto o cerrado. El estado del sistema está definido para ser el vector (x1, x100), donde xi = 1 o 0 de acuerdo a si el i-ésimo circuito está abierto o cerrado, i = 1, 100. ¿Cuántos estados hay? El recibidor de la Pizza ABC lista 10 ingredientes tal como champiñones o pepperoni, los cuales pueden ser agregados a la pizza. Si un cliente quiere 2 ingredientes adicionales, ¿cuántas selecciones tiene él? 1.11 Un cierto cuestionario presenta 10 preguntas con las posibles respuestas sí o no para cada pregunta: (a) ¿En cuántas formas puede el cuestionario ser contestado? (b) ¿En cuántas formas puede el cuestionario ser contestado con 5 sí y 5 no? 1.12 En el Problema 1.11, suponer que cada pregunta puede ser contestada con sí, no, o sin opinión. ¿En cuántas formas puede el cuestionario ser contestado con 4 si, 4 no, y 2 sin opinión? 1.13 Un investigador médico desea comparar dos nuevas drogas y tiene 20 ratones indistinguibles con los cuales experimentar. ¿En cuántas formas pueden los 20 ratones ser divididos en dos grupos de 10? 1.14 ¿En cuántas formas puede un comité de tamaño 4 ser escogido de un grupo de 10: (a) Si todos los miembros del comité tienen el mismo estado? (b) Tiene que haber un director y 3 otros de igual estado? 38 PROBLEMAS 1.15 ¿En cuántas formas pueden manos de póquer ser servidas a (a) 2 personas distinguibles; (b) 3 personas distinguibles? n 1 n 1 n para 1 k n. Interprete su resultado en términos de 1.16 Mostrar que k 1 k k combinaciones. 1.17 Use el Problema 1.16 para probar el teorema binomial por inducción matemática. 1.18 Derive las siguientes identidades del teorema binomial: n n n 2 n 0 1 n n n n 0 0 1 n n n n 2 n n2 n 1 1 2 n 1.19 ¿Cuántos subconjuntos hay en un conjunto de n elementos? Sugerencia: Parte (a) del Problema 1.18. Si dos cartas son extraídas secuencialmente sin reemplazo de un paquete estándar, ¿cuál es la probabilidad de que ellas sean (a) ambas ases; (b) ambas espadas? ¿Cuál es la probabilidad de que ellas sean (c) de la misma denominación; (d) del mismo palo? 1.21 Sea una muestra aleatoria ordenada de tamaño 5 extraída de un paquete estándar de 52 cartas. ¿Cuál es la probabilidad de que la tercera carta extraída será (a) un as; (b) una espada? 1.22 (a) ¿Cuál es la probabilidad de que todos los 7 dígitos de un número de teléfono serán distintos? (b) ¿Cuál es la probabilidad de que los últimos 4 dígitos serán distintos? (Suponga todos los números telefónicos para ser igualmente verosímiles.) 1.23 (a) Si cartas son seleccionadas de cada uno de 5 paquetes bien barajados, ¿cuál es la probabilidad de que las 5 cartas sean todas diferentes? (b) ¿Cuál es la probabilidad de que las 5 cartas sean de diferentes denominaciones? Cada día el profesor selecciona uno de sus 10 alumnos para quedarse después de la escuela y limpiar el pizarrón. Juanito, quien fue seleccionado dos veces durante la primera semana de clases, siente que el profesor lo está persiguiendo. ¿Es “inusual” que un estudiante deba ser seleccionado dos veces durante la misma semana de 5 días? EL MODELO CLÁSICO 39 1.25 Si un dado balanceado es lanzado 7 veces, ¿cuál es la probabilidad de que cada cara aparecerá al menos una vez? 1.26 ¿Cuál es la probabilidad de que una mano de bridge contendrá (a) exactamente 2 ases; (b) al menos 2 ases? 1.27 ¿Cuál es la probabilidad de que una mano de bridge contendrá (a) 8 espadas; (b) 8 cartas del mismo palo? 1.28 ¿Cuál es la probabilidad de que una mano de bridge contendrá una de cada una de las 13 denominaciones? 1.29 (a) ¿Cuál es la probabilidad de que una mano de bridge contendrá 4 espadas, 3 corazones, 3 diamantes, y 3 tréboles? (b) ¿Cuál es la probabilidad de que una mano de bridge contendrá 4 cartas de un palo y 3 de cada uno de los otros tres palos? 1.30 (a) ¿Cuál es la probabilidad de que una mano de bridge no contendrá ases? (b) ¿Cuál es la probabilidad de que una mano de bridge no contendrá corazones? 1.31 ¿Cuál es la probabilidad de que una mano de póquer contendrá exactamente 2 cartas de una denominación (un par) y cartas de tres diferentes denominaciones? 1.32 Si un comité de tamaño 3 es seleccionado de un grupo de 6 Demócratas y 4 Republicanos, ¿cuál es la probabilidad de que el comité contendrá (a) dos Demócratas y un Republicano; (b) más Demócratas que Republicanos? El Comité del Senado sobre Aleatorización consiste de 6 miembros del partido A y 4 miembros del partido B, pero el director es un miembro del partido B. Recientemente, el director formó un subcomité de tamaño 3 que consistió de 2 miembros del partido B y 1 del partido A. El director asegura haber seleccionado el subcomité por lote de los 10 miembros del comité. El líder del partido A, sin embargo, asegura que la composición del subcomité confirma un sesgo más allá de una duda razonable. ¿Está el líder del partido A justificado en su declaración? 1.34 Sebastián, un mago, declara tener percepción extrasensorial. Para demostrar esta declaración, se le pide identificar las 4 cartas rojas de 4 cartas rojas y 4 negras que están volteadas hacia abajo sobre la mesa. Sebastián correctamente identifica 3 de las cartas rojas e incorrectamente selecciona 1 de las cartas negras. Después de ello, el dice haber probado su dicho. ¿Cuál es la probabilidad de que Sebastián habría identificado correctamente al menos 3 de las cartas rojas si él estuviera, de hecho, adivinando? (Considere las 4 cartas seleccionadas por Sebastián como una muestra aleatoria desordenada de tamaño 4.) 1.35 Una caja contiene 8 productos buenos y 2 defectuosos. Si 5 productos son seleccionados al azar de la caja, ¿cuál es la probabilidad de encontrar (a) al menos 1 de los productos defectuosos; (b) ambos productos defectuosos? 40 PROBLEMAS 1.36 En el Ejemplo 1.4.2, suponer que el tamaño del lote es 50 y que no es redituable vender lotes conteniendo más de 2 defectuosos. ¿Cómo debe ser seleccionado k para que la probabilidad de vender un lote malo sea a lo más 0.1? 1.37 En el Ejemplo 1.4.2, mostrar que q(k,m) es una función decreciente de m. Sugerencia: Calcular q(k, m + 1) q(k,m). 1.38 Calcular y graficar las probabilidades hipergeométricas pr como una función de r, para (a) m = k = 4 y n = 8; (b) k = 4 y m = n m = 8. k 1.39 Calcular y graficar las probabilidades binomiales 2 r como una función de r para r (a) k = 4; (b) k = 6; (c) k = 8. 1.40 Si un dado balanceado es lanzado 5 veces, ¿cuál es la probabilidad de que exactamente 2 de los lanzamientos producirán ó 1 ó 6 puntos? 1.41 Sea una muestra aleatoria ordenada extraída sin reemplazo de un paquete estándar. (a) Si el tamaño de la muestra es k = 5, ¿cuál es la probabilidad de que la muestra contendrá exactamente 2 espadas? (b) ¿Cuál es la probabilidad de que la primera espada aparecerá en la quinta extracción? 1.42 Repetir el Problema 1.41 para muestreo con reemplazo. 1.43 Si una muestra aleatoria ordenada de tamaño 5 es extraída sin reemplazo de un paquete estándar, ¿cuál es la probabilidad de que la segunda espada aparecerá en la quinta extracción? Una caja contiene 6 fusibles, 2 de los cuales son defectuosos. Si los fusibles son inspeccionados en un orden aleatorio, ¿cuál es la probabilidad de encontrar el primer fusible defectuoso (a) en la tercera prueba; (b) en o antes de la tercera prueba; (c) después de la tercera prueba? 1.45 Repetir el Problema 1.44 con el primer fusible defectuoso reemplazado por el segundo fusible defectuoso. 1.46 ¿Qué es más probable: obtener al menos 1 seis en 6 lanzamientos de un dado no cargado u obtener al menos 2 seises en 12 lanzamientos de un dado no cargado? EL MODELO CLÁSICO 41 1.47 Sea una muestra de tamaño k = 4 extraída de una urna que contiene 4 bolas rojas y 4 bolas blancas. ¿Es más probable que todas las bolas extraídas serán rojas si el muestreo es con reemplazo o sin reemplazo? 1.48 Sebastián, un mago, canta águilas o soles antes de cada uno de cuatro lanzamientos de una moneda no cargada. Si el está de hecho adivinando, ¿cuál es la probabilidad de que Sebastián correctamente cantará (a) las 4; (b) al menos 3 de los lanzamientos? Compare sus respuestas con la respuesta al Problema 1.34. Si 4 bolas son ubicadas en 4 celdas de acuerdo a la estadística de Bose-Einstein, ¿cuál es la probabilidad de que la primera celda contendrá (a) exactamente 1 bola; (b) exactamente 2 bolas; (c) al menos 1 bola? 1.50 Si 6 bolas son ubicadas en 4 celdas de acuerdo a la estadística de Bose-Einstein, ¿cuál es la probabilidad (a) que cualquier celda esté ocupada; (b) que al menos 3 celdas estén ocupadas? 1.51 Repetir los Problemas 1.49 y 1.50 para la estadística Fermi-Dirac. 1.52 Si k partículas son ubicadas en n celdas de acuerdo a la estadística de Bose-Einstein, ¿cuál es la probabilidad de que una subregión dada, digamos consistiendo de m celdas, contendrá exactamente r partículas? 1.53 Sean k bolas indistinguibles ubicadas en n celdas de acuerdo a la estadística de BoseEinstein, y suponer que las celdas están etiquetadas por los enteros 1, n. ¿Cuál es la probabilidad de que el índice de la celda ocupada más grande sea m, donde m < n? 1.54 Escriba una prueba del Teorema 1.6.1 en la terminología de la Sección 1.6. 1.55 Derivar la siguiente identidad para 1 < x < 1: 1 n x n log 1 x n 1 1.56 Encontrar las expansiones de las series de Taylor infinitas de cosh x e x ex 2 y senh x e x ex 2 alrededor de x0 = 0. 1.57 Mostrar que ex 1 + x para cualquier x, < x < . Sugerencia: Use el Ejemplo 1.7.1b. 1.58 Mostrar que log (1 + x) x x2 para ½ < x < ½. 2n 1 2 n 4 para enteros positivos n = 1, 2,. 1.59 Mostrar que n n 42 PROBLEMAS 1.60 Evaluar las serie n 0 1.61 Mostrar que k i 1 2n n x i n para –¼ < x < ¼. 1 k k 1 y que 2 k i 1 i2 1 k k 12k 1 para k 1. 6 1.62 Mostrar que exp [k(k 1)/2(n k)] (n)k n-k 1 para 0 k < n. 1.63 Use el Problema 1.62 para derivar la siguiente comparación entre las probabilidades hipergeométricas y binomiales: 1 r r 1 1 k r k r 1 k r k r exp p q 2 2m r 2 n m k r r 1 m n m n r k r k k k 1 k r k r exp p q 2n k r 52 1.64 Use la fórmula de Stirling para estimar el número de manos de bridge . 13 1.65 Use la fórmula de Stirling para estimar el número de formas que un paquete de bridge 52 . puede ser particionado en 4 manos distintas 13 , 13 , 13 , 13 1.66 Una muestra ordenada de tamaño n es extraída al azar y con reemplazo de una urna conteniendo n bolas distintas. Use la fórmula de Stirling para estimar la probabilidad de que todas las n bolas son extraídas para n = 10, 15, y 20. 2 2 PROBABILIDAD AXIOMÁTICA 2.1 PROBABILIDAD, FRECUENCIA, Y GRADO DE CREENCIA El modelo clásico presentado en el Capítulo 1 no es lo suficientemente flexible para incluir varios ejemplos que son interesantes desde los puntos de vista práctico y matemático. En particular, no puede ser usado para describir experimentos para los cuales hay infinitamente varios sucesos posibles. En este capítulo, desarrollaremos un modelo más general y flexible que comienza con axiomas estableciendo como deben comportarse las probabilidades y permite varias interpretaciones de los resultados derivados de ellos. En esta sección intentaremos motivar estos axiomas y dilucidar varias interpretaciones de los elementos de nuestro modelo. Comenzamos examinando el significado del término "probabilidad" y tales términos relacionados como "posibilidad" y "verosimilitud." De hecho, ellos pueden tener varios significados, dos de los cuales serán de especial interés para nosotros. Primero, ellos son usados por todos nosotros para expresar nuestra opinión subjetiva o grado de creencia. Por ejemplo, enunciados tales como "probablemente lloverá mañana," "el probablemente llegará tarde," y "las posibilidades de que los Mets ganarán el gallardete son alrededor de 1 en 3" todos expresan la opinión subjetiva o grado de creencia del orador. Por otro lado, el término "probabilidad" a menudo denota frecuencia de ocurrencia. Por ejemplo, si un científico fuera a reportar que la probabilidad de curar un tipo particular de cáncer en ratones es 0.6, el bien puede significar que un gran número de ratones había sido tratado y de esos 44 PROBABILIDAD, FRECUENCIA, Y GRADO DE CREENCIA aproximadamente 60 porciento habían sido curados. Los dos usos no son mutuamente exclusivos, puesto que la opinión subjetiva de uno puede estar basada sobre experiencia pasada con frecuencias, pero ellas son distintas y justifican una consideración separada. Para considerar los dos usos, será conveniente tener alguna terminología uniforme que aplicará a ambos. Así, considere una variable X cuyo valor exacto es desconocido para nosotros, y suponer que podemos especificar un conjunto S en el que X debe estar. La variable X puede representar el suceso de algún experimento o juego de azar, o puede simplemente representar algún aspecto de la naturaleza acerca del cual estamos inciertos. Como en el capítulo previo, llamaremos a S el espacio muestral y referiremos a los subconjuntos A, B, de S como eventos. Además, diremos que el evento A ocurre si y sólo si X A. EJEMPLO 2.1.1 a Juegos de azar (como en el Capítulo 1) Denote X el número de puntos que aparecen cuando dos dados legales son lanzados, o denote X la mano de póker repartida a un particular jugador. b Experimentos de muestreo (como en el Capítulo 1) Denote X el número de defectuosos encontrados cuando un lote de artículos manufacturados es examinado. c Experimentos científicos Denote X el número de partículas emitidas desde una substancia radioactiva dada durante un intervalo de tiempo dado; o denote X el número de ratones que contraen cáncer cuando un grupo de ratones es expuesto a humo de cigarro. d Problemas de ingeniería Denote X la demanda de electricidad en la Ciudad de Nueva York en un día dado; denote X el peso máximo sobre el puente George Washington durante un año dado. e Problemas actuariales Denote X la longitud de vida anticipada para un hombre dado quien ha justamente aplicado para un seguro de vida. f Incertidumbre Denote X la fecha exacta del nacimiento de Noé; o denote X el siguiente cierre de la semana del promedio industrial Dow-Jones. //// Primero consideremos la interpretación frecuentista del término "probabilidad." Aquí requerimos que X sea el suceso de algún juego o experimento que puede ser repetido tan seguido como se desee bajo el mismo conjunto de condiciones experimentales relevantes. Si el juego o experimento es así repetido, digamos n veces, y si A es un evento, entonces podemos calcular las frecuencias relativas 45 PROBABILIDAD AXIOMÁTICA f n A 1 numero de repeticiones en que A ocurre n con que A ocurre. Eso es, fn(A) es el cociente del número de veces que A ocurre a el número total de repeticiones del experimento. Ahora, es un hecho empírico que para muchos tipos de juegos y experimentos, las frecuencias relativas fn(A) tienden a estabilizarse cuando n crece. Eso es, ellas actúan como si se estuvieran aproximando a límites cuando n . La interpretación frecuentista de "probabilidad" define la probabilidad de A para ser p A lim f n A n (1.1) donde la existencia del límite se presupone. (La existencia del límite no puede ser probada, porque no estamos trabajando con un tema puramente matemático.) Así, de acuerdo a la interpretación frecuentista de "probabilidad," la probabilidad de un evento está determinada por el evento y el conjunto de condiciones experimentales. Es independiente del observador y puede ser determinada a un grado de precisión creciente simplemente repitiendo el experimento al cual el evento se refiere suficientes veces y calculando la sucesión de frecuencias relativas. Por esta razón, la interpretación frecuentista de "probabilidad" es algunas veces llamada la interpretación objetiva. EJEMPLO 2.1.2 Una moneda es lanzada 10,000 veces, produciendo los resultados mostrados en la Tabla 2. Desde el punto de vista frecuentista, los resultados son consistentes con la hipótesis de que la probabilidad de águilas en cualquier lanzamiento dado es ½. //// Ahora suponer que tenemos dos eventos A y B, y suponer que A y B son disjuntos; eso es, AB = . Entonces f n A B f n A f n B para cualquier n = 1, 2,. Así, dejando que n , encontramos que P A B P A P B (1.2) Eso es, si las probabilidades son definidas por (1.1), ellas necesariamente satisfacen la condición (1.2) siempre que A y B sean eventos disjuntos. En el Capítulo 1, usamos el término "igualmente verosímil" sin dar una definición precisa. 46 PROBABILIDAD, FRECUENCIA, Y GRADO DE CREENCIA Tabla 2 No. de lanzamientos No. de águilas Frecuencias Relativas 100 46 0.460 500 239 0.478 1000 495 0.495 5000 2529 0.506 10000 5049 0.505 Podemos ahora dar tal definición desde el punto de vista de la interpretación frecuentista. Si S es un conjunto finito, entonces los sucesos s S son igualmente verosímiles si los eventos {s} ocurrirán con aproximadamente la misma frecuencia relativa después de muchas repeticiones del juego o experimento bajo consideración. Eso es, los sucesos son igualmente verosímiles si fn({s}) todos convergen al mismo límite P({s}) = c para toda s S. La Ecuación (1.2) entonces requiere1 que P(A) = |A|/|S| para A S. Así, el modelo del Capítulo 1 es aplicable, y los resultados del Capítulo 1 ahora admiten la siguiente interpretación frecuentista. Si los sucesos s S son igualmente verosímiles, y si A es cualquier evento cuya probabilidad fue calculada para ser P(A) = p en el Capítulo 1, entonces la frecuencia relativa fn(A) con la cual A ocurrirá será aproximadamente p después de muchas repeticiones del juego o experimento bajo consideración. Ahora consideremos la interpretación subjetiva del término "probabilidad." Aquí un problema se presenta en si mismo inmediatamente, porque la mayoría de los enunciados de probabilidad subjetiva son cualitativos (por ejemplo, "probablemente lloverá mañana"), no cuantitativos. Si deseamos ajustar una interpretación subjetiva en una teoría matemática de probabilidad, necesitaremos un método para cuantificar enunciados de probabilidad subjetiva. Una forma de hacerlo es relacionarlas a momios de apuesta, y este es el enfoque que seguiremos. Sea A un evento, y denote G el siguiente juego: 1 1 Uno paga p unidades para jugar. 2 Uno recibe 1 unidad si A ocurre y nada si A no ocurre. 1 Aquí anticipamos el resultado del Teorema 2.3.3; ver Ejemplo 2.3.5. PROBABILIDAD AXIOMÁTICA 47 Equivalentemente, el juego puede ser descrito diciendo que uno gana 1 p unidades si A ocurre y uno pierde p unidades si A no ocurre. Diremos que G ofrece momios de 1 p a p 1 sobre la ocurrencia de A. Acordemos decir que una persona considera el juego G como justo si él es indiferente a los dos lados de G. Eso es, la persona considera a G como justo si y sólo si él, tan pronto ganaría 1 p unidades si A ocurre y perdería p unidades si A no ocurre como ganaría p unidades si A no ocurre y perdería 1 p unidades si A ocurre. Ahora adoptamos la siguiente definición de probabilidad subjetiva. Si hay un valor único de p, 0 p 1, para el cual una persona considera el juego G como justo, entonces diremos que la probabilidad subjetiva de esa persona para A es P(A) = p. Observe que las probabilidades subjetivas están determinadas por el observador y están influenciadas por el evento mismo sólo hasta donde el observador está bien informado acerca de él. Dos diferentes personas pueden asignar diferentes probabilidades subjetivas al mismo evento, aun si ellas tienen acceso a la misma información. Ahora suponer que una persona tiene dos eventos A y B para los cuales ha asignado probabilidades subjetivas P(A) = p y P(B) = q, y suponer también que A y B son disjuntos. Entonces por hipótesis él considera las siguientes apuestas como justas. 1 Uno paga p unidades para jugar y recibe 1 unidad si y sólo si A ocurre. 2 Uno paga q unidades para jugar y recibe 1 unidad si y sólo si B ocurre. Si fuera a tomar ambas apuestas, el pagaría p + q unidades para jugar y puesto que A y B son disjuntos, el recibiría 1 unidad si A o B ocurriera (y nada de otro modo). Puesto que la nueva apuesta está formada tomando dos apuestas justas, parece razonable que el debe considerarla para ser justa. Eso es, parece razonable que el debe asignar la probabilidad subjetiva. P A B p q P A P B (1.3) al evento A B. Decimos que las probabilidades subjetivas de una persona son consistentes si y sólo si ellas satisfacen (1.3) siempre que A y B sean disjuntos. Puede ser mostrado (ver Problemas 2.4 a 2.6) que una persona con probabilidades subjetivas inconsistentes puede ser conducida a aceptar apuestas por la conjunción en la cual el necesariamente pierda dinero. Así, restringimos nuestra atención a probabilidades subjetivas consistentes. El significado subjetivo del término "igualmente verosímil" debe ahora ser claro. Si S es un conjunto finito, uno considera los sucesos s S como igualmente verosímiles si y sólo si uno asigna la misma probabilidad subjetiva P({s}) = c a cada evento s S. Como antes, la 1 Las unidades aquí deben ser tomadas para ser cantidades de dinero pequeñas comparadas a los recursos totales de uno. Deseamos evitar, por ejemplo, la posibilidad de que la pérdida de una unidad resultaría en bancarota. 48 UN MODELO MATEMÁTICO Ecuación (1.3) entonces requiere que uno asigne probabilidad subjetiva P(A) = |A|/|S| a cada evento A S, así que el modelo del Capítulo 1 es aplicable. Más aún, los resultados del Capítulo 1 ahora admiten la siguiente interpretación subjetiva. Si A es un evento cuya probabilidad fue calculada para ser P(A) = p en el Capítulo 1, y si uno considera los sucesos del juego al cual A se refiere como igualmente verosímiles, entonces, para ser consistente en las creencias de uno, uno debe asignar probabilidad subjetiva P(A) = p a A. 2.2 UN MODELO MATEMÁTICO En esta sección presentamos un modelo matemático que es suficientemente general para cubrir las dos interpretaciones de probabilidad presentadas en la Sección 2.1 y suficientemente flexible para permitir la derivación de una teoría matemática útil. Nuestro modelo consistirá de los siguientes elementos básicos: 1 Un conjunto no vacío S denominado el espacio muestral. 2 Una clase de subconjuntos de S, los elementos del cual serán llamados eventos. 3 Para cualquier evento A un número real P(A) que llamaremos la probabilidad de A. Eso es, requerimos una función real P que esté definida sobre la clase de eventos. El espacio muestral S, los eventos A S, y la probabilidad P pueden ser todos interpretados como en la sección previa. Eso es, S puede ser considerado como el conjunto de posibles sucesos de algún juego o experimento; un evento A se dice que ocurre si y sólo si el suceso del juego o experimento es un elemento de A; y P(A) puede ser considerada ya sea como la probabilidad subjetiva o frecuentista del evento A. En muchos ejemplos la clase consistirá de todos los subconjuntos de S, pero en otros será una subclase propia de la clase de todos los subconjuntos de S. En lo sucesivo, diremos que un subconjunto A S es un evento si y sólo si A . Tendremos que realizar ciertas operaciones de la teoría de conjuntos con eventos, tal como la formación de complementos, uniones, e intersecciones, y requeriremos que la clase sea cerrada con respecto a estas operaciones. Imponemos tres requerimientos sobre : 1 El espacio muestral S y el conjunto vacío deben ser eventos. Llamaremos a S el evento infalible y a el evento imposible. PROBABILIDAD AXIOMÁTICA 49 2 Si A es un evento, entonces el complemento A' = S A es también un evento. Llamaremos a A' el evento en el que A no ocurre. 3 Si A1, A2, es una sucesión de eventos infinita o finita, entonces la unión Ai y la intersección Ai son también eventos. Llamaremos a la unión (intersección) el evento en el que Ai ocurre para alguna i (para toda i). Una clase de subconjuntos de S será llamada una álgebra de subconjuntos de S si y sólo si satisface las condiciones 1, 2, y 3. EJEMPLO 2.2.1 a La clase de todos los subconjuntos de un conjunto no vacío S es una álgebra puesto que las condiciones de 1 a 3 son trivialmente satisfechas en este caso. b Si S es un intervalo de números reales, entonces hay una álgebra más pequeña de subconjuntos de S que contiene a todos los subintervalos de S (ver Problemas 2.21 y 2.22). Esta álgebra es conocida como la clase de conjuntos de Borel, y sus elementos son conocidos como conjuntos de Borel. Las propiedades relevantes de la clase de conjuntos de Borel son las siguientes: 1 Cualquier subintervalo de S es un conjunto de Borel. 2 La clase de conjuntos de Borel es cerrada con respecto a la formación de complementos y la formación de uniones e intersecciones de sucesiones infinitas o finitas de sus miembros. //// La teoría de la probabilidad ha desarrollado su propio nombre para varias relaciones de la teoría de conjuntos entre eventos. Diremos que los eventos A1, A2, son mutuamente excluyentes si ellos son disjuntos, eso es, AiAj = para i j. Diremos que los eventos A1, A2, son exhaustivos si su unión es el espacio muestral completo S, eso es, si Ai = S. Finalmente, diremos que el evento A implica al evento B si A es un subconjunto de B, A B. También registremos las leyes de De Morgan: si A1, A2, son eventos, entonces Ai Ai y Ai Ai Ver Apéndice A para su derivación. Ahora consideremos la función P. ¿Qué propiedades podemos razonablemente demandar de P? Primero, deseamos probabilidades para ser números entre 0 y 1, y deseamos ciertamente implicar una probabilidad de 1. Así, requeriremos 50 UN MODELO MATEMÁTICO 0 P A 1 y P S 1 (2.1) para A . Más aún, vimos en la Sección 2.1 que dentro de la interpretación frecuentista o subjetiva de probabilidad debemos tener P A B P A P B (2.2) siempre que A y B sean eventos mutuamente excluyentes. Así, requeriremos las condiciones (2.1) y (2.2). Las condiciones (2.1) y (2.2) trabajan espléndidamente si S es un conjunto finito, como en el Capítulo 1, pero no conducen a una teoría matemática suficientemente rica si S es infinita. Por tanto, estamos influidos para introducir la siguiente versión fortalecida de (2.2): si A1, A2, es una sucesión infinita de eventos mutuamente excluyentes, entonces P Ai P Ai i1 i1 (2.3) La condición (2.3) implica (2.2) en general y es equivalente a (2.2) si S es un conjunto finito (ver Problemas 2.17 y 2.18). En cualquier caso, adoptaremos (2.3) como un axioma. En consecuencia, definimos una medida de probabilidad para ser una función P que está definida sobre una álgebra y satisface las condiciones (2.1), (2.2), y (2.3). Podemos ahora definir nuestro modelo matemático para probabilidad. Definimos un espacio de probabilidad para ser un trío ordenado (S,,P), donde S es un conjunto no vacío. es una álgebra de subconjuntos de S, y P es una medida de probabilidad definida sobre . Un espacio de probabilidad puede ser considerado como un modelo para un experimento o juego de azar con la convención que S representa el conjunto de posibles sucesos del experimento o juego, representa la clase de eventos observables, y, para cada A , P(A) es la probabilidad de que el evento A ocurrirá. Los espacios de probabilidad forman la base de la teoría de probabilidad que será presentada en este libro. EJEMPLO 2.2.2 Espacios de probabilidad discretos. Sea S = {s1, s2,} un conjunto infinito numerable1 o finito, y sea f una función real que está definida sobre S y satisface2 1 3 Un conjunto es llamado infinito numerable si hay una correspondencia uno a uno entre S y el conjunto de enteros positivos Z = {1,2,}. 2 4 La notación S f(s) significa que los números f(s), s S, son sumados. Esto puede ser una suma finita si S es finito o una serie infinita si S es infinito numerable. PROBABILIDAD AXIOMÁTICA f s 0 para toda s S y f s 1 51 (2.4) s Entonces podemos definir una función P sobre la clase de todos los subconjuntos de S haciendo P A f s (2.5) A para todo A S. Tenemos P(A) 0 y P(A) P(S) para todo A puesto que f(s) 0 para cualquier s, y tenemos P(S) = 1 por (2.4). Así, la condición (2.1) es satisfecha. Más aún, si A y B son disjuntos, entonces P A B f s A B = f s f s P A P B A B Así, la condición (2.2) es satisfecha, y análogamente, la condición (2.3) es también satisfecha. Así, P es una medida de probabilidad, y (S,,P) es un espacio de probabilidad. Tomando A = {s} en (2.5) produce P({s}) = f(s) para s S. Así, f(s) da la probabilidad de que el suceso del juego o experimento bajo consideración será s. //// EJEMPLO 2.2.3 a Si S es un conjunto finito, y si f(s) = 1/|S| para todo s S, entonces (2.5) produce P(A) = |A|/|S| para A S. Así, el modelo clásico del Capítulo 1 es un caso especial del Ejemplo 2.2.2. b Considere un experimento en el cual una moneda es lanzada hasta que un águila aparece y el número total de lanzamientos es registrado. Podemos describir el suceso del experimento por un entero positivo (el número de lanzamientos requeridos), y por lo tanto podemos tomar a S para ser el conjunto de todos los enteros positivos S = {1,2,}. Más aún, en el Ejemplo 5.1.1a mostramos que la probabilidad de que la primera águila aparezca sobre el sésimo lanzamiento es simplemente 2-s. Entonces f s 2 S 1 S s 1 52 UN MODELO MATEMÁTICO por la Ecuación (7.4) del Capítulo 1, así que la condición (2.4) es satisfecha. Ahora definimos una medida de probabilidad por (2.5) para obtener un espacio de probabilidad para representar el experimento. Si, por ejemplo, deseamos calcular la probabilidad de que un número par de lanzamientos será requerido, encontramos la probabilidad del evento A = {2,4,}. Por (2.5) y (7.4) del Capítulo 1, esta es P A 2 s 22 k A k 1 1 4 1 14 1 13 //// Más ejemplos de espacios de probabilidad discretos serán encontrados en los problemas al final de este capítulo. Ahora consideremos un ejemplo de una naturaleza diferente. EJEMPLO 2.2.4 Espacios de probabilidad absolutamente continuos. Sea S un intervalo infinito o finito de números reales, y sea f una función real definida sobre S para la cual f s 0 para toda s S y S f s ds 1 (2.6) Por analogía con (2.5), parece natural definir una medida de probabilidad P por P A A f s ds (2.7) El problema aquí es la clase de eventos. Simplemente no es cierto que la integral sobre el lado derecho de (2.7) existirá como una integral impropia o propia para cualquier A S. Es posible, sin embargo, definir una medida de probabilidad P sobre la clase de conjuntos de Borel de S (Ejemplo 2.2.1b) de tal forma que (2.7) se cumpla siempre que A sea un subintervalo de S. Más aún, la medida de probabilidad P es unívocamente determinada por (2.7) y las condiciones (2.1), (2.2), y (2.3). Los espacios de probabilidad (S,,P) para los cuales S es un intervalo, es la clase de conjuntos de Borel de S, y P es de la forma (2.7) son llamados absolutamente continuos. Para tales espacios, la probabilidad de un subintervalo A de S está dada por (2.7), y la probabilidad de eventos más complicados debe ser deducida de (2.7) y los axiomas de probabilidad (2.1), (2.2), y (2.3). EJEMPLO 2.2.5 Considere un experimento en el cual un número es seleccionado del intervalo unitario S = [0,1] de tal manera que la probabilidad de que el número esté en un subintervalo de S sea igual a la longitud del subintervalo. Tomando f(s) = 1, 0 s 1, en (2.7) produce P(A) = longitud de A, así que la discusión anterior garantiza la existencia de un espacio de 53 PROBABILIDAD AXIOMÁTICA probabilidad para representar nuestro experimento. Calculemos, por ejemplo, la probabilidad de que el número seleccionado será un número racional. Eso es, calculemos P(R#), donde R# 1 denota al conjunto de números racionales en S. Escribimos R # r1 ,r2 , An n 1 donde An = {rn} es el conjunto cuyo único elemento es rn, n = 1, 2,. Ahora cada An es un intervalo de longitud 0, así que P An A ds rn rn 0 n para n = 1, 2,. Ahora se sigue de (2.3) que n 1 n 1 P R # P An 0 0 Eso es, la probabilidad de que el número seleccionado será un número racional es cero. //// 2.3 ALGUNAS CONSECUENCIAS ELEMENTALES DE LOS PRIMEROS DOS AXIOMAS En esta sección desarrollaremos algunas consecuencias elementales de los axiomas presentados en la Sección 2.2. Supondremos a lo largo que S es un conjunto no vacío, que es una álgebra de subconjuntos de S, y que P es una función definida sobre que satisface las condiciones (2.1) y (2.2). Eso es, suponemos 0 P A 1 P S 1 (2.1) P A B P A P B (2.2) y para toda A , y siempre que A y B sean disjuntos. Aunque la mayoría de las aplicaciones posteriores de nuestros resultados serán para el caso donde (S,,P) es un espacio de probabilidad, no hacemos uso de la condición (2.3) aquí, y no la asumiremos. Continuaremos refiriendo a los elementos de como eventos. Teorema 2.3.1 Sean A y B eventos. Si A B, entonces P B A P B P A 1 5 El conjunto de números racionales es infinito numerable; ver, por ejemplo, Rudin (1964), p. 26. (3.1) 54 ALGUNAS CONSECUENCIAS ELEMENTALES DE LOS PRIMEROS DOS AXIOMAS En particular, P(A) P(B). PRUEBA Si A B, entonces podemos escribir B = A (B A). Puesto que A(B A) = , obtenemos P(B) = P(A) + P(B A) por la condición (2.2). La Ecuación (3.1) se sigue inmediatamente. La aseveración final del teorema se sigue del hecho que P(B A) 0 por (2.1). Corolario 2.3.1 Si A es cualquier evento, entonces P A 1 P A (3.2) En particular, P() = 0. PRUEBA Tomando B = S en la Ecuación (3.1), obtenemos P(A') = P(S A) = P(S) P(A) = 1 P(A) por (2.1). Esto establece (3.2). La aseveración final del corolario se sigue, puesto que P() = P(S') = 1 P(S) = 0. //// La aseveración final del Teorema 2.3.1 puede ser parafraseada como sigue: si el evento A implica al evento B, entonces la probabilidad de A es menor que o igual a la probabilidad de B. Veremos más tarde que esta simple observación puede ser extremadamente útil. La Ecuaciones (3.1) y (3.2) son también muy útiles. Ilustramos con algunos ejemplos. EJEMPLO 2.3.1 a Si una mano de póker es seleccionada al azar de una baraja estándar de 52 cartas, ¿cuál es la probabilidad de que la mano contendrá al menos 1 as? Sea A el evento de que la mano contiene al menos 1 as. Entonces A' es el evento de que la mano no 4 48 52 48 52 contiene ases, así que P A por el Teorema 1.4.1. Por 0 5 5 5 5 48 52 tanto, P A 1 P A 1 por (3.2). 5 5 b ¿Cuál es la probabilidad de que la más alta denominación en una mano de póker seleccionada aleatoriamente sea una reina (ases máximo)? Sea B el evento de que la más alta denominación es a lo más una reina, y sea A el evento de que la más alta denominación es a lo más una sota. Entonces el evento de que la más alta denominación es una reina es C = B A. Puesto que A implica a B, tenemos que P(C) = P(B) P(A) por (3.1), y así será suficiente calcular P(A) y P(B). Para calcular P(B), considere ases y reyes como bolas rojas y 2s, 3s,, y reinas como bolas blancas. PROBABILIDAD AXIOMÁTICA 55 Entonces B es el evento de que ninguna bola roja es tomada en una muestra de tamaño 44 52 40 52 5, así que P B . Análogamente, P A . Así, 5 5 5 5 44 40 52 P C 5 5 5 //// Dados cualesquiera dos eventos A y B, definimos su diferencia simétrica para ser el evento de que ocurre A o ocurre B pero no ambos. Eso es, definimos su diferencia simétrica para ser A B = (A B) AB. Teorema 2.3.2 Si A y B son eventos, entonces P A B P A P B P AB (3.3) P A B P A P B 2 P AB (3.4) PRUEBA Podemos escribir A B = A (B A) = A (B AB). Eso es, A o B ocurre si y sólo si A ocurre o B ocurre pero AB no ocurre. Por tanto, puesto que A y B AB son mutuamente excluyentes, y puesto que AB implica a B, tenemos P A B P A P B AB P A P B P AB por las Ecuaciones (2.2) y (3.1). Esto establece (3.3), de la cual (3.4) se sigue puesto que P(A B) = P(A B) P(AB) por (3.1). //// EJEMPLO 2.3.2 De la clase total de novatos en una universidad dada, 22 porciento toma un curso de matemáticas, 29 porciento toma un curso de ciencias, y 15 porciento toma ambos. Si un estudiante es seleccionado al azar de la clase de novatos, ¿cuál es la probabilidad que el tome un curso de matemáticas o un curso de ciencias? ¿Cuál es la probabilidad que el tome un curso de matemáticas o un curso de ciencias pero no ambos? Sea A el evento que el novato seleccionado aleatoriamente tome un curso de matemáticas, y sea B el evento que el tome un curso de ciencias. Entonces, nos han dado P(A) = 0.22, P(B) = 0.29, y P(AB) = 0.15, y requerimos la probabilidad de A B y A B. Éstas son P(A B) = 0.22 + 0.29 0.15 = 0.36 y P(A B) = 0.21 por las Ecuaciones (3.3) y (3.4) respectivamente. //// 56 ALGUNAS CONSECUENCIAS ELEMENTALES DE LOS PRIMEROS DOS AXIOMAS Presentamos una extensión de las Ecuaciones (3.3) y (3.4) en la siguiente sección y concluimos esta sección con una extensión de la Ecuación (2.2). Teorema 2.3.3 Sean A1, A2,... mutuamente excluyentes, entonces An cualesquiera eventos. Si A1, A2,... An son n n P Ai P Ai i1 i1 (3.5) En cualquier caso (aun si A1, A2,... An no son mutuamente excluyentes), tenemos n n P Ai P Ai i1 i1 (3.6) PRUEBA Probaremos (3.5) por inducción sobre n. Si n = 1, entonces (3.5) es trivialmente cierta. Ahora, suponer que (3.5) es cierta cuando n = m 1, y considere el caso para n = m + 1. En este caso, encontramos que los eventos m A Ai i1 y B Am1 son mutuamente excluyentes. Por tanto, m1 P Ai P A B P A P B i1 m m1 i1 i1 = P Ai P Am1 P Ai por la Ecuación (2.2) y la hipótesis de inducción. La expresión (3.6) puede ser establecida por un argumento análogo que usa la Ecuación (3.3) en lugar de la Ecuación (2.2). //// EJEMPLO 2.3.3 Sea una muestra desordenada de tamaño k tomada de una urna que contiene m bolas rojas y n m bolas blancas. ¿Cuál es la probabilidad que al menos r de las bolas tomadas serán rojas? Para j = 0,, k, sea Ej el evento que exactamente j de las bolas tomadas serán rojas. Entonces E0,,Ek son mutuamente excluyentes, y PROBABILIDAD AXIOMÁTICA P Ej 57 m n m j k j n k para j = 0,, k por el Teorema 1.4.1. Más aún, el evento que al menos r de las bolas tomadas sean rojas es simplemente k Lr E j j r Por tanto, m n m k j k j P Lr n j r k por la Ecuación (3.5). La probabilidad que a lo más r bolas rojas serán tomadas es m n m r j k j P M r n j 0 k //// EJEMPLO 2.3.4 Considere una lotería en la cual 100,000 boletos son vendidos, de los cuales 5 ganan premios. Si un hombre compra 10 boletos, ¿cuál es la probabilidad que el ganará al menos 1 premio? Considere los 10 boletos como una muestra ordenada sin reemplazo de los 100,000 boletos, y sea Ak el evento que el késimo boleto gana un premio. Entonces, P(Ak) = 0.00005, k = 1,, 10, y el evento que el hombre gana al menos 1 premio es A 10 . k 1 Ak Puesto que los eventos A1,,A10 no son mutuamente excluyentes, la Ecuación (3.5) no es aplicable. Sin embargo, (3.6) es aplicable y produce P A 10 k 1 P Ak 0.00005. La probabilidad exacta puede ser también calculada. Indudablemente, por (3.2) y el Teorema 1.5.1, tenemos P(A) = 1 P(A') = 1 (99,995)10/(100,000)10. Así, tenemos una simple cota superior para la probabilidad en cuestión y una expresión algo complicada para su valor exacto. //// 58 ALGUNAS CONSECUENCIAS ELEMENTALES DE LOS PRIMEROS DOS AXIOMAS EJEMPLO 2.3.5 Si S es un conjunto finito, si es la clase de todos los subconjuntos de S, y si P({s}) = c es la misma para toda s S, entonces P(A) = |A|/|S| para todo A S. Sin lugar a dudas, si A S, entonces A = A{s}, donde la unión se extiende sobre todos los distintos s A, así que P(A) = A P({s}) = c|A|. Tomando A = S, ahora encontramos que 1 = P(S) = c|S|, o c = 1/|S|. La afirmación se sigue. Hay un número de identidades combinatorias interesantes que se siguen del Teorema 2.3.3; enumeramos dos de ellas en el siguiente ejemplo. EJEMPLO 2.3.6 a Sean E0, E1,, Ek como descritos en el Ejemplo 2.3.3. Entonces E0, E1,, Ek son tanto mutuamente excluyentes como exhaustivos. Por tanto, m n m k j k j k 1 P S P E j j 0 j 0 n k Eso es, k m n m n j k j k j 0 b Análogamente, si una muestra ordenada de tamaño n es tomada sin remplazo de una urna conteniendo m 1 bolas rojas y n m bolas blancas, entonces al menos 1 bola roja debe ser tomada. Sea Fk el evento que la primera bola roja es tomada en la késima toma, k = 1,, n. Entonces F1,,Fn son mutuamente excluyentes y exhaustivos, y P(Fk) = m(n m)k-1/(n)k = m(nm)k-1(n k)!/n!, k = 1,, n por el Ejemplo 1.5.1. Por tanto, tenemos n m n m k 1 n k ! n! k 1 //// PROBABILIDAD AXIOMÁTICA 59 2.4 COMBINACIONES DE EVENTOS1 En el Teorema 2.3.3 mostramos que la probabilidad de la unión de n eventos es siempre menor que o igual a la suma de sus probabilidades, con igualdad si los eventos son mutuamente excluyentes. En esta sección desarrollaremos una expresión exacta para la probabilidad de la unión de n eventos arbitrarios. Usaremos la siguiente notación. Sean A1, A2,, An cualesquiera eventos, y para cualquier subconjunto J de {1,,n} sea B j Ai ij Así, Bj es el evento que Ai ocurre para toda i J, con ninguna restricción ubicada sobre la ocurrencia de Ai para i J. Además, sea Sk P B j J k (4.1) donde la sumatoria se extiende sobre todos los subconjuntos J de tamaño k, k = 1,, n. Así, n S1 P Ai i1 n i1 S 2 P Ai Aj i 2 j 1 y así enseguida. La fórmula que desarrollaremos está dada en el siguiente teorema. Teorema 2.4.1 Sean A1,,An cualesquiera n eventos, y sea A = A1 An el evento de que al menos uno de A1,,An ocurre. Entonces n P A 1 k 1 k 1 Sk (4.2) El Teorema 2.4.1 puede ser probado por inducción matemática directa sobre n usando la Ecuación (3.3), que el Teorema 2.4.1 generaliza. Daremos los detalles abajo, pero primero consideraremos algunos ejemplos. La mayoría de las aplicaciones de la Ecuación (4.2) serán para casos en los cuales los eventos A1,,An son simétricos en el sentido que 1 6 Esta sección trata un tópico especial y puede ser omitido sin pérdida de continuidad. 60 COMBINACIONES DE EVENTOS P B j P A1 A2 Ak (4.3) para todos los subconjuntos J de tamaño k, k = 1,, n. En este caso Sk se simplifica a n S k P A1 Ak k (4.1a ) n puesto que hay sumandos en la Ecuación (4.1). k EJEMPLO 2.4.1 Apareamiento Una computadora prepara cobros mensualmente para sus n clientes y rotula un sobre para cada uno. Un error de programación entonces le causa poner los cobros dentro de los sobres al azar. ¿Cuál es la probabilidad que ubique al menos un cobro en el sobre correcto? Numeremos los cobros y sobres de tal manera que cada cobro reciba el mismo número que el sobre rotulado para él. Podemos entonces describir el suceso del experimento por una permutación x = (x1,... xn) de los enteros 1,, n, donde xk denota el número del sobre dentro del cual el késimo cobro es ubicado, k = 1,, n. Podemos por lo tanto tomar nuestro espacio muestral S para ser el conjunto de todas las permutaciones dichas, e interpretamos la frase "al azar" para significar que todos los n! sucesos x = (x1,... xn) S son igualmente verosímiles. El evento que la késima carta es correctamente ubicada es entonces Ak = {x S: xk = k} para k = 1,, n, y requerimos la probabilidad de la unión B nk 1 Ak . Es fácil ver que la condición de simetría (4.3) es satisfecha. Más aún, P(A1 Ak) = (n k)!/n!, porque A1 An especifica que xi = i, i = 1,, k, y permite xk+1,, xn para n ser permutadas en cualquier orden. Ahora se sigue que S k n k !/ n!= 1 / k !. Por k tanto, por la Ecuación (4.2) n k 1 1 k 1 n n P Ai 1 1 1 i1 k 1 k! k! k 0 La última suma, sin embargo, es simplemente los primeros n términos en la expansión de la serie infinita de Taylor de ex para x = 1, así que n P Ai 1 e 1 0.632 i1 (4.4) PROBABILIDAD AXIOMÁTICA 61 para n grande. De hecho, la aproximación (4.4) es válida a dos decimales provisto sólo que n 5. //// EJEMPLO 2.4.2 El problema del colector de cupones. Un fabricante regala cupones de t diferentes tipos con su producto y da un premio a cualquiera quien colecte al menos uno de todos los t tipos. Si un hombre colecta n cupones, ¿cuál es la probabilidad que el colectará al menos uno de todos los t tipos? Si los t tipos de cupones son distribuidos en igual número, y si hay un número grande de cupones, podemos parafrasear la cuestión como sigue. Si un dado balanceado de t lados es lanzado n veces, ¿cuál es la probabilidad que cada una de las t caras aparezca al menos una vez? Sea Ai el evento que la iésima cara no aparece al menos una vez. Entonces requerimos la probabilidad que el evento A ti1 Ai no ocurra, eso es, 1 P(A). Podemos calcular P(A) de la Ecuación (4.2). Indudablemente, es de nuevo fácilmente verificado que la condición de simetría (4.3) es satisfecha, y k P A1 Ak 1 t n para k = 1,,t, puesto que A1 Ak requiere que cada uno de los n lanzamientos resultar en una de las t k caras especificadas (ver Lema 1.5.1). Por tanto, t P A 1 k 1 k 1 t k 1 t k n (4.5) por la Ecuación (4.2). La Ecuación (4.5) no se simplifica pero es tratable para cálculos. Enumeramos algunos valores típicos en la Tabla 3 para t = 6. //// PRUEBA del Teorema 2.4.1 Probaremos el Teorema 2.4.1 por inducción sobre n. Si n = 1, entonces (4.2) es trivial. Así, suponer que (4.2) es cierta para n m, y considere el caso donde n = m + 1. Si A1,,Am+1 son cualesquiera m + 1 eventos, m1 m m P A P A P A P Ai Am1 i i m1 entonces i1 i1 i 1 (4.6) por (3.3). Más aún, el primer y último términos sobre el lado derecho de (4.6) son probabilidades de la unión de m eventos, así que m m P Ai 1 i1 k 1 k 1 P A i J k iJ (4.7a ) 62 COMBINACIONES DE EVENTOS m m P Ai Am1 1 i1 k 1 k 1 P Am1 Ai iJ J k (4.7b) Tabla 3 n 8 12 16 20 24 1 P A 0.114 0.438 0.698 0.848 0.925 por la hipótesis de inducción. Finalmente, si (4.7a) y (4.7b) son substituidas dentro de (4.6), y si el (k + 1)ésimo término en (4.7a) es agrupado con el késimo término en (4.7b), la Ecuación (4.2) es obtenida. El Teorema 2.4.1 ahora se sigue por inducción matemática. //// Para cerrar, mencionamos la siguiente extensión del Teorema 2.4.1. Sean A1,,An cualesquiera n eventos; para r = 1,,n sea Lr el evento que al menos r de los eventos A1,,An ocurran; y sea Er el evento que exactamente r de los eventos A1,,An ocurran. Así, Lr BJ y J r Er Lr Lr 1 donde Bj es como en la Ecuación (4.1). Teorema 2.4.2 Para r = 1,,n, n P Lr 1 k r k r n P Er 1 k r k 1 Sk r 1 k r k Sk r (4.8) (4.9) donde Sk está definido por (4.1). La Ecuación (4.8) puede ser establecida por un argumento inductivo que es similar a ese dado en la prueba del Teorema 2.4.1. La Ecuación (4.9) entonces puede ser obtenida de la identidad P(Er) = P(Lr) P(Lr+1). Omitimos los detalles. Otra, prueba más simple del Teorema 2.4.1 es bosquejada en el Problema 8.66. PROBABILIDAD AXIOMÁTICA 63 2.5 EQUIVALENTES DEL TERCER AXIOMA1 Ahora cambiaremos nuestra atención a el tercer axioma (2.3) y desarrollaremos varios útiles equivalentes a él. Decimos que una sucesión infinita de eventos A1, A2, es creciente si y sólo si A1 A2 An An+1 para cualquier n = 1, 2,. Eso es, A1, A2, es creciente si y sólo si la ocurrencia de An implica la ocurrencia de An+1 para cualquier n = 1, 2,. Definimos el límite de una sucesión creciente A1, A2, para ser la unión A An n 1 y escribimos A = lim An. Así, A = lim An ocurre si y sólo si An ocurre para alguna n = n0, en cuyo caso Ak ocurre para toda k n0. Análogamente, decimos que una sucesión infinita de eventos A1, A2, es decreciente si y sólo si A1 A2 An An+1 para cualquier n = 1, 2,, y definimos el límite de la sucesión decreciente de eventos para ser la intersección A An n 1 En este caso A = lim An ocurre si y sólo si An ocurre para cada n = 1, 2,. Observemos que una sucesión A1, A2, es creciente (decreciente) si y sólo si A1, A2 ,... es decreciente (creciente) y que en uno u otro caso lim An ' lim An (5.1) EJEMPLO 2.5.1 Sea S = (0,1) el intervalo unitario abierto, y para n = 1, 2, sea An = (1/n,1) el intervalo abierto de 1/n a 1. Entonces, puesto que 1/(n + 1) < 1/n, n 1, A1, A2, es una sucesión creciente de eventos, y puesto que 1/n 0 cuando n , lim An An 01 , n 1 Análogamente, haciendo Bn = (0,1/n), n 1, encontramos que B1, B2, es una sucesión decreciente de eventos con límite n1 Bn , puesto que no hay números reales x con 0 < x < 1/n para n = 1, 2,. //// 1 7 Esta sección trata un tópico especial y puede ser omitida sin pérdida de continuidad. 64 EQUIVALENTES DEL TERCER AXIOMA Ahora suponer que S es un conjunto no vacío, que es una álgebra de subconjuntos de S, y que P es una función definida sobre que satisface (2.1) y (2.2), y consecuentemente (3.1) a (3.8). Entonces decimos que P es continua por abajo (por arriba) si y sólo si P lim An lim P An (5.2) cuando n , siempre que A1, A2, sea una sucesión creciente (decreciente) de eventos. El principal resultado de esta sección es que el tercer axioma es equivalente a la continuidad como está definida en (5.2). Teorema 2.5.1 Sea S un conjunto no vacío, sea una álgebra de subconjuntos de S, y sea P una función sobre que satisface (2.1) y (2.2). Entonces, los siguientes son equivalentes: (i) La Ecuación (2.3) se cumple. (ii) P es continua por abajo. (iii) P es continua por arriba. En particular, (i), (ii), y (iii) todas se cumplen si P es una medida de probabilidad. PRUEBA Mostraremos que (i) (ii) (iii) (i). Comenzamos con la prueba que (i) (ii). Suponer que P es un espacio de probabilidad, y sean A1, A2, una sucesión creciente de eventos. Entonces podemos definir una nueva sucesión B1, B2, por B1 A1 Bn An An1 y para n = 2, 3,. Entonces B1, B2, son mutuamente excluyentes, n An Bk (5.3) k 1 para n = 1, 2,, y n n1 n1k 1 n1 lim An An Bk Bn Por tanto, por (2.3), n P lim An P Bk lim P Bk lim P An k 1 n k 1 n PROBABILIDAD AXIOMÁTICA 65 Aquí, la primera igualdad se sigue de (2.3), la segunda de la definición de una suma infinita, y la tercera de (5.3). La prueba que (ii) (iii) es ahora trivial. Indudablemente, si A1, A2, es una sucesión decreciente de eventos, entonces A1, A2 ,... es una sucesión creciente de eventos y (5.1) se cumple. Así, si P es continua por abajo, entonces P lim An 1 P lim An 1 lim P An lim P An cuando n , así que P es también continua por arriba. Finalmente, debemos mostrar que (iii) (i). Sea P continua por arriba, y sea A1, A2, una sucesión de eventos mutuamente excluyentes con unión A An n 1 Para n = 1, 2, defina n Bn Ak k 1 Entonces, B1, B2, es una sucesión creciente de eventos con límite lim Bn = A, así que Cn = A Bn forma una sucesión decreciente de eventos con límite lim Cn = . Ahora, para cada n = 1, 2,, tenemos n P A P Bn P Cn P Ak P Cn (5.4) k 1 por (2.2) y (3.5). Finalmente, puesto que P es supuesta para ser continua por arriba, debemos tener lim P(Cn) = P(lim Cn) = P() = 0 cuando n . Así, P A P Ak k 1 como es requerida por (2.3). Esto completa la prueba del Teorema 2.5.1. //// El interés en el Teorema 2.5.1 se deriva de dos hechos. Primero, muestra que el tercer axioma (2.3), que no fue tan bien motivado como (2.1) y (2.2), es equivalente a probabilidades requeridas para ser continuas en el sentido de la Ecuación (5.2). El lector puede encontrar la suposición de continuidad más admisible que (2.3) como originalmente se estableció. También, muestra que las medidas de probabilidad son continuas en el sentido de (5.2), y este hecho será útil para nosotros posteriormente. 66 EQUIVALENTES DEL TERCER AXIOMA REFERENCIAS Una discusión concisa de varias interpretaciones de probabilidad es dada por De Finetti (1968). Una discusión más extensiva de estas interpretaciones será encontrada en Smokler y Kyburg (1964). Un enfoque diferente a la cuantificación de probabilidades subjetivas está dado por DeGroot (1970), quien también da más referencias. Lectores familiarizados con teoría de la medida pueden desear consultar un texto más avanzado para más información sobre los fundamentos matemáticos de la probabilidad. Neveu (1965) y Tucker (1967) son recomendados. PROBABILIDAD AXIOMÁTICA 67 2.6 PROBLEMAS 2.1. Definir un espacio muestral apropiado para cada uno de los siguientes experimentos. No es ya necesario que los resultados sean supuestos igualmente verosímiles: (a) Un dado cargado es lanzado dos veces. (b) Un dado es lanzado hasta que un as aparece. (c) Una moneda no cargada es lanzada hasta que dos águilas han aparecido. (d) Deseas adivinar el año del nacimiento de Noé. 2.2. Definir espacios muestrales apropiados para los siguientes experimentos: (a) La longitud del tiempo requerido para que una sustancia radiactiva registre 25 emisiones es observada. (b) El peso de un hombre seleccionado al azar es registrado. (c) La precipitación anual en Seattle es registrada. (d) El valor de la acción IBM es registrado cada día por una semana. (e) El número de accidentes de tráfico en una ciudad y día particular es registrado. 2.3. Trate de asignar su probabilidad subjetiva de que lloverá mañana. 68 PROBLEMAS NOTA: Problemas 2.4 a 2.6 muestran que una persona con probabilidades subjetivas inconsistentes estará dispuesto a poner apuestas sobre lo que ciertamente perderá dinero. 2.4. Sea A un evento, y denoten p y q sus probabilidades subjetivas para A y A´, respectivamente. Si p + q 1, entonces ¿consideraría como legal dos apuestas la combinación de las cuales le forzaría a perder? Sugerencia: Si p + q > 1, ¿qué ocurre si usted apuesta a favor de ambos A y A´? 2.5. Extienda el resultado del Problema 2.4 al caso de los eventos disjuntos cuya unión es S. 2.6. Si A y B son eventos disjuntos y su probabilidad subjetiva para A B no es P(A) + P(B), entonces ¿estaría dispuesto a poner apuestas la combinación de las cuales le forzaría a perder? Sugerencia: Sea C = A´B´, y mostrar que, ya sea P(C) + P(C´) 1 ó P(A) + P(B) + P(C) 1; entonces aplique los Problemas 2.5 y 2.6. 2.7. Una persona es seleccionada al azar de la población de una ciudad dada. Sea A el evento de que la persona es hombre; sea B el evento de que la persona tiene menos de 30 años de edad; y sea C el evento de que la persona habla un lenguaje extranjero. Describa en símbolos: (a) Un hombre quien tiene menos de 30 y no habla un lenguaje extranjero. (b) una mujer quien, ya sea, tiene menos de 30 o habla un lenguaje extranjero. (c) Una persona quien, ya sea, tiene menos de 30 o es mujer pero no ambas. (d) Un hombre quien, ya sea, tiene menos de 30 o habla un lenguaje extranjero pero no ambos. 2.8. Sea A, B, y C como en el Problema 2.7. Describir en palabras los siguientes eventos: (a) A(B C) (d) A (B C) (b) A BC (e) (A B) AB (c) A BC (f) (A B C) ABC (g) (A B C) (AB BC AC) (h) AB C (i) (A B) C (j) (A B) C 2.9. Considere un dado el cual está cargado de tal manera que la probabilidad de que k puntos aparecerán cuando el dado sea lanzado es proporcional a k. Si el dado es lanzado una vez, ¿cuál es la probabilidad de que un número par de puntos aparecerán? 2.10. Si la probabilidad de que un conmutador telefónico hará exactamente k conexiones erróneas durante un día de 24 horas es proporcional a 1/k! para k = 0, 1, 2,, ¿cuál es la probabilidad (a) de que no habrá conexiones erróneas; (b) de que habrá cuando mucho 2 conexiones erróneas? PROBABILIDAD AXIOMÁTICA 69 2.11. Sea S = {1,2,} el conjunto de enteros positivos, y sea f(s) = 1/s(s + 1) para s S. Mostrar que f(1) + f(2) + = 1. 2.12. Sean S y f como en el Problema 2.11 y defina P como en el Ejemplo 2.2.2. Encontrar la probabilidad de los eventos A = {1,2,3,4} y B = {10,11,}. 2.13. En el Problema 2.12 encontrar la probabilidad del evento A = {2,4,6,} que un entero par sea seleccionado. Sugerencia: Integre la expansión de la serie de Taylor de –(½) log (1 x2). 2.14. Denote S = [0,1] el intervalo unitario y sea un punto s seleccionado al azar de S como en el Ejemplo 2.2.5. ¿Cuál es la probabilidad (a) de que el primer decimal en la expansión decimal de s sea 1; (b) que sea a lo más 5? 2.15. En el Problema 2.14 reemplace el primer decimal por el segundo decimal. 2.16. Sea S = (0,) y sean las probabilidades asignadas como en el Ejemplo 2.2.4 con f(s) = e-s para s S. Sea A el conjunto de s S los cuales difieren de un entero positivo en más de ¼. Encontrar P(A). Sugerencia: Sea An el conjunto de s para las cuales s n ¼; calcular P(An); y sumar. 2.17. Mostrar que la condición (2.3) implica la condición (2.2). 2.18. Mostrar que la condición (2.2) y (2.3) son equivalentes si S es un conjunto finito. 2.19. Sea un punto seleccionado al azar del intervalo unitario S = [0,1], como en el Ejemplo 2.2.5, y sea el evento A definido como sigue. Primero, definimos A1 para ser el intervalo (1/3,2/3). Enseguida, definimos A2 para ser la unión de los intervalos (1/9,2/9) y (7/9,8/9). En general definimos An, n 3, para ser la unión de los tercios medios de los 2n –1 intervalos que están incluidos en (A1 An –1)´.Finalmente, permitimos a A = k 1 An ser la unión de los An. El complemento de A, C = S A, es conocido como el conjunto de Cantor y tiene varias propiedades interesantes. Mostrar que P(A) = 1 y consecuentemente que P(C) = 0. Sugerencia: P(An) es fácilmente calculado, y los An son disjuntos. 2.20. En el Problema 2.19, reemplazar tercio medio por cuarto medio en todo (también en la definición de A1 y A2). Calcule P(A) en este caso. 2.21. Mostrar que si A es un conjunto índice y para cada A es una -álgebra de subconjuntos de un conjunto no vacío S, entonces A es de nuevo una -álgebra de subconjuntos de S. 2.22. Sea S un intervalo de números reales, y sea la intersección de todas aquellas álgebras de subconjuntos de S que contienen todos los subintervalos de S. Mostrar que 70 PROBLEMAS es una -álgebra y que si es cualquier otra -álgebra que contiene todos los subintervalos de S, entonces . 2.23. Algunos de los requerimientos en la definición de una -álgebra son redundantes. Mostrar que es una -álgebra si S ; si A implica que A´ ; y si Ak para k = 1, 2, implica que k 1 Ak . 2.24. Si una muestra aleatoria desordenada de tamaño 10 es extraída de un lote de productos manufacturados, de los cuales 10 son defectuosos y 90 son no defectuosos, ¿cuál es la probabilidad de que la muestra contendrá (a) al menos 1 defectuoso; (b) al menos 2 defectuosos? 2.25. Si una moneda no cargada es lanzada hasta que un águila aparece, ¿cuál es la probabilidad de que entre 3 y 8 lanzamientos (inclusive) serán requeridos? 2.26. Si cartas son extraídas secuencialmente de un paquete estándar hasta que una espada aparece, ¿cuál es la probabilidad de que entre 3 y 8 extracciones serán requeridas? 2.27. ¿Cuál es la probabilidad que la más pequeña denominación en una mano de póquer será un 4? 2.28. Si un dado balanceado es lanzado dos veces, ¿cuál es la probabilidad de que el número más grande de puntos a aparecer será j, j = 1, 6? 2.29. Si un dado balanceado es lanzado n veces, ¿cuál es la probabilidad de que el número más grande de puntos a aparecer será j para j = 1, 2,,6? 2.30. ¿Cuál es la probabilidad de que una mano de póquer seleccionada aleatoriamente contendrá al menos 2 cartas de al menos una denominación? 2.31. ¿Cuál es la probabilidad de que una mano de póquer contendrá: (a) Exactamente 2 ases o exactamente 2 reyes o ambos? (b) Exactamente 2 ases o exactamente 2 reyes pero no ambos? 2.32. Un oficial en la Oficina Interna de Impuestos cree: (a) Que 40 por ciento de todos los contribuyentes fallan en listar todos sus ingresos fiscales. (b) Que 36 por ciento listan más deducciones que las que ellos de hecho tienen. (c) Que 22 por ciento hacen ambas. Si él es consistente en sus creencias, ¿qué porcentaje de contribuyentes cree él que hacen trampa por, ya sea, el método (a) o el método (b)? 2.33. Si A, B, y C son eventos, derivar una fórmula para P(A B C) en términos de las probabilidades de intersecciones de A, B, y C. PROBABILIDAD AXIOMÁTICA 71 2.34. ¿Cuál es la probabilidad de que una mano de bridge seleccionada al azar contendrá al menos siete cartas del mismo palo? 2.35. ¿Cuál es la probabilidad de que una mano de póquer seleccionada al azar contendrá al menos tres cartas de la misma denominación? 2.36. Si una muestra aleatoria desordenada de tamaño 10 es seleccionada de un grupo de 55 Demócratas y 45 Republicanos, ¿cuál es la probabilidad de que la muestra contendrá más Demócratas que Republicanos? 2.37. En el Problema 2.36 ¿cuál es la probabilidad de que la muestra contendrá entre 4 y 8 Demócratas (inclusive)? 2.38. Sea A1, A2, cualquier sucesión infinita de eventos, y permita que B1 = A1 y Bk = Ak (A1 Ak –1) para k 2. Mostrar que B1, B2, son mutuamente excluyentes y k 1 Ak = k 1 Bk . 2.39. Sea A1, A2, cualquier sucesión infinita de eventos con unión A = que P(A) k 1 k 1 Ak . Mostrar P Ak . 2.40. Obtener una cota superior sobre la probabilidad de que una mano de bridge seleccionada al azar contendrá un vacío (no cartas de al menos un palo). 2.41. Calcular la probabilidad de que una mano de bridge seleccionada al azar contendrá un vacío. 2.42. Calcular la probabilidad de que una mano de bridge seleccionada al azar contendrá exactamente 6 cartas de al menos un palo. 2.43. Si un hombre aleatoriamente selecciona 4 calcetines de un cajón que contiene 4 pares distinguibles de calcetines, ¿cuál es la probabilidad de que el seleccionará al menos un par? 2.44. Cartas etiquetadas 1, 2, n son volteadas en un orden aleatorio. Sea Ak el evento de que la carta etiquetada k es volteada en la k-ésima vuelta. ¿Cuál es la probabilidad de que al menos uno de A1, An ocurra? 2.45. En el Problema 2.44 sea pn(j) la probabilidad de que exactamente j de A1, An ocurrirán. Mostrar que pn(j) 1/ej! para j = 0, 1, 2, cuando n . 2.46. Mostrar que si A1, A2, es cualquier sucesión infinita de eventos, entonces P k 1 Ak = lim P k 1 Ak cuando n y P k 1 Ak = lim P k 1 Ak cuando n . n n 3 3 PROBABILIDAD CONDICIONAL E INDEPENDENCIA 3.1 PROBABILIDAD CONDICIONAL Sea (S,,P) un espacio de probabilidad, y sea B un evento con probabilidad positiva. Así, (S,,P) puede ser pensado como un modelo para algún experimento o juego de azar y B como un evento con una posibilidad positiva de ocurrir. Ahora suponer que sabemos que B ha de hecho ocurrido. Entonces nuestra asignación original de probabilidades, representada en el modelo por P, puede no ser ya apropiada. Indudablemente, puesto que ahora sabemos que B ha ocurrido, sabemos que es imposible para B' ocurrir, aunque pudimos haber asignado originalmente probabilidad positiva a B'. La cuestión que proponemos responder en esta sección es por lo tanto: ¿Cómo deben nuestras probabilidades cambiar a la luz de la nueva información? Desde el punto de vista frecuentista, la respuesta es completamente simple. Nuestras nuevas probabilidades deben representar frecuencias relativas límites de eventos entre exactamente aquellos ensayos sobre los cuales B ocurra. Eso es, si el juego o experimento bajo consideración es repetido n veces, como en la Sección 2.1, y si nA denota el número de veces que A ocurre durante la n repeticiones del juego o experimento, entonces la frecuencia relativa de A entre aquellos ensayos sobre los cuales B ocurre es 74 PROBABILIDAD CONDICIONAL n AB n AB n nB nB n En la interpretación frecuentista de probabilidad, la última cantidad es (para n grande) aproximadamente P(AB)/P(B), que por lo tanto parece ser un candidato razonable para nuestra nueva probabilidad. También somos conducidos al cociente P(AB)/P(B) desde el punto de vista subjetivo. Así, considere el siguiente juego: si B ocurre, entonces 1 Uno paga q unidades para jugar. 2 Uno recibe 1 unidad si A ocurre y nada si A no ocurre. Si B no ocurre, ninguna apuesta es ubicada. ¿Cómo puede q ser seleccionada de tal manera que la anterior apuesta sea justa? Si uno antes ha asignado probabilidades subjetivas a los eventos A, B, AB, y A'B de una manera consistente, esta cuestión tiene una respuesta fácil. Puesto que uno gana 1 q unidades con probabilidad P(AB) y pierde q unidades con probabilidad P(A'B), la noción intuitiva de justicia requiere que (1 q)P(AB) = qP(A'B). Esto también puede ser escrito P AB q P AB P A B qP B donde hemos usado la consistencia en el paso final. Resolviendo para q ahora produce q = P(AB)/P(B), que por lo tanto parece ser un candidato razonable para nuestra nueva probabilidad para A desde el punto de vista subjetivo también. Hemos motivado la siguiente definición: si A y B son eventos para los cuales P(B) > 0, entonces definimos la probabilidad condicional de A dado B para ser P A B P AB P B (1.1) Antes que procedamos a ejemplos, observemos que nuestras probabilidades originales P(A) pueden también ser consideradas como probabilidades condicionales dado el espacio muestral S. Indudablemente, tomando B = S en la Ecuación (1.1) produce AS = A y P(S) = 1, así que P(A | S) = P(A). Esta observación admite la siguiente interpretación: nuestras probabilidades originales son probabilidades condicionales dado nuestro almacén inicial de información acerca del problema en mano; nuestras nuevas probabilidades P(A | B), donde B S, son condicionales dada alguna información adicional. PROBABILIDAD CONDICIONAL E INDEPENDENCIA 75 EJEMPLO 3.1.1 a Si A B entonces AB = A, así que P(A | B) = P(A)/P(B). En este caso la nueva probabilidad para A es mayor que la probabilidad original para A excepto en el caso trivial donde P(B) = 1. En particular, P(B | B) = 1. b Si A B', entonces AB = , así que P(A | B) = 0. //// EJEMPLO 3.1.2 a Si una muestra aleatoria ordenada de tamaño k = 2 es tomada de una urna que contiene m bolas rojas y n m bolas blancas , ¿cuál es la probabilidad condicional que la segunda bola tomada será roja (evento A) dado que la primera bola tomada es roja (evento B)? Tenemos P(B) = m/n y P(AB) = m(m 1)/n(n 1). Consecuentemente, P(A | B) = P(AB)/P(B) = (m 1)/(n 1). Un cálculo semejante mostrará que P(A | B') = m/(n 1). En ambos casos, la probabilidad condicional de tomar una bola roja en la segunda selección, dado que el suceso de la primera selección, es proporcional al número de bolas rojas en la urna al momento de la segunda selección. b Si el muestreo había sido con reemplazo en la parte a, habríamos encontrado que P(B) = m/n, P(AB) = m2/n2 y consecuentemente que P(A | B) = m/n. Similarmente, P(A | B') = m/n. De nuevo, la probabilidad condicional de tomar una bola roja en la segunda selección es proporcional al número de bolas rojas en la urna al momento de la segunda selección. //// EJEMPLO 3.1.3 a ¿Cuál es la probabilidad que una mano de póker seleccionada aleatoriamente contenga exactamente 3 ases (evento A), dado que contiene al menos 2 ases (evento B)? Puesto que A implica a B, tenemos AB = A es el evento que la mano contenga 4 48 52 exactamente 3 ases. Así P AB por el Teorema 1.4.1. El evento B 3 2 5 ocurre si la mano contiene 2, 3, o 4 ases, así que 4 48 4 48 4 48 2 3 3 2 4 1 P B 52 5 por los Teoremas 1.4.1 y 2.3.3. Por tanto, 76 PROBABILIDAD CONDICIONAL P A B P AB P B 4 48 = 3 2 4 48 4 48 4 48 2 3 3 2 4 1 = 0.0416 b ¿Cuál es la probabilidad que una mano de póker seleccionada aleatoriamente contendrá exactamente 2 reyes (evento A), dado que contiene exactamente 2 ases (evento B)? Tenemos 4 48 P B 2 3 52 5 y 4 4 44 P AB 2 2 1 52 5 4 44 48 por los Teoremas 1.4.1 y 1.4.2. Así, P A B . Observe que ésta es 2 1 3 también la probabilidad que una muestra de tamaño 3 de una baraja sin ases contendrá exactamente 2 reyes. //// En el modelo clásico, donde P(A) = |A|/|S| para A S, las probabilidades condicionales toman una forma particularmente simple. Cierto, si B es un subconjunto no vacío de S, entonces P A B AB S AB B S B (1.2) para cualquier A S. Así, si consideramos originalmente los sucesos en S como igualmente verosímiles y sabemos que B ha ocurrido, entonces consideramos los sucesos en B como igualmente verosímiles. En efecto, reducimos nuestro espacio muestral de S a B. Eso es, calculamos probabilidades como si B fuera el espacio muestral. Esta observación puede ser extremadamente útil en el cálculo de probabilidades condicionales en experimentos de muestreo. Sin duda, dice que dado que la muestra tiene alguna propiedad particular (evento B), todas las restantes posibles muestras son igualmente verosímiles. Ejemplos 3.1.2 y 3.1.3b son casos especiales. EJEMPLO 3.1.4 a Si una muestra aleatoria desordenada de tamaño k es tomada de una urna conteniendo r bolas rojas, b bolas negras, y w bolas blancas, ¿cuál es la probabilidad condicional que la muestra contendrá exactamente i bolas blancas (evento A) dado que contiene exactamente j bolas rojas (evento B)? Dado que la muestra contiene exactamente j bolas rojas, podemos considerar las restantes k j bolas en la muestra PROBABILIDAD CONDICIONAL E INDEPENDENCIA 77 como una nueva muestra de una urna conteniendo b bolas negras, w bolas blancas, y ninguna bola roja. Eso es, formamos un nuevo espacio muestral consistiendo de todos los sucesos en B. La probabilidad condicional de A es entonces justo la probabilidad que una muestra de tamaño k j de una urna conteniendo b bolas negras y w bolas blancas contendrá exactamente i bolas blancas; eso es, b w i k j i P A B b w k j por el Teorema 1.4.1. El Ejemplo 3.1.3b es un caso especial. Observaciones similares aplican a muestras ordenadas. b Sea una muestra aleatoria ordenada de tamaño k = k1 + k2 tomada de una urna, donde k1 y k2 son enteros positivos. Entonces, dado el suceso de las primeras k1 selecciones, todas las posibles k2adas de bolas son igualmente verosímiles para ser tomadas de la urna sobre las restantes k2 selecciones. Las partes a y b del Ejemplo 3.1.2 son un caso especial. c Un comité de tamaño k = 5 es para ser seleccionado secuencialmente de un grupo de 6 Demócratas y 4 Republicanos. Dado que los 2 primeros miembros del comité para ser seleccionados fueron Demócratas, ¿cuál es la probabilidad condicional que el comité consistirá de 3 Demócratas y 2 Republicanos? Requerimos la probabilidad que una muestra de tamaño 3 de un grupo de 4 Demócratas y 4 Republicanos consista de 1 3 3 Demócrata y 2 Republicanos. La respuesta es por lo tanto 4 4 2 / 83 . //// 7 1 La simple idea incorporada en (1.2) se generaliza. Así, considere un espacio de probabilidad (S,,P) y un evento B con probabilidad positiva P(B). Defina una nueva clase de eventos B para ser todo A donde A B, y defina una función PB sobre B por PB A P A B A B Que B es, de hecho, una álgebra se deja como un ejercicio. Teorema 3.1.1 (B,B,PB) es un espacio de probabilidad. PRUEBA Tenemos que mostrar que PB satisface (2.1), (2.2) y (2.3) del Capítulo 2. Ahora A B implica A B, en cuyo caso PB(A) = P(A)/P(B). Así, PB(B) = 1. Para establecer (2.2), sean A1 y A2 elementos disjuntos de B. Entonces 78 PROBABILIDAD CONDICIONAL PB A1 A2 P A1 A2 P A1 P A2 P B P B = PB A1 PB A2 donde hemos usado el hecho que P es una medida de probabilidad en el segundo paso; (2.3) puede ser establecida en una manera similar. //// El Teorema 3.1.1 admite una interpretación que es similar a esa de la Ecuación (1.2). Eso es, dado que B ha ocurrido, podemos considerar a B como el nuevo espacio muestral para nuestro experimento provisto que cambiamos nuestra asignación de probabilidades de P a PB. Sin embargo, el Teorema 3.1.1 provee información adicional. El Teorema 3.1.1 dice que se nos es permitido usar todos los resultados del Capítulo 2 para calcular probabilidades condicionales porque aquellos resultados son válidos para cualquier espacio de probabilidad. EJEMPLO 3.1.5 Bridge a Dado que un jugador de bridge tiene 7 espadas, ¿cuál es la probabilidad condicional que su pareja tenga al menos 1 espada? Dado que un jugador tiene 7 espadas y 6 no espadas, podemos considerar la mano de su pareja como una muestra de tamaño 13 de una baraja conteniendo 6 espadas y 33 no espadas. Por tanto, la 33 39 probabilidad condicional que su pareja no tenga espadas es = 0.0706, y la 13 13 probabilidad que su pareja tenga al menos 1 espada es 1 0.0706 = 0.9294. b Si Norte y Sur tienen exactamente 8 cartas de triunfo en sus manos combinadas, ¿cuál es la probabilidad condicional que las restantes 5 cartas de triunfo estén divididas 3 y 2 entre Este y Oeste? Requerimos esa probabilidad condicional que el número de cartas de triunfo en la mano Este sea 2 o 3. Dado que Norte y Sur juntos tienen exactamente 8 cartas de triunfo, podemos considerar la mano Este como una muestra de tamaño 13 de una baraja conteniendo 5 cartas de triunfo y 21 cartas de no triunfo. La probabilidad condicional que Este tenga 2 o 3 cartas de triunfo es por tanto 5 21 5 21 2 11 3 10 0.678 26 13 //// El Teorema 3.1.1 abre una posibilidad interesante, es decir, iterar la operación de condicionamiento. Que nada realmente nuevo es por este medio obtenido es el contenido de PROBABILIDAD CONDICIONAL E INDEPENDENCIA 79 nuestro siguiente teorema. Teorema 3.1.2 Sean A, B, y C eventos para los cuales A y C son subconjuntos de B y P(C) > 0. Entonces PB A C P A C PRUEBA Observe primero que P(B) P(C) > 0, así que PB está bien definida. Ahora, por definición, PB(A | C) = PB(AC)/PB(C), que puede ser escrita P ABC P B P AC P A C P BC P B P C //// 3.2 EL TEOREMA DE BAYES Las probabilidades condicionales no son sólo interesantes como nuevas probabilidades dada alguna información adicional; ellas también pueden ser usadas como herramientas en el cálculo de probabilidades incondicionales. Por ejemplo, la fórmula P AB P A B P B (2.1) se sigue inmediatamente de la definición de probabilidad condicional y permite a uno calcular P(AB) del conocimiento de P(A | B) y P(B). Es útil puesto que podemos algunas veces calcular P(A | B) considerando a B como el espacio muestral para un nuevo experimento. Más aún, puesto que cualquier evento A puede ser escrito A = AB AB' con AB AB' BB' = , tenemos P(A) = P(AB) + P(AB'), que, por la Ecuación (2.1), puede ser escrita P A P A B P B P A B P B (2.2) provisto que 0 < P(B) < 1. Finalmente, si P(A) > 0, podemos usar las Ecuaciones (2.1) y (2.2) para calcular P(B | A). Así P B A P A B P B P AB P A P A B P B P A B P B (2.3) La Ecuación (2.3) es un caso especial del Teorema de Bayes, discutido abajo. Consideremos primero algunos ejemplos. 80 EL TEOREMA DE BAYES EJEMPLO 3.2.1 Permita que la urna I contenga 4 bolas rojas y 2 bolas blancas, y permita que la urna II contenga 3 bolas de cada color. Si una bola es seleccionada al azar de la urna I y transferida a la urna II y entonces una bola es tomada al azar de la urna II, ¿cuál es la probabilidad que la segunda bola tomada será roja? Sea A el evento que la bola tomada de la urna II es roja, y sea B el evento que la bola transferida es roja. Entonces, P(A | B) = 4/7 puesto que habrá 4 bolas rojas y 3 bolas blancas en la urna II al momento de la segunda selección si B ocurre. Similarmente P(A | B') = 3/7. Ya que P(B) = 2/9, tenemos P A 47 23 73 13 11 21 por la Ecuación (2.2). Ahora suponer que observamos el color de la segunda bola para ser roja pero no observamos el color de la bola transferida. Entonces podemos calcular la probabilidad condicional que la bola transferida fuera roja de la Ecuación (2.3). Cierto, tenemos P(B A) = (4/7)(2/3)/(11/21) = 8/11. //// EJEMPLO 3.2.2 En una cierta comunidad, se encontró que 60 por ciento de todos los dueños de propiedades se oponen a un incremento en el impuesto a la propiedad mientras que 80 por ciento de los no propietarios lo favorecen. Si el 65 por ciento de todos los votantes registrados son dueños de propiedades, ¿qué proporción de votantes registrados favorecen el incremento fiscal? Sea A el evento que un votante seleccionado al azar favorezca el incremento fiscal. Entonces requerimos P(A). Sea B el evento que un votante seleccionado al azar sea un propietario. Entonces, se nos ha dado que P(A | B) = 0.40, P(A | B') = 0.80, y P(B) = 0.65. Por la Ecuación (2.2) encontramos P(A) = (0.40) (0.65) + (0.80)(0.35) = 0.54. Eso es, 54 por ciento de los votantes registrados favorecen el incremento fiscal. ¿Cuál porcentaje de aquellos votantes registrados quienes favorecen el incremento fiscal son propietarios? Requerimos P(B | A). Por la Ecuación (2.3), esto es simplemente P(B | A) = (0.40)(0.65)/0.54 = 0.4815. //// Las Ecuaciones (2.1), (2.2) y (2.3) pueden todas ser generalizadas. Comenzamos con la generalización de (2.1). Teorema 3.2.1 Sean A1,,An eventos, y sea Bk = A1 Ak para k = 1,,n. Si P(Bn-1) > 0, entonces n P Bn P B1 P Bk Bk 1 k 2 PRUEBA Observamos que Bk implica Bk-1 (Bk Bk-1), así que PROBABILIDAD CONDICIONAL E INDEPENDENCIA 81 P Bk Bk 1 P Bk P Bk 1 para k = 2,, n. Por tanto, P B1 P B2 P Bn P Bn P B1 P Bn1 como se aseveró. //// EJEMPLO 3.2.3 Un cierto sistema de comunicación, o canal, está diseñado para trasmitir o el símbolo 0 o el símbolo 1. Hay 4 relevos, cada uno de los cuales puede funcionar mal. De hecho, cada relevo cambia un 1 recibido a un 0 trasmitido con probabilidad 0.1 y cambia un 0 recibido a un 1 trasmitido con probabilidad 0.2. Fuente 1 2 3 4 Receptor Si un 1 es enviado, ¿cuál es la probabilidad que un 1 sea trasmitido por cada uno de los relevos? Sea Ai el evento que el iésimo relevo trasmita un 1, y sea Bk = A1 Ak para k = 1,, 4. Entonces se nos proporciona que P(B1) = P(Bk | Bk-1) = 0.9 para k = 2, 3, 4. Así, P(A1A2A3A4) = P(B4) = (0.9)4 = 0.6561. Si un 1 es enviado, ¿cuál es la probabilidad que un 1 será recibido? Un 1 será recibido si y sólo si cero, dos, o cuatro de los relevos funcionan mal. La probabilidad que ninguno de los relevos funcione mal ha sido justo calculada. La probabilidad que los relevos 1 y 2 funcionen mal mientras que los relevos 3 y 4 operen correctamente es (0.1)(0.2)(0.9)2 por un argumento similar. Esta es también la probabilidad de que cualesquiera dos relevos especificados funcionen mal mientras que los otros dos operen correctamente, así la probabilidad de que exactamente dos de los relevos funcionen mal es 4 2 . 0.20.9 0.0972. Finalmente, la probabilidad de que todos los cuatro relevos 01 2 funcionen mal es (0.1)2(0.2)2 = 0.0004. Así, la probabilidad que un 1 sea recibido es 0.6561 + 0.0972 + 0.0004 = 0.7537. //// Consideremos ahora la generalización de las Ecuaciones (2.2) y (2.3). Teorema 3.2.2 Sea B1, B2, una sucesión infinita o finita de eventos exhaustivos, mutuamente excluyentes y sea P(Bi) > 0 para toda i. Si A es cualquier evento, entonces P A P A Bi P Bi i donde la sumatoria se extiende sobre todo i. Si P(A) > 0, entonces (2.4) 82 EL TEOREMA DE BAYES P Bj A P A B j P B j i P A Bi P Bi (2.5) para cualquier j. PRUEBA Las Ecuaciones (2.2) y (2.3) son, por supuesto, casos especiales de (2.4) y (2.5) con B1 = B y B2 = B'. Para probar (2.4) observe que puesto que i Bi S , por hipótesis, podemos escribir A i ABi . Más aún, puesto que los Bi son mutuamente excluyentes, debemos tener P A P ABi P A Bi P Bi i i por la Ecuación (2.1). Esto establece (2.4). La Ecuación (2.5) entonces se sigue de la definición P(Bj | A) = P(ABj)/P(A) escribiendo P(ABj) = P(A | Bj) P(Bj) y substituyendo (2.4) por P(A). //// La Ecuación (2.5) es conocida como el Teorema de Bayes en honor del sacerdote del siglo XVII, Thomas Bayes. Ambas Ecuaciones (2.4) y (2.5) son útiles en describir experimentos que proceden en dos etapas y tienen la propiedad de que el mecanismo aleatorio de la segunda etapa está determinado por el suceso de la primera etapa de experimentación. Por ejemplo, el Ejemplo 3.2.1 es de esta naturaleza. Ahí la composición de la urna de la cual la bola fue tomada en la segunda etapa estuvo determinada por el suceso de la primera etapa. Denominaremos a tales experimentos compuestos. En aplicaciones del Teorema 3.2.2 a experimentos compuestos, uno usualmente permite a los Bi representar los sucesos posibles de la primera etapa de experimentación y P(A Bi ) describe el mecanismo aleatorio de la segunda etapa bajo la hipótesis de que Bi ocurrió en la primera etapa, como en el Ejemplo 3.2.1. Los Bi también pueden ser pensados como posibles estados de la naturaleza, en cuyo caso P(A Bi) es para ser interpretada como la probabilidad de A bajo la hipótesis de que la naturaleza está en el estado Bi. Con esta interpretación las P(Bi) son típicamente probabilidades subjetivas que representan nuestra opinión acerca de la naturaleza, anterior a cualquier experimentación y son conocidas como probabilidades a priori. Las probabilidades condicionales P(Bi | A) pueden entonces ser pensadas como describiendo nuestra nueva opinión acerca de la naturaleza después de que algún experimento ha sido realizado y el evento A ha sido observado para ocurrir; por esta razón ellas son conocidas como probabilidades a posteriori. Así, el teorema de Bayes puede ser pensado como un algoritmo para cambiar la mente de uno a la luz de la evidencia experimental, y es de esta interpretación de la cual el teorema de Bayes deriva su fama. Por supuesto, uno debe poder y desear expresar la opinión de uno en términos de probabilidades subjetivas para usar este PROBABILIDAD CONDICIONAL E INDEPENDENCIA 83 algoritmo. La objeción de la comunidad científica para aceptar la interpretación subjetiva de probabilidad ha obstaculizado la aceptación de la última interpretación del teorema de Bayes. Sin embargo, ha ganado considerable terreno durante la última década y ahora forma la base para una teoría analítica de la toma de decisiones que será discutida en la Sección 10.5. EJEMPLO 3.2.4 Si la probabilidad de que una familia tendrá exactamente n hijos es 2-n para n = 1, 2,, y si todas las 2n permutaciones de los sexos de los n hijos son igualmente probables, ¿cuál es la probabilidad de que una familia no tenga niños? Sea A el evento de que una familia no tenga niños, y sea Bn el evento de que tenga exactamente n hijos. Entonces, tenemos que P(Bn) = 2n , y claramente, P(A | Bn) = 2-n para cualquier n = 1, 2,. (Dado Bn, A requiere n niñas.) Por el Teorema 3.2.1, por lo tanto tenemos P A P A Bn P Bn n 1 = 2 2 -n n n=1 n 1 1 1 4 1 4 3 3 4 n 0 4 La probabilidad condicional de que una familia tendrá n hijos, dado que no tiene niños, es P(Bn | A) = P(A | Bn)P(Bn)/P(A) = 3 4-n para n = 1, 2,. //// EJEMPLO 3.2.5 Accidentes de tráfico. Un cierto estado agrupa a sus conductores licenciados de acuerdo a la edad dentro de las siguientes categorías: (1) 16 a 25; (2) 26 a 45; (3) 46 a 65; y (4) arriba de 65. La Tabla 4 lista, para cada grupo, la proporción de conductores licenciados quienes pertenecen al grupo y la proporción de conductores en el grupo quienes tuvieron accidentes. Tabla 4 Grupo Tamaño Proporción de accidentes 1 0.151 0.098 2 0.356 0.044 3 0.338 0.056 4 0.155 0.086 ¿Qué proporción de conductores licenciados tuvieron accidentes? ¿Qué proporción de aquellos conductores licenciados quienes tuvieron accidentes estaban por arriba de 65? Sea A el evento de que un conductor licenciado seleccionado aleatoriamente tenga un accidente, y sea Bk el evento de que un conductor licenciado seleccionado aleatoriamente caiga dentro 84 INDEPENDENCIA del grupo k, k = 1, 2, 3, 4. Requerimos P(A) y P(B4 | A), respectivamente. Ahora, P(Bk) y P(A | Bk) están dadas por las columnas tituladas tamaño y proporción de accidentes, respectivamente. Así, P(A) = P(A | B1)P(B1) + + P(A | B4)P(B4) = (0.098)(0.151) + + (0.086)(0.155) = 0.06272, y P(B4 | A) = P(A | B4)P(B4)/P(A) = (0.086)(0.155)/0.06272. //// 3.3 INDEPENDENCIA Parece natural preguntar la siguiente cuestión: ¿Para cuáles eventos A y B es verdad que P(A | B) = P(A)? Eso es, ¿para cuales eventos A y B es verdad que la ocurrencia de B no provee información acerca de la posibilidad de que A ocurrirá? La respuesta es fácilmente derivada. Tendremos P(A | B) = P(A) si y sólo si P(AB)/P(B) = P(A). Eso es, P(A | B) = P(A) si y sólo si P AB P A P B (3.1) Por tanto definimos dos eventos A y B para ser independientes si y sólo si (3.1) se cumple, y expresamente permitimos la posibilidad de que P(B) = 0 en ( 3.1). La definición de independencia es entonces simétrica en A y B. El significado intuitivo de independencia debe ser claro. A y B son independientes si y sólo si la ocurrencia de B no afecta la posibilidad de que A ocurrirá, y recíprocamente. La importancia de la noción de independencia deriva del hecho de que muchos fenómenos ocurriendo naturalmente operan independientemente, eso es, en tal forma que el suceso de uno no afecta el de otro(s). EJEMPLO 3.3.1 a Si A y B son disjuntos, entonces P(AB) = P() = 0, así que A y B no pueden ser independientes a menos que o P(A) = 0 o P(B) = 0. b Si A B, entonces AB = A, así que P(AB) = P(A). En este caso A y B no pueden ser independientes a menos que P(B) = 1. c El conjunto vacío y el espacio muestral S son independientes de cualquier otro evento. Sin duda, P(AS) = P(A) = P(A)P(S), y P(A) = P() = 0 = P()P(A) para cualquier A S. //// EJEMPLO 3.3.2 Sea una muestra aleatoria ordenada de tamaño k = 2 tomada de una urna que contiene m 1 bolas rojas y n m bolas blancas. Además, sea B el evento de que una bola roja es tomada en la primera selección, y sea A el evento de que una bola roja es tomada en la segunda PROBABILIDAD CONDICIONAL E INDEPENDENCIA 85 selección. Si el muestreo es con reemplazo, entonces P(A | B) = m/n = P(A) por el Teorema 1.3.1 y el Ejemplo 3.1.2, así que A y B son independientes. Si el muestreo es sin reemplazo, entonces P(A | B) = (m 1)/(n 1) m/n = P(A). Así, A y B no son independientes si el muestreo es sin reemplazo. Este resultado está claramente de acuerdo con nuestra noción intuitiva de independencia. Sin duda, cuando el muestreo es con reemplazo, el color de la bola tomada en la primera selección no afecta la oferta de bolas rojas en la urna al momento de la segunda selección, mientras que si lo hace cuando el muestreo es sin reemplazo. EJEMPLO 3.3.3 a Sean dos dados balanceados, distinguibles lanzados de tal manera que todos los posibles sucesos sean igualmente verosímiles. Entonces el evento A de que solamente un punto aparece sobre el primer dado y el evento B de que solamente un punto aparece sobre el segundo dado son independientes. De hecho, P(A) = P(B) = 1/6, mientras que P(AB) = 1/36. Esto es un caso especial del Ejemplo 3.3.2. b Sea una carta seleccionada al azar de una baraja de 52 cartas. Sea A el evento de que un corazón es tomado, y sea B el evento de que un mono (caballero, reina o rey) es tomado. Entonces P(A) = 13/52 = ¼, P(B) = 12/52 = 3/13, puesto que hay 13 corazones y 12 monos. Más aún, AB es el evento de que un caballero de corazones, reina de corazones, o rey de corazones es tomado, así que P(AB) = 3/52 = P(A)P(B). Por tanto, A y B son independientes. c Sea un punto seleccionado de un cuadrado unitario S = {(x,y): 0 x 1 y 0 y 1} de manera que la probabilidad de que el punto caiga dentro de una subregión C S es igual al área de C. Sea A = {(x,y): 0.25 x 0.75}, y sea B = {(x,y): 0.25 y 0.75} (ver Figura 1a). Entonces A es un rectángulo de altura 0.5 y longitud 1, así que P(A) = 0.5, y análogamente, P(B) = 0.5. Más aún, AB = {(x,y): 0.25 x 0.75, 0.25 y 0.75} es un cuadrado cuyos lados son de longitud 0.5, así que P(AB) = 0.25. Por tanto, A y B son independientes. d Sea un punto s seleccionado del intervalo unitario S = [0,1] de tal manera que la probabilidad de que el punto pertenezca a un subintervalo I S es la longitud de I, como en el Ejemplo 2.2.5. Escribamos a s en su expansión decimal como s = .s1s2,…, donde sk son enteros entre 0 y 9 inclusive. Por ejemplo, si s = 1/8, entonces s1 = 1, s2 = 2, s3 = 5, y sk = 0 para k 4. Sea A el evento de que s1 = 0, y sea B el evento de que s2 = 0. Entonces A es el intervalo [0,0.1), así que P(A) = 0.1; y B es la unión [0,0.01) [0.10,0.11) [0.80,0.81) [0.90,0.91), así que P(B) = 0.1 también (ver Figura 1b). Finalmente, AB es el intervalo [0,0.01), así que P(AB) = 0.01 = P(A) P(B). Por tanto, A y B son independientes. 86 INDEPENDENCIA Figura 1. (a). El cuadrado unitario. (b). El intervalo unitario. Hay dos formas naturales aparentemente de extender la definición de independencia de dos eventos a varios, digamos A1,,An, donde n 2 es un entero positivo. Una es requerir que P(AiAj) = P(Ai)P(Aj) (3.2) siempre que i j. La otra es requerir que P Ai P Ai iJ iJ (3.3) para cualquier subconjunto no vacío J {1, n}. Las dos nociones no son equivalentes (ver Ejemplo 3.3.5), y es la segunda (3.3) la que es más útil. Por tanto definimos los eventos A1, An para ser independientes por parejas si y sólo si (3.2) se cumple y para ser mutuamente independientes si y sólo si (3.3) se cumple. Así, independencia de cualquier tipo es simétrica en los eventos A1, An y tiene la propiedad de que subcolecciones de eventos independientes son de nuevos independientes. La mayoría de los ejemplos de independencia que encontraremos serán ejemplos de mutua independencia. En correspondencia, usaremos el término “independencia” sin calificarlo para designar mutua independencia. PROBABILIDAD CONDICIONAL E INDEPENDENCIA 87 EJEMPLO 3.3.4 Sea una muestra aleatoria ordenada de tamaño n tomada con reemplazo de una urna que contiene r bolas rojas y b bolas blancas, y sea Ai el evento de que una bola roja es tomada en la iésima selección, i = 1, 2,, n. Entonces, A1, An son independientes. Sin duda, ambos lados de (3.3) son iguales a rk/(r + b)k, donde k = |J|. EJEMPLO 3.3.5 Daremos un ejemplo de eventos que son independientes por parejas pero no mutuamente independientes. Sea un entero seleccionado del conjunto S = {1,2,3,4} de manera que cualquier entero es igualmente verosímil de ser escogido. Además, sea Ai = {i,4} el evento de que ya sea i o 4 es seleccionado, i = 1, 2, 3. Entonces, P(Ai) = 2/4 = ½, i = 1, 2, 3, y P(AiAj) = P({4}) = ¼ = P(Ai)P(Aj) siempre que i j. Por tanto, A1, A2, A3 son independientes por parejas. Sin embargo, P(A1A2A3) = P({4}) = ¼ 1/8 = P(A1)P(A2)P(A3), así que A1, A2, y A3 no son mutuamente independientes. //// EJEMPLO 3.3.6 Muestreo estratificado. Considere una población de n individuos de los cuales un número desconocido m favorece un candidato político particular o propuesta. Suponemos que la población está dividida en estratos, por lo cual entendemos subclases disjuntas. Por ejemplo, la población puede ser dividida en habitantes urbanos, habitantes suburbanos, y habitantes rurales; o puede ser dividida de acuerdo a la edad de sus miembros; o puede ser dividida de acuerdo al ingreso de sus miembros, etc. Suponemos que hay un total de t estratos diferentes y que hay un total de ni miembros en el iésimo estrato, de los cuales mi favorecen al candidato político o propuesta en cuestión. Así, n = n1 + + nt y m = m1 + + mt. Suponer después que se nos permite muestrear k de los miembros de la población para saber acerca de m. Entonces dos posibles esquemas de muestreo se presentan por sí mismos. Primero, podemos tomar una muestra aleatoria (sin reemplazo) de tamaño k de la población total. En este caso la probabilidad que la muestra contendrá justo r personas quienes m n m n favorecen al candidato o propuesta es por el Teorema 1.4.1. r k r k También podemos dividir el tamaño de la muestra k en grupos de tamaños k1,,kt, donde k1 + + kt = k, y tomar una muestra aleatoria de tamaño ki del iésimo estrato para i = 1,, t. Suponemos que las t diferentes muestras son tomadas de modo que la muestra seleccionada del iésimo estrato no afecte la seleccionada de otro estrato. En este caso podemos suponer que los sucesos de los t diferentes experimentos de muestreo son independientes, y calculamos la probabilidad que la muestra del iésimo estrato contenga exactamente ri quienes favorecen al candidato o propuesta para todo i = 1,, t para ser 88 ALGUNAS PROPIEDADES DE INDEPENDENCIA m1 n1 m1 mt nt mt r1 k1 r1 rt kt rt n1 nt k1 kt El segundo de los dos esquemas de muestreo descritos arriba es conocido como muestreo estratificado. Continuamos nuestro estudio de muestreo estratificado en el Ejemplo 8.6.1, donde se ve que si k1,,kt son seleccionados proporcionales a n1,,nt, entonces el muestreo estratificado es más informativo que el muestreo simple aleatorio. //// 3.4 ALGUNAS PROPIEDADES DE INDEPENDENCIA Ciertas operaciones de la teoría de conjuntos preservan la independencia. Damos algunos ejemplos de ellas en los teoremas siguientes. Teorema 3.4.1 Si A1,,An son eventos independientes, entonces así son las siguientes colecciones de eventos: (i) B1,,Bn, donde Bi es ya sea Ai o Ai , i = 1,, n. (ii) C1,,Cn, donde k n y C1,,Cn están formados por medio de tomar uniones o intersecciones de subcolecciones disjuntas de A1,,An. PRUEBA Para conservar la notación a la mano, probaremos sólo (i) para n = 2 y (ii) para k = 2. Las pruebas para n y k general no son conceptualmente más difíciles pero notacionalmente algo desagradables. Es suficiente probar (i) en el caso especial que B1 = A1 y B2 = A2 , porque podemos intercambiar A1 y A2 o A1 y A2 . Si B1 = A1 y B2 = A2 , entonces P B1 B2 P A1 A1 A2 P A1 P A1 A2 = P A1 P A1 P A2 P A1 1 P A2 = P B1 P B2 como se aseveró. Probemos primero (ii) en el caso especial que ambos C1 y C2 son formados tomando intersecciones de subcolecciones disjuntas de A1,,An. En este caso podemos suponer PROBABILIDAD CONDICIONAL E INDEPENDENCIA 89 (renombrando A1,,An si es necesario) que r C1 Ai y i 1 n C2 Ai it donde 1 r < t n. En este caso el resultado es obvio, porque PC1C2 P A1 Ar At An r n = P Ai P Ai PC1 PC2 i 1 it Ahora suponer que C1 es como arriba y que C2 = int Ai . Sea Bi = Ai, i = 1,, r, y sea Bi = Ai , i = r + 1,, n. Entonces, B1,,Bn son independientes por (i), así que r D1 Bi n y i 1 D2 Bi it son independientes por lo que ha sido justamente mostrado. Finalmente, si D1 y D2 son independientes, entonces así son C1 = D1 y C2 = D2 , de nuevo por (i). Los casos restantes bajo (ii) pueden ser manejados análogamente para completar la prueba. //// Teorema 3.4.2 Sean A1,,Am eventos mutuamente excluyentes, y sean B1,,Bn eventos mutuamente excluyentes. Si Ai y Bj son independientes para cualquier selección de i y j, entonces m A Ai i 1 n y B Bj j 1 son independientes. PRUEBA m n AB Ai B j i 1 j 1 y los eventos Cij = AiBj son mutuamente excluyentes. Por tanto, 90 ALGUNAS PROPIEDADES DE INDEPENDENCIA m n m n P AB P Ai B j P Ai P B j i 1 j 1 i 1 j 1 m n = P Ai P B j P A P B i 1 j 1 como se aseveró. 1 //// En presencia de independencia, muchos cálculos se simplifican. Ilustraremos con algunos ejemplos. EJEMPLO 3.4.1 a Tres misiles son disparados a un blanco. Si cada misil tiene probabilidad 0.6 de pegar en el blanco, ¿cuál es la probabilidad de que al menos uno de los mísiles pegue en el blanco? Sea Ai el evento de que el iésimo misil pegue en el blanco, i = 1, 2, 3. Entonces, el evento de que al menos uno de los misiles pegue en el blanco es B = A1 A2 A3 = ( A1 A2 A3 ). Por tanto, suponiendo que A1, A2, y A3 son independientes, tenemos que P(B) = 1 P( A1 A2 A3 ) = 1 P( A1 )P( A2 )P( A3 ) = 1 0.43 = 0.936. b Suponer que n individuos trabajan independientemente sobre un problema. Si cada uno tiene probabilidad p de resolver el problema, ¿cuál es la probabilidad de que todos ellos resuelvan el problema? ¿Cuál es la probabilidad de que al menos uno de ellos resuelva el problema? Sea Ai el evento de que el iésimo individuo resuelva el problema, así que P(Ai) = p para i = 1,, n. El evento de que todos los n individuos resuelvan el problema es A in1 Ai , así que P(A) = in1 P( Ai ) p n . El evento de que al menos uno de los individuos resuelva el problema es L = in1 Ai in1 Ai . Así, P(L) = 1 P in1 Ai 1 (1 p)n. En el caso especial que p = 0.5 y n = 4, tenemos P(A) = 0.0625 y P(L) = 0.9375. //// 1 1 Si a1,,am y b1,,bn son números reales, entonces m n m n ai b j aib j i 1 j 1 i 1 j 1 Esto es fácilmente establecido por inducción matemática. PROBABILIDAD CONDICIONAL E INDEPENDENCIA 91 3.5 ENSAYOS REPETIDOS: ESPACIOS PRODUCTO1 Suponer que tenemos n experimentos o juegos E1,,En, donde n 2 es un entero. Suponer también que cada experimento Ei puede ser descrito por un espacio de probabilidad (Si,i,Pi), i = 1,, n . Finalmente, suponer que realizamos todos los n experimentos, ya sea uno a la vez o simultáneamente, de tal manera que el suceso de un experimento no afecte los sucesos de los otros. ¿Es posible describir el nuevo experimento, formado por la realización de todos los E1,,En? Eso es, ¿es posible definir un espacio de probabilidad para representar el nuevo experimento de modo que los eventos dependiendo de diferentes experimentos sean independientes? La respuesta es sí, como mostraremos en esta sección. Antes de dar los detalles de la construcción, observemos que el problema ubicado arriba contiene el siguiente problema como un caso especial. Suponer que tenemos un experimento E0, que es descrito por un espacio de probabilidad (S0,0,P0), y suponer que el experimento E0 es repetido n veces. ¿Es posible definir un espacio de probabilidad que describa al nuevo experimento y tenga la propiedad de que los eventos dependiendo de diferentes ensayos (repeticiones) sean independientes? La respuesta es de nuevo sí, puesto que la segunda cuestión es un caso especial de la primera con Ei = E0, i = 1,, n. Por simplicidad, daremos la construcción sólo en el caso especial donde los espacios de probabilidad (S1,1,P1),, (Sn,n,Pn) sean todos discretos. Eso es, consideramos sólo el caso en que cada Si es o un conjunto finito o un conjunto infinito contable y cada i consiste de todos los subconjuntos de Si, i = 1,, n. Denote S el producto cartesiano S S1 S2 Sn Así, S consiste de todas las nadas ordenadas (s1,,sn) con si Si, i = 1,, n. Usaremos S como el espacio muestral para el nuevo experimento con la convención de que si denota el suceso del experimento Ei, i = 1,, n. Además, permitiremos que sea la clase de todos los subconjuntos de S, y definimos una función P sobre por f s Pi si n i 1 para s = (s1,,sn) S y P A f s sA para A S. Puesto que 1 2 Esta sección puede ser omitida sin pérdida de continuidad. 92 ENSAYOS REPETIDOS: ESPACIOS PRODUCTO n f s Pi si 1 1 n i 1 si Si sS se sigue del Ejemplo 2.2.2 que (S,,P) es un espacio de probabilidad. Diremos que un evento B S depende sólo del iésimo ensayo si y sólo si hay un subconjunto A Si para el cual B s1 ,,sn S: si A (5.1) Más aún, si A Si y B S están relacionados por (5.1), referiremos a B como el evento en que A ocurre en el iésimo ensayo. Lema 3.5.1 Para i = 1,, n, sea Ai Si, y sea Bi el evento en que Ai ocurre en el iésimo ensayo. Entonces, n Bi A1 A2 An i 1 Eso es, la intersección de B1,,Bn es el producto cartesiano de A1,,An. PRUEBA Bi es el conjunto de (s1,,sn) S para el cual si Ai. Así, ambos B1 B2 Bn y A1 A2 An pueden ser descritos como el conjunto de s = (s1,,sn) para los cuales si Ai para toda i = 1,, n. //// Lema 3.5.2 Sea Ai Si, i = 1,, n, y sea A = A1 A2 An. Entonces n P A Pi Ai i 1 PRUEBA Por definición de P, tenemos n P A Pi si sA i 1 y la última suma es fácilmente vista para ser n i 1 Pi si Pi Ai n i 1 si Ai //// Teorema 3.5.1 Para i = 1,…,n, sea Ai Si, y sea Bi el evento en que Ai ocurre en el i–ésimo ensayo. Entonces PROBABILIDAD CONDICIONAL E INDEPENDENCIA P(Bi) = Pi(Ai) i = 1,. . ., n 93 (5.2) y B1,. . .,Bn son mutuamente excluyentes. PRUEBA Por tanto, Primero probemos (5.2). Para cada i, Bi = S1 Si-1 Ai Si+1 Sn. P Bi Pi Ai Pj S j Pi Ai j 1 como se aseveró. Para establecer la mutua independencia de B1,…,Bn, sea J un subconjunto de {1,…,n}. Entonces podemos escribir Bi C1 C2 Cn i J donde Ci = Ai si i J y Ci = Si de otro modo. Por tanto, n P Bi Pi Ci Pi Ai P Bi iJ i 1 i J i J por el Lema 3.5.2 y la Ecuación (5.2). La independencia mutua se sigue. //// 94 PROBLEMAS 3.6 PROBLEMAS 3.1 De una urna conteniendo 5 bolas rojas y 5 bolas blancas, una muestra aleatoria desordenada de tamaño 5 es extraída. Dado que hay al menos 2 bolas rojas en la muestra, encontrar la probabilidad condicional de que haya exactamente 3 bolas rojas en la muestra. 3.2 Si en el Problema 3.1 una muestra aleatoria ordenada ha sido extraída sin reemplazo, cuál es la probabilidad condicional de que la muestra contenga exactamente 3 bolas rojas: (a) Dado que las primeras 2 bolas extraídas son rojas. (b) Dado que la primera y última bolas extraídas son rojas. 3.3 Si una moneda balanceada es lanzada 5 veces, cuál es la probabilidad condicional de obtener exactamente 3 águilas: (a) Dado que hay al menos 2 águilas. (b) Dado que el primero y último lanzamientos resultaron en águilas. 3.4 Si un dado balanceado es lanzado 6 veces, cuál es la probabilidad condicional de obtener 2 seises: (a) Dados exactamente 2 ases. (b) Dados al menos 2 ases. PROBABILIDAD CONDICIONAL E INDEPENDENCIA 95 3.5 Si dos dados balanceados son lanzados, encontrar la probabilidad condicional de que la suma de puntos será 7, dado que ésta es impar. En póquer una flor consiste de 5 cartas del mismo palo. Dado que todas las cartas en una mano póquer seleccionada aleatoriamente son rojas (corazones o diamantes), ¿cuál es la probabilidad condicional de que la mano sea una flor? 3.7 Si Jorge Jugador tiene 4 espadas y una que no es espada y entonces descarta la que no es espada para extraer otra carta, ¿cuál es la probabilidad condicional de que él completará exitosamente una flor? 3.8 En el Problema 3.7, suponer que Jorge había estado con 3 espadas y 2 que no eran espadas. Si el descarta las 2 que no son espadas y extrae 2 nuevas cartas, ¿cuál es la probabilidad condicional de que el completará su flor? 3.9 En bridge, suponer que Norte y Sur tienen 9 triunfos en sus manos combinadas pero no tienen el rey de triunfos. ¿Cuál es la probabilidad condicional de que el rey esté desprotegido, eso es, no aparece con ningún otro triunfo en la mano de Este u oeste? 3.10 En el Problema 3.9, suponer también que Sur tiene el as de triunfos. ¿Cuál es la probabilidad condicional de que el rey esté ya sea desprotegido o en la mano de Oeste (de manera que pueda ser usado como subterfugio? 3.11 Una caja contiene tres cajones. En un cajón hay 2 monedas de oro; en otro hay una moneda de oro y una moneda de plata; y en el tercer cajón hay 2 monedas de plata. Un cajón es seleccionado al azar, y entonces 1 moneda es seleccionada al azar del cajón. Dado que la moneda seleccionada es de oro, ¿cuál es la probabilidad condicional de que la moneda restante en el cajón abierto es también de oro? 3.12 El registro de votantes en una cierta ciudad reveló las estadísticas tabuladas. Si una persona es seleccionada al azar de los votantes registrados de esta ciudad, ¿cuál es la probabilidad condicional de que la persona será hombre dado que la persona es Demócrata? Hombres, % Mujeres, % Demócrata 20 25 Independiente 10 15 Republicano 15 15 96 PROBLEMAS 3.13 En el Problema 3.12 ¿cuál es la probabilidad condicional de que la persona será Demócrata dado que la persona es hombre? 3.14 Sea (S,,P) un espacio de probabilidad, y sea B un evento con probabilidad positiva. Definir Q sobre por Q(A) = P(A B). Mostrar que Q es una medida de probabilidad sobre el conjunto . 3.15 Mostrar que en el Problema 3.14 si C es un evento con Q(C) > 0, entonces Q(A C) = P(A BC) para toda A . 3.16 Una moneda no cargada es lanzada 5 veces. Dado que el primer lanzamiento resultó en águila y que los 5 lanzamientos produjeron al menos 2 águilas, ¿cuál es la probabilidad condicional de que los 5 lanzamientos resultaran en exactamente 2 águilas? 3.17 Una moneda no cargada es lanzada 10 veces. Dado que los 10 lanzamientos produjeron exactamente 5 águilas, ¿cuál es la probabilidad condicional de que: (a) El primer lanzamiento resultó en águila? (b) Exactamente 3 de los primeros 5 lanzamientos resultaron en águilas? 3.18 Una universidad encuentra que el 75% de sus estudiantes graduándose obtuvieron arriba de 80 en el examen de admisión, mientras que sólo el 25% de aquellos quienes fracasaron en graduarse obtuvieron arriba de 80. Ellos también encontraron que la mitad de los entrantes a primer año se gradúan. ¿Cuál es la probabilidad condicional de que uno en el primer año se graduará dado: (a) Que el obtuvo arriba de 80 en el examen de admisión? (b) Que obtuvo 80 o menos? 3.19 Suponer que 10 por ciento de los conductores con licencia en un estado dado son incompetentes. Suponer también que una prueba de diagnóstico está disponible, la cual es 90% efectiva en el siguiente sentido. Si un conductor es incompetente, la probabilidad de que la prueba así lo indicará es 0.9; y si un conductor no es incompetente, la probabilidad de que la prueba así lo indicará es también 0.9. Dado que la prueba indica que un conductor en particular es incompetente, ¿cuál es la probabilidad condicional de que el conductor sea de hecho incompetente? 3.20 Jorge Jugador siempre juega vía la siguiente estrategia. Si el obtiene una flor (cinco cartas del mismo palo), el conserva este juego. Si el obtiene 4 cartas de un palo y una de otro, el descarta la carta que no coincide y extrae otra. De otra manera, el no intenta una flor. ¿Cuál es la probabilidad de que el, ya sea, obtendrá o intentará exitosamente una flor? Percy Paranoia virtualmente tiene la certeza de que la moneda que él tiene está cargada. De hecho, el atribuye una probabilidad subjetiva de 0.9 al evento de que la moneda tiene PROBABILIDAD CONDICIONAL E INDEPENDENCIA 97 probabilidad 0.75 de caer águila y sólo probabilidad 0.1 al evento de que la moneda está balanceada (tiene probabilidad 0.5 de caer águila). Si 4 lanzamientos independientes de la moneda producen 2 águilas y 2 soles, ¿cómo debe Percy modificar sus probabilidades subjetivas? Considere dos urnas. La urna I contiene 4 bolas rojas y 2 bolas blancas, y la urna II contiene 3 bolas de cada color. Si 2 bolas son extraídas de la urna I sin reemplazo y transferidas a la urna II y entonces una bola es extraída de la urna II, ¿cuál es la probabilidad de que la bola extraída de la urna II será roja? Dado que la bola extraída de la urna II fue roja, ¿cuál es la probabilidad condicional de que (a) 0, (b) 1, (c) 2 bolas rojas fueran transferidas? En el Problema 3.22 suponer que 2 bolas son extraídas sin reemplazo de la urna II. Dado que ambas son rojas, ¿cuál es la probabilidad condicional de que (a) 0, (b) 1, (c) 2 bolas rojas fueran transferidas? 3.24 En el Ejemplo 3.2.4, (a) encontrar la probabilidad de que una familia tenga exactamente k niños. (b) Encontrar la probabilidad condicional de que una familia tenga n hijos dado que tiene exactamente k niños. 3.25 En el Ejemplo 3.2.5, ¿cuál es la probabilidad condicional: (a) Que un conductor tendrá un accidente dado que tiene una edad menor de 46 años? (b) Que un conductor sea menor de 45 años de edad dado que el tiene un accidente? NOTA: Problemas 3.26 a 3.29 esboza una aplicación de probabilidad condicional a la teoría del aprendizaje matemático; ver Estes (1959). Cada día un animal experimental es expuesto a un cierto conjunto de estímulos diseñados para producir una respuesta particular. Sea Ak el evento que el animal realice la respuesta deseada en el k-ésimo día, y suponer que P(Ak +1 Ak) = y P(Ak +1 Ak´) = , donde 0 < < 1. 3.26 Sea pk = P(Ak). Mostrar que pk +1 = + ( )pk. 3.27 Si = 1 y p1 = 0, mostrar que pk = 1 (1 )k –1. 3.28 Mostrar que lim pk = /(1 + ) cuando k . 3.29 Si = 0.05, = 0.9, y p1 = 0, encontrar la probabilidad de que el animal realizará la respuesta deseada en los días 11 y 12. NOTA: Problemas 3.30 a 3.34 desarrollan propiedades del esquema de la urna de Polya, que puede ser descrito como sigue. Bolas son tomadas secuencialmente de una urna que inicialmente contiene r 1 bolas rojas y w 1 bolas blancas. Después de cada extracción, la bola extraída se regresa a la urna junto con t 1 bolas del mismo color. 3.30 Mostrar que la probabilidad de tomar bolas rojas en las primeras k extracciones es 98 PROBLEMAS r t k 1k r t w t k 1k 3.31 Mostrar que la probabilidad de tomar bolas rojas en las primeras k extracciones y bolas blancas en las siguientes j extracciones es p r t k 1k w t j 1 j r t w t n 1n donde n = k + j. 3.32 Mostrar que la probabilidad de tomar exactamente k bolas rojas en las primeras n = k + n j extracciones es p , donde p es como en el Problema 3.31. k 3.33 Mostrar que la probabilidad incondicional de tomar una bola roja en la segunda extracción es r/(r + w). 3.34 Mostrar que la probabilidad de tomar una bola roja en la n-ésima extracción es r/(r + w) para cualquier n = 1, 2,. 3.35 Tres misiles son disparados a un blanco. Si sus probabilidades de dar en el blanco son 0.4, 0.5, y 0.6, respectivamente, y si los misiles son disparados independientemente, ¿cuál es la probabilidad: (a) Que los tres misiles den en el blanco? (b) Que al menos uno de los tres dé en el blanco? 3.36 En el Problema 3.35 encontrar la probabilidad de que (a) exactamente 1; (b) exactamente 2 de los misiles den en el blanco. 3.37 Un dado está cargado de tal manera que la probabilidad de que exactamente k puntos aparecerán cuando sea lanzado es proporcional a k. Si dos lanzamientos independientes del dado son hechos, ¿cuál es la probabilidad de que la suma de puntos será 7? 3.38 En el Problema 3.37 ¿cuál es la probabilidad de que el mismo número de puntos aparecerá en ambos dados? 3.39 Pedro y Pablo cada uno lanzan una moneda no cargada hasta que un águila ha aparecido: (a) ¿Cuál es la probabilidad de que requerirán el mismo número de lanzamientos? (b) ¿Cuál es la probabilidad de que Pedro requerirá más lanzamientos que Pablo? PROBABILIDAD CONDICIONAL E INDEPENDENCIA 99 Suponga que los resultados de todos los lanzamientos son independientes. 3.40 En el Problema 3.39 ¿cuál es la probabilidad de que Pedro requerirá al menos dos veces más lanzamientos que Pablo? 3.41 Dos encuestadores de opinión toman muestras aleatorias independientes de tamaño k = 5 sin reemplazo de una población de 5 Demócratas y 5 Republicanos. ¿Cuál es la probabilidad de que las dos muestras contendrán exactamente el mismo número de Demócratas? 3.42 Si A es independiente de A, ¿qué puede ser dicho acerca de la P(A)? 3.43 Mostrar, directamente de la definición, que si A, B, y C son independientes, entonces así son A´, B´, y C´. 3.44 Sean dos dados balanceados lanzados. ¿Cuáles de los siguientes pares de eventos son independientes? (a) A es el evento de que a lo más 2 puntos aparecen en el primer dado, y B es el evento de que al menos 2 aparecen en el segundo dado. (b) A es el evento de que el número total de puntos en los dos dados es impar, y B es el evento de que el número total de puntos excede 7? 3.45 Permita que cuatro cartas sean extraídas sin reemplazo de un paquete estándar de bridge. ¿Cuáles de los siguientes pares de eventos son independientes? (a) A es el evento de que hay exactamente 2 corazones, y B es el evento de que hay al menos 1 espada. (b) A es el evento de que hay por lo menos 2 espadas, y B es el evento de que hay al menos 1 as. 3.46 La independencia o dependencia de eventos depende no sólo sobre los eventos mismos sino también sobre la función de probabilidad P. Por ejemplo, considere un lanzamiento de un dado, y sea A el evento de que el 1 ó 6 puntos aparecen, y sea B el evento de que un número impar de puntos aparece. Entonces, A y B son independientes si el dado está balanceado, pero ellos no son independientes si el dado está cargado de tal manera que la probabilidad de obtener k puntos es proporcional a k. 3.47 Una cadena de luces de árbol de navidad está conectada en serie, así que si cualquiera de los focos no funciona, ninguno de los focos prende. Si hay 20 focos y cada uno funciona mal con probabilidad p = 0.1, ¿cuál es la probabilidad de todos los 20 focos prenderán? Suponga independencia. 3.48 Un dado no cargado es lanzado repetidamente. Si 1 ó 6 puntos aparecen en el primer lanzamiento, usted gana. Si k puntos aparecen en el primer lanzamiento, donde 2 k 5, el dado es lanzado hasta que 1, k, ó 6 puntos aparecen. Si k puntos aparecen antes de 100 PROBLEMAS 1 ó 6, entonces gana. De otro modo, pierde. Calcular la probabilidad de que usted gane. Sugerencia: Sea An el evento de que usted gana después de exactamente n lanzamientos y encontrar la probabilidad de A1 A2 . 3.49 Sean S y T conjuntos infinitos contables o finitos, sea Po una medida de probabilidad sobre , la clase de todos los subconjuntos de S, y para cada s S sea Qs una medida de probabilidad sobre , la clase de todos los subconjuntos de T. (a) Definir P sobre la clase de subconjuntos de S T por P(B) = B Qs tPo s , donde la sumatoria se extiende sobre todo (s,t) B. (b) Mostrar que P es una medida de probabilidad. 3.50 Como una continuación del Problema 3.49, para A S, mostrar que P(A T) = Po(A). Mostrar también, que si Po({s}) > 0, entonces P(S B {s} T) = Qs(B) para B T. 4 4 LAS PROBABILIDADES BINOMIALES Y RELACIONADAS 4.1 LAS PROBABILIDADES BINOMIALES En esta sección consideraremos eventos independientes A1, An con la misma probabilidad P(Ai) = p, i = 1, n. Un contexto en que tales eventos surgen es ese de ensayos independientes del mismo experimento. Así, sea (S0,0,P0) un espacio de probabilidad, e imagine el experimento al cual (S0,0,P0) se refiere para ser repetido n veces, donde n es un entero positivo. Además, sea A 0 un evento que se refiere al experimento básico, y sea Ai el evento que A ocurre en el i-ésimo ensayo (repetición). Entonces, como se explicó en la Sección 3.5, A1,,An son eventos mutuamente independientes con la misma probabilidad P(Ai) = P0(A), i = 1,, n. Teorema 4.1.1 Sean A1,,An eventos independientes con probabilidad común P(Ai) = p, i = 1,, n. Entonces la probabilidad de que exactamente k de los A1,,An ocurrirán es n b k; n, p p k q n k k para k = 0,, n, donde q = 1 – p. PRUEBA Para cualquier subconjunto fijo J {1,,n}, sea (1.1) 102 LAS PROBABILIDADES BINOMIALES BJ Ai Ai iJ iJ el evento que Ai ocurre para i J y Ai no ocurre para i J. Si hay k elementos en J, entonces P BJ P Ai P Ai p k q nk iJ iJ por la independencia A1,,An, puesto que P(Ai) = p y P( Ai ) = 1 – p = q, i = 1,, n . Ahora el evento que exactamente k de A1,,An ocurran es simplemente E k BJ J k donde la unión se extiende sobre todos los subconjuntos J de tamaño k. Puesto que los n eventos BJ son mutuamente excluyentes, y puesto que hay subconjuntos de tamaño k k, ahora se sigue que n P Ek P BJ p k q nk k J k como se aseveró. //// La Ecuación (1.1) es una de las fórmulas más importantes en toda la teoría de probabilidad. Su lado derecho define las probabilidades binomiales, que están tabuladas en el Apéndice Tabla C.1 para valores seleccionados de n y p.1 Como se explicó arriba, se aplica a repeticiones independientes de cualquier experimento fijo. EJEMPLO 4.1.1 El Teorema 4.1.1 contiene la Ecuación (5.4) del Capítulo 1 como un caso especial. Sin duda, si una muestra aleatoria ordenada de tamaño n es tomada con remplazo de una urna conteniendo r bolas rojas y w bolas blancas, y si permitimos a Ai ser el evento que una bola roja sea tomada en la i-ésima selección, i = 1,, n, entonces A1,,An son independientes con probabilidad común P(Ai) = p = r/(r + w), la proporción de bolas rojas en la urna (Ejemplo 3.3.4). Note que q = w/(r + w). Por tanto, la probabilidad que exactamente k bolas rojas serán tomadas es 1 1 Tablas más extensas serán encontradas en Beyer (1966) o Selby (1965). LAS PROBABILIDADES BINOMIALES Y RELACIONADAS n r w k r w r w k que es (5.4) del Capítulo 1 en una notación diferente. 103 n k //// EJEMPLO 4.1.2 a Si una moneda balanceada es lanzada n veces, la probabilidad que exactamente k n águilas resultaran es b(k;n,½) = 2 n . Para el caso especial donde n = 8, estas k probabilidades están dadas en la Tabla 5. Los valores restantes pueden ser obtenidos por la simetría b(k;n,½) = b(n – k;n,½), y una gráfica será encontrada en la Figura 4. b Si un par de dados balanceados son lanzados n veces, entonces la probabilidad que justo k de ellos producirán un total de exactamente 7 puntos es b(k;n,16) porque la probabilidad que un total de 7 puntos resultarán de un lanzamiento es 16. c Si un jugador de bridge juega 8 manos durante una tarde, ¿cuál es la probabilidad de que el no obtendrá ases en exactamente 4 de las manos? La probabilidad de que él no 48 52 obtendrá ases en una simple mano es p 0.3038 . Así, si las manos son 13 13 dadas independientemente una de otra, la probabilidad de no obtener ases en exactamente 4 manos es b(4;8,p). Por interpolación lineal en la Tabla 1 encontramos b(4;8,p) 0.14. d Suponer que la probabilidad de curar una enfermedad dada en animales experimentales con un tratamiento dado es p = 0.7. Si el tratamiento es administrado independientemente a n = 10 de tales animales, entonces la probabilidad que exactamente 7 serán curados es b(7;10,0.7) = 0.267. //// Para referencia posterior, observamos la simetría b k ; n, p bn k ; n,q (1.2) que fue usada antes en un caso especial. Algunas propiedades de b(k;n,p) pueden ser deducidas de la identidad b k; n, p n k 1 p b k 1; n, p kq que se cumple para 0 < p < 1 y k = 1,, n. Para establecer (1.3) observe que (1.3) 104 LAS PROBABILIDADES BINOMIALES n b k ; n , p p k q n k k n k 1 n k n k p q k k 1 n k 1 p b k 1; n , p k q para k = 1,, n y 0 < p < 1. Tabla 5 k 0 1 2 3 4 b(k;8,½) = 0.0039 0.0313 0.1094 0.2188 0.2734 Puesto que (n – k + 1)p > kq si y sólo si k < (n +1)p, se sigue de (1.3) que b(k – 1;n,p) < b(k;n,p) para k < (n + 1)p. Eso es, b(k;n,p) es una función creciente de k sobre el intervalo 0 k < (n + 1)p. Asimismo, b(k;n,p) es una función decreciente sobre el intervalo (n + 1)p < k n. En particular, b(k;n,p) es maximizada tomando k = [(n + 1)p], el entero más grande que es menor que o igual a (n + 1)p. Una descripción más completa del comportamiento de las probabilidades binomiales será dada en la Sección 4.5. En el contexto del Teorema 4.1.1, es de interés buscar la probabilidad que al menos k o a lo más k de los eventos A1,,An ocurran. Dejando que Ek denote el evento que exactamente k de los A1,,An ocurran, los últimos eventos son n Lk E j k Mk E j y jk j 0 respectivamente. Puesto que los eventos E0,,En son mutuamente excluyentes, ahora tenemos el siguiente corolario. Corolario 4.1.1 Sean A1,,An independientes con probabilidad común P(Ai) = p, i = 1,, n. Entonces n P Lk b j ; n , p (1.4a ) jk k P M k b j ; n , p j 0 para k = 0,, n. (1.4b) 105 LAS PROBABILIDADES BINOMIALES Y RELACIONADAS EJEMPLO 4.1.3 a Si una moneda balanceada es lanzada 20 veces, la probabilidad de obtener exactamente 10 águilas es b(10;20,0.5) = 0.1762. La probabilidad de obtener al menos 10 águilas es b(10;20,0.5) + + b(20;20,0.5) = 0.5881. b Si la probabilidad de curar una cierto tipo de enfermedad en animales experimentales con un tratamiento particular es p = 0.7, y si el tratamiento es administrado independientemente a 10 de tales animales, entonces la probabilidad que al menos 7 serán curados es b(7;10,0.7) + + b(10;10,0.7) = 0.6496. //// El Teorema 4.1.1 puede ser generalizado. Así, considere un espacio de probabilidad (S0,0,P0), y sean A1,,Ak, k 2, eventos exhaustivos y mutuamente excluyentes. Además, denote la probabilidad de Ai por pi, así que pi 0, i = 1,, k y p1 + + pk = 1. Ahora imagine el experimento al cual (S0,0,P0) se refiere repetido n veces independientemente, donde n es un entero positivo, y sean n1, nk enteros para los cuales ni 0 i 1, , k n1 nk n (1.5) Entonces podemos calcular la probabilidad que Ai ocurra exactamente ni veces durante los n ensayos, i = 1,, k. Teorema 4.1.2 La probabilidad que Ai ocurra exactamente ni veces, i = 1,, k, es n n1 n mn1 , ,nk ; p p1 pk k n1 , ,nk (1.6) para todos los n1,,nk que satisface (1.5). Aquí p denota el vector p = (p1,,pk), y n n! n1 ,nk n1!nk! denota el coeficiente multinomial. PRUEBA La prueba del Teorema 4.1.2 es análoga a la del Teorema 4.1.1, al cual generaliza. Sea Aij el evento que Ai ocurra sobre el j-ésimo ensayo, i = 1,, k, j = 1,, n, y para cada partición = (1,,k) de los enteros {1,,n}, sea k B Aij i 1 j i 106 LAS PROBABILIDADES BINOMIALES el evento que Ai ocurre en ensayos j i, i = 1,, k. Entonces, por independencia, k k P B P Aij piri i 1 j i i 1 donde ri = i denota el número de elementos en i, i = 1,, k. Ahora, el evento que Ai ocurra exactamente ni veces, i = 1,, k, es simplemente C = B, donde la unión se extiende sobre todo para el cual i = ni, i = 1,, k. Por tanto, puesto que los eventos n B son mutuamente excluyentes, y puesto que hay de tales , por el n1 , , n k Teorema 1.2.3, se sigue que n k ni PC pi n1 , ,nk i 1 como se aseveró. //// Las probabilidades (1.6) son conocidas como las probabilidades binomiales. EJEMPLO 4.1.4 a Si un dado balanceado es lanzado 12 veces, la probabilidad que cada cara aparezca exactamente dos veces es 12 12 12! 12 6 6 6 0.0034 2 2 , ,2 (Sea Ai el evento que exactamente i puntos aparezcan en un sólo lanzamiento, i = 1,, 6, y observe que p1 = p2 = = p6 = 1/6.) b En una tarde de bridge, Sur juega 6 manos. ¿Cuál es la probabilidad que Sur tendrá exactamente 2 ases en exactamente 2 manos, exactamente 1 as en exactamente 2 manos, y ningún as en exactamente 2 manos? En una sola mano, la probabilidad que Sur reciba exactamente i ases es 4 48 i 13 i pi 52 13 para i = 0,, 4 por el Teorema 1.4.1. La probabilidad deseada es por tanto LAS PROBABILIDADES BINOMIALES Y RELACIONADAS 6 2 2 2 0 0 6 2 2 2 p0 p1 p2 p3 p4 p0 p1 p2 2 ,2 ,2 ,0,0 2 ,2 ,2 107 //// 4.2 LAS PROBABILIDADES BINOMIALES NEGATIVAS En esta sección continuamos nuestro estudio de ensayos independientes de un experimento. Así, sea (S0,0,P0) un espacio de probabilidad, e imagine el experimento al cual (S0,0,P0) se refiere para ser repetido n veces, donde n es un entero positivo. Como en la sección previa, sean A 0, y Ai el evento que A ocurre sobre el i-ésimo ensayo, i = 1,, n, de modo que A1,,An son mutuamente independientes con probabilidad común p = P0(A). Calcularemos la probabilidad que A ocurra por r-ésima vez sobre el k-ésimo ensayo para cualesquiera enteros r y k con 1 r k n. Para r = 1, esto es fácil. Sin duda, el evento que A ocurra por primera vez sobre el k-ésimo ensayo es simplemente Bk = A1 Ak 1 Ak, de modo que P(Bk) = P( A1 ) P( Ak 1 )P(Ak) = pqk-1, donde q = 1 – p. Para r > 1, tenemos. Teorema 4.2.1 es La probabilidad que A ocurra por r-ésima vez en el k-ésimo ensayo k 1 r k r a k ; r , p p q r 1 (2.1) para 1 r k n. En particular, la probabilidad que A ocurra por primera vez en el k-ésimo ensayo es a(k;p) = a(k;1,p) = pqk - 1 (2.2) para k = 1, n. PRUEBA A ocurrirá por r-ésima vez en el k-ésimo ensayo si y sólo si Ak ocurre y exactamente r – 1 de A1,,Ak-1 ocurren. Sea B el evento que exactamente r – 1 de A1,,Ak-1 ocurren. Entonces k 1 r 1 k r P(B) = b(r - 1;k - 1, p) = p q r 1 por el Teorema 4.1.1. Más aún, Ak y B son independientes, puesto que B depende sólo de A1,,Ak-1 por los Teoremas 3.4.1 y 3.4.2. Por tanto, 108 LAS PROBABILIDADES BINOMIALES NEGATIVAS k 1 r k r P(BAk) = P(B)P(Ak) = pP(B) = p q r 1 como se aseveró. //// EJEMPLO 4.2.1 En lanzamientos repetidos de una moneda balanceada, la probabilidad que la primera águila aparezca en el k-ésimo lanzamiento es 2-k. La probabilidad que la r k 1 k ésima águila aparezca en el k-ésimo lanzamiento es //// 2 . r 1 EJEMPLO 4.2.2 La serie mundial a Suponer que dos equipos I y II juegan una serie de a lo más 7 juegos con la convención que el primer equipo que gane 4 juegos gana la serie. Suponer también que los sucesos de los juegos son independientes uno de otro y que el equipo I tiene una probabilidad constante p de ganar en cada juego. Sea Bk el evento que el equipo I gana la serie en exactamente k juegos. Entonces Bk es el evento que el equipo I gane por k 1 4 k 4 cuarta vez en el k-ésimo juego, así que P Bk para k = 4,5,6,7. El p q 3 evento que el equipo I gane la serie es entonces B = B4 B5 B6 B7, así que 7 k 1 4 k 3 P B p q k 4 3 Ver Tabla 6. b Si los equipos igualmente parejos, p = 0.5, ¿cuál es la probabilidad que la serie requerirá todos los 7 juegos? Requerimos la probabilidad que el equipo I gane por Tabla 6 p 0.55 0.60 0.65 0.70 0.75 P(B) 0.6083 0.7102 0.8002 0.8740 0.9294 cuarta vez en el séptimo juego o el equipo II gane por cuarta vez en el séptimo juego. Los dos eventos son mutuamente excluyentes, y ellos tienen la misma probabilidad por 6 simetría. Así, la respuesta es 2 2 7 0.3125 . //// 3 LAS PROBABILIDADES BINOMIALES Y RELACIONADAS 109 Los lados derechos de (2.1) y (2.2) son independientes de n, y por tanto a(k;r,p) = k 1 r k r están definidos para toda k = r, r + 1,. Estos números son conocidos como p q r 1 las probabilidades binomiales negativas y en el caso especial que r = 1, a(k;p) = pqk-1, k = 1, 2,, son conocidos como las probabilidades geométricas. Ahora mostraremos que ellas son, de hecho, probabilidades. Lema 4.2.1 Si p > 0, entonces para cualquier r = 1, 2,, tenemos k 1 r k r p q 1 k r r 1 (2.3) PRUEBA Para fijo n 1, considere n ensayos de un experimento, como en el párrafo inicial de esta sección. Sea Cn el evento que A ocurre r – 1 veces o menos, y para k = r,, n sea Bk el evento que A ocurre por r-ésima vez después de exactamente k ensayos. Entonces Cn, Br,, Bn son eventos exhaustivos, mutuamente excluyentes, así k 1 r k-r que P(Cn) + P(Br) + + P(Bn) = 1. Más aún, P(Bk) = p q para k = r,, n, así r 1 que n k 1 r k r PCn p q 1 k r r 1 Por tanto, será suficiente mostrar que lim P(Cn) = 0 cuando n . Para ver esto observe que r 1 n PCn p j q n j j 0 j n por el Corolario 4.1.1 y que p j q n j ~ p j q j n j q n j !, que tiende a cero cuando n j para cada j fijo, puesto que q < 1. Una prueba alterna puede ser basada en el teorema binomial generalizado de la Sección 1.7. //// Las probabilidades geométricas tienen una propiedad interesante que puede ser descrita como carencia de memoria. Como en la introducción a esta sección, sea A un evento, y sea Ai el evento que A ocurre sobre el i-ésimo de n ensayos independientes del experimento al cual A se refiere. Además, permítasenos referir a la ocurrencia de Ai como “éxito” sobre el iésimo ensayo y a la no ocurrencia de Ai como “fracaso.” Sea Ck el evento que no hay éxitos 110 TEOREMA DE POISSON: LA LEY DE EVENTOS RAROS durante los primeros k ensayos. Equivalentemente, Ck puede ser descrito como el evento que el primer éxito toma lugar después del k-ésimo ensayo, si acaso. Ahora P(Ck + j | Ck) = P(Cj) (2.4) para todos los enteros positivos k y j para los cuales k + j n. Para ver esto, simplemente observe que Ck A1 Ak , así que P(Ck) = qk por independencia. Puesto Ck+j implica Ck, ahora tenemos P(Ck+j Ck) = P(Ck+j)/P(Ck) = qk+j/qk = qj = P(Cj), como se aseveró La Ecuación (2.4) puede ser parafraseada como sigue. Dado que uno ha esperado al menos k ensayos sin un éxito, la probabilidad condicional que uno tenga que esperar j ensayos adicionales para un éxito es la misma que la probabilidad que uno tenga que esperar j ensayos antes de un éxito al inicio. Eso es, el proceso “olvida” la cadena inicial de k fracasos. Esta propiedad es, de hecho, característica de las probabilidades geométricas (ver Problema 5.12). 4.3 TEOREMA DE POISSON: LA LEY DE EVENTOS RAROS En esta sección desarrollará una aproximación a las probabilidades binomiales n b k ; n , p p k q n k k que es válida cuando n es grande, p es pequeña, y el producto = np es moderado. Más precisamente, probaremos el siguiente teorema. Teorema 4.3.1 Sea p1, p2, una sucesión de números reales para los cuales 0 < pn < 1, n 1, lim pn = 0, y lim npn = , cuando n , cuando 0 < < . Entonces lim b k; n, pn 1 k e k! cuando n para cualquier k = 0, 1, 2,. En la prueba del Teorema 4.3.1, necesitaremos el siguiente lema de análisis. Lema 4.3.1 Sea x, x1, x2, una sucesión de números reales. Si lim xn = x cuando n , entonces n x lim 1 n e x n LAS PROBABILIDADES BINOMIALES Y RELACIONADAS 111 cuando n . PRUEBA Puesto que xn x, se sigue que xn/n 0 cuando n . Por tanto, hay un entero n0 para el cual xn/n ½ para n n0. Para tal n, podemos usar el Teorema de Taylor (Sección 1.7) para escribir 2 x x x log 1 n n 21 1 y n n n n 2 donde y = y(xn,n) es un valor intermedio y y xn/n ½. Por tanto, 2 2 x x n log1 n xn 21 1 y n x n n cuando n . Por tanto, n xn xn x 1 exp n log1 e n n cuando n . //// Sea n = npn. Entonces n , por suposición, y PRUEBA del Teorema 4.2.1 n n k b k ; n, pn pnk 1 pn k 1 ( n ) k k n n 1 k ! nk n n n 1 n k (3.1) para k = 0, 1, 2,. Cuando n , los factores sobre el lado derecho de (3.1) convergen a 1/k!, 1, k, e-, y 1, respectivamente. El teorema se sigue. //// Los números p k ; 1 k e k! k 0, 1, 2 , (3.2) son conocidos como las probabilidades Poisson y están tabuladas en el Apéndice Tabla C.2 para varios valores de k y . Observamos que ellas probabilidades (suman 1), porque 1 k e k 0 k ! por el Teorema de Taylor (Sección 1.7). 112 TEOREMA DE POISSON: LA LEY DE EVENTOS RAROS El contenido del Teorema 4.3.1 ahora puede ser establecido de alguna manera más informalmente como sigue. Si n es grande, p es pequeña, y el producto = np es moderado, entonces las probabilidades binomiales b(k;n,p) pueden ser aproximadas por las probabilidades Poisson p(k;). El requisito de que n sea grande y p sea pequeña conduce aún a otra descripción de las probabilidades Poisson. Las probabilidades Poisson p(k;) dan la probabilidad de ocurrencia de exactamente k de un número grande n de eventos improbables (p pequeña). Por esta razón, las probabilidades Poisson son conocidas como la ley de eventos raros. EJEMPLO 4.3.1 Suponer que una máquina en una línea de ensamble tiene probabilidad p = 0.01 de producir una pieza defectuosa cada vez que opera. Si la máquina produce 300 piezas durante un día dado, entonces la probabilidad que exactamente 4 de las 300 serán defectuosas es aproximadamente p(4;3) = 0.168. La probabilidad que a lo más 4 de las 300 piezas serán defectuosas es aproximadamente p(0;3) + p(1;3) + p(2;3) + p(3;3) + p(4;3) = 0.815. //// EJEMPLO 4.3.2 Conexiones a un número equivocado. Durante un periodo de 24 horas una operadora telefónica maneja un gran número de llamadas, digamos n llamadas. Hay también una pequeña probabilidad p de que cada llamada será conectada a un número equivocado. Podemos por tanto esperar la probabilidad de exactamente k conexiones a un número equivocado para ser aproximadamente p(k;), donde = np. //// EJEMPLO 4.3.3 Descomposición radioactiva. Considere una substancia radioactiva que emite partículas radioactivas a una razón de por segundo. Eso es, suponer que durante un largo intervalo de tiempo, la proporción promedio de emisión es por segundo (el número emitido durante cualquier segundo será, por supuesto, aleatorio). Si hay un total de n partículas en la substancia, parece razonable suponer que cada una será emitida con probabilidad aproximadamente p = (1/n)t durante un intervalo de tiempo de longitud t. También parece razonable suponer que las partículas son emitidas independientemente una de otra. Con estas suposiciones, se sigue del Teorema 4.3.1 que la probabilidad de exactamente k emisiones durante un intervalo de tiempo de longitud t es aproximadamente p( k ; t ) 1 ( t ) k e t k! LAS PROBABILIDADES BINOMIALES Y RELACIONADAS 113 para k = 0, 1, 2,. La derivación anterior es incompleta, pero el resultado es correcto, provisto sólo que t es pequeño comparado con la vida-promedio de la substancia. Regresaremos a esta cuestión en la Sección 7.6. //// 4.4 LA CURVA NORMAL En la siguiente sección, desarrollaremos otra aproximación a las probabilidades binomiales b(k;n,p). La nueva aproximación es válida cuando npq es grande y es por tanto complementaria a la aproximación Poisson de la Sección 4.3. La aproximación involucra a la función ( x) 1 21 x2 e 2 x a la que nos referiremos como la función de densidad normal estándar (Figura 2). Figura 2. La función de densidad normal estándar (4.1) 114 LA CURVA NORMAL Claramente, es simétrica alrededor de cero [(x) = (–x)], y alcanza su valor máximo de 1 2 en x = 0. Más aún, diferenciación muestra que x 1 x 2 x , así que tiene puntos de inflexión en 1. Así, la gráfica de es en forma de campana. Necesitaremos el siguiente lema. Lema 4.4.1 xdx 1. PRUEBA Sea I e 21 x 2 dx Entonces, debemos mostrar que I 2 o, equivalentemente, que I 2 = 2. Ahora I exp [ 12 ( x 2 y 2 )]dxdy 2 Haga el cambio de variable1 x = r cos , y = r sen . Entonces, x2 + y2 = r2, y dx dy = r dr d. Por tanto, 2 I 2 0 0 re 2 0 re 21 r 2 dr 2e 21 r 2 0 2 12 r 2 d dr //// Necesitaremos una notación para la integral indefinida de . Sea ( x) ( y) dy x x (4.2) es conocida como la función de distribución normal estándar. La expresión para no puede ser simplificada, pero ha sido calculada numéricamente y está tabulada en el Apéndice Tabla C.3. Damos una forma abreviada de esta tabla en la Figura 3. El valor de (x) para valores negativos de x puede ser obtenido de la identidad x 1 x x (4.3) que se sigue fácilmente de la simetría de . De hecho, el cambio de variables u = –y muestra 1 2 Integrales múltiples son discutidas en la Sección 6.4, y la fórmula del cambio de variable para integrales múltiples es discutida en la Sección 7.4. Para una discusión elemental de estos conceptos ver, por ejemplo, Thomas (1972), Cap. 15. LAS PROBABILIDADES BINOMIALES Y RELACIONADAS x 115 ( x) ( y) dy x (u) du 1 ( x) por la simetría de y el Lema 4.4.1. Figura 3. La función de distribución normal estándar Finalmente, observamos que (x) se aproxima a 1 muy rápidamente cuando x . De hecho, tenemos la siguiente desigualdad. Lema 4.4.2 Para x > 0, 1 – (x) < (1/x)(x), y 1 – (x) (1/x)(x) cuando x . PRUEBA La derivada de (x) es –x(x), y la derivada de 1 – (x) es –(x), así que ( x) x y ( y) dy x[1 ( x)] x [1 ( y)] dy (4.4) para x > 0. La segunda igualdad se sigue de la integración por partes. Ahora el segundo término en la última línea de (4.4) es positivo, así que x[1 – (x)] (x) para x > 0, 116 APROXIMACIÓN NORMAL como se aseveró en el lema. Ahora reemplacemos 1 – (x) por su cota superior y-1(y) para obtener ( x ) x[1 ( x )] x x [1 ( x )] 1 ( y ) dy y 1 ( y ) dy x x 1 x [1 ( x )] x para x > 0. Así, 1 – (x) (1/x)(x) cuando x . //// 4.5 APROXIMACIÓN NORMAL La densidad normal puede ser usada para aproximar las probabilidades binomiales b(k;n,p) cuando n es grande. De hecho, el siguiente resultado es verdadero y será demostrado en la siguiente sección. Para p fijo, 0 < p < 1, sea xnk k np npq (5.1) y defina rnk por npq b( k ; n, p) ( xnk ) rnk Entonces el término remanente rnk es insignificante cuando n es grande en el sentido que lim max rnk 0 k cuando n Eso es, podemos aproximar las probabilidades binomiales b(k;n,p) por la expresión más simple (xnk)/ npq cuando n es grande, y denotaremos la relación escribiendo npq b( k ; n, p) ( xnk ) (5.2) Como un corolario, vemos que una gráfica de barras de las probabilidades binomiales b(k;n,p) tiene la forma aproximada de la densidad normal estándar centrada en k = np con unidades de ancho 1 npq en ambos ejes k y b(k;n,p) (Figura 4). Cuando p = 0.5, la aproximación es excelente para valores de n tan pequeños como n = 8. LAS PROBABILIDADES BINOMIALES Y RELACIONADAS 117 Figura 4. Aproximación normal a la binomial. Para establecer nuestro siguiente resultado, usaremos la siguiente notación. Escribiremos Pr () para denotar la probabilidad del evento descrito en los paréntesis. Por ejemplo, si A1,,An son eventos independientes con la misma probabilidad P (Ai) = p, y si X denota el número de A1,,An que de hecho ocurren, entonces Pr (j X k) denotará la probabilidad del evento que al menos j y a lo más k de los eventos A1,,An ocurran para 0 j k n. Por los Teoremas 2.3.3 y 4.1.1, esto es k Pr ( j X k ) b(i ; n , p) i j Podemos ahora establecer el siguiente resultado, que está relacionado a (5.2). Sean A1,,An y X como antes, y sea 0 j k n. Definir y por j np 21 npq y k np 21 npq (5.3) y defina rn rn j, k por Pr ( j X k ) ( ) ( ) rn (5.4) 118 APROXIMACIÓN NORMAL Entonces el término remanente rn es insignificante para valores grandes de n. Eso es, podemos aproximar Pr (j X k) por la expresión más simple () – (), y denotaremos la relación por Pr (j X k) () () (5.5) Es difícil sobre enfatizar el poder de (5.5), porque da una aproximación efectiva, simple a sumas complicadas de probabilidades binomiales. Las relaciones (5.2) y (5.5) son conocidas como los teoremas límite local e integral de DeMoivre-Laplace, respectivamente. Los probaremos en la siguiente sección. La relación (5.5) es un caso especial del teorema límite-central, que discutimos en la Sección 9.4. Ahora consideremos algunos ejemplos. EJEMPLO 4.5.1 La aproximación (5.5) es generalmente muy buena cuando p es cercana a ½. Denote X el número de águilas en n lanzamientos de una moneda balanceada. Damos en la Tabla 7 los valores exactos y aproximados de k Pr (0 X k ) b(i ; n , 21 ) i 0 para valores seleccionados de n y k. Tabla 7 VALORES EXACTOS Y APROXIMADOS DE Pr (X k) n = 8 y p = 0.5 n = 16 y p = 0.5 k 0 Exacto 0.004 Aprox. 0.006 Error -0.002 k 0 Exacto 0.0000 Aprox. 0.0001 Error -0.0001 1 0.035 0.038 -0.003 1 0.0003 0.0006 -0.0003 2 0.145 0.144 0.001 2 0.0021 0.0030 -0.0009 3 0.363 0.361 0.002 3 0.0106 0.0122 -0.0016 4 0.637 0.638 -0.001 4 0.0384 0.0401 -0.0017 5 0.1051 0.1056 -0.0005 6 0.2272 0.2266 0.0006 7 0.4018 0.4013 0.0005 8 0.5982 0.5987 -0.0005 Por simetría, la aproximación debe ser completamente tan buena en el rango k > 0.5n como en el rango k < 0.5n. Así, el error (exacto – aproximado) es uniformemente pequeño para LAS PROBABILIDADES BINOMIALES Y RELACIONADAS 119 toda k para n tan chica como 8. El error relativo, (exacto – aproximado)/exacto, será grande para valores pequeños de k, sin embargo. Recíprocamente, la aproximación es generalmente pobre si p es cercana a 0 o a 1. Esto es claro de los resultados de la Sección 4.3. //// EJEMPLO 4.5.2 a En 400 lanzamientos de una moneda balanceada, ¿cuál es la probabilidad que el número de águilas, digamos X, diferirá de 200 por al menos 10? Requerimos 210 Pr (190 X 210) b(i ;400, 21 ) i 190 La relación (5.5) se aplica con n = 400, p = ½, j = 190, y k = 210. Encontramos fácilmente que np = 200, npq = 10, = –1.05, y = 1.05. Del Apéndice Tabla C.3, encontramos entonces que la probabilidad deseada es aproximadamente () () = 2(1.05) 1 = 0.706 b En 10,000 nacimientos, ¿cuál es la probabilidad que la proporción de varones este entre 0.49 y 0.51? Sea Ai el evento que el i-ésimo nacimiento sea varón, i = 1,,104, y suponer que los Ai son independientes con probabilidad 0.5. Entonces requerimos la probabilidad que 4900 X 5100, donde X es el número de Ai que ocurren. Tenemos np = 5000 y npq = 50, así que 4900 5000 0.5 2.01 50 y análogamente, = 2.01. Así, la probabilidad requerida es aproximadamente (2.01) – (–2.01) = 2(2.01) – 1 = 0.956. c Un investigador médico cree que la probabilidad de curar un tipo particular de enfermedad en ratones de laboratorio con un tratamiento particular es p = 0.7. Si el está en lo correcto, y si el administra el tratamiento independientemente a 100 de tales ratones, ¿cuál es la probabilidad que al menos 65 de ellos serán curados? Aquí tenemos n = 100, p = 0.7, j = 65, y k = 100. Después de algunos cálculos, encontramos () – () = 0.885. //// Ahora discutiremos una aplicación práctica de (5.5). Considere una moneda con probabilidad desconocida p de que ocurra águila. Equivalentemente, considere una droga que tiene probabilidad desconocida p de curar una enfermedad, o considere de un electorado 120 APROXIMACIÓN NORMAL grande una proporción p que favorece a un candidato particular o demanda. Podemos estimar p como sigue. Lanzamos la moneda n veces; contamos el número de águilas que resultan, digamos Xn; y calculemos la frecuencia relativa águilas Fn = (1/n)Xn. De acuerdo a la interpretación frecuentista de probabilidad, Fn converge a p cuando n , así que parece razonable estimar p por Fn. Por tanto podemos buscar para constantes preasignadas > 0 y , 0 < < 1, ¿qué tan grande debe ser n para que Pr (| Fn p| ) (5.6) La entonces sirve como una medida natural de nuestra confianza que, de hecho, Fn – p , y sirve para medir la exactitud de nuestra estimación. Por ejemplo, si sabíamos que (5.6) se cumple para = 0.01 y = 0.99, entonces podríamos estar virtualmente ciertos que nuestra estimación Fn estaría dentro 0.01 de la p desconocida.1 Usando (5.5), podemos encontrar una n tal que (5.6) es aproximadamente satisfecha. EJEMPLO 4.5.3 Dados , , 0 < , < 1, ¿qué tan grande debe ser n para que (5.6) sea “aproximadamente” satisfecha? Sea j el entero más pequeño que es mayor que o igual a n(p – ), y sea k el entero más grande que es menor a o igual a n(p + ). Entonces k Pr (| Fn p| ) b(i ; n , p) i j que es aproximadamente () – () con = (j – np – ½)/ npq y = (k – np + ½)/ npq . Sea 2 = pq. Entonces, ambos y – difieren de n -1 a lo más por 1/ n . Puesto que es continua, se sigue que () – () es aproximadamente ( n 1 ) ( n 1 ) 2( n 1 ) 1 Así, si n es tan grande que 2( n -1) – 1 , entonces (5.6) debe ser aproximadamente satisfecha. Eso es, debemos tener n 1 2 1[(1 ) / 2]2 2 3 Los estadísticos se refieren al intervalo [Fn – , Fn + ] como un intervalo de confianza y a como el coeficiente de confianza. LAS PROBABILIDADES BINOMIALES Y RELACIONADAS 121 donde -1 denota la función inversa para . Finalmente, puesto que 2 = pq = p(1 – p) ¼ para 0 < p < 1, como es fácilmente verificado por diferenciación, vemos que la última condición será satisfecha si n n0, donde n0 1[(1 ) / 2]2 4 2 Así n0 parece ser la selección apropiada de n. (5.7) //// En aplicaciones, la Tabla 8 será muy útil. EJEMPLO 4.5.4 Suponer que dos candidatos, A y B, están buscando una oficina. Sea p la proporción del electorado que favorece al candidato A. Para estimar p, una encuesta de opinión es tomada. Eso es, una muestra aleatoria de tamaño n es seleccionada del electorado y tomada su preferencia. Denote Fn la proporción de la muestra que favorece a A. ¿Qué tan grande debe ser seleccionada n para que Pr (Fn– p 0.05) 0.95, aproximadamente? Si el electorado es grande, podemos ignorar la diferencia entre muestreo sin remplazo y muestreo con remplazo (ver Sección 1.5). Para muestreo con remplazo, (5.7) se aplica con = 0.05 y = 0.95 para producir n0 = 384 para el entero más cercano. //// Tabla 8 0.900 0.950 0.975 0.990 0.995 1 ( ) 1.282 1.645 1.960 2.326 2.576 4.6 LOS TEOREMAS DE DEMOIVRE-LAPLACE1 En esta sección discutiremos las pruebas de (5.2) y (5.5). Recuerde que an bn significa anbn1 1 cuando n . Teorema 4.6.1 Sea 0 < p < 1, y sea kn cualquier sucesión de enteros para la cual 0 kn n para n 1, y sea 1 4 Esta sección puede ser omitida sin pérdida de continuidad 122 LOS TEOREMAS DE DEMOIVRE-LAPLACE xnkn k n np npq (6.1) Si kn depende de n de tal manera que lim n-1/6 x nkn = 0 cuando n , entonces cuando n . npqb k n ; n, p x nkn PRUEBA Para simplificar la notación permítasenos escribir k por kn, x por x nkn , y j por n – k. Entonces k np x npq (6.2a) j nq x npq (6.2b) por definición de x. Más aún, puesto que n-1/6x 0 cuando n , debemos también tener n-1/2x 0 cuando n , así que k/n p y j/n q cuando n . En particular, ambos k y j tienden a infinito cuando n , así que podemos aplicar la fórmula de Stirling (Sección 1.8) para deducir que k! ~ 2k k k e k j! ~ 2j j j e j n! ~ 2nn n e n cuando n . Si substituimos estas relaciones dentro de la definición de b(k;n,p) y usamos el hecho que k + j = n, encontramos que b( k ; n, p ) n! k j p q k ! j! k ~ n k j 2kj np nq j cuando n . Así, npq b( k ; n , p) An Bn ( x) (6.3) LAS PROBABILIDADES BINOMIALES Y RELACIONADAS donde n 2 pq An kj k Bn np y k 123 j 1 2 j x e2 nq así que será suficiente mostrar que lim An = 1 y lim Bn = 1 cuando n . Que An 1 cuando n es claro puesto que k/n p y j/n q, como nosotros observamos antes. Para mostrar que Bn 1 cuando n , escriba k y j en la forma de (6.2) para obtener log Bn k log k j j log 21 x 2 np nq q (np x npq ) log 1 x np p 1 2 (nq x npq ) log 1 x x nq 2 (6.4) Ahora, puesto que n-1/2x 0 cuando n , debemos tener x q 1 np 2 y x p 1 nq 2 para n suficientemente grande, digamos n n0. Para tal n, podemos expandir los términos logarítmicos en la serie de Taylor alrededor de 0 para obtener q q 1 2 q log 1 x x Rn x np np 2 np p p 1 2 p log 1 x x Rn x nq nq 2 nq donde 3 1 1 q Rn x 3 1 np (6.5) 3 3 1 1 p Rn x 3 1 nq 3 con ½ y ´ ½. Si seguido substituimos (6.5) dentro de (6.4), encontramos que 124 LOS TEOREMAS DE DEMOIVRE-LAPLACE q 1 2 q log Bn (np x npq ) x x Rn np 2 np 1 p 1 2 p (nq x npq ) x x Rn x 2 nq 2 nq 2 que simplifica a log Bn (np x npq ) Rn (nq x npq ) Rn 1 3 q p x q p 2 np nq Finalmente, |np x npq || Rn | k n | Rn | 3 q 1 1 n x 3 1 np 8 q 3 p 32 3 1 n 2 | x 3 | 0 cuando n puesto que n-1/6x 0 cuando n , por hipótesis. Asimismo, lim | nq x npq|| Rn| 0 y q p lim x 3 q p 0 np nq cuando n , así que lim log Bn = 0 cuando n . Eso es, lim Bn = 1 cuando n , como se pidió. //// Hemos mostrado que la razón de es cercana a 1 provisto que k no npqb k; n, p a x nkn está demasiado distante de np en el sentido que n-1/6 x nkn 0 cuando n . Ahora mostraremos que la diferencia es pequeña para toda k. En efecto, mostramos que ambos b(k;n,p) y x nkn son pequeños si k es distante de np. Teorema 4.6.2 Para k = 0,, n, defina xnk y rnk por xnk k np npq LAS PROBABILIDADES BINOMIALES Y RELACIONADAS 125 rnk npq b( k ; n, p) ( xnk ) y Entonces lim (maxk rnk) = 0 cuando n . PRUEBA Seleccione enteros in < (n + 1)p y jn > (n + 1)p para los cuales x nin –, x njn , y n 1/ 6 x njn x nin 0 cuando n . Entonces npq b(in ; n , p) ~ ( xnin ) por el Teorema 4.6.1 y ( xnin ) 0 puesto que xnin . Ahora puesto que b(k;n,p) es una función creciente de k para k < (n + 1)p por (1.3), y puesto que (x) es una función creciente de x para x < 0, debemos tener max|rnk | npq b(in ; n , p) ( xnin ) k in que tiende a cero cuando n . Asimismo, max k jn rnk 0 cuando n . Finalmente, podemos seleccionar una kn para la cual in kn jn y | npq b( k n ; n , p) ( xnkn )| max |rnk | in k jn y el lado izquierdo de (6.6) tiende a cero cuando n por el Teorema 4.6.1. (6.6) //// Ahora tornamos nuestra atención a la prueba de (5.5). Por simplicidad, consideraremos sólo el caso donde y permanecen acotadas cuando n , aunque (5.5) es verdadera sin esta restricción. Teorema 4.6.3 < kn n, y sean Para cualquier n sean jn y kn enteros positivos para los cuales 0 jn n jn np 21 npq y n k n np 21 npq Si hay una constante c para la cual –c n < n c para toda n = 1, 2,, entonces k b(i ; n , p) ( n ) ( n ) rn i jn donde rn 0 cuando n . 126 LOS TEOREMAS DE DEMOIVRE-LAPLACE PRUEBA Tenemos kn b( i; n , p ) i jn 1 kn ( x ni ) npq i jn 1 kn [ npq b( i; n , p ) ( x ni )] I n Rn , digamos npq i jn Ahora, puesto que xni = xn(i-1) = 1/ npq , es una suma de Riemann aproximando a n ( x) dx ( n ) ( n ) n y el término remanente Rn esta acotado por Rn 1 ( k n jn ) max |rnk | ( n n ) max |rnk | k k npq que tiende a cero cuando n . El teorema se sigue. //// LAS PROBABILIDADES BINOMIALES Y RELACIONADAS 127 4.7 PROBLEMAS 4.1 Si un jugador de bridge juega 6 manos de bridge durante una tarde, ¿cuál es la probabilidad de que el obtendrá: (a) ¿Exactamente 2 ases en exactamente 2 de las manos? (b) ¿Al menos 2 ases en al menos 2 de las manos? 4.2 Si dos dados balanceados son lanzados 4 veces, ¿cuál es la probabilidad de que al menos 2 de los lanzamientos producirán al menos 9 puntos en total? 4.3 Dos jugadores de ajedrez, digamos A y B, juegan una serie de 10 juegos. Suponer que los resultados de los 10 juegos son independientes y que cada jugador tiene probabilidad 0.5 de ganar cada juego. ¿Cuál es la probabilidad de que uno de los jugadores ganará más juegos que el otro? 4.4 En el Problema previo suponer que los jugadores A y B juegan 9 juegos y que A tiene probabilidad p = 0.6 de ganar cada juego. ¿Cuál es la probabilidad de que A ganará más juegos que B? 4.5 Mandrake, un mago, sostiene tener percepción extrasensorial. Para probar esta aseveración, una moneda balanceada es lanzada 8 veces, y él es requerido para predecir el resultado de cada lanzamiento. Suponiendo que Mandrake está de hecho adivinando, ¿cuál es la probabilidad de que el adivinará correctamente al menos 6 de los 8 resultados? 128 PROBLEMAS 4.6 En el Problema 4.5 suponer que Mandrake de hecho tiene percepción extrasensorial. Suponer que él puede correctamente cantar el lanzamiento de una moneda con probabilidad ¾. ¿Cuál es la probabilidad de que el correctamente cantará al menos 6 de los 8 lanzamientos? 4.7 Suponer que los elementos sobre una línea de ensamble deben pasar por 10 operaciones para convertirse en productos terminados. Suponer también que cada operación funciona erróneamente con probabilidad p = 0.01. Si 10 elementos pasan a través de la línea, ¿cuál es la probabilidad de que ninguna de las operaciones funcionará mal en (a) exactamente 8 de los elementos; (b) al menos 8 de los elementos? Suponer que las 10 operaciones son independientes. 4.8 Considere un examen de selección múltiple con 10 preguntas, cada una de las cuales tiene 4 posibles respuestas. Si un estudiante conoce la respuesta correcta con probabilidad 0.8 y adivina con probabilidad 0.2, ¿cuál es la probabilidad de que el responderá correctamente (a) exactamente 8 de las 10 preguntas; (b) al menos 7 de las 10 preguntas? Suponer sus respuestas a las 10 preguntas para ser independientes. 4.9 Dos monedas no cargadas son lanzadas n veces. Dado que hubieron exactamente k águilas en los 2n lanzamientos, ¿cuál es la probabilidad condicional de que hubieron exactamente j águilas en los n lanzamientos de la primera moneda? 4.10 Un dado balanceado es lanzado 4 veces. Dado que ningún as y ningún seis aparece, ¿cuál es la probabilidad condicional que cualquier otra cara aparezca exactamente una vez? 4.11 Sean dos dados balanceados lanzados 6 veces. ¿Cuál es la probabilidad de que exactamente 2 de los lanzamientos produzcan un número total de puntos menor que 7, exactamente 2 produzcan un número total de puntos igual a 7, y exactamente 2 produzcan una suma total de puntos mayor que 7? 4.12 Problema de la fosforera de Banach . Un fumador inicia la mañana con dos cajas, cada una de las cuales contiene n fósforos. Cada vez que el necesita un fósforo, selecciona una de las dos cajas al azar y toma un fósforo de ella. ¿Cuál es la probabilidad de que el (n + k)-ésimo fósforo vaciará una de las cajas? Sugerencia: Sea Ai el evento de que el i-ésimo fósforo es tomado de la caja I, y suponer que los Ai son independientes con probabilidad común ½. NOTA: Los Problemas 4.13 a 4.16 introducen una aplicación de las probabilidades binomial y multinomial a la genética. Características heredables son determinadas por transportadores denominados genes, los cuales aparecen en pares. En el caso más simple, los genes pueden tomar sólo dos formas a y A, así que hay tres posibles genotipos (parejas) aa, Aa, y AA. No hay distinción entre Aa y aA. En la reproducción sexual, el genotipo de un descendiente está determinado como sigue: un gene es seleccionado al LAS PROBABILIDADES BINOMIALES Y RELACIONADAS 129 azar de cada uno de los padres, y las selecciones son independientes. También, la selección de genotipos para diferentes descendientes son independientes. 4.13 Si ambos padres son del tipo Aa, ¿cuál es la probabilidad de que un descendiente será del tipo aa; Aa; AA? 4.14 Si dos padres del tipo Aa tienen 6 descendientes, ¿cuál es la probabilidad de que exactamente 3 de los descendientes serán del tipo Aa? 4.15 Si dos padres del tipo Aa tienen 6 descendientes, ¿cuál es la probabilidad de que exactamente 2 de los descendientes serán de cada uno de los genotipos? 4.16 Responda los Problemas 4.13 a 4.15 cuando los genotipos de los padres son: (a) Aa y aa (b) Aa y AA (c) AA y aa Una moneda con probabilidad p > 0 de caer águila es lanzada hasta que 3 águilas han aparecido. ¿Cuál es la probabilidad de que un número par de lanzamientos será requerido? 4.18 Una moneda limpia es lanzada hasta que 2 águilas han aparecido. Sea k la probabilidad que al menos k lanzamientos serán requeridos y encontrar el entero más pequeño k tal que k ½. 4.19 Una moneda limpia es lanzada hasta que 2 águilas aparecen. Dado que más de 3 lanzamientos son requeridos, ¿cuál es la probabilidad condicional que más de 6 lanzamientos serán requeridos? 4.20 Use el teorema binomial generalizado para probar que k r ak ; r , p 1 para p > 0 y r 1. 4.21 Una moneda es lanzada hasta que 2 águilas han aparecido. Dado que exactamente k lanzamientos fueron requeridos, ¿cuál es la probabilidad condicional de que el primer lanzamiento resultara en águila? 4.22 Una moneda es lanzada hasta que r águilas han aparecido. Dado que exactamente k lanzamientos fueron requeridos, ¿cuál es la probabilidad condicional de que el j-ésimo lanzamiento resultara en águila, j = 1, k 1? En n = 1000 lanzamientos de una moneda que tiene probabilidad p = 0.005 de caer en águila en cada lanzamiento, estimar la probabilidad de que: (a) Exactamente 5 águilas aparecerán. (b) Al menos 5 águilas aparecerán. (c) A lo más 5 águilas aparecer. 130 PROBLEMAS 4.24 La máquina ponedora de tapas en la Compañía de Cerveza XYZ funciona mal con probabilidad p = 0.001 en cada botella que intenta ponerle tapa. Si intenta 2500 botellas en un día, ¿cuál es la probabilidad de que funcionará mal en más de 10 botellas? 4.25 La Compañía de Galletas ABC puso n pedacitos de chocolate dentro de una tina de pasta de la cual hace m galletas y encuentra que las galletas resultantes contienen exactamente k pedacitos de chocolate con probabilidad p(k;), donde k = n/m. Si se desea hacer m = 10,000 galletas de una tina en particular, ¿cuántos pedacitos de chocolate se deben poner dentro de la tina para que el 95 por ciento de la galletas resultantes contengan al menos 5 pedacitos de chocolate? 4.26 Una sustancia radioactiva emite partículas con intensidad = 0.1 por microsegundo. ¿Cuál es la probabilidad de que habrá más de 2 emisiones durante los primeros 10 microsegundos? 4.27 En el Problema 4.26 encuentre el número t para el cual la probabilidad de al menos 1 emisión durante los primeros t microsegundos sea 0.5. NOTA: Problemas 4.28 a 4.32 se refieren a n lanzamientos independientes de una moneda que tiene probabilidad p de caer águila en cada lanzamiento. X denota el número de águilas. 4.28 Si n = 10 y p = ½, encontrar los valores exacto y aproximado de la probabilidad de que X sea menor que o igual a k para k = 1, 5. 4.29 Si n = 100 y p = 1/3, estimar la probabilidad de que (a) X sea mayor que 35 (b) X este entre 25 y 35 inclusive. 4.30 Sea F = X/n. Si p = ½, ¿qué tan grande debe ser n para que (aproximadamente) la probabilidad de que F ½ 0.1 sea al menos 0.95? 4.31 Sea F = X/n. Encontrar una n para la cual aproximadamente la probabilidad de que F p 0.05 sea al menos 0.95 para toda p, 0 < p < 1. 4.32 Sea F = X/n. Si n = 100,000 y p = ½, estimar la probabilidad de que F ½ 0.01. 4.33 Un dado balanceado es lanzado 12,000 veces. Estimar la probabilidad de que el número de ases esté entre 1800 y 2200 inclusive. 4.34 Si 12,000 lanzamientos de un dado producen un total de 2500 ases, ¿sería razonable concluir que el dado no está balanceado? 4.35 En el Ejemplo 4.5.4, ¿qué tan grande debe ser n para que aproximadamente Pr Fn p 0.01 0.95 para toda p? 4.36 Para estimar la probabilidad p con la cual un tratamiento particular curará una enfermedad dada, el tratamiento es administrado independientemente a n animales LAS PROBABILIDADES BINOMIALES Y RELACIONADAS 131 experimentales. Denote Xn el número de animales que son curados, y sea Fn = (1/n)Xn. ¿Qué tan grande debe de ser n para que (a) aproximadamente Pr (Fn p 0.02) 0.95 para toda p; (b) aproximadamente Pr (Fn p 0.01) 0.99 para toda p? NOTA: Problemas 4.37 y 4.38 desarrollan una aproximación para las probabilidades binomial negativas. Problemas 4.39 y 4.40 desarrollan una aproximación a las probabilidades Poisson. 4.37 Considere las probabilidades binomial negativas a(k;r,p) cuando p 0 y k de tal manera que kp x > 0. Mostrar que 1 x r 1e x ak ; r , p r 1! p 4.38 En la notación del Problema 4.37 mostrar que ak ; r , p b a a kp b x r 1e x dx r 1! 4.39 Sea pk ; 1 k e k! y x k Use la fórmula de Stirling para mostrar que si k = k depende de de tal manera que x permanece acotada cuando , entonces pk ; (x) cuando . 4.40 En la notación del Problema 4.39 mostrar que pk ; b a a k b cuando . 4.41 Estimar 110 k 90 pk ;100 . 5 5 VARIABLES ALEATORIAS 5.1 VARIABLES ALEATORIAS En muchos problemas, no estamos interesados con todos los aspectos del resultado de un experimento sino únicamente en una característica numérica particular del resultado, tal como el número de bolas rojas en una muestra, la altura de un hombre seleccionado aleatoriamente. Podemos abstraer la noción de una característica numérica interesante como sigue. Considere un espacio de probabilidad (S,,P), y denotamos por X a una función real que está definida sobre un espacio muestral S. Así, S puede ser visto como el conjunto de posibles resultados de algún juego o experimento y X como una regla que asigna a cada posible resultado s S un número real X(s) unívocamente definido. Llamaremos a X una variable aleatoria si para cada intervalo I de números reales el subconjunto de S s S : X s I (1.1) es un evento, eso es, pertenece a . En este caso referiremos a (1.1) como el evento que X pertenece a I y escribimos Pr X I Ps S : X s I (1.2) La restricción de que (1.1) sea un evento garantiza que el lado derecho de (1.1) esté bien definido. Puesto que muchos eventos interesantes pueden ser escritos en la forma (1.1), con 134 VARIABLES ALEATORIAS una selección apropiada de X e I, veremos que la notación (1.2) es muy útil. Generalmente, usaremos la notación Pr (·) para denotar la probabilidad del evento descrito dentro del paréntesis. Por ejemplo, Pr (a < X < b) significa P ({s S: a < X(s) < b}), Pr (X = a) significa P ({s S: X(s) = a}), Pr (X a) significa P ({s S: X(s) a}), etc. Hemos considerado antes una variable aleatoria y usado la notación (1.2) y sus variaciones en el capítulo previo, cuando consideramos el número de águilas que resultan de n lanzamientos independientes de una moneda. El Ejemplo 5.1.2a proporciona los detalles. EJEMPLO 5.1.1 a Sea (S,,P) un espacio de probabilidad y sea A cualquier evento. Entonces la función X definida por 1 X s 0 si s A si s A es conocida como la indicadora de A. Denotaremos a X por IA. Así, IA = 1 si A ocurre, e IA = 0 si A no ocurre. Entonces tenemos Pr (IA = 1) = P ({s: IA(s) = 1}) = P (A), y Pr (IA = 0) = P (A') = 1 - P (A). b Sean A1 ,..., An cualesquiera eventos. La función X definida por X s I A1 s ... I A n s para s S cuenta el número de A1 ,..., An que ocurren. c Si A1 ,..., An son eventos mutuamente excluyentes y exhaustivos, entonces la función X definida por X s kI Ak s n (1.3) k 1 calcula el índice del Ai que ocurre. (Todos excepto uno de los términos en la suma son 0.) En este caso, Pr (X = k) = P({s: X(s) = k}) = Ps : I Ak s 1 = P(Ak) para k = 1,... n. Cualquier variable aleatoria que tome únicamente los valores 1,... n puede ser representada en la forma (1.3) simplemente haciendo que Ak sea el evento que X = k para k = 1,... n. //// EJEMPLO 5.1.2 a Si una moneda es lanzada independientemente n veces, el número de águilas que aparece puede ser representado como una variable aleatoria, como en el Ejemplo VARIABLES ALEATORIAS 135 5.1.1b, permitiendo que Ai sea el evento de que águila aparece en el i-ésimo lanzamiento. Del Teorema 4.1.1, entonces tenemos n Pr X k p k q nk k para k = 0,... n, donde p denota la probabilidad de águila en un ensayo individual y q = 1 - p. b Del mismo modo, si una muestra aleatoria no ordenada de tamaño k es extraída de una urna que contiene m bolas rojas y n - m bolas blancas, podemos representar el número de bolas rojas en la muestra como una variable aleatoria, como en el Ejemplo 5.1.1c y encontramos que m n m r k r Pr X r n k para r = 0,... k por el Teorema 1.4.1. //// EJEMPLO 5.1.3 Sea (S,,P) cualquier espacio de probabilidad para el cual S es un intervalo y es la clase de subconjuntos de Borel de S. Entonces la función X definida por X(s) = s para s S es una variable aleatoria. De hecho, {s: X(s) I} = IS es un intervalo para cualquier intervalo I R. Si S es pensado como el conjunto de posibles resultados del experimento, entonces X efectivamente calcula el resultado real del experimento. Correspondientemente, referiremos a X como el resultado del experimento. Observe que si I es un subintervalo de S, entonces Pr (X I) = P(IS) = P(I). En particular, si S = [0,1] es el intervalo unitario y P(I) es la longitud de I para cualquier subintervalo I S, como en el Ejemplo 2.2.5, entonces Pr({X I}) = longitud de IS para cualquier intervalo I R. //// EJEMPLO 5.1.4 Considerar un experimento en el cual un punto es seleccionado al azar del intervalo unitario S = [0,1] de tal manera que la probabilidad de que el punto esté en un intervalo I S es P(I)= longitud de I. Podemos entonces definir muchas variables aleatorias interesantes. Por ejemplo, X( s ) s2 para s S. y Z s tan2 s 136 VARIABLES ALEATORIAS Calculemos Pr (X I). Suponer, por ejemplo, que I = (a, b] con 0 < a < b < 1. Entonces P a , b Pr a X b P s S : s 2 a ,b b a y resultados similares pueden ser obtenidos para otros intervalos. El cálculo de Pr (Z I) es más complicado. Un examen de la Figura 5 muestra que para 0 < a < b < , el evento de que a < Z b es simplemente s S : a Z s b c1 ,d1 c2,d 2 Figura 5. La función tangente VARIABLES ALEATORIAS 137 donde por definición, c1 1 arctan a 2 d1 1 arctan b 2 1 c2 c1 12 , y d2 d1 12 . Se sigue que Pr a Z b Pc1 , d1 Pc2 , d 2 d1 c1 d 2 c2 1 arctan b arctan a y el mismo resultado se obtiene para cualquier otro intervalo con puntos finales a y b (a < b), por ejemplo, (a,b). Por cierto Z, da la tangente de un ángulo seleccionado aleatoriamente. //// Muchos ejemplos de variables aleatoria serán dados en las siguientes dos secciones. Concluimos esta sección probando que (1.2) define una función de probabilidad, así que los resultados de las Secciones 2.3, 2.4, y 2.5 son aplicables a él. Primero, necesitamos un lema. Lema 5.1.1 Sea X una función de un conjunto S a un conjunto T, y defina X 1 B s S : X s B para todos los subconjuntos B T . Entonces, para B, B1 , B2 ,... T , tenemos X 1 Bi X 1 Bi (1.4a ) X 1 Bi X 1 Bi (1.4b) X 1 B' X 1 B' (1.4c ) PRUEBA El lema es una simple consecuencia del hecho de que, por definición, s -1 X (B) si y sólo si X(s) B. Para probar (1.4a), por ejemplo, simplemente observe que los siguientes enunciados son equivalentes: 1 s X 1 Bi 2 X s Bi 3 X s Bi para alguna i 4 s X 1 Bi para alguna i 5 s X 1 Bi 1 1 Por arctan entendemos la rama principal de arcotangente. Eso es, arctan y es la única x para la cual -(½) x < (½) y tan x = y. 138 VARIABLES ALEATORIAS Esto establece (1.4a), y las pruebas de (1.4b) y (1.4c) son similares. //// Ahora, sea X cualquier variable aleatoria definida sobre un espacio de probabilidad (S,,P), y sea B la clase de todos los subconjuntos B R (el conjunto de los números reales) para los cuales X-1(B) es un evento, esto es, pertenece a . La condición (1.1) pide que B tenga a todos los intervalos, y podemos extender la notación (1.2) escribiendo Pr (X B) = P(X-1(B)) para toda B B. Mostraremos que Pr (X B) define una función de probabilidad. Teorema 5.1.1 Sea X cualquier variable aleatoria, y defina una función Q por medio de Q(B) = Pr(X B) para B B. Entonces (R,B,Q) es un espacio de probabilidad. PRUEBA La prueba de que B es una -álgebra se deja como un ejercicio (Problema 5.7). Mostraremos que Q satisface los axiomas (2.1),(2.2), y (2.3) del Capítulo 2. Claramente, 0 Q( B) P( X 1 ( B)) 1 puesto que P es una medida de probabilidad, y más aún, Q(R) = P(X-1(R)) = 1 por la misma razón. Para establecer (2.2), sean A y B elementos disjuntos de B. Entonces, X-1(A) X-1(B) = X-1(AB) = X1 () = , así que X-1(A) y X-1(B) son eventos mutuamente excluyentes. Así, P X P X Q A B P X 1 A B A X 1 B 1 A PX 1 B Q A Q B 1 que es (2.2). El axioma (2.3) puede ser análogamente verificado para completar la prueba. //// Se sigue que los resultados de las Secciones 2.3, 2.4, y 2.5 son aplicables a Q como también a P, puesto que estos resultados son válidos en cualquier espacio de probabilidad. Por ejemplo, si A B, entonces Pr (X B - A) = Pr (X B)-Pr (X A) y Pr (X A B) = Pr (X A) + Pr(XB) - Pr (XAB) para cualquier A y B en B. Nos referimos a Q como la distribución de la variable aleatoria X. Así , la distribución de X especifica la probabilidad de que X pertenezca a B para cualquier conjunto B para la cual la última probabilidad está definida y así contiene toda la información que podamos siempre querer conocer acerca de probabilidades asociadas con X. Por supuesto, Q es algo complicada, pero veremos en las siguientes pocas secciones como Q puede ser determinada implícitamente por funciones mucho más simples. VARIABLES ALEATORIAS 139 5.2 DISTRIBUCIONES DISCRETAS Definimos una función masa (unidimensional) para ser una función real que está definida sobre R = (-, ) y tiene las siguientes propiedades: f x 0 for all x R (2.1) Más aún, hay un conjunto finito o infinito contable C, digamos C = x1 , x2 ,... , para el cual 1 f(x) = 0 para X C y f x 1 (2.2) C El termino densidad discreta también será usado para una función f que satisface (2.1) y (2.2). Por supuesto, si (2.2) es satisfecha para alguna selección de C, entonces es también satisfecha con C = x R: f(x) > 0. Veremos que en muchos casos, la distribución de una variable aleatoria puede ser determinada implícitamente por una función masa. Diremos que una variable aleatoria X es discreta si y sólo si hay un conjunto finito o infinito contable C = {x1,x2,...} R para el cual Pr X C 1 En particular, este será el caso si los únicos posibles valores de X son x1 , x2 , ... , y en la mayoría de los casos las x i serán enteros no negativos. Ahora, mostraremos que cualquier variable discreta X determina una función masa f que a su vez determina la distribución de X. Teorema 5.2.1 Sea X cualquier variable aleatoria discreta. Entonces la función f definida por f x Pr X x (2.3) para x R es una función masa. Más aún, si C es cualquier conjunto finito o infinito contable para el cual Pr (X C) = 1, entonces Pr X B f x (2.4) BC para toda B para la cual el lado izquierdo de (2.4) esté definido. PRUEBA Tenemos f(x) 0 para toda x R porque las probabilidades son no negativas. Sea C como en el enunciado del teorema. Entonces para A C ,tenemos Pr 1 2 Un conjunto es infinito contable si hay una correspondencia uno a uno entre C y el conjunto Z = {1,2,…} de enteros positivos. C f(x) denota la suma de los números f(x) para x C. 140 DISTRIBUCIONES DISCRETAS (X A) ≤ Pr (X C) = 1 - Pr (X C) = 1 - 1= 0 por el Teorema 5.1.1. En particular, si x C, entonces f(x) = Pr (X = x) = Pr (x {x}) Pr (X C) = 0. Para completar la prueba, debemos mostrar que f satisface (2.2) y demostrar (2.4). Primero demostraremos (2.4), sea B como en el enunciado del teorema. Entonces, puesto que B = BC BC y BC y BC son mutuamente excluyentes, tenemos Pr (X B) = Pr(X BC) + Pr (X BC). Además, puesto que BC C, tenemos que Pr (X BC) = 0, así que Pr (X B) = Pr (X BC). Puesto que C es finito o infinito contable, lo mismo debe ser válido para BC, y así podemos escribir BC = { x1 , x2 , ... } con distintas y´s. Sea B j = { y j }. Entonces las B j son mutuamente excluyentes, y su unión es BC, así que Pr X BC Pr X B j f y j f x j j BC Esto demuestra (2.4). La ecuación (2.2) ahora se sigue fácilmente. Indiscutiblemente, tomando B = C, tenemos 1 Pr X C f x C por (2.4). //// Si X es una variable aleatoria discreta, nos referiremos a la función f de la Ecuación (2.3) como la función masa de X. Por (2.4) la función masa de una variable aleatoria discreta X unívocamente determina a la distribución de X. Hemos antes encontrado varias variables aleatorias discretas, aunque no nos referimos a ellas como tales. Ahora parafraseamos algunos de nuestros anteriores resultados en la terminología de variables aleatorias. EJEMPLO 5.2.1 Imagine un dado balanceado de n lados con k puntos sobre el k-ésimo lado para k = 1,2,... n. Si el dado es lanzado una vez podemos representar el número de puntos que aparecen como una variable aleatoria X haciendo Ak el evento de que exactamente k puntos aparecen y n X kI Ak k 1 como en el Ejemplo 5.1.1c. X es discreta puesto que puede tomar sólo los valores 1 ,... n y su función masa está dada por f k Pr X k P Ak 1 n (2.5) VARIABLES ALEATORIAS para k = 1,... n y f(x) = 0 para otros valores de x. 141 //// La función (2.5) es conocida como la función masa uniforme discreta. Observemos que (2.5) define no únicamente una función masa sino una familia entera de funciones masa una por cada entero n = 1,2,.... En concordancia referimos a la función f de (2.5) como la función masa uniforme discreta con parámetro n y diremos que X tiene la distribución uniforme discreta con parámetro n. Encontraremos situaciones semejantes adelante. Eso es, encontraremos funciones masa f que dependen no sólo de sus argumentos sino también de otras variables libres , o parámetros, como les llamaremos. Los parámetros usualmente son descriptivos de las condiciones experimentales y por lo tanto muy fácilmente interpretados. Por ejemplo, en el Ejemplo 5.2.1 el parámetro simplemente describe el número de lados del dado. EJEMPLO 5.2.2 Considere una urna que contiene m bolas rojas y n - m bolas blancas, donde m y n - m son enteros no negativos con n 1. Si una muestra aleatoria de tamaño k n es extraída de la urna sin reemplazo, entonces el número X de bolas rojas en la muestra es una variable aleatoria como en Ejemplo 5.1.2b. X es discreta puesto que puede tomar únicamente los valores 0,... k, y su función masa está dada por m n m r k r f r Pr X = r n k (2.6) para r = 0,... k y f(x) = 0 para otros valores de x por el Teorema 1.4.1. La ecuación (2.6) define la función masa hipergeométrica con parámetros m, n, y k (0 m n y 1 k n). //// EJEMPLO 5.2.3 Considere una moneda que tiene una probabilidad p de ocurrir águila cuando es lanzada. Si n lanzamientos independientes de la moneda son hechos, entonces el número de águilas X que aparece es una variable aleatoria como en el Ejemplo 5.1.2a. X es discreta puesto que puede tomar solamente los valores 0,... n, y su función masa está dada por n f k Pr X = k p k q nq k (2.7) para k = 0,... n y f(x) = 0 para otros valores de x. Nos referiremos a (2.7) como la función masa binomial con parámetros n y p (n 1, 0 p 1). //// 142 DISTRIBUCIONES DISCRETAS EJEMPLO 5.2.4 Si la moneda del Ejemplo 5.2.3 es lanzada repetidamente, la probabilidad de que la primera águila aparezca en el k-ésimo lanzamiento es f k pqk 1 2.8 para k = 1,2,... por el Teorema 4.2.1. Sea f(x) = 0 si x no es un entero positivo. Entonces f es una función masa, la cual referiremos como la función masa geométrica con parámetro p (0 < p < 1 ). Recordemos de la Sección 4.2 que la función masa geométrica tiene la propiedad de carencia de memoria. Con nuestra nueva terminología, la Ecuación (2.4) del Capítulo 4 puede ser establecida como sigue: si X tiene la distribución geométrica (función masa), entonces para todos los enteros positivos k y j, la probabilidad condicional de que X > k + j dado que X > j es PrX k j X j Pr X k la misma que la probabilidad de que X > k. De hecho, esta propiedad es característica de la función masa geométrica (ver Problema 5.12). //// EJEMPLO 5.2.5 Si la moneda del Ejemplo 5.2.3 es lanzada repetidamente, la probabilidad de que la r-ésima águila aparezca en el k-ésimo lanzamiento es k 1 r k r p q f k r 1 (2.9) para k = r, r + 1,.… La Ecuación (2.9) define la función masa binomial negativa con parámetros r y p (r 1 y 0 < p < 1). La geométrica es un caso especial con r = 1. Que (2.9) define una función masa, eso es, que la condición (2.2) es satisfecha, fue mostrado en la Sección 4.2. //// EJEMPLO 5.2.6 Una variable aleatoria X se dice que tiene la distribución Poisson con parámetro > 0 si y sólo si X tiene función masa f k Pr X k k k! e (2.10) para k = 0,1,... y f(x) = 0 para otros valores de x . Que f es una función masa fue mostrado VARIABLES ALEATORIAS 143 en la Sección 4.3. También fue mostrado en la Sección 4.3 que (2.10) provee una aproximación a la función masa binomial cuando n es grande, p es pequeña y = np es moderada. Otra aplicación de la distribución Poisson es la siguiente. Si una sustancia radioactiva es observada por t unidades de tiempo, donde t es pequeña comparada con la vida media de la sustancia, y si el número X de emisiones radioactivas es registrado, entonces X puede ser considerada como una variable aleatoria que tiene la distribución Poisson con parámetrot, donde > 0 es característica de la sustancia radioactiva. es denominada la intensidad de la radiación. Indicamos una derivación de este resultado en el Ejemplo 4.3.3, y daremos otra derivación de esta aseveración en la Sección 7.6. Por el momento, lo aceptamos como un hecho empírico. //// 5.3 DISTRIBUCIONES ABSOLUTAMENTE CONTINUAS Definimos una función de densidad (unidimensional) para ser una función real f que está definida sobre R = (-, ) y satisface f x 0 para x (3.1) f x dx 1 (3.2) además, diremos que una variable aleatoria X es absolutamente continua si y sólo si hay una función de densidad f para la cual Pra X b a f x dx b (3.3) siempre que a < b. En este caso llamaremos a f una densidad para X y diremos que X tiene densidad f. Puesto que una función puede ser cambiada en cualquier número finito de puntos sin afectar su integral, una variable aleatoria puede tener más de una función de densidad. Una propiedad interesante de variables aleatorias absolutamente continuas es la siguiente. Si X es cualquier variable aleatoria absolutamente continua y a R es cualquier número real, entonces Pr X a 0 Para ver esto observe que para cualquier > 0 tenemos (3.4) 144 DISTRIBUCIONES ABSOLUTAMENTE CONTINUAS Pr X a Pra X a a f x dx I , digamos a Ahora, la integrabilidad de f implica que lim I() = 0 cuando 0 , así que I() puede ser hecha arbitrariamente pequeña tomando > 0 suficientemente pequeña. Puesto que Pr (X = a) I() para toda > 0, se sigue que Pr (X = a) = 0. 1 Se sigue de la Ecuación (3.4) que si X es absolutamente continua, entonces en la Ecuación (3.3) podemos reemplazar a < X b por cualquiera de a X b, a X < b, ó a < X < b, puesto que los puntos finales a y b contribuyen en nada, ni en la probabilidad ni en la integral. Por ejemplo, Pr a X b Pr X a Pr a X b Pr a X b a f x dx b La Ecuación (3.4) puede parecer algo no intuitiva, pero en realidad no lo es. En particular, no asegura que los eventos X = a para a R sean imposibles. Desde el punto de vista frecuentista, simplemente significa que si el experimento al cual se refiere X es repetido n veces, la frecuencia relativa con la que X = a tenderá a cero cuando n . Desde el punto de vista subjetivo, significa que para cualquier a R fijo, el evento de que X = a es considerado como extremadamente menos probable que el evento X R - {a}. Para clarificar el último punto, imagine el siguiente juego. Se te solicita adivinar el peso de un amigo exactamenteno sólo a la libra más cercana, o a la décima de una libra, o millonésima de una libra, sino exactamente. Si tienes éxito, ganas c dólares, si fallas, entonces pierdes 1 dólar. Suponer también que es posible medir el peso de tu amigo, digamos X, a un grado arbitrario de precisión. ¿Hay algún valor de c para el cual considerarías el juego como apropiado? Si no, entonces tu probabilidad subjetiva de que X = a es cero para cualquier a. En vista de la Ecuación (3.4), las funciones de densidad son más difíciles de interpretar que las funciones masa (que dan probabilidades de eventos particulares). Sin embargo, si una densidad f es continua en un punto a R, entonces f(a) puede ser interpretada como un cociente aproximado de la probabilidad a la longitud. Para ver esto, sea X absolutamente continua con densidad f, sea a R, y suponer que f es continua en a. Entonces 1 3 Si f es acotada, digamos f(x) b para toda x, entonces I() b, que tiende a cero cuando 0. Para f posiblemente no acotada, ver Problema 5.34. VARIABLES ALEATORIAS 145 1 1 ah Pr a h X a h f ( x )dx 2h 2h a h que converge a f(a) cuando h 0 por el teorema fundamental del cálculo. Eso es, Pr (a - h < X a + h) es aproximadamente 2hf(a) para h pequeña. Ahora consideramos varios ejemplos. EJEMPLO 5.3.1 En el Ejemplo 5.1.3 encontramos que si un punto X es seleccionado al azar del intervalo S = [0,1), entonces Pr (X I) = longitud de IS para cualquier intervalo I R. Esto puede ser escrito en la forma (3.3) con 0 x 1 de otro modo 1 f x 0 (3.5) Nos referiremos a (3.5) como la densidad uniforme sobre el intervalo [0,1). Más generalmente, si J es cualquier intervalo de longitud finita y positiva, nos referiremos a la función g definida por 1 g x J 0 xJ (3.6) de otro modo donde J denota la longitud de J, como la densidad uniforme sobre J, y diremos que una variable aleatoria Y que tiene densidad g está uniformemente distribuida sobre J. //// EJEMPLO 5.3.2 En el Ejemplo 5.1.4 mostramos que si X denota la tangente de un ángulo que esta uniformemente distribuido sobre el intervalo [0,2, entonces Pr a X b 1 (arctan b - arctan a) para a < b. Esto puede ser escrito en la forma (3.3) con f x 1 1 x2 x (3.7) 146 DISTRIBUCIONES ABSOLUTAMENTE CONTINUAS la derivada de -1 arctan x. Así, X es absolutamente continua con densidad dada por (3.7). Nos referiremos a (3.7) como la densidad Cauchy. //// EJEMPLO 5.3.3 Una variable aleatoria X se dice que tiene la distribución normal estándar si y sólo si X tiene densidad f x e 12 x 2 2 x (3.8) y nos referiremos a (3.8) como la densidad normal estándar. La prueba de que (3.8) define una densidad, eso es que la condición (3.2) es satisfecha, fue dada en la Sección 4.4 junto con una gráfica de la función. También mostramos en la Sección 4.6 que si Y tiene la distribución binomial con parámetros n y p, 0 < p < 1, entonces cuando n , b Y np lim Pr a b a f x dx npq donde f está definido por (3.8). Así podemos ver a la distribución normal estándar como una distribución aproximada para (Y - np)/ npq . De hecho, la distribución normal estándar tiene una aplicabilidad mucho más amplia, como veremos en la Sección 9.4. //// EJEMPLO 5.3.4 Para cualquier > 0, la función f definida por e x f x 0 x0 x0 (3.9) es una densidad, porque f x dx 0 e x dx e x 0 1 Nos referiremos a (3.9) como la densidad exponencial con parámetro . La densidad exponencial comparte con la función masa geométrica la propiedad de carencia de memoria, como mostramos en el Problema 5.28 y Sección 7.6. Una derivación de la densidad exponencial será dada en el Ejemplo 5.5.4. //// Concluimos esta sección con un análogo del Teorema 5.2.1. Teorema 5.3.1 Si X es absolutamente continua con densidad f, entonces Pr X B B f x dx (3.10) VARIABLES ALEATORIAS 147 para cualquier subconjunto B R para el cual ambos lados de (3.10) estén definidos. Más aún, si X es absolutamente continua con densidad f, entonces f unívocamente determina la distribución de X. PRUEBA Las Ecuaciones (3.3) y (3.4) aseguran que (3.10) se cumple siempre que B sea un intervalo. Por lo tanto, si n B Ik k 1 es la unión de un número finito de intervalos disjuntos, entonces (3.10) se cumple puesto que n Pr X B Pr X I k k 1 n I f x dx B f x dx k 1 k Así, debemos esperar que (3.10) se cumpla para todo B que pueda ser aproximado por una unión finita de intervalos disjuntos. Esto es, de hecho, verdadero, y la última clase de subconjuntos de B contiene todos los conjuntos para los cuales ambos lados de (3.10) están definidos. Los detalles de esta aproximación son un poco complicados, sin embargo, y los omitimos. //// 5.4 LAS DISTRIBUCIONES GAMA Y BETA En esta sección introduciremos dos nuevas familias de densidades. Puesto que ambas involucran a la función gama en sus definiciones, empezamos con una discusión de esa función, la función gama está definida sobre el intervalo 0, por 0 x 1e x dx > 0 (4.1) Esta función tiene varias propiedades interesantes, la más sorprendentes de las cuales serán ahora dadas. Lema 5.4.1 Para 1 , () = ( - 1) ( - 1). PRUEBA Sea u(x) = x-1 y v(x) = e-x para x > 0. Entonces puesto que > 1, u(x)v(x) 0 cuando x 0 ó x , y así podemos integrar por partes para obtener 148 LAS DISTRIBUCIONES GAMA Y BETA 0 u x v' x dx uv 0 0 u' x v x dx 10 x 2 e x dx 1 1 como se aseguró. //// Tenemos también (1) = 1 por cálculo directo. De hecho 1 0 e x dx e x 0 = 1 Ahora se sigue que si n es un entero positivo, entonces (n) = (n - 1 )(n - 1) = (n - 1)(n 2)(n - 2) = = (n - 1)(n - 2 ) … 2 x 1(1). Eso es, n n 1! (4.2) 12 también puede ser evaluada. Lema 5.4.2 12 PRUEBA Para ver esto haga el cambio de variable x 12 2 y 2 en la integral que define a 12 para obtener 12 2 0 e 12 y 2 1 e 2 1 2 dy y2 dy donde el paso final se sigue del hecho de que la densidad normal estándar es una densidad (Lema 4.4.1). Cuando se combinan, los Lemas 5.4.1 y 5.4.2 proveen una expresión para () cuando es la mitad de un entero. //// EJEMPLO 5.4.1 Para cualquier > 0 y > 0, la función f definida por f(x)=0 para x 0 y x 1 x f x e ( ) para x > 0 es una densidad. Indiscutiblemente, el cambio de variable y x produce (4.3) VARIABLES ALEATORIAS 0 f x dx 0 149 y 1e y ( ) y 1 ( ) ( ) Nos referiremos a (4.3) como la densidad gama con parámetros y . Observe que cuando = 1, la densidad gama es la densidad exponencial. Una derivación de las densidades gama y exponencial será dada en el Ejemplo 5.5.4. //// EJEMPLO 5.4.2 Cuando 12 y = k/2, donde k es un entero positivo, la densidad gama es conocida como la densidad ji-cuadrada. En este caso el parámetro libre k es llamado los grados de libertad. La terminología se origina con una aplicación para la estadística que consideraremos en la Sección 7.5. //// La densidad gama puede asumir una variedad de formas para valores diferentes del parámetro . Algunas de estas son ilustradas en la Figura 6. EJEMPLO 5.4.3 Para cualquier > 0 y > 0, la función f definida por f x 1 1 x 1 x 0 x 1 (4.4) y f(x) = 0 para x (0,1) es conocida como la densidad beta con parámetros y . Puesto que esta densidad será derivada dos veces en el Capítulo 7, diferimos la prueba de que (4.4) define una densidad. //// 150 LAS DISTRIBUCIONES GAMA Y BETA Figura 6. Algunas densidades gama. Como la densidad gama, la densidad beta puede tomar una amplia variedad de formas. Algunas de estas son ilustradas en la Figura 7. Observe que la densidad uniforme sobre (0,1) es un caso especial cuando = = 1. Concluimos esta sección con un ejemplo de un cálculo con la densidad gama. VARIABLES ALEATORIAS 151 Figura 7. Algunas densidades beta. EJEMPLO 5.4.4 Si la longitud de vida en años de residentes masculinos en un estado dado sigue la distribución gama con parámetros = 2 y = 0.02, ¿Qué proporción de residentes 152 LAS DISTRIBUCIONES GAMA Y BETA masculinos vivirá por más de 50 años? Requerimos Pr (X > 50), donde X tiene la distribución gama con parámetros = 2 y = 0.02, eso es, Pr X > 50 50 2 ye y dy La integral puede ser evaluada haciendo el cambio de variable y = x e integrando por partes. El resultado es Pr X 50 1 ye y dy 2e 1 0.7358 //// 5.4.1 Una Prueba de la Fórmula de Stirling1 En esta sección daremos una prueba de la fórmula de Stirling (Teorema 1.8.1), la cual establece que n 12 n! 2 n e n (4.5) cuando n . Nuestro punto de inicio es la ecuación (4.2), la que establece que n! = (n+1) o equivalentemente que n! 0 x n e x dx (4.6) Hagamos el cambio de variable x = ny en (4.6) para obtener n ! n n1 0 y n e ny dy n n1e n 0 y n e n ( y 1) dy n n1e n 0 e n ( y ) dy donde (y) = log y - (y - 1) para y > 0. La fórmula de Stirling (4.5) es así equivalente a la aseveración de que I n n 0 e n ( y ) dy 2 cuando n . 1 4 Esta sección trata un tópico especial y puede ser omitida sin pérdida de continuidad. (4.7) VARIABLES ALEATORIAS 153 Para establecer (4.7) estudiemos la función . Las primeras dos derivadas de son ' y 1 1 y '' y and 1 y2 para y > 0. Así, alcanza su valor máximo de (1) = 0 cuando y = 1, (y) < 1 para y 1, y (y) cuando y . Ahora expandamos en una serie de Taylor alrededor de y = 1 para obtener 1 2 y '' y * y 1 2 (4.8) para y > 0, donde y*-1 y-1. Sea > 0 dado. Entonces, puesto que '' es continua y ''(1) = -1, hay una > 0 para la cual -(1 + ) ''(y) -(1 - ) para y - 1 . En particular, debemos también tener 1 '' y * 1 (4.9) en (4.8) para y - 1 . Dividamos el intervalo de integración en (4.7) en tres subintervalos como sigue: In 1 1 n 0 n 1 n 1 e n y dy I n' I n'' I n''' , digamos Entonces tenemos I n' 1 n 0 e n ( y ) dy n e n (1 ) que tiende a cero cuando n puesto que (1 - ) < (1) = 0. Análogamente, podemos mostrar que I n''' 0 cuando n (Problema 5.39). Para estimar I n'' usamos (4.8) y (4.9) para deducir que 1 I n'' n 1 e 12 n 1 y 1 2 dy El cambio de variable z n1 y 1 entonces muestra que In'' que converge a 1 1 n1 e n1 12 z 2 dz 154 FUNCIONES DE DISTRIBUCIÓN 1 2 1 z2 e 2 dz 1 1 cuando n . Aquí usamos el Lema 4.4.1 para evaluar la integral. Puesto que I n' I n''' 0 cuando n , debemos tener In 2 1 (4.10) In 2 1 (4.11) para n suficientemente grande; y análogamente para n suficientemente grande. Puesto que > 0 fue arbitrario, (4.10) y (4.11) se pueden combinar para probar (4.7). //// 5.5 FUNCIONES DE DISTRIBUCIÓN Si X es una variable aleatoria, definimos la función de distribución F de X por F a Pr X a (5.1) para - < a < . Así, si X es discreta con función masa f, entonces por el Teorema 5.2.1 F a f x (5.2) x a donde la suma se extiende sobre todos los x a para los cuales f(x) > 0; y si x es absolutamente continua con densidad f entonces F a f x dx a (5.3) por el Teorema 5.3.1. Enfatizamos, sin embargo, que todas las variables aleatorias tienen funciones de distribuciónaun aquellas que no son ni discretas ni absolutamente continuas. Las relaciones (5.2) y (5.3) pueden ser invertidas. Así, si X es absolutamente continua con densidad f y función de distribución F, podemos diferenciar (5.3) por el teorema fundamental del cálculo para obtener f a F ' a (5.3a ) VARIABLES ALEATORIAS 155 para todo a en la cual f es continua. En particular (5.39) se cumple para todo a si F es continuamente diferenciable. Una fórmula semejante se cumple si X es discreta con función masa f y función de distribución F. Mostraremos más tarde en el Teorema 5.6.1 que f a F a F a (5.2a ) donde F(a-) denota el límite de F(x) cuando x a con x < a (ver Fig. 8). Llamaremos a las funciones de distribución de la forma (5.2) discretas, y nos referiremos a f como la función masa de F. Similarmente, llamaremos a las funciones de distribución de la forma (5.3) absolutamente continuas, y nos referiremos a f como una densidad para F. Además, si F y f están relacionadas por (5.2) ó (5.3), llamaremos a F por el mismo nombre (por ejemplo, binomial o normal) como a f. EJEMPLO 5.5.1 a Si un dado balanceado de n lados es lanzado una vez, y si X denota el número de puntos que aparece, la probabilidad de que X a es 0 para a < 1, es k/n si k a < k + 1, donde k = 1,..,n - 1, y es 1 si a n. Eso es, 0 a F a = n 1 para a 1 para 1 a n para a n donde a denota el mayor entero menor o igual que a. b Si X tiene la distribución geométrica (Ejemplo 5.2.4) entonces X tiene función masa f , donde f(k) = pqk-1 para k= 1,2,... y f(x) = 0 para otros valores de x. Denote F la función de distribución correspondiente. Entonces F(a) = 0 para a < 1, y F a = a pq k 1 k 1 para a 1 (donde a denota el mayor entero menor o igual que a). La sumatoria puede ser evaluada para producir 0 F a = a 1 q c a 1 a 1 Si X tiene la distribución binomial con parámetros n y p, entonces X tiene la función de distribución F dada por 156 FUNCIONES DE DISTRIBUCIÓN a n F a p k q n k k 0 k para 0 a < n, F(a) = 0 para a < 0, y F(a) = 1 para a n (ver Figura 8). //// Figura 8. La función de distribución binomial con n = 6 y p = 0.5 EJEMPLO 5.5.2 a Si X tiene la distribución uniforme sobre el intervalo J = (c, d) con c < d, entonces X tiene función de distribución F, donde 0 a c F a = d c 1 ac cad ad VARIABLES ALEATORIAS 157 Esto se sigue de una integración directa de la densidad uniforme del Ejemplo 5.3.1. b Si X tiene la distribución exponencial con parámetro > 0 (Ejemplo 5.3.4), entonces X tiene densidad f(x) = 0 para x 0 y f(x) = e x para x > 0. Integración ahora produce F(a) = 0 para a 0 y F a = a 0 e x dx 1 e a para a > 0. c Si X tiene la distribución Cauchy (Ejemplo 5.3.2), entonces X tiene densidad f(x) = 1/(1 + x2) para - < x < por el Ejemplo 5.3.2. Así, X tiene función de distribución F a 1 arctan a 12 para - < a < por integración. d Si X tiene la distribución normal estándar, entonces X tiene función de distribución a a e 12 x 2 para - < a < . 2 dx //// Las relaciones (5.2a) y (5.3a) pueden ser usadas para calcular la función masa o de densidad de una variable aleatoria en algunos casos. Lo ilustraremos encontrando la distribución de una función lineal de una variable aleatoria. Si X es una variable aleatoria, y si y son números reales, podemos definir una nueva variable aleatoria Y haciendo Y = X + . Eso es, hacemos Y(s) = X(s) + para toda s S, el espacio muestral sobre el cual X está definida. Podemos pensar de Y como X medida en nuevas unidades. La distribución de X y Y están relacionadas de una manera simple, como mostraremos ahora. Lema 5.5.1 Sea X una variable aleatoria con función de distribución F, y sea Y=X+, donde > 0. Entonces la función de distribución de Y está dada por a G( a ) F (5.4a ) para - < a < . Si X es absolutamente continua con una densidad continua f, entonces Y tiene densidad g, donde g a 1 a f (5.4b) 158 FUNCIONES DE DISTRIBUCIÓN para - < a < . PRUEBA El conjunto de s S para las cuales Y (s) a es el mismo que el conjunto de s S para las cuales X(s) (a - )/. Así , G( a ) Pr (Y a ) a a Pr X F para - < a < . Esto establece (5.4a). Si, en adición, X es absolutamente continua con densidad f, entonces (5.4b) se sigue por diferenciación. //// Cuando se trabaje con distribuciones G de la forma (5.4), nos referiremos a y como los parámetros de localidad y escala, respectivamente. EJEMPLO 5.5.3 a Si X tiene la distribución normal estándar, entonces X tiene función de distribución , como en el Ejemplo 5.5.2d. Así, Y = X + tiene funciones de distribución y de densidad dadas por a G ( a ) 1 x 2 1 g( a ) exp 2 2 para - < a < . Nos referiremos a G y g como la función de distribución y densidad normal con parámetro de escala y parámetro de localidad .. b Si X tiene la distribución Cauchy (Ejemplo 5.3.2 y 5.5.2c), entonces Y = X + tiene función de distribución y densidad G( a ) g( a ) 1 arctan a a 2 12 2 para - < a < . Nos referiremos a G y g como la función de distribución y densidad Cauchy con parámetro de localidad y parámetro de escala . c Denote por g a la densidad gama con parámetros y . Eso es, g(x) = 0 para x 0 y VARIABLES ALEATORIAS g x 1 159 x 1e x para x > 0. Además, sea f igual a g con = 1. Entonces g(x) = f(x) para toda x, así que 1 es un parámetro de escala. //// Como otra aplicación de (5.3a), ahora daremos una derivación de las distribuciones gama y exponencial. EJEMPLO 5.5.4 Imagine una sustancia radioactiva que emite partículas radioactivas. Si la sustancia es observada continuamente, ¿cuál es la distribución del tiempo de la primera emisión? Más generalmente, ¿cuál es la distribución del tiempo de la k-ésima emisión, donde k es un entero positivo? Denote por X el tiempo de la k-ésima emisión, sea t > 0, y denote Y el número de emisiones hasta el tiempo t. Entonces podemos suponer que Y tiene la distribución Poisson con parámetro t, donde > 0 es la intensidad de la radiación (Ejemplo 5.2.6). Eso es, suponemos que Pr (Y j ) ( t ) j e t / j ! para j = 0,1,2,.... Ahora X es menor o igual a t si y sólo si ha habido al menos k emisiones hasta el tiempo t. Eso es, la Pr (X t) = Pr (Y k) = 1 - Pr (Y k - 1). Denote F la función de distribución de X. Entonces, tenemos k 1 F t 1 j 0 1 ( t ) j e t j! (5.5) para t > 0. Por supuesto, F(t) = 0 para t 0 puesto que X es una variable no negativa. Podemos ahora obtener la densidad de X por diferenciación. Si k = 1, entonces F ( t ) 1 e t para t > 0, así que f t e t para t > 0. Eso es, la distribución del tiempo de la primera emisión es exponencial con parámetro , como se dijo en el Ejemplo 5.3.4. Para k > 1, la derivada f = F´ también puede ser calculada como k 1 f t j 0 k 1 1 1 j j t j 1e t j 1t j e t j! j 0 j! El término j - 1 en la segunda suma se cancela con el j-ésimo término en la primera, dejando 160 CÁLCULOS CON FUNCIONES DE DISTRIBUCIÓN f t 1 k t k 1e t k 1! (5.6) para t > 0. Así, el tiempo de la k-ésima emisión tiene una distribución gama con parámetros = k y . Como un corolario a nuestros cálculos, vemos que la función de distribución de la densidad gama (5.6) está dada por (5.5). //// 5.6 CÁLCULOS CON FUNCIONES DE DISTRIBUCIÓN La función de distribución F de una variable aleatoria X unívocamente determina la distribución de X. Eso es, si X y Y tienen la misma función de distribución, entonces Pr X B Pr Y B para todo B R donde ambos símbolos estén definidos. No probaremos este hecho aquí, 1 puesto que la prueba requiere algunas técnicas avanzadas. Sin embargo, probamos que Pr(X I) puede ser calculada de la función de distribución F de X para cualquier intervalo I. Si F es una función real sobre R, diremos que F es no decreciente si y sólo si F(a) F(b) siempre que a < b. Si F es no decreciente, entonces el límite de F(x) cuando xa con x < a existe,2 y denotaremos este límite por F(a-). Asimismo si F es no decreciente, entonces el límite de F(x) cuando xa con x > a existe, y denotaremos este límite por F(a+). Así, si F es no decreciente, F es continua en a R si y sólo si F(a-) = F(a) = F(a+). Si F es no decreciente, diremos que F es continua por la derecha si y sólo si F(a) = F(a+) para todo a y por la izquierda si y sólo si F(a) = F(a-) para toda a. Si F es la función de distribución de una variable aleatoria X, entonces F es no decreciente. Sin lugar a duda, si a < b, el evento de que X a implica que X b, así que F(a) = Pr (X a) Pr (X b) = F(b) por el Teorema 2.3.1. Así, los límites por un solo lado F(a-) y F(a+) existen para toda a. En la Sección 5.8 mostraremos que F a F a Pr X a (6.1a ) F a Pr X a (6.1b) para toda a, - < a < . En particular, F es continua en a si y sólo si F(a) = F(a-). Teorema 5.6.1 Sea X una variable aleatoria, y sea F su función de distribución. 1 5 Lectores familiarizados con teoría de la medida pueden consultar Neveu (1965), p. 28. 2 6 Ver, por ejemplo, Rudin (1964), p. 82. VARIABLES ALEATORIAS 161 Entonces para a < b Pr a X b F b F a (6.2a ) Pr a X b = F b F a (6.2b) Pr a X b F b F a (6.2c ) Pr a X b F b F a (6.2d ) y para toda a Pr X a F a F a (6.3) Pr X a 1 F a (6.4a ) Pr X a 1 F a (6.4b) PRUEBA Puesto que las pruebas de las cuatro ecuaciones en (6.2) son todas similares, probaremos solamente la primera. Dado que a < b, sea A el evento de que X a, y sea B el evento de que X b. Entonces A implica B, y B - A es simplemente el evento que a < X b. Por lo tanto, Pr (a < X b) = P(B - A) = P(B) - P(A)= Pr (X b) Pr (X a) = F(b) - F(a), como se estableció. (Aquí hemos usado el Teorema 2.3.1 para obtener la segunda igualdad.) La prueba de (6.3) es similar. Sea B el evento que X a, y sea A el evento que X < a. Entonces, Pr (X = a) = P(B - A) = P(B) - P(A) = F(a) - F(a), donde hemos usado (6.1).en el paso final. Finalmente, (6.4a) y (6.4b) se siguen de (6.1) tomando complementos. Para establecer (6.4a), por ejemplo, observe que el evento X > a es el complemento del evento X a, así que Pr (X > a)=1 - Pr (X a) = 1 - F(a). //// La Ecuación (6.3) es de especial interés. Puesto que las funciones de distribución son siempre continuas por la derecha por (6.1), puede ser replanteada como sigue. Si la función de distribución F de la variable aleatoria X tiene una discontinuidad de magnitud = F(a) F(a-) en el punto a, entonces Pr (X = a) = . Recíprocamente, si F es continua en el punto a, entonces Pr (X = a) = 0. En particular, si F es una función continua, entonces Pr (X = a) = 0 para toda a R. Así, si F es continua, las cuatro probabilidades en (6.2) son todas la misma, y Pr (a < X < b) = Pr (a < X b) = Pr (a X < b) = Pr (a X b) = F(b) - F(a). EJEMPLO 5.6.1 a Si X tiene la distribución normal estándar, entonces Pr (a < X < b) = Pr (a X b) = (b) - (a) para a < b, puesto que es continua. En particular, tenemos Pr (-1 X 1) = (1) - (-1) = 0.683 y Pr (-2 X 2)=0.954 del Apéndice Tabla C.3. b Más generalmente, si X tiene la distribución normal con parámetro de localidad 162 MEDIANAS Y MODAS y parámetro de escala > 0, entonces b a Pr a X b para a b En particular, Pr ( - X + ) = (1) - (-1) = 0.683 y Pr (-2 X + 2) = 0.954. //// EJEMPLO 5.6.2 Si X tiene la distribución gama con parámetros = k, un entero positivo y > 0, entonces. k 1 1 i i a ea b eb i0 i ! Pr a X b para a < b por el Ejemplo 5.5.4. Para valores de a y b, esto puede ser calculado de la tabla de probabilidades Poisson en el Apéndice C. //// EJEMPLO 5.6.3 a Si X tiene la distribución binomial con parámetros n = 8 y p = 0.5, entonces Pr (3 X 5) = F(5) - F(3-) = 0.7109. Observe que F(5) - F(3) = 0.4922. b Si X tiene la función de distribución 0 a F (a ) 2 1 a 1 1 a 2 a2 entonces Pr (X = 1) = F(1) - F(1-) = 0.5. Sin embargo, Pr (X = a) = 0 para a 1, puesto que F es continua en toda a excepto a = 1. Esta variable ni es discreta ni es absolutamente continua. //// 5.7 MEDIANAS Y MODAS1 Si X es cualquier variable aleatoria, entonces cualquier número m para el cual Pr X m 12 Pr X m 1 7 Esta sección trata un tópico especial y puede ser omitido sin pérdida de continuidad. (7.1) VARIABLES ALEATORIAS 163 será denominado una mediana de X. Si F denota la función de distribución de X, entonces (7.1) es equivalente a F m 12 F m (7.2) puesto que Pr (X m) = 1 - F(m-) por (6.4). Cualquier número m que satisface (7.2) será llamado una mediana de F. Si F es continua, entonces F(m-) = F(m), y así debemos tener igualdad en (7.2) y (7.1). Eso es, si F es continua, entonces X es tan probable de estar arriba como abajo de su mediana. En este sentido, una mediana puede ser pensada como un centro de la distribución de X. Una variable aleatoria puede tener más de una mediana. De hecho, una variable aleatoria puede tener un intervalo entero de medianas. También, las desigualdades en (7.1) y (7.2) pueden ser estrictas si F no es continua. Ejemplos serán dados abajo. EJEMPLO 5.7.1 Si X tiene una densidad f que es simétrica en el sentido que f(x) = f(-x) para toda x, entonces 0 es una mediana para X. De hecho F 0 f x dx 0 f x dx 1 F 0 0 así que F(0) = ½. En particular, 0 es una mediana las distribuciones normal estándar y Cauchy estándar. //// EJEMPLO 5.7.2 Suponer que la longitud de tiempo X requerida para que una partícula radioactiva individual decaiga tiene una distribución exponencial con parámetro > 0. Entonces la mediana puede ser encontrada resolviendo la ecuación 1 2 Pr X m em cuando m = (log 2)/. Si una sustancia radioactiva contiene N de tales partículas, donde N es grande, y si las partículas decaen independientemente, entonces esperamos aproximadamente la mitad de las N partículas haber decaído para el tiempo m. En correspondencia, llamamos a m la vida-media de la sustancia. //// EJEMPLO 5.7.3 a Si X tiene la distribución geométrica con parámetro p = 0.5, entonces Pr X 1 12 Pr X a 164 MEDIANAS Y MODAS para 1 a < 2. Así cualquier número m con 1 < m 2 es una mediana para X. b Si X tiene la distribución geométrica con parámetro p = 0.4, entonces Pr X = 1 0.4 y Pr X 2 0.24 Así F(2-) = 0 4 < 0.64 = F(2). Eso es, 2 es una mediana única, y hay desigualdad estricta en (7.1) y (7.2). //// Si X es una variable aleatoria discreta con función masa f o una variable aleatoria absolutamente continua con densidad f, entonces cualquier número m en el cual f alcanza su máximo es denominado una moda de X o una moda de f. En el caso discreto donde f(m) = Pr (X = m), una moda es un valor más probable de X o uno de varios valores más probables. Una densidad o función masa puede tener más de una moda. EJEMPLO 5.7.4 a La única moda de la densidad normal estándar 1 e 2 f x 1 2 x 2 es x = 0. b La única moda de la distribución Cauchy estándar es también x = 0. //// EJEMPLO 5.7.5 a Encontremos la moda de la densidad gama f x 1 x 1e x para x > 0. Diferenciación muestra que f ' x 1 1 x 2 x 1 e x Si 1, entonces f '(x) < 0 para toda x > 0, y así la moda m = 0. De hecho, si < 1, entonces f(x) cuando x 0. Si > 1, entonces f '(x) se hace cero cuando x = m = (-1)-1. b Similarmente, la moda de la densidad beta f con parámetros 1 y 1 y + > 2 es VARIABLES ALEATORIAS m 165 1 2 Si < 1, entonces f(x) cuando x 0, y si < 1, entonces f(x) cuando x 1. //// EJEMPLO 5.7.6 Tabla 9 da el ingreso x en miles de dólares de 1000 familias hipotéticas, donde y es el número de familias. Si una familia es seleccionada al azar y su ingreso X registrado, ¿cuál es la moda de X? ¿Cuál es la mediana de X? El ingreso más probable es $9000, que es la moda. Al menos la mitad de las familias tienen $11,000 o menos, y al menos la mitad de las familias tienen $11,000 o más, así que la mediana es $11,000. Tabla 9 x y 8 126 9 186 10 175 11 152 12 121 15 113 20 74 25 42 50 9 100 2 5.8 PROPIEDADES DE LAS FUNCIONES DE DISTRIBUCIÓN1 En esta sección mostraremos que las funciones de distribución tienen ciertas propiedades características. Como un corolario, veremos cómo construir un espacio de probabilidad sobre el cual es definida una variable aleatoria que tiene una función masa, densidad, o función de distribución preasignada, arbitraria. Usaremos el hecho de que si A1, A2,… es una sucesión decreciente de eventos(eso es, si A1 A2 …), entonces P An lim P An n n1 (8.1a ) y si A1, A2,… es una sucesión creciente de eventos (eso es, si A1 A2 …), entonces P An lim P An n1 n (8.1b) Ver Teorema 2.5.1. Teorema 5.8.1 Sea X cualquier variable aleatoria, y denote F su función de distribución. Entonces 1 8 Esta sección puede ser omitida sin pérdida de continuidad. 166 PROPIEDADES DE LAS FUNCIONES DE DISTRIBUCIÓN (i) F es no decreciente; (ii) F es continua por la derecha; y (iii) F satisface lim F a 0 cuando a (8.2a ) lim F a 1 cuando a (8.2b) PRUEBA Que F es no decreciente ha sido antes probado. Se sigue que los limites por un solo lado F(a+) y F(a-) existen para cualquier - < a <, y la aseveración de que F es continua por la derecha es equivalente a la aseveración de que F(a)= F(a+) para cualquier a. Para ver esto, sea An el evento X a + 1/n para n = 1,2,.… Entonces, A1 A2 …, y la intersección de los An es simplemente el evento X a. Por lo tanto, 1 F a lim F a n n lim P An n P An n1 Pr X a F a como se dijo, donde hemos usado (8.1) para obtener la crucial igualdad de en medio. Nos falta aún probar (8.2). Para establecer (8.2a), por ejemplo, observe primero que cuando a -, lim F(a) existe puesto que F es no decreciente. Para cualquier n = 1,2,... sea An el evento X -n. Entonces, la sucesión A1, A2,… es decreciente y su intersección es el conjunto vacío . Por lo tanto, lim F n lim P An P An P 0 n n1 como se estableció; (8.2b) puede ser establecida similarmente. //// El Teorema 5.8.1 establece la Ecuación (6.1a). Un argumento similar establecerá (6.1b), F(a-) = Pr (X < a). Dado a, sea An el evento X a - 1/n para n = 1,2,.... Entonces An An+1 para toda n, y la unión A = n1 An es el evento X < a. Así, F(a-)=lim F(a - 1/n)=lim P(An) = P(A) = Pr (X < a) cuando n . La importancia del Teorema 5.8.1 deriva en parte del hecho que las propiedades derivadas ahí son características de las funciones de distribución. Eso es, cualquier función F que tenga las propiedades descritas por el Teorema 5.8.1 es la función de distribución de alguna VARIABLES ALEATORIAS 167 variable aleatoria. Teorema 5.8.2 Sea F cualquier función no decreciente, continua por la derecha que satisface (8.2). Entonces hay una variable aleatoria X cuya función de distribución es F. PRUEBA Debemos definir un espacio de probabilidad (S,,P) y una variable aleatoria X y mostrar que la función de distribución de X es F. Sea S = (0,1), sean todos los subintervalos de S los eventos, eso es, elementos de , y sea P(I) = longitud de I si I es un subintervalo de S, como en el Ejemplo 2.2.5. Además, defina una función X sobre S por X s min x R: F x s (8.3) para cada s S fijo. El conjunto sobre el lado derecho de (8.3) no es vacío por (8.2), y el mínimo es alcanzado porque F es continua por la derecha. Para ver que X es una variable aleatoria con función de distribución F, observe que X(s) a si y sólo si s F(a) para cada a fija, - < a < . Eso es, el evento X a es simplemente (0, F(a)] para cualquier a. Por lo tanto, X es una variable aleatoria, y Pr (X a) = P((0, F(a)]) = longitud de (0, F(a)] = F(a), como se afirmó. //// De aquí en adelante, usaremos el término “función de distribución” para referirnos a cualquier función continua por la derecha, no decreciente F que satisface (8.2). El Teorema 5.8.2 garantiza que tales funciones son funciones de distribución de variables aleatorias. EJEMPLO 5.8.1 a Si f es cualquier función de densidad, entonces su integral indefinida F definida por F a f y dy a es no decreciente y continúa por la derecha (de hecho, continua) y satisface (8.2). Por lo tanto, F es la distribución de alguna variable aleatoria X. Por (6.2a), tenemos entonces Pr a X b F b F a a f x dx b siempre que a < b, así que X tiene densidad f. Por lo tanto, hemos probado el siguiente corolario al Teorema 5.8.2. Dada cualquier función de densidad f, hay una variable aleatoria X cuya densidad es f. b Similarmente, dada cualquier función masa f, hay una variable aleatoria cuya 168 PROPIEDADES DE LAS FUNCIONES DE DISTRIBUCIÓN función masa es f. //// EJEMPLO 5.8.2 a La función F definida por F(a) = sen a, - < a < , no es monótona y no satisface (8.2). Por lo tanto, no es la función de distribución de ninguna variable aleatoria. b Si G y H son funciones de distribución y 0 < < 1, entonces F = G + (1-)H es también una función de distribución. Indudablemente, si G y H son no decrecientes y continuas por la derecha y ambas satisfacen (8.2), entonces F también será no decreciente y continua por la derecha y satisface (8.2). Si G es absolutamente continua y H es discreta, entonces F no será ni absolutamente continua ni discreta. //// VARIABLES ALEATORIAS 169 5.9 PROBLEMAS 5.1 Sea S un conjunto, y para A S sea IA la función indicadora de A. Verificar las siguientes propiedades: (a) IAB(s) = IA(s) IB(s) (b) I A B (s) = IA(s) + IB(s) IAB(s) (c) IA´(s) = 1 IA(s) para toda s S. 5.2 Dos dados balanceados son lanzados. Representar el número total de puntos que aparecen como una variable aleatoria X sobre un espacio muestral apropiado. Encontrar Pr (X = 6). 5.3 Considere el espacio de probabilidad del Ejemplo 5.1.4, y sea X(s) = sen (s/2) s S. Encontrar Pr (X 0.5). 5.4 Considere el espacio de probabilidad del Ejemplo 5.1.4 y sea X(s) = sen 2s s S. Encontrar Pr (X 0.5). 5.5 Un punto s = (s1,s2) es seleccionado al azar del círculo unitario S de tal manera que la probabilidad de que s pertenezca a la subregión de S es proporcional al área de la subregión. Denote X la distancia del punto seleccionado desde el origen. 170 PROBLEMAS (a) Represente a X como una función sobre un espacio muestral apropiado. (b) Calcular Pr (X r) para 0 < r < 1. 5.6 Sea (S,,P) un espacio de probabilidad, y sea X una función valuada en los reales definida sobre S. Mostrar que si {s S: X(s) a} es un evento para cualquier número real a, entonces X es una variable aleatoria . 5.7 Mostrar que la clase B del Teorema 5.1.1 es una -álgebra. Sugerencia: Por ejemplo, si B B, entonces X-1(B) , así que X-1(B´) = X-1(B)´ está también en , porque está dada para ser una -álgebra. 5.8 Complete la prueba del Lema 5.1.1. 5.9 Sean dos dados balanceados lanzados, y sea X el número total de puntos que aparecen. Encontrar la función masa de X. 5.10 Cartas son extraídas secuencialmente sin reemplazo de un paquete hasta que una espada aparece. Denote X el número de cartas requeridas. Encontrar la función masa de X. 5.11 Cartas son extraídas secuencialmente sin reemplazo hasta que r espadas han aparecido. Denote X el número cartas requeridas. Encontrar la función masa de X. 5.12 Sea X cualquier variable aleatoria que puede tomar sólo los valores 1, 2,. Mostrar que si 0 < Pr (X > k) < 1 y si Pr (X > k + 1 X > k) = Pr (X > 1) para toda k = 1, 2,, entonces X tiene la distribución geométrica con parámetro p = Pr (X = 1). 5.13 Sea f(x) = 1/x(x + 1) si x es un entero positivo, x = 1, 2,, y sea f(x) = 0 para otros valores de x. Mostrar que f es una función masa. La distribución determinada por esta función masa es conocida como distribución de Zipf. 5.14 Sea X una variable aleatoria que puede tomar sólo valores enteros positivos 1, 2,. Si P(X > k +1 X > k) = (k + 1)/(k + 2), ¿cuál es la función masa de X? 5.15 Suponer que la demanda sobre un producto dado durante un día dado es una variable aleatoria X que tiene la distribución Poisson con parámetro = 5: (a) Si el comerciante almacena 5 unidades del producto, ¿cuál es la probabilidad de que la demanda excederá la oferta? (b) ¿Cuántas unidades el comerciante debe almacenar si desea que la probabilidad de que la demanda excederá la oferta sea a lo más 0.01? 5.16 Repita el Problema 5.15 bajo la suposición de que X tiene la distribución geométrica con parámetro p = 0.2. 5.17 Repita el Problema 5.15 bajo la suposición de que X tiene la distribución binomial con parámetros n = 10 y p = 0.5. VARIABLES ALEATORIAS 171 5.18 Si X es una variable aleatoria con función de distribución Poisson y Pr (X = 0) = Pr (X = 1), encontrar la Pr (X 2). 5.19 Si X tiene la función de distribución geométrica y Pr (X = 1) = 3 Pr (X = 2), evalúe Pr (X sea impar). 5.20 Si X tiene la función de distribución Poisson con parámetro , mostrar que Pr ( X sea par) = e- cosh . 5.21 Para cada n 1, permita que Xn tenga la distribución binomial con parámetros n y p. Además, sea n = Pr (Xn sea impar). Mostrar que 1 = p y n = (q p)n –1 + p para n 2. Concluya que n = (½ )[1 (q p)n] para n = 1, 2,. 5.22 Mostrar que lo siguiente define una función masa: f x 2x nn 1 para x = 1, 2,, n y f(x) = 0 para otros valores de x. ¿Para cuáles valores de existe una constante c para la cual f x cx x 1, 2, y f(x) = 0 para otros valores de x define una función masa? ¿Cómo debe ser seleccionada c para que las siguientes funciones definan densidades? cx 2 f x (a) 0 (b) f x 0 x2 otros valores de x c 1 x 2 x ¿Para cuáles valores de existe una c tal que f(x) = cx, x > 0 y f(x) = 0 para x 0 define una densidad? 5.26 Mostrar que si f y g son densidades y 0 < < 1, entonces h = f + (1 )g es también una densidad. 5.27 Sea f(x) = (½)e-x, < x < . Mostrar que f es una densidad. Esta densidad es conocida como la densidad exponencial bilateral. 5.28 Mostrar que si X tiene la distribución exponencial con parámetro > 0, entonces Pr (X 172 PROBLEMAS > s + t X > s) = Pr (X > t) para todas las selecciones de s > 0 y t > 0. 5.29 Si X tiene la distribución exponencial con parámetro = 2, encontrar la probabilidad que 1 < X 2. 5.30 Si X tiene la distribución Cauchy, ¿cuál es Pr (1 X 3)? 5.31 Si X tiene la distribución Cauchy, ¿cuál es la probabilidad de que 1 + X2 > 3? 5.32 La clase del Profesor Smith está programada para iniciar a las 10 A.M., pero el inicia su clase en un tiempo X el cual está uniformemente distribuido sobre el intervalo 9:55 a 10:05 A.M. ¿Cuál es la probabilidad de que el iniciará (a) al menos 2 minutos antes; (b) al menos 2 minutos tarde? 5.33 Suponer que el tiempo, en horas, requerido para dar servicio a una clase particular de carro deportivo es una variable aleatoria X la cual tiene la distribución exponencial con parámetro = 1. ¿Cuál es la probabilidad de que más de 2 horas serán requeridas para dar servicio al carro? 5.34 Si f es una densidad y a R, mostrar que I a a f x dx tiende a cero cuando 0. Sugerencia: Si f es acotada, digamos por b, cerca de a, entonces I() b ; y si f no está acotada cerca de a, entonces para b < a a b f x dx lim f x dx c c a b por la definición de la integral impropia de Riemann. 5.35 Sea k un entero impar. Exprese (k/2) en términos de factoriales y potencias de 2. 5.36 Mostrar que la densidad beta es, de hecho, una densidad. Eso es, muestre x 1 x ) dx 1 1 1 0 Sugerencia: Escriba ()() como una doble integral y haga un cambio apropiado de variables, como en el Lema 4.4.1. 5.37 Para > 0 y > 0, sea ( + )/()(), y sea f(x) = cx -1/(1 + x) + para x > 0 y f(x) = 0 para x 0. Mostrar que f es una densidad. Esta densidad es conocida como la densidad Pareto y es algunas veces usada para describir la distribución de ingresos. 5.38 Mostrar que 1 1 exp y dy es finita (ver Sección 5.4.1). 2 VARIABLES ALEATORIAS 173 5.39 Usar el Problema 5.38 para mostrar que I nm 0 cuando n . 5.40 Permita que X tenga una densidad f(x) = x - 1 para 0 < x < 1 y f(x) = 0 para otros valores de x, donde > 0. Encontrar la función de distribución de X. 5.41 Permita que X tenga la densidad f(x) = /(1 + x) +1 para x > 0 y f(x) = 0 para x 0, donde > 0. Encontrar la función de distribución de X. 5.42 Encontrar la densidad de la variable aleatoria X del Ejemplo 5.1.4. Sugerencia: Encontrar la función de distribución y diferenciar. 5.43 Encontrar la densidad de la variable aleatoria X del Problema 5.5. 5.44 Si X tiene la distribución gama con parámetros = 3 y = 1, encontrar Pr (X a) para a = 1, 2. 5.45 Suponer que el tiempo de vida de un foco en horas es una variable aleatoria X que tiene la distribución exponencial con parámetro = 0.02. Encontrar la probabilidad de que 30 < X < 60. 5.46 En el Problema 5.45 suponer que X tiene la distribución gama con parámetros = 3 y = 0.05. Encontrar la probabilidad de que 30 < X < 60. 5.47 Suponer que el ingreso familiar en un área dada en unidades de $10,000 sigue la distribución Pareto con parámetros = 2 y = 1. Eso es, suponer que si una familia es seleccionada al azar del área y su ingreso X registrado, entonces X es una variable aleatoria que tiene la distribución Pareto con parámetros = 2 y = 1. ¿Qué proporción de las familias tienen ingresos entre $8,000 y $12,000, inclusive? 5.48 Suponer que la demanda por electricidad, en megawatt-horas, en una ciudad dada en un día dado es una variable aleatoria X que tiene la distribución normal con parámetros = 500 y = 10. Encontrar constantes a y b para las cuales Pr (a < X < b) = 0.95. 5.49 En el Problema 5.48 ¿cuál es la probabilidad de que X > 530 megawatt-horas? 5.50 Mostrar que si m es una mediana (moda) de X, y si > 0, entonces m + es una mediana (moda) de Y = X + . 5.51 Encontrar la moda de la función masa binomial con parámetros n y p. Sugerencia: Use la Ecuación (1.3) del Capítulo 4. 5.52 Encontrar la moda de la distribución binomial negativa con parámetros r y p. 5.53 Encontrar la moda de la función masa Poisson con parámetro . 5.54 Encontrar la moda de la densidad Pareto con parámetros > 1 y > 0. 5.55 Sea F(x) = ex/(ex + e-x) para < x < . Mostrar que F es una función de distribución y encontrar su densidad. F es conocida como la función de distribución logística. 174 PROBLEMAS 5.56 Para > 0, sea F(x) = 1 e x para x > 0, y sea F(x) = 0 para x 0. Mostrar que F es una función de distribución y encontrar una densidad para F. 5.57 Sea F(x) = exp (e-x) para < x < . Mostrar que F es una función de distribución , y encontrar la función de densidad de F. F es conocida como la función de distribución doble exponencial. 5.58 Sean r1, r2, los números racionales en el intervalo [0,1], y sea X una variable aleatoria para la cual Pr (X = rn) = 2-n para n = 1, 2,. Mostrar que la función de distribución de X es discreta pero es constante sobre ningún subintervalo de [0,1]. 5.59 Encontrar las medianas de (a) la función de distribución logística y (b) la función de distribución doble exponencial. 6 6 VECTORES ALEATORIOS 6.1 DISTRIBUCIONES BIVARIADAS Consideremos ahora el caso de dos variables aleatorias, X y Y digamos, que son definidas sobre el mismo espacio de probabilidad (S,,P). Si I y J son intervalos, podemos desear calcular ya sea Pr (X I) o Pr (Y J), o ambos, y hemos discutido técnicas para calcular estas probabilidades en los capítulos previos. Podemos también desear calcular la probabilidad de la ocurrencia simultánea (intersección) de los eventos X I y Y J. Denotaremos esta probabilidad por Pr (X I, Y J). Así Pr X I ,Y J Ps S : X ( s ) I yY s J (1.1) Más generalmente, si B es un subconjunto de R2, el conjunto de todos los pares ordenados de números reales, entonces podemos desear calcular la probabilidad de que el par ordenado (X,Y) pertenezca a B. Denotaremos esta probabilidad por Pr ((X,Y) B),así que Pr X ,Y B Ps S : X s ,Y s B (1.2) Como en el capítulo previo, emplearemos simplificaciones naturales de la notación (1.1) y (1.2) donde sea posible. EJEMPLO 6.1.1 176 DISTRIBUCIONES BIVARIADAS Considere una urna que contiene r bolas rojas, w bolas blancas, y b bolas negras. Si una muestra aleatoria desordenada de tamaño k es tomada, entonces el número de bolas rojas X y el número de bolas blancas Y en la muestra son variables aleatorias. Más aún, por el Teorema 1.4.2, r w b i j k i Pr X i ,Y j r w b k j donde i y j son enteros no negativos para los cuales i j k . //// EJEMPLO 6.1.2 Sea un punto s ( s1 , s2 ) seleccionado del cuadrado unitario S s s1 ,s2 :0 s1 1,0 s2 1 de tal manera que la probabilidad de que s pertenezca a una subregión B S es el área de B. Entonces, las funciones coordenadas X1 s1 , s2 s1 y X 2 s1 , s2 s2 definen variables aleatorias. En este caso es fácilmente verificado que Pr X 1 X 2 12 18 dibujando una gráfica apropiada (Figura 9). //// Figura 9. El evento de que x + y ≤ 1/2 VECTORES ALEATORIOS 177 Si X y Y son variables aleatorias que están definidas sobre el mismo espacio de probabilidad, entonces diremos que X y Y están conjuntamente distribuidas. Además, definimos esa distribución conjunta Q de X y Y por QB Pr X ,Y B (1.3) para todo B R2, para el cual el lado derecho de (1.3) este definido. También referiremos a Q como la distribución del par (X,Y). Como en el caso univariado, puede ser mostrado que Q es una medida de probabilidad. Si X y Y son variables aleatorias conjuntamente distribuidas las cuales son cada una discreta, como en la Sección 5.2, entonces definimos la función masa conjunta f de X y Y por f x , y Pr X x ,Y y (1.4) para – < x < y – < y < . También referiremos a f como la función masa del par (X,Y). Como en el caso univariado, entonces es fácilmente verificado que esa f debe tener las siguientes propiedades: f x , y 0 (1.5 a) para – < x < y – < y < ; hay un conjunto finito o infinito contable 1 C para el cual f(x,y) = 0 si (x,y) C; y f x , y 1 (1.5 b) C donde la suma se extiende sobre todos los (x,y) C. También, como en el caso univariado, es visto fácilmente que si X y Y tienen función masa conjunta f, entonces Pr X ,Y B f x , y (1.6) BC para todo B R2 para el cual el lado izquierdo de (1.6) este definido. En particular la función masa conjunta f unívocamente determina la distribución conjunta de X y Y. Nos referimos a cualquier función f que se desvanece fuera de un conjunto finito o infinito contable C y satisface (1.5) como una función masa bivariada. Veremos abajo que si f es cualquier función masa bivariada, entonces hay variables aleatorias discretas X y Y cuya función masa conjunta es f. Similarmente, definimos una densidad bivariada para ser una función real f que definida sobre R2 satisface 1 1 Si D y E son conjuntos finitos o infinitos contables para los cuales Pr (X D) = 1= Pr (Y E), entonces el producto cartesiano C = D E es finito o infinito contable y Pr ((X,Y) C) Pr (X D) + Pr (Y E) =0. 178 DISTRIBUCIONES BIVARIADAS f x , y 0 (1.7 a) f x , y dxdy 1 (1.7 b) para – < x < y – < y < y Además, si X y Y son variables aleatorias conjuntamente distribuidas, diremos que el par (X,Y) es absolutamente continuo si y sólo si hay una densidad bivariada f para la cual Pra X b,c Y d c a f x , y dxdy d b (1.8) siempre que a < b y c < d. Si (1.8) se cumple, entonces llamaremos a f una densidad conjunta para X y Y o una densidad para el par (X,Y). Como en el caso univariado, puede ser mostrado que si X y Y tienen densidad conjunta f, entonces Pr X ,Y B f x , y dxdy (1.9) B para todo B R2 para el cual ambos lados de (1.9) estén definidos. Más aún, una densidad conjunta para dos variables aleatorias X y Y unívocamente determina su distribución conjunta. EJEMPLO 6.1.3 a Si g y h son densidades univariadas, entones su producto f definido por f x, y g xh y para - < x < y - < y < define una función de densidad bivariada, porque f es no negativa y1 2 f x , y dxdy g x dx h y dy 1 1 Esta simple observación provee una clase grande de ejemplos. b 1 Similarmente, si g y h son funciones masa univariadas, entonces su producto f 2 Algunas reglas para manipular integrales múltiples serán dadas en la Sección 6.4. Aquí anticipamos algunas de las reglas. VECTORES ALEATORIOS 179 definido por f(x,y) = g(x)h(x) para - < x < y - < x < define una función masa bivariada. //// EJEMPLO 6.1.4 Sea una muestra aleatoria desordenada de tamaño k extraída de una urna que contiene r bolas rojas, b bolas negras, y w bolas blancas, y denotemos por X y Y el número de bolas rojas y el número de bolas blancas en la muestra , como en el Ejemplo 6.1.1. Entonces la función masa conjunta de X y Y está dada por b r w x y k x y f x , y r w b k para enteros no negativos x y y para los cuales x + y k y f(x,y) = 0 para otros valores de x y y. //// EJEMPLO 6.1.5 Sea B una región de R2 con área positiva finita B. Suponer también que la frontera de B tiene área cero.1 Entonces la función f definida por 1 x , y B f x , y B 0 de otro modo es una función de densidad. Nos referiremos a f como la densidad uniforme sobre B, y si X y Y tienen densidad conjunta f, diremos que X y Y son uniformemente distribuidas sobre B. En el caso especial que B es el círculo unitario B = {(x,y): x2 + y2 1}, encontramos 1 x 2 y 2 1 f x , y 0de otro modo //// Si X y Y son variables aleatorias distribuidas conjuntamente, definimos su función de distribución conjunta F por 1 3 El requisito de que el área de la frontera sea cero asegura que IB es integrable. Ver Apostol (1957), p. 258. 180 DISTRIBUCIONES BIVARIADAS F a ,b Pr X a ,Y b (1.10) para - < a < y - < b < , y también nos referiremos a F como la función de distribución del par (X,Y). Así, si X y Y tienen densidad conjunta f, entonces F x , y f x , y dxdy (1.11 a) F a ,b a b (1.11b) b a para toda a y b por (1.8) y f a ,b en los puntos de continuidad (a,b) de f. Como en el caso univariado, es posible expresar la probabilidad de que (X,Y) pertenezca a cualquier rectángulo en términos de su función de distribución. Por ejemplo, tenemos el siguiente teorema. Teorema 6.1.1 Permita que las variables aleatorias X y Y tengan función de distribución conjunta F. Si a < b y c < d, entonces Pr (a < X b, c < Y d) = F(b,d) - F(a,d) - F(b,c) + F(a,c). PRUEBA Sea A (alternativamente B, C, y D) el evento de que X a (alternativamente X b, Y c, y Y d). Entonces nosotros requerimos la probabilidad del evento (B - A) (D C). Por aplicaciones repetidas del Teorema 2.3.1, se tiene lo siguiente PB A D C PB D C P A D C PBD PBC P AD P AC que es simplemente F(b,d) - F(a,d) - F(b,c) + F(a,c), como lo establecido. //// Tomando límites, podemos ahora expresar la probabilidad que (X,Y) pertenezca a cualquier rectángulo en términos de su función de distribución (Problemas 6.13 a 6.15). Sin embargo, esta expresión es mucho menos útil en dos dimensiones que en una, puesto que las funciones de distribución bivariadas son mucho más difíciles de evaluar o tabular en dos dimensiones que en una y en dos dimensiones hay una variedad de regiones interesantes que no son rectángulos. Concluimos esta sección con el análogo en dos dimensiones de los Teoremas 5.8.1 y 5.8.2. La prueba del Teorema 6.1.2, sin embargo, está más allá del alcance de este libro. Teorema 6.1.2 Sea F una función que está definida sobre R2. Entonces F es la función de distribución de un par (X,Y) de variables aleatorias si y sólo si: VECTORES ALEATORIOS 181 (i) F es no decreciente y continua por la derecha en cada variable separadamente; (ii) lim F(a,b) = 0 (1.12a) cuando a - ó b -, y lim F(a,b) = 1 (1.12b) cuando ambos a y b ; y (iii) F(b,d) - F(a,d) - F(b,c) + F(a,c) 0 siempre que a < b y c < d. EJEMPLO 6.1.6 a Si f es cualquier densidad bivariada, entonces hay variables aleatorias X y Y, cuya densidad conjunta es f. Indiscutiblemente, dado f, defina F por medio de la Ecuación (1.11a). Entonces es fácilmente verificado que F satisface las condiciones (i) a (iii) del Teorema 6.1.2. Por ejemplo, si a < b y c < d, entonces F b,d F a ,d F b,c F a ,c c a f x , y dxdy d b (1.13) la cual no es negativa puesto que f no es negativa. La verificación de (i) y (ii) se deja como un ejercicio (ver Ejemplo 5.8.1a). Ahora se sigue que hay un par de variables aleatorias (X,Y) cuya función de distribución es F. Finalmente, se sigue del Teorema 6.1.1 que para a < b y c < d, Pr (a < X b, c < Y d) = F(b,d) - F(a,d) - F(b,c) + F(a,c), que es d b c a f x , y dxdy por (1.13). Por lo tanto, X y Y tienen densidad conjunta f. b Análogamente, si f es cualquier función masa bivariada, entonces hay variables aleatorias X y Y cuya función masa conjunta es f. //// 6.2 DISTRIBUCIONES MARGINALES E INDEPENDENCIA Si X y Y tienen una distribución conjunta, es razonable esperar que las distribuciones individuales de X y Y deben estar relacionadas en alguna forma agradable a la distribución conjunta de X y Y. Esto es, de hecho, el caso, y consideraremos esta relación en esta sección. Denotemos por F la función de distribución conjunta de X y Y, y denotemos por G y H las funciones de distribución individuales de X y Y, respectivamente. Entonces puesto que el evento de que Y es seguro que ocurra, tenemos formalmente 182 DISTRIBUCIONES MARGINALES E INDEPENDENCIA Ga Pr X a Pr X a ,Y F a , (2.1a) para todo a, - a , y análogamente H b F ,b (2.1b) para toda b, - b . Las relaciones (2.1a) y (2.1b) no son totalmente significativas porque los símbolos F(a,) y F(,b) no han sido definidos. Sin embargo, ellos se vuelven significativos y correctos si definimos F a , lim F a ,n y n F ,b lim F n,b n Ver Problema 6.16. Ahora, suponer que X y Y tienen una densidad conjunta f. Entonces el lado derecho de la Ecuación (2.1a) puede ser escrita F a , f x , y dydx g x dx a a donde (por definición) g x f x , y dy (2.2 a) para - x , y se sigue que G es absolutamente continua con densidad g. Por simetría, encontramos también que H es absolutamente continua con densidad h, donde h y f x , y dx (2.2 b) para - y . Relaciones similares pueden ser obtenidas si X y Y son variables aleatorias discretas. Denote f la función masa conjunta de X y Y, y denoten g y h las funciones masa individuales de X y Y, respectivamente. Además, sean D y E conjuntos contables para los cuales Pr (X D) = 1 = Pr (Y E). Entonces, para cualquier x, el evento de que X = x es la unión de los eventos mutuamente exclusivos X = x y Y = y para y E con el evento X = x y Y E. Puesto que Pr (X = x, Y E) Pr(Y E) = 0, tenemos Pr X x Pr X x ,Y y yE Eso es, tenemos VECTORES ALEATORIOS 183 g x f x , y (2.3 a) h y f x , y 2.3b yE para toda x, - x . Similarmente, xD para toda y, - y . En el contexto de las Ecuaciones (2.1), (2.2), o (2.3), algunas veces referimos a G o g como la función de distribución marginal, densidad, o función masa de X y a H o h como la función de distribución marginal ,densidad, o función masa de Y. Resumimos nuestros resultados. Teorema 6.2.1 Si X y Y son variables aleatorias conjuntamente distribuidas con función de distribución conjunta F, entonces las funciones de distribución de X y Y están dadas por (2.1a) y (2.1b), respectivamente. Si X y Y tienen densidad conjunta f, entonces X y Y tienen densidades g y h que están dadas por (2.2a) y (2.2b),respectivamente, y si X y Y son discretas con función masa conjunta f, entonces X y Y tienen funciones masa g y h que están dadas por (2.3a) y (2.3b), respectivamente. EJEMPLO 6.2.1 Si X y Y son variables aleatorias discretas que pueden asumir solamente un número finito de valores, entonces su función masa conjunta puede ser dada por una tabla. Las funciones masa marginales de X y Y entonces pueden ser obtenidas sumando a través de las hileras y hacia abajo sobre las columnas. Lo ilustramos en la Tabla 10. Tabla 10 y x 1 2 3 4 g(x) 1 2 3 4 h(y) 0.05 0.10 0.05 0.15 0.35 0.05 0.10 0.05 0.05 0.25 0.10 0.05 0.00 0.05 0.20 0.00 0.05 0.00 0.15 0.20 0.20 0.30 0.10 0.40 //// EJEMPLO 6.2.2 Las ecuaciones (2.1), (2.2) y (2.3) no son las únicas formas para calcular una función de distribución marginal, densidad, o función masa. Por ejemplo, suponer que una muestra aleatoria desordenada de tamaño k es seleccionada de una urna que contiene r bolas rojas, w 184 DISTRIBUCIONES MARGINALES E INDEPENDENCIA bolas blancas, y b bolas negras, y denoten X y Y el número de bolas rojas y el número de bolas blancas en la muestra. La función masa conjunta de X y Y fue encontrada en el Ejemplo 6.1.4. La función masa marginal puede ser calculada de (2.3), pero puede ser también calculada directamente. De hecho, r w b x k x g x r w b k para x = 0, 1, ... , k por el Teorema 1.4.1. //// EJEMPLO 6.2.3 Sean X y Y distribuidas uniformemente sobre el círculo unitario C ={(x2 + y2 1}. Entonces X y Y tienen densidad f(x,y) = 1/, si x2 + y2 1 y f(x,y) = 0 de otro modo. Por lo tanto, la densidad marginal de X es g x f ( x , y )dy 1 x 2 1 x 2 1dy 2 1 x2 para -1 x 1. Por supuesto, g(x) = 0 si x > 1, puesto que entonces f(x,y) = 0 para toda y. EJEMPLO 6.2.4 Considere la función f, definida por f x , y Cr exp 12 Qx , y donde -1 < r < 1, Cr 1 2 1 r 2 y Q( x , y ) x 2 2rxy y 2 1 r 2 para - < x < y - < y < . Mostraremos que f es una densidad bivariada y calcularemos las densidades marginales Por simple álgebra tenemos Qx , y x 2 z 2 Así, donde z y rx / 1 r 2 VECTORES ALEATORIOS 185 g x Cr exp 12 x 2 z 2 dy 1 r 2 Cr e 12 x 2 e 2 1 r 2 Cr e 12 z 2 12 x 2 dz 1 12 x2 e 2 (2.4) para - < x < . Aquí hemos usado el hecho de que la función de densidad normal estándar tiene integral 1, y hemos usado la definición de Cr en los dos pasos finales. Ahora se sigue que f x , y dydx g x dx 1 otra vez porque la densidad normal estándar tiene integral total 1, y se sigue que f es una densidad bivariada. La densidad f es conocida como la densidad normal bivariada estándar con parámetro r. Se sigue de (2.4) que si X y Y tienen la densidad normal bivariada estándar con parámetro r, entonces X tiene la densidad normal (univariada) estándar. Por simetría, Y también tiene la densidad normal estándar. //// Diremos que variables aleatorias distribuidas conjuntamente X y Y son independientes si y sólo si Pr X I ,Y J Pr X I Pr Y J (2.5) para todos los intervalos I R y J R. Eso es, X y Y son independientes si y sólo si los eventos X I y Y J son independientes para todos los intervalos I y J. Independencia puede ser interpretada como en el Capítulo 3: X y Y son independientes si y sólo si el valor tomado por X no provee información acerca de no provee información acerca de Y y recíprocamente. Ahora nosotros daremos un criterio para determinar si las variables aleatorias son independientes. Teorema 6.2.2 Si X y Y tienen una función masa conjunta f, entonces X y Y son independientes si y sólo si f x , y g x h y (2.6 a) para toda x y y, donde g y h denotan las funciones masa marginales de X y Y, respectivamente. Similarmente, si X y Y son absolutamente continuas (individualmente) con densidades g y h, entonces X y Y son independientes si y sólo si 186 DISTRIBUCIONES MARGINALES E INDEPENDENCIA f x , y g x h y (2.6 b) define una densidad conjunta para el par (X,Y). PRUEBA Anticipamos el resultado del Ejemplo (6.4.2). Suponer primero que X y Y son independientes con densidades g y h, respectivamente. Si I y J son intervalos, entonces Pr X I ,Y J Pr X I PrY J I g x dx J h y dy I J g x h y dydx así que f ciertamente define una densidad conjunta para X y Y. Recíprocamente, si f define una densidad conjunta para X y Y, entonces para todos los intervalos I y J ver (1:9) Pr X I ,Y J I J g x h y dydx I g x dx J h y dy Pr X I PrY J así que X y Y son independientes. Esto establece la segunda aseveración del teorema, y la prueba de la primera es similar. //// EJEMPLO 6.2.5 Si X y Y tienen la distribución normal bivariada estándar con parámetro r, entonces X y Y son independiente si y sólo si r = 0. Indiscutiblemente, las distribuciones marginales de X y Y son ambas normal estándar (univariada), y el producto de sus densidades marginales es por lo tanto 1 exp 12 ( x 2 y 2 ) 2 (2.7) Comparando (2.7) con la densidad conjunta de X y Y (Ejemplo 6.2.4), vemos que (2.7) define una densidad para el par (X,Y) si y sólo si r = 0. //// Otro criterio para independencia puede ser dado en términos de funciones de distribución. Teorema 6.2.3 Permita que X y Y tengan función de distribución conjunta F. Entonces X y Y son independientes si y sólo si VECTORES ALEATORIOS F a ,b Ga H b 187 (2.8) para - a y - b , donde G y H denotan las funciones de distribución marginales de X y Y, respectivamente. PRUEBA La aseveración “sólo si” es fácil. Indiscutiblemente, si X y Y son independientes, entonces Pr (X a, Y b) = Pr (X a) Pr (Y b) por (2.5), así que F(a,b) = G(a)H(b) para toda a y b. Para establecer la aseveración “si”, argüimos como sigue. Sea a < b y c < d. Entonces por el Teorema 6.1.1, Pr a X b,c Y d F b,d F a ,d F b,c F a ,c y si F es de la forma (2.8), entonces F(b,d) - F(a,d) - F(b,c) + F(a,c) = G(b) - G(a)H(d) H(c) = Pr (a < X b) Pr (c < Y d). De este modo, (2.8) implica lo siguiente Pr a X b,c Y d Pr a X b Pr c Y d (2.9) siempre que a < b y c < d. Esto establece (2.5) para intervalos de la forma I = (a,b] y J = (c,d]. Ahora podemos mostrar que (2.5) se cumple para todos los intervalos I y J por simples argumentos límites (Problema 6.17). //// 6.3 MAYORES DIMENSIONES Las nociones simples de las dos secciones precedentes se extienden sin dificultad de dos dimensiones a varias. Así, considere un espacio de probabilidad (S,,P) sobre el cual están definidas n variables aleatorias X1,... Xn. Diremos que X1,... Xn son distribuidas conjuntamente, y nos referiremos a X = (X1,... Xn) como un vector aleatorio. Si I1,... In son intervalos de números reales, usaremos la notación Pr (X1 I1,... Xn In) para denotar la probabilidad de la ocurrencia simultánea (intersección) de los eventos Xj Ij, j = 1,... n. De este modo, Pr X 1 I1 ,..., X n I n Ps : X1 s I1 ,..., y X n s I n (3.1) Más generalmente, si B es un subconjunto de Rn, el conjunto de todas la n-adas ordenadas de números reales, usaremos la notación Pr (X B) para denotar la probabilidad del conjunto de s S para los cuales X(s) = (X1(s),... Xn(s)) B, provisto por supuesto, que el último conjunto es un evento. Así, 188 MAYORES DIMENSIONES Pr X B Ps : X s B (3.2) Definimos la distribución conjunta Q de X1,... Xn por Q(B) = Pr(X B), y también nos referiremos a Q como la distribución del vector X = (X1,... Xn). Como en los casos univariado y bivariado, podemos mostrar que Q es una medida de probabilidad. Si X1,... Xn son todas variables aleatorias discretas, como las definidas en la Sección 5.2, definimos la función masa conjunta f de X1,... Xn por f x1 ,..., xn Pr X 1 x1 ,..., X n xn para x = (x1,... xn) Rn. También nos referiremos a f como la función masa del vector X = (X1,... Xn). Es entonces fácilmente verificado que f tiene las siguientes propiedades: f x 0 (3.3 a) para toda x = (x1,... xn) Rn; hay un subconjunto1 finito o infinito contable C Rn para el cual f x 0 si x C (3.3b) f x 1 (3.3 c) y C donde la suma se extiende sobre toda x = (x1,... xn) C. Más aún, Pr X B f x (3.4) BC para cualquier B Rn para el cual el lado izquierdo de (3.4) esté definido. En particular, la función masa conjunta f unívocamente determina la distribución conjunta. Nos referiremos a cualquier función f que satisface (3.3) como una función masa nvariables. Similarmente, definimos una densidad n-variables para ser una función real f que está definida sobre Rn y satisface 1 4 Si Ci es un conjunto finito o infinito contable para el cual Pr (Xi Ci)=1, entonces C = C1 x ... x Cn es un conjunto finito o infinito contable para el cual Pr (X C) = 1. VECTORES ALEATORIOS 189 f x 0 (3.5 a) R f xdx 1 (3.5b) para toda x = (x1,... xn) Rn y 1 n Si X1,... Xn son variables aleatorias distribuidas conjuntamente, diremos que X1,... Xn son absolutamente continuas conjuntamente con densidad conjunta f si y sólo si Pr X B B f x dx (3.6) para todos los rectángulos B Rn. En este caso también diremos que el vector X = (X1,... Xn) es absolutamente continuo con densidad f. Si (3.6) se cumple para todos los rectángulos B Rn, entonces puede ser mostrado que (3.6) se cumple para todos los subconjuntos B Rn para los cuales ambos lados estén definidos (compare Teorema 5.3.1). Más aún, una densidad conjunta f unívocamente determina la distribución conjunta de X1,... Xn. EJEMPLO 6.3.1 a Considere una urna que contiene bolas de n diferentes colores, digamos ri 1 bolas de color i, i = 1,... n. Si una muestra de tamaño k r = r1 + ··· + rn es seleccionada de la urna sin reemplazo y permitimos a Xi ser el número de bolas de color i en la muestra, i = 1,.., n, entonces X = (X1,... Xn) será un vector aleatorio para el cual r1 rn ... x1 x n Pr X 1 x1 ,..., X n x n r k (3.7) siempre que x1,... xn sean enteros no negativos cuya suma sea k. Ver Teorema 1.4.2. La Ecuación 3.7 define la función masa hipergeométrica de n-variables con parámetros r1,... rn y k. b Considere un dado de k lados, y sea pi la probabilidad de que la i-ésima cara aparezca sobre cualquier lanzamiento dado, i=1,..,k (los pi no necesitan ser iguales). Si n lanzamientos independientes del dado son hechos, y si dejamos a Xi ser el número de lanzamientos sobre los cuales la i-ésima cara aparece, entonces X = (X1,... Xk) será un 1 5 Las integrales que aparecen en (3.5b) y (3.6) son integrales n-dimensionales, y dx denota el elemento volumen dx1,... dxn. Reglas para evaluar integrales multiples serán dadas en la siguiente sección. 190 MAYORES DIMENSIONES vector aleatorio para el cual n x1 p1 ... pkxk Pr X 1 x1 ,..., X k xk x1 ,.., xk (3.8) siempre que x1,... xk sean enteros no negativos cuya suma sea n. Ver Teorema 4.1.2. Nos referiremos a (3.8) como la función masa multinomial con parámetros n 1 y p = (p1,... pn). Ver problemas 6.24 a 6.27 para mayores propiedades de la distribución multinomial. //// EJEMPLO 6.3.2 Sea B una región de Rn con volumen Bfinito y positivo (n- dimensional). Suponer también que la frontera de B tiene volumen cero (n-dimensional). Entonces, la función f definida por 1 xB f x B 0 xB es conocida como la densidad uniforme sobre B. (3.9) //// Como en dos dimensiones, densidades individuales o funciones masa de variables aleatorias X1,... Xn pueden ser obtenidas de una densidad o función masa conjunta. Daremos las fórmulas relevantes únicamente para el caso absolutamente continuo puesto que las fórmulas para el caso discreto pueden ser obtenidas reemplazando integrales por sumatorias. Si X1,... Xn tiene una densidad conjunta f, entonces f1 x f x , x2 ,..., xn dx2 dxn (3.10) define una densidad para X1, y densidades para Xi, i 2, pueden ser obtenidas de (3.10) y un renombramiento apropiado. Nos referiremos a (3.10) como la densidad marginal de X1. Más generalmente, si k < n, entonces g( x1 ,..., xk ) f x1 ,..., xn dxk 1 dxn (3.11) define una densidad conjunta para X1,... Xk. Algunas veces nos referiremos a g como la densidad marginal de X1,... Xk. EJEMPLO 6.3.3 a Permita a (X1,X2,X3) tener la densidad uniforme sobre el conjunto B de x = VECTORES ALEATORIOS 191 (x1,x2,x3) R3 para los cuales 0 x1 x2 x3 1. Así, f(x) = 6 para x B. Encontremos la densidad marginal de X1. Por la Ecuación (3.10) tenemos f1 x x x 6dx3dx2 x 61 x2 dx2 31 x 1 1 1 2 2 para 0 x 1, y f1(x) = 0 para otros valores de x. b La densidad conjunta de (X1,X2) es g x1 , x2 x 6dx3 61 x2 1 2 para 0 x1 x2 1, y g(x1,x2) = 0 para otros valores de (x1,x2). //// EJEMPLO 6.3.4 a Si X1,... Xn tienen la distribución hipergeométrica de n-variables (Ejemplo 6.3.1a) r1 rn ... x x f ( x1 ,..., xn ) 1 n r k entonces X1 tiene la distribución hipergeométrica univariada r1 r2 ... rn x k x f1 x r k x = 0,... k. De hecho, X1 es el número de bolas de color 1 en una muestra de tamaño k. b Si X1,... Xn tienen la distribución multinomial n x1 p1 ... pkxk f x1 ,..., xk x1 ,..., xk entonces X1 tiene la distribución binomial 192 MAYORES DIMENSIONES n f1 x p1x ( 1 p1 )n x x x = 0,... n. De hecho X1 es el número de veces que un evento con probabilidad p1 ocurre en n repeticiones independientes. //// Si X1,... Xn son variables aleatorias distribuidas conjuntamente, diremos que X1,... Xn son independientes por pares si y sólo si Xi y Xj son independientes siempre que i j y diremos que X1,... Xn son mutuamente independientes si y sólo si Pr X 1 I1 ,..., X n I n Pr X j I j n (3.12) j 1 siempre que I1,... In sean intervalos de números reales. Como en el caso de eventos, las dos nociones de independencia no son equivalentes (ver Problema 6.29), y es la última la que es más interesante. En concordancia, usaremos el término no adjetivado de “independiente” para significar mutuamente independiente. Ahora nosotros daremos un criterio para determinar si las variables aleatorias son independientes. Teorema 6.3.1 Si X1,... Xn son variables aleatorias discretas con función masa conjunta f, entonces X1,... Xn son independientes si y sólo si f x1 ,..., xn f i xi n i 1 para toda x = (x1,... xn) Rn, donde fi denota la función masa marginal de Xi, i = 1,... n. Similarmente , si X1,... Xn son individualmente absolutamente continuas con densidades (marginales) f1,... fn, entonces X1,... Xn son independientes si y sólo si f x1 ,..., xn f i xi n x Rn i 1 define una densidad conjunta para X1,... Xn. La prueba del Teorema (6.3.1) es similar a esa del Teorema 6.2.2, que la generaliza, y por tanto será omitida. EJEMPLO 6.3.5 a Sean J1,... Jn intervalos finitos. Si Xi tiene la distribución uniforme sobre el intervalo Ji, i = 1,... n y si X1,... Xn son independientes, entonces X = (X1,... Xn) tiene la VECTORES ALEATORIOS 193 densidad uniforme sobre el rectángulo B = J1 x J2 x ... x Jn; porque una densidad conjunta para X1,... Xn es f xi n n i 1 i 1 1 1 Ji B si xi Ji, i = 1,... n [eso es, si x = (x1,... xn) B], y el producto es cero si x B. La aseveración en la otra dirección es también verdadera. Eso es, si X es uniformemente distribuida sobre B, entonces X1,... Xn son independientes y Xi es uniformemente distribuida sobre Ji, i = 1,... n (ver Problema 6.30). b Si X1,... Xk tiene la función masa multinomial con parámetros n 1 y p = (p1,... pk), donde 0 < pi < 1, i = 1,... k, entonces X1,... Xk no son independientes, porque 0 Pr X 1 n ,..., X k n pi Pr X i n k i 1 n k i 1 //// Una generalización final de la noción de independencia ahora puede ser obtenida permitiendo que Xj de la ecuación (3.12) sean ellas mismas vectores aleatorios e interpretando los símbolos Ij como rectángulos, j = 1,... n. Así , diremos que los vectores aleatorios X1,... Xn son independientes si y sólo si la Ecuación (3.12) se cumple siempre que I1,... In sean rectángulos e Ij sea de la misma dimensión que Xj, j = 1,... n. En este caso, el Teorema 6.3.1 permanece cierto provisto que interpretamos las fj como las funciones masa y densidades de los vectores aleatorios Xj, j = 1,... n. EJEMPLO 6.3.6 Si X1,... Xn son variables aleatorias independientes, y si 1 k < n, entonces los vectores aleatorios Y = (X1,... Xk) y Z = (Xk+1,... Xn), son independientes. Porque si A = I1 x ... x Ik y B = Ik+1 x ... x In, son rectángulos arbitrarios (de dimensiónes k y n-k), entonces Pr Y A, Z B Pr X 1 I1 ,..., X n I n k n Pr X j I j Pr X j I j j 1 j k 1 Pr Y A Pr Z B //// 194 EJEMPLOS 6.4 EJEMPLOS1 Muchas probabilidades interesantes son de la forma Pr (X B), donde X es un vector aleatorio y B es una región adecuada de Rn. Si X es absolutamente continua con densidad f, entonces Pr X B B f x dx (4.1) y si es X es discreta con función masa f, entonces Pr X B f x B El punto es que para evaluar estas probabilidades, debemos ser capaces de evaluar sumas e integrales múltiples, y por ello dedicamos esta sección a una revisión de técnicas para evaluar sumas e integrales múltiples. Por simplicidad, restringiremos nuestra atención a integrales puesto que las técnicas para manejar sumas son similares . La idea básica es la siguiente. Sea f una función integrable continua sobre R2 y sea B una región cuya frontera tiene área cero. Entonces f x , y dxdy B f x , y dy dx B x = B y f x , y dx dy (4.2) donde para cada x, Bx denota el conjunto de y R para las cuales(x,y) B, y para cada y, By denota el conjunto de x R para los cuales (x,y) B (ver Figura 10). Por lo tanto, la evaluación de una doble integral puede ser realizada por la evaluación iterada de integrales individuales, eso es, evaluando hx B f x , y dy x para cada x y después calculando hx dx Por supuesto, los papeles de X y Y pueden ser intercambiados; y la suposición que f es continua puede ser relajada. 1 6 Esta sección puede ser omitida sin pérdida de continuidad. VECTORES ALEATORIOS 195 Figura 10. Encontrando Bx EJEMPLO 6.4.1 Considere dos partículas radioactivas que se desintegran independientemente a la misma tasa, y denote por X y Y sus tiempos de vida. ¿Cuál es la probabilidad que la primera partícula dure al menos dos veces el tiempo de la segunda antes de desintegrarse?. Denote por X y Y los tiempos hasta que las dos partículas se desintegran. Entonces podemos suponer que X y Y son variables aleatorias distribuidas exponencialmente, independientes con el mismo parámetro , y requerimos la probabilidad de que X 2Y, eso es, Pr ((X,Y) B), donde B es el conjunto de (x,y) R2 para los cuales x 2y 0. La densidad conjunta de X y Y es 2 e x y x 0, y 0 f x , y de otra manera 0 Así, debemos evaluar (4.1) con la f y B dadas. Usando la Ecuación (4.2), encontramos que , 196 EJEMPLOS B y 2 y , es el intervalo de 2y a . Por lo tanto, para y 0, 2 x y dx e y 2 y e x dx B f x , y dx 2 y e y e y e 2 y e 3 y así que 3 y B f x , y dxdy 0 e dy 13 Por simetría, la probabilidad que la segunda partícula sobreviva al menos dos veces el tiempo de la primera es Pr (Y 2X) = 13 . Por lo tanto, la probabilidad de que una partícula dure al menos dos veces el tiempo de la otra es Pr(X 2Y) + Pr(Y 2X)= 23 . //// EJEMPLO 6.4.2 Suponer que B es un rectángulo, digamos B = I x J, y que f(x,y) = g(x)h(y), donde g y h son funciones integrables. Entonces Bx = J si x I, y Bx = , el conjunto vacío, si x I. Así, Bx f x , y dy g x J h y dy (4.3) si x I, y el lado izquierdo de (4.3) es cero si x I. Se sigue que f x , y dxdy IJ f x , j dydx IxJ J h y dy I g x dx Este hecho fue usado en el Ejemplo 6.1.3a y en la prueba del Teorema 6.2.2. //// En dimensiones mayores, también es posible reducir integrales múltiples a integrales individuales iteradas. Por simplicidad, nos limitamos al caso de tres variables x1, x2, y x3. La fórmula básica es B f x dx B f x1 , x2 , x3 dx3 dx2 dx1 x1 (4.4) donde Bx1 es el conjunto de (x2,x3) para los cuales (x1,x2,x3) B. La integral interior sobre el lado derecho de (4.4) es ahora una integral de dos dimensiones que puede ser manipulada VECTORES ALEATORIOS 197 por las técnicas antes discutidas. EJEMPLO 6.4.3 Sea X = (X1,X2,X3) uniformemente distribuida sobre el cubo unitario en R3. ¿Cuál es la probabilidad que X1 2X2 3X3? Una densidad para X es 1 f x1 , x2 , x3 0 0 xi 1, i 1,2,3 de otro modo y deseamos calcular Pr (X B), donde B es el conjunto de x R3 para los cuales 0 3x3 2x2 x1 1. Para cualquier valor fijo de x1, Bx1 es simplemente el conjunto (x2,x3) para los cuales 0 x3 2x2/3 x1/3. Por lo tanto B x1 1 / 2 x1 f x1 , x2 , x3 dx3 d x2 0 0 1 0 2 / 3 x2 dx3 dx2 x dx2 121 x12 x /2 2 3 2 Por lo tanto, 1 2 B f x dx 0 121 x1 dx1 361 (4.4 a) //// Las condiciones más generales, bajo las cuales (4.2 ) y (4.4) son válidas son algo más complicadas1. Ellas son válidas, sin embargo, si todas las integrales que aparecen en ellas existen como integrales (Riemann) ordinarias o como integrales impropias, absolutamente convergentes. Uno por lo tanto automáticamente verifica la validez de las Ecuaciones (4.2) y (4.4) haciendo los cálculos indicados. 1 7 Ver Thomas (1972), pp. 250-256, para una discusión elemental de (4.2); ver Apostol (1957), pp. 260-268, para una discusión más completa de (4.2) y (4.4). 198 PROBLEMAS 6.5 PROBLEMAS 6.1 Sea seleccionada una muestra aleatoria ordenada de tamaño k sin reemplazo de una urna conteniendo r bolas rojas, w bolas blancas y b bolas negras. Denoten X y Y el número de bolas rojas y blancas en la muestra, respectivamente. (a) Encontrar la función masa conjunta de X y Y. (b) Encontrar la funciones masa marginales de X y Y, respectivamente. (c) ¿Son X y Y independientes? En el Problema 6.1 sea X el número de la extracción sobre la cual la primera bola roja es extraída y sea Y el número de la extracción sobre la cual la primera bola blanca es extraída. Responda las partes (a) a (c). 6.3 Mostrar que la función f, definida por f(x,y) = 1/2(1 + x2 + y2)3/2 para < x < y < y < , es una densidad bidimensional. Es conocida como la densidad Cauchy bidimensional estándar. (a) Mostrar que las densidades marginales son ambas Cauchy unidimensional estándar. (b) Si X y Y tienen la función de distribución Cauchy bidimensional estándar, ¿son X y Y independientes? 6.4 Mostrar que la función f, definida por f(x,y) = Cx -1 y -1(1 x y) -1 para x > 0, y> 0, y x + y 1, con C = ( + + )/()()(), es una densidad bidimensional. Aquí > VECTORES ALEATORIOS 199 0, > 0, y > 0. Mostrar que las densidades marginales son densidades beta. ¿Son X y Y independientes? (a) Mostrar que la función f , definida por f(x,y) = (½ )(1 + x) exp (x y), x > 0, y > 0, es una densidad bidimensional. (b) Si X y Y tienen densidad f, encontrar las densidades marginales de X y Y . (c) ¿Son X y Y independientes? (a) Mostrar que la función f, definida por f(x,y) = (½)e-x para x > 0 y x < y < x es una densidad bidimensional. (b) Si X y Y tienen densidad f, encontrar las distribuciones de X y Y. (c) ¿Son X y Y independientes? 6.7 Permita que X y Y tengan la densidad del Problema 6.4. Encontrar la densidad conjunta de W y Z, donde W = X/(1 X) y Z = Y/(1 Y). Sugerencia: Use (1.11b). 6.8 Permita que X y Y tengan densidad conjunta f. Si f(x,y) = g(x)h(y) para toda x y y, donde g y h no son necesariamente las densidades de X y Y , mostrar que X y Y son independientes. 6.9 Si X y Y tienen la densidad conjunta f(x,y) = 8xy para 0 x y 1 y f(x,y) = 0 de otra manera, ¿son X y Y independientes? 6.10 Sea g una densidad unidimensional continua, y sea f(x,y) = 2g(x)g(y) para x y y f(x,y) = 0 si x > y. Mostrar que f es una densidad bidimensional. Si X y Y tienen densidad conjunta f, encontrar las densidades marginales de X y Y. ¿Son X y Y independientes? 6.11 Si X y Y tienen densidad conjunta, entonces Pr (X = Y) = 0. ¿Es el resultado necesariamente cierto sólo si suponemos que X y Y tienen distribuciones absolutamente continuas (unidimensionales)? 6.12 Permita que X y Y tengan una densidad conjunta continua f. Mostrar que 2 f x , y Pr X x ,Y y xy Permita que X y Y tengan función de distribución conjunta F, y sean a < b y c < d números reales. Exprese F(b,d) F(b,c) F(a,d) + F(a,c) como una probabilidad. 6.14 Permita que X y Y tengan función de distribución conjunta F. Para < a < y < b < exprese F(a,b) F(a,b) F(a,b) + F(a,b) como una probabilidad. Permita que X y Y tengan función de distribución conjunta F, y sea a < b y c < d. Exprese Pr (a X b, c < Y d) en términos de F. 6.16 Permita que X y Y tengan distribución conjunta F, y denote G la función de distribución marginal de X. Mostrar que G(a) = lim F(a,n), donde el límite es tomado cuando n . Sugerencia: Considere los eventos An que X a y Y n y aplique el Teorema 2.5.1. 200 PROBLEMAS 6.17 Complete la prueba del Teorema 6.2.3. Sugerencia: Por ejemplo, Pr (a X b, c < Y d) = lim Pr (a 1/n < X b, c < Y d) cuando n . 6.18 Mostrar que la función f, definida por f(x,y,z) = 1/2(1 + x2 + y2 + z2)2 para (x,y,z) R3 es una densidad tridimensional. Si X, Y, y Z tienen densidad conjunta f, encontrar las densidades marginales de X y de (X,Y). Esta densidad es denominada como la densidad Cauchy tridimensional estándar. 6.19 Sea i > 0, i = 1,, k, y sea C = (1 + + k)/(1) (k). Mostrar que la función f, definida por k 1 f x1 ,, xk 1 C xi i 1 1 x1 xk 1 k 1 j 1 para xi > 0, i = 1,, k 1 y x1 + + xk –1 < 1, es una función de densidad (k 1)dimensional. Un vector aleatorio (X1,, Xk) se dice que tiene la distribución Dirichlet k-dimensional con parámetros 1,, k si y sólo si X1,, Xk –1 tiene la densidad f y Xk = 1 X1 Xk –1. 6.20 Permita que X1,, Xk tengan la distribución Dirichlet k-dimensional con parámetros 1,, k, y sea j < k. Mostrar que la distribución marginal de X1,, Xj –1 y Xj + + Xk es Dirichlet j-dimensional con parámetros i´ = i, i < j, y j´ = j + + k. 6.21 Probar el siguiente teorema: variables aleatorias X1,, Xn son mutuamente independientes si y sólo si los eventos Xi Bi, i = 1,, n, son mutuamente independientes para cualquier selección de los intervalos B1,, Bn. 6.22 Permita que W, X, Y, Z tengan la densidad conjunta f(w,x,y,z) = 24 para 0 < w < x < y < z < 1 y f(w,x,y,z) = 0 para otros valores de (w,x,y,z). (a) Encontrar las densidades marginales de los vectores (W,X) y (Y,Z). (b) ¿Son estos vectores independientes? 6.23 Permita que W, X, Y, y Z tengan densidad conjunta f(w,x,y,z) = 24/(1 + w + x + y + z)5 para w > 0, x > 0, y > 0, y z > 0 y f(w,x,y,z) = 0 para otros valores de (w,x,y,z). Encontrar la densidad marginal de W y de (W,X). (a) ¿Son W, X, Y, y Z independientes? (b) ¿Son (W,X) y (Y,Z) independientes? 6.24 Considere un dado el cual está cargado de tal manera que la probabilidad de que exactamente k puntos aparecerán cuando el dado es lanzado es pk = k/21, k = 1,, 6. Sean n lanzamientos independientes del dado hechos, y sea Xk el número de veces que VECTORES ALEATORIOS 201 exactamente k puntos aparecen. (a) ¿Cuál es la distribución conjunta de X1,, X6? (b) ¿Cuál es la distribución de X1 + X2 + X3? (c) ¿Cuál es la distribución conjunta de (X1 + X2 + X3, X4,X5,X6)? 6.25 Permita que X1,, Xk tengan la distribución multinomial con parámetros n 1 y p = (p1,,pk). Si j < k, mostrar que la distribución marginal de X1,, Xj y Y = Xj +1 + + Xk es multinomial con parámetros n y q = (q1,,qj +1), donde qi = pi para i j y qj +1 = pj +1 + + pk. Sugerencia: Use inducción del Problema 6.24. 6.26 Mostrar que si X1,, Xk tienen la distribución multinomial con parámetros n y p = (p1,,pk) y si j < k, entonces Y = X1 + + Xj tiene la distribución binomial con parámetros n y p1 + + pj. Permita que X1,, X4 tengan la distribución multinomial con parámetros p1 = 0.1, p2 = 0.2, p3 = 0.3, y p4 = 0.4. ¿Cuál es la distribución de (a) X1, (b) X1 + X2, (c) (X1 + X2, X3,X4)? 6.28 Sea una muestra aleatoria desordenada extraída de una urna la cual contiene 4 bolas rojas, 5 bolas blancas, 6 bolas negras, y 7 bolas verdes. Además denote Xi el número de bolas rojas en la muestra, X2 el número de blancas, X3 el número de negras, y X4 el número de verdes. (a) ¿Cuál es la distribución conjunta de X1,, X4? (b) ¿Cuál es la distribución de X1 + X2? (c) ¿Cuál es la distribución conjunta de (X1 + X2, X3,X4)? 6.29 Sean A1,, An eventos los cuales son independientes por parejas pero no mutuamente independientes (ver Ejemplo 3.3.5). Sea Xi = I A la indicadora de Ai para i = 1,, n. i Mostrar que X1,, Xn son independientes por parejas pero no mutuamente independientes. 6.30 Mostrar que si X = (X1,, Xn) está uniformemente distribuido sobre el rectángulo B = J1 Jn, donde Jk son intervalos finitos de longitud positiva, entonces X1,, Xn son independientes y Xi está uniformemente distribuida sobre Ji, i = 1,, n. 6.31 Sean Y y Z variables aleatorias independientes las cuales están uniformemente distribuidas sobre (0,1). Encontrar la probabilidad de que la ecuación x2 + 2xY + Z = 0 tenga raíces reales (en x). 6.32 Sean X, Y, y Z variables aleatorias independientes todas las cuales tienen la densidad exponencial f(x) = e-x, x > 0. Encontrar la probabilidad de la ocurrencia simultánea de los eventos X 2Y y X 2Z. 7 7 TEORÍA DE DISTRIBUCIONES 7.1 DISTRIBUCIONES UNIVARIADAS A menudo seremos confrontados con el siguiente problema. Se nos da un vector o variable aleatoria X y una función w, y deseamos encontrar la distribución del vector o variable aleatoria Y = w(X). En este capítulo consideraremos varias técnicas para encontrar la distribución de Y del conocimiento de la distribución de X y w.1 Comenzaremos con algunas generalidades acerca de funciones. Sea w una función de un conjunto D en otro conjunto T. Entonces D es conocido como el dominio de w, y el rango de w es el conjunto E w x : x D Así, y E si y sólo si hay una x D para la cual w(x) = y. Hay dos nociones de inversa que serán de interés para nosotros. Primero, recordemos de la Sección 5.1 la notación w1 B x D: w x B para B T. Así, w-1 es una función de la clase de todos los subconjuntos de T en la clase de 11 Tácitamente suponemos a través del capítulo que w(X) es un vector o variable aleatoria, eso es, satisface (1.1) del Capítulo V. 204 DISTRIBUCIONES UNIVARIADAS todos los subconjuntos de D, y x w-1(B) si y sólo si w(x) B. El Lema 5.1.1 asegura que w-1 conmuta con las operaciones de unión, intersección, y complementación. w-1 no debe ser confundida con la función inversa, que denotaremos por v. Diremos que w es uno a uno si y sólo si w(x1) w(x2) siempre que x1 D, x2 D, y x1 x2. Si w es uno a uno, entonces para cualquier y E, el rango, habrá una única x D para la cual w(x) = y, y podemos definir una función v sobre E permitiendo v(y) = x si y sólo si w(x) = y. v es conocida como la función inversa de w. Enfatizamos que v puede ser definida sólo si w es uno a uno. Si w es uno a uno con inversa v, entonces v es uno a uno y la inversa de v es w. Más aún, las relaciones v w x x y w v y y (1.1a ) se cumplen para x D y y D, respectivamente. Si D y E son subintervalos de R, y si w es continuamente diferenciable, entonces la relación (1.1a) puede ser diferenciada para producir v' w x w' x 1 y w' v y v' y 1 (1.1b) para x D y y D para las cuales w´(x) 0 v´ (y). EJEMPLO 7.1.1 a Sea D = T = 0,), y sea w(x) = x2 para x D. Entonces w es uno a uno, y v(y) = y para y E = 0,). b Sea D = (-, ), y sea T = 0,), y sea w(x) = x2 para x D. Entonces w no es uno a uno. Tenemos w-1({0}) = {0} y w-1({y}) = { y ,- y } para y 0. //// Retornemos ahora a la teoría de probabilidades. Consideraremos el caso que X es una variable aleatoria y w es una función real definida sobre un subconjunto D R para el cual Pr (X D) = 1. El caso D = R, por supuesto, no está excluido, pero en algunos casos será conveniente tomar a D como un subconjunto propio de R. La relación básica entre X y Y = w(X) puede ser ahora establecida. Lema 7.1.1 Sea X una variable aleatoria, y sea Y = w(X), donde w está definida sobre un subconjunto D R para el cual Pr (X D) = 1. Entonces Pr Y I Pr X w1 I para todos los intervalos I R. TEORÍA DE DISTRIBUCIONES 205 PRUEBA El lema es una tautología. Sin lugar a dudas, el evento Y = w(X) I es el mismo que el evento X w-1(I), y así las probabilidades son iguales. //// Si X es una variable aleatoria discreta, con función masa f digamos, entonces podemos dejar que D sea el conjunto de posibles valores de X, eso es, una sucesión x0, x1, . . . para la cual f(x0) + f(x1) + . . .=1, en cuyo caso los elementos de E también pueden ser arreglados en una sucesión simple, digamos E={y0,y1,...}. Así, si X es discreta, entonces Y también será discreta, y la función masa g de Y está dada por g y xw1 y f x (1.2) para - < y < . En particular, si w en uno a uno con función inversa v, entonces g y f v y (1.2a ) para y E y g(y) = 0 para y E. EJEMPLO 7.1.2 a Si X tiene función masa f, entonces Y = X2 tiene función masa g, donde g(0) = f(0), g(y) = f( y ) + f(- y ) para y > 0 y g(y) = 0 para y < 0. Si, en adición, Pr (X 0) = 1, entonces g(y) = f( y ) para y 0 y g(y) = 0 para y < 0. b Si X tiene función masa f, entonces Y = eX tiene función masa g, donde g(y) = f(log y) para y > 0 y g(y) = 0 para y 0. //// Tiremos ahora la suposición que X es discreta y consideremos la función de distribución de Y = w(X). Por el Lema 7.1.1 G( y ) Pr (Y y ) Pr ( X w1 (( , y ])) (1.3) para - < y < . Nosotros ilustramos con algunos ejemplos, en todos los cuales tomamos D = R. EJEMPLO 7.1.3 a Sea X con función de distribución F, y sea Y = aX + b una función lineal de X. Si a > 0, entonces Y y si y sólo si X (y - b)/a, así que (1.3) requiere y b y b G( y ) Pr X F a a para - < y < ; y si a < 0, entonces encontramos 206 DISTRIBUCIONES UNIVARIADAS y b yb G( y ) Pr X 1 F a a para - < y < . b Sea X con función de distribución F, y haga Y =X. Entonces, para y < 0, el evento Y y es imposible, y para y 0, el evento Y y ocurre si y sólo si -y X y. Por lo tanto, G( y ) = F ( y ) - F (- y-) para y 0 y G(y) = 0 para y < 0. Si F tiene una densidad continua f, entonces G(y) = F(y) - F(-y) para y > 0 y G tiene densidad g = G´, donde g(y) = f(y) + f(-y) para y > 0 por diferenciación. //// Diremos que w es creciente si x < y implica w(x) < w(y), y diremos que w es decreciente si x < y implica w(x) > w(y). Además, diremos que w es estrictamente monótona si w es creciente o decreciente. Observe que si D es un intervalo y w tiene una derivada positiva en todos lados w´, entonces w será creciente. De hecho, si x < y, entonces w(y) - w(x) = w´(z)(y - x), donde x < z < y por el teorema del valor medio de cálculo diferencial así w(y) > w(x). Asimismo, si D es un intervalo y w tiene una derivada negativa en todas partes, entonces w será decreciente. Si w es estrictamente monótona, entonces w será uno a uno y tendrá una función inversa v. Más aún, si w es creciente, entonces tendremos w(x) y si y sólo si x v(y); y del mismo modo, si w es decreciente, entonces w(x) y si y sólo si x v(y) (ver Figura 11). Así, si w es creciente, la Ecuación (1.3) se simplifica a G y Pr X v y F v y (1.4a ) G y 1 F v y (1.4b) para y E; y si w es decreciente, entonces para y E. El Ejemplo 7.1.3a trata el caso especial cuando w es una función lineal. EJEMPLO 7.1.4 Permita que X tenga una función de distribución F que es continua y estrictamente creciente sobre D. Entonces, Y = F(X) tiene la distribución uniforme sobre el intervalo (0,1). Sin lugar a dudas, permitiendo que H denote la función inversa de F, encontramos de (1.4a) que G(y) = F(H(y)) = y para 0 < y < 1. //// Si F es absolutamente continua, y si la función v es razonablemente suave, las Ecuaciones TEORÍA DE DISTRIBUCIONES 207 (1.4) pueden ser diferenciadas. Figura 11. Una función w creciente. Teorema 7.1.1 Sea D un intervalo abierto, y permita que X tenga una densidad continua f sobre D. Suponer también que w tiene derivada continua w´ sobre D y que w´(x) 0 para cualquier x D. Entonces, Y = w(X) tiene densidad g y f v y v' y y E (1.5) y g(y) = 0 para y E. Aquí v denota la función inversa de w. PRUEBA Puesto que w´ es continua y w´(x) 0 para cualquier x D, debemos tener o w´(x) > 0 para toda x D o w´(x) < 0 para toda x D. En ambos casos w es estrictamente monótona, y E es un intervalo. Consideremos el caso cuando w´(x) > 0 para toda x D. En este caso, w es creciente, así la Ecuación (1.4a) es 208 DISTRIBUCIONES UNIVARIADAS aplicable. Más aún, por (1.1b) v es diferenciable con derivada v´(y) = 1/w´(v(y)), que es positiva. Por lo tanto, podemos diferenciar (1.4a) para obtener g y G' y f v y v' y que es (1.5) puesto que v´ es positiva. El caso de w decreciente puede ser manejado análogamente, y podemos tomar g(y) = 0 para y E puesto que la Pr (Y E) = 1. //// Tomando w(x) = ax + b, x D, donde a 0, encontramos que w´(x) = a 0 y que v(y) = (y b)/a para y E. Por lo tanto, tenemos el siguiente corolario, que extiende al Lema 5.5.1. Corolario 7.1.1 Sea D un intervalo abierto, y permita que X tenga densidad f que es continua sobre D. Además, haga Y = aX + b, donde a 0. Entonces Y tiene densidad g y a 1 y b f a y E (1.6) EJEMPLO 7.1.5 a Si X tiene la distribución normal con parámetros y 2, 2 > 0, entonces Y = aX+ b tiene la distribución normal con parámetros a + b y a22. Para ver esto, permitamos que f x 1 x 2 1 exp 2 2 en (1.6) y encontremos 1 y a b 2 1 y b 1 g y f exp a a a 2 a 2 por simple álgebra. En particular, Z = (X - )/ tiene la distribución normal estándar (tome a = -1 y b = - -1). b Del mismo modo, si X tiene la distribución gama con parámetros y (ver Sección 5.4), y si c > 0, entonces Y = cX tiene la distribución gama con parámetros y c-1. //// EJEMPLO 7.1.6 a Si X tiene la distribución exponencial con parámetro > 0, entonces la distribución de Y = X puede ser encontrada del Teorema 7.1.1. Indudablemente, puesto que Pr (X > 0) = 1, podemos tomar D = (0,), y X tiene densidad TEORÍA DE DISTRIBUCIONES f x e x que es continua sobre D. Haciendo w(x) = (0,), v(y) = y2, y > 0, v´(y) = 2 y, y > 0, y 209 x0 x , x > 0, encontramos fácilmente que E = g y 2 yf y 2 2ye y 2 y0 g es conocida como la densidad Rayleigh con parámetro . b Si X tiene la distribución uniforme sobre (0,1), entonces Y = -log X tiene la distribución exponencial con parámetro = 1. Indiscutiblemente, podemos tomar D = (0,1) y w(x) = -log x, 0 < x < 1, en cuyo caso E = (0,) y v(y) = e-y, y > 0. Puesto que X tiene densidad f(x) = 1, 0 < x < 1, se sigue del Teorema 7.1.1 que Y tiene densidad g y f e y e y e y para y > 0. //// La hipótesis del Teorema 7.1.1 puede ser relajada. Por ejemplo, si w es creciente y f es discontinua en cualquier número finito de puntos, entonces G(y) = F(v(y)) fallará en tener derivada en un número finito de puntos pero aún será absolutamente continua con densidad g, como se definió por (1.5) (ver Problema 7.18). Asimismo, w´ puede desvanecerse en cualquier número finito de puntos, provisto que no cambia de signo, de manera que w es aún monótona (ver Problema 7.18). El Teorema 7.1.1 no aplica a funciones w que no son monótonas, sin embargo, y en particular no puede ser aplicado directamente para encontrar la densidad de Y = X2 cuando X tiene una densidad que es positiva sobre un intervalo abierto conteniendo al cero. Desarrollaremos ahora una fórmula para encontrar la distribución de Y = w(X) cuando w es simétrica, eso es, w(x) = w(-x) para todo x. La idea es totalmente simple. Si w es simétrica, entonces w(X) = w(Z), donde Z = X. Aplicaremos el Teorema 7.1.1 a w y Z. Del Ejemplo 7.1.3b sabemos que si X tiene la función de distribución F, entonces Z tiene función de distribución H, donde H(z) = F(z) - F(-z-) para z 0. Por lo tanto, si X tiene una densidad continua f, entonces H(z) = F(z) - F(-z) y Z tiene densidad h(z) = H´(z) = f(z) + f(-z). Corolario 7.1.2 Permita que X tenga una densidad continua f, y sea C = (0,a), 0 < a , un intervalo para el cual Pr (Z C) = 1, donde Z = X. Si w es continuamente diferenciable sobre C y w´(x) 0 para cualquier x C, entonces Y = w(Z) tiene densidad g y h v y v' y 210 DISTRIBUCIONES MULTIVARIADAS para y E y g(y) = 0 para y E. Aquí v denota la función inversa de w, y h(z) = f(z) + f(-z), z 0. El corolario se sigue directamente del Teorema 7.1.1. Consideremos un ejemplo. EJEMPLO 7.1.7 Si X tiene una densidad continua f, entonces Y = X2 tiene densidad g( y ) f ( y ) f ( y ) 2 y y0 y g(y) = 0 para y 0. De hecho, tenemos w(x) = x2, v(y) = y , y v´(y) = 1/2 y . En particular, si X tiene la distribución normal estándar con densidad f (x) e 1 x2 2 2 x entonces Y tiene la distribución ji-cuadrada con un grado de libertad, eso es, g( y ) 1 y 2 e 2y y0 (ver Ejemplo 5.4.2). //// 7.2 DISTRIBUCIONES MULTIVARIADAS Las nociones simples de la sección precedente se extiende de una dimensión a varias. Así, considere un vector aleatorio X = (X1,... Xn) con n 2, sean w1,... wk (k 1) funciones reales definidas sobre una región D Rn para la cual Pr (X D) = 1; y sean Yj w j ( X1 ,..., X n ) variables aleatorias, j = 1,... k. Consideraremos técnicas para encontrar la distribución conjunta de Y1,... Yk a partir de la distribución conjunta de X1,... Xn y las funciones w1,... wk. Como en la sección previa, tenemos la relación básica Pr (Y1 I1 ,..., Yk I k ) Pr ( X wj 1 ( I j ), j 1,..., k ) (2.1) TEORÍA DE DISTRIBUCIONES 211 para todos los intervalos Ij R, j = 1,... k, puesto que Y Ij si y sólo si X wj-1(Ij), j = 1,... k. Más aún, dejando que w denote la función vectorial w( x ) ( w1 ( x ),..., wk ( x )) para x = (x1,... xn) D, y siendo Y el vector aleatorio Y = w(X) = (Y1,... Yk), tenemos la relación Pr(Y B) Pr( X w1 ( B)) (2.2) para todos los subconjuntos B Rk para los cuales el lado derecho de (2.2) sea significativo. Consideremos ahora algunos ejemplos, en todos ellos tomaremos D = Rn. EJEMPLO 7.2.1 a Sean X1,... Xn independientes con función de distribución común F, y Y = máx (X1,... Xn) (en este caso tenemos k = 1). Entonces el evento Y y ocurre si y sólo si todos los eventos Xi y, y = 1,... n ocurren. Por tanto, la función de distribución de Y está dada por G y Pr Y y Pr X1 y ,..., X n y n Pr X i y F y n i 1 para - < y < . Si F tiene una densidad f continua por piezas, entonces G tiene densidad g y nF y n1 f y y como puede ser visto por diferenciación. b Sean X1,... Xn como antes, y Y1 = mín (X1,... Xn) y Y2 = máx (X1,... Xn). Entonces, para y1 < y2, el evento Y1 > y1 y Y2 y2 ocurre si y sólo si y1 < Xi y2, i = 1,... n. Así, Pr Y1 y1 ,Y2 y2 Pr y1 X i y2 , i 1,..., n n Pr y1 X i y2 i 1 F y2 F y1 n siempre que y1 < y2. De nuevo, si X tiene una densidad f continua por piezas, podemos 212 DISTRIBUCIONES MULTIVARIADAS diferenciar para obtener una densidad para Y = (Y1,Y2). Una densidad para Y es g y1 , y2 n n 1 F y2 F y1 n 2 f y1 f y2 para y1 < y2 y g(y1, y2) = 0 si y1 y2 (ver Problema 6.12). //// El Ejemplo 7.2.1a puede ser generalizado como sigue. Sean X1,... Xn variables aleatorias distribuidas conjuntamente, y sean Y1,... Yn las X1,... Xn arregladas en orden creciente. Eso es, sea Y1 el mínimo de X1,... Xn, sea Y2 el segundo más pequeño,... y sea Yn el máximo de X1,... Xn Y1,... Yn son conocidos como los estadísticos de orden de X1,... Xn. Ahora derivaremos la distribución de Yk para k en general, 1 k n, en un caso especial. Lema 7.2.1 Sean X1,... Xn independientes con función de distribución (marginal) común F, y denotemos por Y1,... Yn a sus estadísticos de orden. Suponer que F tiene una densidad f continua por piezas. Entonces para 1 k n, Yk tiene densidad gk , donde n 1 n k k 1 g k y n F y 1 F y f y k 1 para - < y < . PRUEBA Denote Gk la función de distribución de Yk , y sea Ai el evento Xi y para y = 1,... n. Entonces Yk , el k-ésimo más pequeño de X1,... Xn, es menor que o igual a y si y sólo si al menos k de los eventos A1,... An ocurren. Más aún, los A1,... An son independientes con probabilidad común P(Ai) = Pr (Xi y) = F(y) para i = 1,... n.. Por tanto, por el Corolario 4.1.1, tenemos n n n i i Gk y F y 1 F y i k i (2.3) Ahora diferenciamos, por la regla del producto, para obtener una densidad. Tenemos n n ni i 1 Gk' y i F y 1 F y f y i k i n n n i 1 i n i F y 1 F y f y i i k n n 1 n Ahora, (i + 1) = n = (n-i) , así que el (i + 1)-ésimo término en la i 1 i i primera suma cancela el i-ésimo término en la segunda, dejando TEORÍA DE DISTRIBUCIONES 213 n n k k 1 Gk' y k F y 1 F y f y k n 1 n k k 1 n F y 1 F y f y k 1 como se aseguró. //// EJEMPLO 7.2.2 Sean X1,... Xn variables aleatorias independientes que están uniformemente distribuidas sobre el intervalo (0,1). Podemos entonces imaginar X1,... Xn como puntos sobre la línea entre 0 y 1. El k-ésimo punto desde la izquierda es simplemente el k-ésimo estadístico de orden Yk . La densidad de Yk puede ahora ser obtenida adecuando el Lema 7.2.1 a la distribución uniforme sobre (0,1). F(y) = y para 0 y 1, F(y) = 0 para y < 0, y F(y) = 1 para y > 1. El resultado es que Yk tiene densidad n 1 k 1 n k g k y n y 1 y k 1 (2.4) para 0 < y < 1 y gk(y) = 0 para otros valores de y. Reconocemos (2.4) como una densidad beta con parámetros = k y = n - k + 1. Así, el k-ésimo (desde la izquierda) de n puntos seleccionados independientemente de (0,1) tiene la distribución beta con parámetros = k y = n - k + 1. Más aún, ahora la Ecuación (2.3) da una expresión para la función distribución-beta, es decir n Gk y y i 1 y ni (2.5) i k para 0 y 1. Así, las funciones distribuciones-beta pueden ser evaluadas de la tabla de probabilidades binomiales en el Apéndice C. //// Concluimos esta sección con un resultado extremadamente útil, aunque intuitivamente obvio, mostrando que funciones de diferentes variables aleatorias independientes (o vectores) son ellas mismas independientes. Teorema 7.2.1 Sean X1,... Xn variables aleatorias independientes, y sean w1,... wn funciones reales que son definidas sobre R. Además, sean Yj = wj(Xj), j = 1,... n, variables aleatorias. Entonces, Y1,... Yn son variables aleatorias independientes. PRUEBA Probaremos el teorema en el caso especial n = 2 y las variables aleatorias X1 y X2 son discretas. Sean y1 y y2 cualesquiera números reales arbitrarios, y 214 CONVOLUCIONES sea Ai = wi-1({yi}) el conjunto de x R para las cuales wi(x) = yi, i = 1,2. Entonces, por (2.1), Pr Y1 y1 ,Y2 y2 Pr X1 x1 , X 2 x2 x1 ,x2 A1 A2 (2.6) Ahora, puesto que X1 y X2 son independientes, tenemos Pr (X1 = x1, X2 = x2) = Pr (X1 = x1) Pr (X2 = x2), así que el lado derecho de (2.6) es simplemente Pr X1 x1 Pr X 2 x2 x1A1 x2 A2 que es Pr (Y1 = y1) Pr (Y2 = y2), por (1.2). Por tanto, Pr (Y1 = y1, Y2 = y2) = Pr (Y1 = y1) Pr(Y2 = y2) para todo y1 y y2, así que Y1 y Y2 son independientes por el Teorema 6.2.2. //// El Teorema 7.2.1 es también cierto si las Xi o Yj son vectores aleatorios, pero su prueba en este caso será omitida. EJEMPLO 7.2.3 a Si X1 y X2 son independientes, entonces así son Y1 = X12 y Y2 = X22. b Si X1, X2, X3, X4 son independientes, entonces así son Y1 = X1 + X2 y Y2 = X3 + X4 porque los vectores aleatorios (X1,X2) y (X3,X4) son independientes por el Ejemplo 6.3.6. //// 7.3 CONVOLUCIONES Considere dos variables aleatorias independientes X y Y, y denote Z su suma Z = X + Y. ¿Qué puede ser dicho acerca de la distribución de Z? Si ambas X y Y son variables aleatorias valuadas en los enteros, entonces Z también estará valuada en los enteros. Más aún, para cada entero fijo k, el evento Z = k es la unión sobre j de los eventos mutuamente exclusivos X = j y Y = k - j. Por tanto, si f y g denotan las funciones masa de X y Y, respectivamente, entonces la función masa de Z puede ser calculada como sigue: TEORÍA DE DISTRIBUCIONES 215 h k Pr Z k Pr X j ,Y k j (3.1) j f j g k j j para k = 0, 1, 2,.... El miembro final de (3.1) define una función que es conocida como la convolución de f y g. Así hemos mostrado que la función masa de Z = X + Y es la convolución de f, la función masa de X, y de g, la función masa de Y. Hay una fórmula correspondiente para la suma de dos variables aleatorias independientes absolutamente continuas. Es decir, si X y Y son independientes con densidades f y g, respectivamente, entonces la suma Z = X + Y tiene densidad h, donde h z g z x f x dx (3.2) para - < z < , y h es conocida como la convolución de f y g. Para establecer (3.2) denote H la función de distribución de Z. Entonces, H(z) = Pr ((X,Y) B), donde B es el conjunto de (x, y) R2 para los cuales x + y z. Por la Ecuación (4.2) del Capítulo 6, esto también puede ser escrito H z f x g y dx dy g y f x dy dx B zx El cambio de variable y´ = x + y en la integral interior ahora reduce H(z) a g y x f x dx dy H z g y' x f x dy' dx z z h y dy z donde h está definida por (3.2). Así, h es una densidad para Z, como se aseguró. Teorema 7.3.1 Si X y Y son variables aleatorias independientes, valuadas en los enteros, con funciones masa f y g, entonces la función masa de Z = X + Y está dada por la convolución (3.1). Asimismo, si X y Y son variables aleatorias independientes absolutamente continuas con densidades f y g, entonces una densidad para su suma Z = X + Y está dada por la convolución (3.2). 216 CONVOLUCIONES EJEMPLO 7.3.1 Si X y Y tienen distribuciones binomiales con la misma p, 0 < p < 1, digamos m Pr X k p k q m k k k 0,..., m n Pr Y k p k q n k k k 0,..., n donde q = 1 - p, entonces Z = X + Y tiene distribución binomial con parámetros m + n y p. Esto es intuitivamente obvio puesto que X puede ser pensada como el número de águilas que resultan de m lanzamientos de una moneda que tiene probabilidad p de caer águila en cada lanzamiento, Y puede ser pensada como el número de águilas en n lanzamientos de la misma moneda, y por tanto Z puede ser pensada como el número de águilas en n + m lanzamientos. Nosotros podemos también verificar la distribución de Z usando (3.1). Sin lugar a dudas, tenemos h k Pr X j Pr Y k j j k n k j n k j m j m j p q p q j j 0 k j k n m p k q m n k j 0 k j j m n k m n k p q k para k = 0,... m + n. Aquí hemos usado la identidad del Ejemplo 2.3.6a en el paso final. Debemos también observar que la segunda igualdad arriba se sigue del hecho que Pr (X = j) = 0 para j < 0 y Pr (Y = k - j) = 0 para j > k. Reducciones de este tipo son muy comunes en la evaluación de convoluciones. //// EJEMPLO 7.3.2 Ahora consideremos dos variables aleatorias Poisson independientes X y Y, digamos e k f k k! y e k g k k! para k = 0, 1,... donde y son positivos. Entonces la función masa de la variable Z = X + TEORÍA DE DISTRIBUCIONES 217 Y es k 1 1 h k j e k j e k j ! j 0 j! e k k j k j k! j 0 j 1 k e k! para k = 0, 1,.... (Usamos el teorema binomial en el paso final.) Así, la suma Z = X + Y tiene la distribución Poisson con parámetro + . //// Más ejemplos de convoluciones discretas serán encontrados en los problemas al final de este capítulo. Ahora consideremos el caso absolutamente continuo. EJEMPLO 7.3.3 a Sean X y Y variables aleatorias independientes distribuidas exponencialmente, digamos f x g x e x x0 y f(x) = g(x) = 0 para x 0. Entonces, Z = X + Y tiene densidad h z g z x f x dx 0 e z x e x dx z 2 e z 0 dx 2 ze z z para z > 0 y h(z) = 0 para z 0. Así, la suma de dos variables aleatorias independientes distribuidas exponencialmente (con el mismo parámetro ) tiene la distribución gama con parámetros = 2 y (ver Sección 5.4). b Más generalmente, si X y Y son independientes, X tiene la distribución gama con parámetros 1 y , y Y tiene la distribución gama con parámetros 2 y (el mismo) , entonces Z = X + Y tiene la distribución gama con parámetros = 1 + 2 y , como puede ser visto por un cálculo semejante al dado en la parte a (ver también Secciones 7.4 y 8.4). En particular, si X tiene la distribución ji-cuadrada con j grados de libertad y Y tiene la distribución ji-cuadrada con k grados de libertad, entonces Z = X + Y tiene la distribución ji-cuadrada con j + k grados de libertad. Para ver esto, simplemente haga 1 = j/2, 2 = k/2, y = ½. //// 218 CONVOLUCIONES EJEMPLO 7.3.4 a Si X y Y son variables aleatorias independientes normal estándar, entonces Z = X + Y tiene la distribución normal con parámetros = 0 y 2 = 2. Indiscutiblemente, X y Y tienen la misma densidad f, donde f(x) = (1/ 2 ) exp ( 12 x 2 ) , - < x < . Eso es, f = g. Por tanto, g z x f x 1 1 2 1 exp z x x 2 2 2 2 2 1 2 1 z exp z x 2 2 4 por simple álgebra. Por tanto, 1 z2 4 e e h z 2 1 x z 2 2 1 z2 e 4 dx 2 (3.3) para - < z < , como se aseguro. [Puesto que el integrando es una densidad normal con = z/2 y 2 = ½, la integral en (3.3) es 1.] b Más generalmente, si X y Y son independientes, X tiene la distribución normal con parámetro de localidad y parámetro de escala , y Y tiene la distribución normal con parámetro de localidad y parámetro de escala , entonces Z = X + Y tiene la distribución normal con parámetro + y 2 2 por un cálculo similar al dado en la parte a (ver también Sección 8.4). //// EJEMPLO 7.3.5 Sean X y Y variables aleatorias independientes normal estándar y sea R = X 2 Y 2 la distancia de (X,Y) desde el origen. Encontraremos la distribución de R combinando cálculos previos. X2 y Y2 son independientes (por el Teorema 7.2.1), y ambas tienen distribuciones jicuadrada con un grado de libertad (por el Ejemplo 7.1.7). Por tanto, X2 + Y2 tiene la distribución ji-cuadrada con dos grados de libertad (por el Ejemplo 7.3.3b), que es simplemente la distribución exponencial con parámetro = ½. Finalmente, la raíz cuadrada de una variable aleatoria exponencial tiene la distribución Rayleigh (por el Ejemplo 7.1.6a), así que R tiene la distribución Rayleigh con parámetro = ½. //// Los Ejemplos 7.3.1 a 7.3.4 se extienden por inducción de dos sumandos a varios. Teorema 7.3.2 ... + Xk . Sean X1,... Xk variables aleatorias independientes, y haga S = X1 + TEORÍA DE DISTRIBUCIONES 219 (i) Si cada Xi tiene la distribución binomial con parámetros ni y (el mismo) p, i = 1,....,k, entonces S tiene la distribución binomial con parámetros n = n1 + . . . + nk y p. (ii) Si cada Xi tiene la distribución Poisson con parámetro i, i = 1,... k, entonces S tiene la distribución Poisson con parámetro = 1 + . . . + k . (iii) Si cada Xi tiene la distribución gama con parámetros i y (el mismo) , i = 1,... k, entonces S tiene la distribución gama con parámetros = 1 + . . . + k y . (iv) Si cada Xi tiene la distribución normal con parámetro de localidad i y parámetro de escala i, i = 1,... k, entonces S tiene la distribución normal con parámetro de localidad = 1 + . . . + k y parámetro de escala , donde 2 = 12 + . . . + k2. PRUEBA El teorema se sigue fácilmente de los Ejemplos 7.3.1 a 7.3.4 e inducción matemática. Dejamos la prueba al lector. //// 7.4 JACOBIANOS1 El útil, simple Teorema 7.1.1 se generaliza de una dimensión a varias, y consideraremos su generalización en esta sección. Empezamos con unas pocas observaciones acerca de transformaciones de Rn, n 2. Considere una región D Rn, y sean w1,... wn funciones reales definidas sobre D. Entonces, la función vectorial w x w1 x ,..., wn x (4.1) está definida para x = (x1,... xn) D. Denote E el rango de la función w. Entonces referiremos a w como una transformación de D sobre E. Si D es una región abierta y cada una de las funciones wi es continuamente diferenciable sobre D, diremos que la transformación w es continuamente diferenciable, y en este caso definimos el jacobiano de la transformación w por J w x det wi x x j para x D. Así, Jw(x) es el determinante de la matriz cuya (i,j)-ésima entrada es la derivada parcial de wi(x) con respecto a xj. 1 2 Esta sección trata un tópico especial y puede ser omitido sin pérdida de generalidad. 220 JACOBIANOS Los jacobianos juegan el mismo papel en varias dimensiones que el que juegan las derivadas en una. Teorema 7.4.1 Sea w una transformación uno a uno, continuamente diferenciable de una región abierta D Rn sobre otra región E Rn, y suponer también que Jn(x) 0 para cualquier x D. Además, sea X = (X1,... Xn) un vector aleatorio absolutamente continuo para el cual Pr (X D) = 1, y suponer que X tiene una densidad f. Si Y = w(X), entonces Y tiene densidad g, donde g y f v y J v y para y E y g(y) = 0 para y E, donde v denota la función inversa de w. PRUEBA El teorema se sigue fácilmente de la fórmula del cambio de variable para integrales multidimensionales.1 Sea B un rectángulo cerrado y acotado, B E. Entonces, Pr Y B Pr X w1 B w1 B f x dx donde la última integral es n-dimensional y dx denota el elemento volumen en Rn. Por la fórmula del cambio de variable para integrales multidimensionales, ahora nosotros tenemos w 1 B f x dx B f v y J v y dy así que Pr Y B B g y dy para todos los rectángulos cerrados y acotados B E. Puesto que Pr (Y E) = Pr (X D) = 1, el teorema se sigue. //// Hay muchas condiciones puestas sobre la función w en las hipótesis del Teorema 7.4.1. Sin embargo, automáticamente las verificamos calculando g. Sin lugar a dudas, calculando una transformación inversa v, mostramos que w es uno a uno; y puesto que Jv(y) = 1/Jw(v(y)) por la regla de la cadena, Jw(x) no puede desvanecerse a menos que Jv tenga una singularidad en y = w(x). Eso es, si Jv es continua, entonces Jw(x) 0 para cualquier x D. Consideremos ahora un ejemplo. EJEMPLO 7.4.1 1 3 Ver Apostol (1957), p. 271, para el caso en el cual f es continua sobre D. TEORÍA DE DISTRIBUCIONES 221 Permita que X1 y X2 tengan densidad conjunta f x1 , x2 4 x1 x2 para 0 < x1 < 1 y 0< x2 < 1 y f(x1,x2) = 0 para cualesquiera otros valores de x1 y x2, y defina las variables Y1 X1 Y2 X1 X 2 y Encontremos la distribución conjunta de Y1 y Y2. En este ejemplo podemos tomar D para ser el cuadrado unitario abierto D x1 , x2 :0 x1 1,0 x2 1 y la función w para ser w1 ( x1 , x2 ) = x1 y w2 ( x1 , x2 ) = x1 x2 para (x1,x2) D. El rango de w es entonces fácilmente visto para ser E = {( y1 , y2 ): 0 < y2 < y1 < 1} Para y = (y1,y2) E, la ecuación y = w(x) tiene una solución única x = (x1,x2), dada por x1 = v1 ( y1 , y2 ) = y1 y x2 = v2 ( y1 , y2 ) = y2 y1 Así, w es uno a uno, y v ha sido encontrada. Falta sólo calcular Jv(y) y aplicar el Teorema 7.4.1. Tenemos 1 J v y det 2 y2 y1 0 1 1 y1 y1 que es positiva y continua. Así, Jw(x) 0 para x D, y por tanto la condición del teorema es satisfecha. Por el Teorema 7.4.1 ahora obtenemos una densidad para el par aleatorio Y = (Y1,Y2) como g y1 , y2 f y1 , y2 y11 y11 4 y2 y11 para y = (y1,y2) E y g(y1,y2) = 0 para otros valores de y. 222 JACOBIANOS Suponer ahora que en lugar de la distribución conjunta de Y1 y Y2 deseábamos la distribución de Y2. Podemos proceder como sigue. Definimos Y1 y encontramos la densidad conjunta de Y1 y Y2, como antes. Entonces calculamos la densidad marginal de Y2 como g2 ( y ) g( y1 , y ) dy1 y 4 yy11 dy1 4 y log y 1 1 0 < y < 1 //// EJEMPLO 7.4.2 Sean X1 y X2 independientes, y permita que Xi tenga la distribución gama con parámetros i y (la misma) , i = 1, 2. Así, las variables X1 y X2 tienen densidad conjunta f x1 , x2 1 x111 x2 2 1e x1 x2 1 2 para x1 > 0 y x2 > 0 y f(x1,x2) = 0 para otros valores de x1 y x2 donde = 1 + 2. Encontremos la densidad conjunta de Y1 = X1/(X1 + X2) y Y2 = X1 + X2. Sea D el conjunto de (x1,x2) para las cuales x1 >0 y x2 >0. Entonces, Pr (X D) = 1 y f es continua sobre D. Más aún, podemos escribir Y = w(X), donde w1 x1 , x2 x1 x1 x2 y w2 x1 , x2 x1 x2 para x = (x1,x2) D. El rango de w es fácilmente encontrado para ser E = {( y1 , y2 ): 0 < y1 < 1 y y2 > 0} y la transformación inversa v [encontrada resolviendo las ecuaciones w1(x1,x2) = y1 y w2(x1,x2) = y2 para x = (x1,x2)] es v1 ( y1 , y2 ) = y1 y2 y v2 ( y1 , y2 ) = (1 - y1 ) y2 para y = (y1,y2) E. Por tanto, y1 y2 J v y1 , y2 det y2 y 1 y 2 1 que es continua. Ahora se sigue que Y1 y Y2 tienen densidad conjunta g, donde y E TEORÍA DE DISTRIBUCIONES 223 g( y1 , y2 ) = f ( y1 y2 , (1 - y1 ) y2 ) y2 1 1 y111 1 y1 2 y2 1e y2 1 2 para y = (y1,y2) E, donde = 1 + 2. Esto concluye la aplicación rutinaria del Teorema 7.4.1 para encontrar la densidad de Y1 y Y2, pero algunos aspectos de este ejemplo particular merecen consideración, que ahora damos. Habiendo encontrado una densidad conjunta para Y1 y Y2, ahora es un asunto sencillo encontrar las densidades marginales de Y1 y Y2. Por ejemplo, haciendo c-1 = (1)(2), encontramos que la densidad marginal de Y1 es g1 y cy 1 1 1 y 2 1 1 y 0 y2 e 2 dy2 1 2 1 1 1 y 1 y 2 1 2 para 0 < y < 1. (Para evaluar la integral, hacemos los cambios de variable u = y2 y usamos la definición de la función gama.) Así, vemos que Y1 tiene la distribución beta con parámetros 1 y 2. Asimismo, nosotros podemos encontrar la densidad marginal de la variable Y2, g2 y 1 y 1e y para y > 0, así que Y2 tiene la distribución gama con parámetros = 1 + 2 y . Finalmente, observamos que g(y1,y2) = g1(y1)g2(y2) para toda y1 y y2, así que Y1 y Y2 son variables aleatorias independientes. Puesto que ambas Y1 y Y2 dependen de X1 y X2, la última observación es algo sorpresiva. Depende del hecho de que las variables X1 y X2 tuvieran distribuciones gama y no necesariamente sería cierto si ellas tuvieran alguna otra función de distribución. //// Ahora consideraremos transformaciones lineales, eso es, transformaciones de la forma w( x ) = xA + b para x Rn, donde A = (aij) es una matriz n por n y b = (b1,... bn) es un vector de constantes. Si A es no singular, entonces la transformación w es invertible con inversa v(y) = (y - b)A-1, donde A-1 denota la matriz inversa de A. El jacobiano Jv de la transformación es la constante Jv(y) = det A-1 = 1/(det A). Así, nosotros tenemos el siguiente corolario al Teorema 7.4.1. 224 JACOBIANOS Corolario 7.4.1 Sea X = (X1,... Xn) un vector aleatorio con densidad f, y haga Y = XA + b, donde A es una matriz n por n no singular y b Rn. Entonces Y tiene densidad g, donde g y 1 f det A y b A 1 para y Rn. EJEMPLO 7.4.3 Una matriz A n por n se denomina ortogonal si y sólo si AA´ = I = A´A, donde la prima denota la traspuesta e I denota la matriz idéntica n por n. Si A es ortogonal, entonces A-1 = A´, así que A es no singular; más aún, det A2 = det AA´ = det I = 1, así que det A = 1. Ahora decimos que si X1,... Xn son variables aleatorias independientes normal estándar y si Y1,... Yn son definidas por Y = XA, donde A es ortogonal, X = (X1,... Xn), y Y = (Y1,... Yn), entonces Y1,... Yn son de nuevo variables aleatorias independientes normal estándar. Para ver esto, observe que una densidad para X está dada por 1 2 xi2 1 2 x12 ... xn2 f x1 ,..., x n e e 2 i 1 2 n 1 n 1 para x = (x1,... xn) Rn por independencia (Teorema 6.3.1). Puesto que xx´ = x12 + . . . + xn2, f puede ser escrita en la forma n 1 2 xx' f x e 2 1 para x Rn. Ahora sea Y = XA, donde A es ortogonal. Entonces, por el Corolario 7.4.1, Y tiene densidad g y 1 f yA1 f yA' det A n n 1 2 yA' Ay' 1 2 yy' e e 2 2 1 para y Rn. Eso es, Y tiene la misma distribución como X, como se aseguró. 1 //// Concluimos esta sección con fórmulas generales para las densidades de sumas, diferencias, cocientes, y productos de dos variables aleatorias absolutamente continuas conjuntas. TEORÍA DE DISTRIBUCIONES 225 Corolario 7.4.2 Permita que X1 y X2 tengan una densidad conjunta f. Entonces X1 + X2 y X1 - X2 tienen densidades g y f y x , x dx g y f y x , x dx para - < y < , respectivamente. Más aún, si Pr (X2 > 0) = 1, entonces X1/X2 y X1X2 tienen densidades h1 y 0 xf xy , x dx h2 y 0 x 1 f yx 1 , x dx PRUEBA Probaremos sólo la primera aseveración del corolario puesto que las pruebas de los otros tres son semejantes. Sean Y1 = X1 + X2 y Y2 = X2. Entonces la transformación inversa es X2 = Y2 y X1 = Y1 - Y2, el jacobiano de lo cual es Jv(y) = 1. Así, Y1 y Y2 tienen densidad conjunta g(y1,y2) = f(y1 - y2, y2) para - < y1, y2 < . Así Y1 tiene densidad marginal g1 y f y y2 , y2 dy2 para - < y < , como se aseguró. //// EJEMPLO 7.4.4 Sean X1 y X2 variables aleatorias independientes distribuidas exponencialmente con el mismo parámetro , así que X1 y X2 tienen densidad conjunta f x1 , x2 2 e x1 x2 para x1 > 0 y x2 > 0 y f(x1,x2) = 0 para otros valores de x1 y x2. Encontraremos las distribuciones de Y = X1 - X2 y Z = X1/X2. a Primero encontremos la distribución de Y. Para y > 0, esta es g y 2 0 e x y e x dx 2 e y 0 e 2 x dx 2 e y y por simetría (Y tiene la misma distribución que -Y), debemos tener g y g y . 226 MUESTREO DE UNA DISTRIBUCIÓN NORMAL Por lo tanto, g y y e 2 para - < y < . g es conocida como la densidad exponencial bilateral con parámetro . b Asimismo, Z = X1/X2 tiene densidad h1 z 0 x 2 e xz e x dx 0 x 2 e 1 z x dx 1 1 z 2 para z > 0. //// EJEMPLO 7.4.5 Sean X1,... Xn variables aleatorias independientes que están uniformemente distribuidas sobre el intervalo (0,1), sea Y1 = mín (X1,... Xn), y sea Y2 = máx (X1,... Xn). Encontremos la distribución del rango R = Y2 - Y1. Por el Ejemplo 7.2.1b, Y1 y Y2 tienen densidad conjunta f y1 , y2 n n 1 y2 y1 n2 para 0 y1 y2 1 y f(y1,y2) = 0 para otros valores de y1 y y2. Por lo tanto, R tiene la densidad g r 0 n n 1r n2 dy n n 11 r r n2 1r para 0 r 1 y g r 0 para otros valores de r. //// 7.5 MUESTREO DE UNA DISTRIBUCIÓN NORMAL1 Como una aplicación de los resultados de las cuatro secciones previas, ahora consideramos un problema práctico importante, el análisis de errores de medidas. Suponer que mediciones repetidas son hechas para determinar alguna cantidad desconocida donde cada medición involucra un error. Más precisamente, denoten X1,... Xn las mediciones, y suponer que pueden ser escritas en la forma 1 4 Esta sección trata un tópico especial y puede ser omitido sin pérdida de continuidad. TEORÍA DE DISTRIBUCIONES X i = Zi 227 (5.1) donde Z1,... Zn son variables aleatorias independientes normal estándar. Aquí, los términos Zi denotan los errores de medición, y > 0 representa la precisión del dispositivo de medida, con valores grandes de correspondiendo a mediciones imprecisas. El parámetro puede o no ser conocido. EJEMPLO 7.5.1 a Para determinar el contenido de nicotina promedio en una marca particular de cigarros n = 400 cigarros son fumados. Entonces dejamos que Xi denote la cantidad de nicotina encontrada en el i-ésimo cigarro, i = 1,... n. b Para determinar la ganancia de peso que puede ser esperada de una nueva dieta, n animales experimentales son alimentados con la dieta. En este ejemplo, permitimos a Xi denotar la ganancia de peso del i-ésimo animal. //// Para estimar la cantidad de la Ecuación (5.1), parece natural tomar el promedio de las observaciones X 1 X1 X n n Por tanto, la interrogante que confrontamos es: ¿Qué tan cerca podemos esperar que X esté de ? Si el parámetro de la Ecuación (5.1) es conocido, entonces la respuesta a nuestra pregunta es fácil. Sin duda, tenemos N X nZ donde Z = (Z1 + ... + Zn)/n. Ahora, por el Teorema 7.3.2, Z1 + ... + Zn tiene la función de distribución normal con parámetro de localidad 0 y parámetro de escala n , así que nZ = (Z1 + ... + Zn)/ n tiene la distribución normal estándar por el Ejemplo 7.1.5a. Se sigue entonces que 228 MUESTREO DE UNA DISTRIBUCIÓN NORMAL a n a Pr X X a Pr a n n Pr a nZ a a a 2 a 1 donde denota la función de distribución normal estándar. Así, podemos especificar un intervalo alrededor de , a a I X ,X n n (5.2) que contendrá la cantidad desconocida con probabilidad 2(a) - 1. El intervalo Y de la Ecuación (5.2) es conocido para los estadísticos como un intervalo de confianza para , y la probabilidad de cobertura = 2(a) - 1 es conocida como su coeficiente de confianza. Típicamente, el valor de a es seleccionado para dar a un valor deseado, tal como 0.95 o 0.99. EJEMPLO 7.5.2 Si en el Ejemplo 7.5.1a se sabe que = 1, y si encontramos que X = 9.32 miligramos de nicotina por cigarro, entonces podemos estar 95 porciento confiados que 9.22 < < 9.42 en el sentido que (9.22,9.42) es un intervalo de confianza para con coeficiente de confianza 0.95. Sin duda, tomando a = 1.96 produce = 0.95 y a / n = 0.098. //// Desafortunadamente, el parámetro es usualmente desconocido, así que los puntos extremos del intervalo (5.2) no pueden ser calculados. En este caso 2 debe también ser estimado de las Xi y es usualmente estimado1 por S2 2 1 n Xi X n 1 i1 (5.3) Ahora encontraremos la distribución de la variable aleatoria T n X S que puede entonces ser usada en la misma forma que usamos la distribución de n / X para ubicar cotas sobre el error X . 1 5 La sumatoria es dividida por n - 1 en lugar de n porque los números Xi lineal, n i 1 X i X 0. X , i = 1,... n satisfacen una restricción TEORÍA DE DISTRIBUCIONES 229 Teorema 7.5.1 Haga k = n - 1. Entonces T tiene densidad gk t k 1 2 1 2 k t 2 k 1 2 k k 1 para - < t < . En particular. Pr (T > t) = Hk(t) para t > 0, donde H k t 2 t gk s ds Probamos el Teorema 7.5.1 abajo, pero primero indicaremos algunas aplicaciones. Se sigue del Teorema 7.5.1 que aS aS Pr X Pr T a 1 H k a n n para cualquier a > 0. Así, el intervalo I = X aS / n , X aS / n es un intervalo de confianza para con coeficiente de confianza = 1 - Hk(a). La Tabla 11 da los valores de a para los cuales Hk(a) = 1 - para valores seleccionados de k y . EJEMPLO 7.5.3 Si en el Ejemplo 7.5.1b alimentamos n = 26 animales experimentales y observamos una ganancia de peso promedio de X = 62.5 gramos con una estimada de S = 3.16 gramos, entonces podemos estar 95 porciento confiados que 61.2 < < 63.8. Aquí tomamos a = 2.06 y encontramos que aS/ n = 1.3. //// Ahora probaremos el Teorema 7.5.1. Comenzamos con un resultado preliminar que es interesante en sí mismo. Teorema 7.5.2 y defina R por Sean Z1,... Zn variables aleatorias independientes normal estándar, R Zi Z n 2 (5.4) i 1 Entonces, R tiene la distribución ji-cuadrada con n -1 grados de libertad y es independiente de Z . PRUEBA Considere la matriz A = (aij), donde 230 MUESTREO DE UNA DISTRIBUCIÓN NORMAL ain aij 1 n i 1,..., n 1 i 1,..., j ; j n j j 1 j a j j 1 j j 1 aij 0 jn i j 1; j n Entonces, es fácilmente verificado que la matriz A es ortogonal, eso es, AA´ = I (la idéntica n × n) = A´A. Sea el vector aleatorio W = (W1,... Wn) definido por W = ZA, donde Z = (Z1,... Zn). Eso es, sea Wn nZ Wj j i1 Zi jZ j 1 j j 1 jn (5.5) 25 2.79 2.06 1.71 2.60 1.96 1.645 Tabla 11 k Hk(a) 0.01 0.05 0.10 5 4.03 2.57 2.015 10 3.17 2.23 1.81 Entonces, puesto que Z1,... Zn son variables aleatorias independientes normal estándar, y puesto que A es ortogonal, se sigue W1,... Wn son también variables aleatorias independientes normal estándar (Ejemplo 7.4.3). Más aún, puesto que WW´ = (ZA)(ZA)´ = ZAA´Z = ZZ´, tenemos Wi 2 WW' ZZ' Zi2 Zi Z nZ 2 n n n i 1 i 1 i 1 2 (5.6) donde el último paso se sigue por simple álgebra. Puesto que Wn2 = n Z por (5.5), tenemos n 1 R Wi 2 i 1 de la cual el teorema se sigue fácilmente. Sin duda, puesto que cada Wi tiene la distribución normal estándar, cada Wi2 tiene la distribución ji-cuadrada con un grado de TEORÍA DE DISTRIBUCIONES 231 libertad (Ejemplo 7.1.7), y por tanto R tiene la distribución ji-cuadrada con n-1 grados de libertad [Teorema 7.3.2(iii)]. Más aún, puesto que R depende sólo de W1,... Wn-1 mientras que Z depende sólo de Wn, se sigue que R y Z son independientes (Teorema 7.2.1). //// PRUEBA Del Teorema 7.5.1 Para aplicar el Teorema 7.5.2 a la prueba del Teorema 7.5.1, escribimos X y S en términos de Z y R. Antes hemos observado que ( n /)( X -) = n Z , y un cálculo similar produce (n-1)S2 = 2R. Por tanto, T n X S nZ (5.7) R / n 1 es el cociente de dos variables aleatorias independientes. La distribución de T puede ahora ser encontrada del Teorema 7.4.1. Sin duda, por independencia, Y = ( n /)( X - ) y R tienen densidad conjunta 1 f y ,r C r 2 donde k = n - 1 y C -1 = k 1 e 1 r y2 2 r0 2 2k k / 2 . Considere la transformación T Y k R y UR El rango de esta transformación es el conjunto de (t,u) R2 para las cuales u > 0, y la transformación inversa es R U El jacobiano de la transformación inversa es Jv(t,u) = conjunta de T y U es y U k u / k , u > 0, así que la densidad 1 1 t2 C 2 k 1 gt ,u u exp 1 u k k 2 La densidad marginal de T es por tanto Y T u0 232 DESCOMPOSICIÓN RADIOACTIVA 1 1 t2 C 2 k 1 gk t exp 1 u du u k k 0 2 1 k 1 C 22 k t2 1 k 1 k 1 2 1 0 v 2 k 1 exp v dv k 1 2 k t k 1 2 k 2 1 k 1 2 para - < t < , como se aseveró. //// La densidad gk encontrada en el Teorema 7.5.1 es conocida como la densidad t con k grados de libertad. Tablas más extensas pueden ser encontradas en Beyer (1966). 7.6 DESCOMPOSICIÓN RADIOACTIVA1 En esta sección presentaremos un modelo para la emisión radioactiva. Imaginaremos que una substancia radioactiva, tal como el radio o el uranio, contiene un gran número, digamos N, de átomos inestables. Más aún, supondremos que cada uno de los átomos inestables puede decaer emitiendo una partícula , una partícula , o un rayo , en cuyo momento el átomo se hace estable y no es capaz por más tiempo de descomponerse. Imaginemos que los N átomos inestables están identificados de alguna manera, y denote Xi el tiempo en que la partícula identificada i decae, donde el tiempo es medido desde un punto de inicio fijo denominado tiempo cero. Haremos las siguientes suposiciones acerca de la manera en que los N átomos decaen: A1 X1,... XN son variables aleatorias independientes que tienen una función de distribución común F. A2 F(t) = 0 para t < 0, y F(s) < 1 para toda s > 0. A3 Para toda s > 0 y t > 0, Pr (X > s + tX > s) = Pr (X > t). La primera suposición es en sí misma explicatoria, y la segunda asegura que las probabilidades condicionales que están en A3 están bien definidas. La tercera suposición requiere que el proceso de decaimiento sea espontáneo en el sentido que el decaimiento de un átomo inestable particular no se hace más o menos verosímil cuando el tiempo 1 6 Esta sección trata un tópico especial y puede ser omitido sin pérdida de continuidad. TEORÍA DE DISTRIBUCIONES 233 1 transcurre. De estas tres suposiciones, derivaremos una descripción exacta del comportamiento observable de la substancia radioactiva. Sea G(t) = Pr (X1 > t) = 1 - F(t), t 0. Entonces A2 requiere que G(s + t)/G(s) = G(t) para toda s > 0 y t > 0 o, equivalentemente, G( s + t ) = G( s)G( t ) ( 61 .) para s > 0 y t > 0. Lema 7.6.1 Hay una constante > 0 para la cual G(t) = e t para t > 0. PRUEBA La Ecuación (6.1) requiere que G(m/n) = G(1/n + . . . +1/n) = G(1/n)m para enteros positivos m y n (por inducción matemática). En particular, debemos tener G(1) = G(1/n)n, n = 1,2,.... Ahora, puesto que G(1) 0 por A2, podemos definir un número por e = G(1), y se sigue que para todos los números racionales r (= m/n, donde m y n son enteros positivos), m r 1 G r G G1 e r n Finalmente, si t > 0 es cualquier número real, entonces hay una sucesión de números racionales r1, r2,... para los cuales rn t cuando n y rn > t para cualquier n = 1,2,.... Puesto que G es continua por la derecha (Teorema 5.8.1) y e t es continua, ahora tenemos G t lim Grn lim ern et n n para t > 0 arbitraria. Finalmente, > 0 puesto que G(t) 0 cuando t . //// Así, hemos mostrado que la función de distribución común F de X1,... XN es la función de distribución exponencial F ( t ) = 1 e- t t0 donde > 0 es como en el Lema 7.6.1. La mediana de F [la solución de F(m) = 1/2], m = 1log2 es conocida como la vida-media de la substancia, puesto que aproximadamente la mitad de las partículas habrá decaído para el tiempo m. 1 7 Ver, por ejemplo, Blackwood, Osgood, y Ruark (1957), p. 271. 234 DESCOMPOSICIÓN RADIOACTIVA Sea Y1 el mínimo de X1,... XN , Y2 el segundo más pequeño,.... Así, Yi es el tiempo al cual el iésimo decaimiento ocurre, i = 1, ..., N. Y1,... YN son los estadísticos de orden de X1,... XN. Las distribuciones marginales de los estadísticos de orden de una función de distribución arbitraria F fueron encontradas en el Lema 7.2.1. Aplicando este resultado donde F es la función de distribución exponencial con parámetro ahora produce la distribución de Yk para k = 1, ..., N. De hecho, por el Lema 7.2.1, Yk tiene densidad N 1 N k k 1 hk y N f y F y 1 F y k 1 N 1 y N 1 e k 1 k 1 N k y e e y para y > 0 y hk(y) = 0 para y 0. En particular, Y1, el tiempo al cual el primer decaimiento ocurre, tiene la distribución exponencial con parámetro = N. Ahora introduzcamos el proceso de conteo Nt, definido para t > 0 por Nt = k donde (por convención) Y0 = 0 y YN ocurrido hasta el tiempo t. +1 Yk t Yk 1 si y sólo si = . Así, Nt es el número de emisiones que han Teorema 7.6.1 Para t 0, Nt tiene la distribución binomial con parámetros N y p = 1 et . Eso es, k N Pr ( N t k ) 1 et e N k t k (6.2) para k = 0,... N. PRUEBA Sea Bi el evento Xi t. Eso es, sea Bi el evento que la partícula nombrada i ha decaído para el tiempo t. Entonces, la suposición A1 implica que B1,... BN son independientes con probabilidad común P (Bi) = Pr (Xi t) = F(t) = 1 et para t 0. Más aún, Nt = k si y sólo si exactamente k de los B1,... BN han ocurrido. Finalmente, por el Teorema 4.1.1, la probabilidad de que exactamente k de los B1,... BN ocurrirán está dada por el lado derecho de (6.2). //// Puesto que el número de átomos inestables es usualmente muy grande, parece natural investigar la distribución de Nt cuando N y 0 de tal manera que = N permanezca fijo. Haga pN = F(t); entonces NpN = N 1 e t Nt t, así TEORÍA DE DISTRIBUCIONES lim Pr N t k 1 t k e t k! 235 k 01 , ,2,... por el Teorema 4.3.1. Así, Nt tiene aproximadamente la distribución Poisson con parámetro t. es algunas veces denominada la intensidad de la radiación. Es también posible describir el proceso de decaimiento en términos de los tiempos entre llegadas (los tiempos entre decaimientos), Zi = Yi Yi-1 i = 1,..., N Teorema 7.6.2 Z1,... ZN son variables aleatorias independientes. Más aún, Zi tiene la distribución exponencial con parámetro i = (N - i + 1) para i = 1,...., N. Eso es, el tiempo de espera hasta que ocurra el primer decaimiento es distribuido exponencialmente con parámetro = 1 = N. De ahí en adelante, se inicia un nuevo proceso con N - 1 átomos inestables, y el tiempo de espera hasta que el siguiente decaimiento ocurra es distribuido exponencialmente con parámetro 2 = (N - 1). De ahí en adelante, el proceso inicia de nuevo con N - 2 átomos inestables, etc. PRUEBA conjunta Del Teorema 7.6.2 Por el Problema 7.22, Y1,... YN tienen densidad h y1 ,..., y N N! N exp y1 ... y N para 0 < y1 < y2 < < yN < y h(y1,... yN) = 0 para otros valores de y1,... yN. Haga Wi = ( N i 1)Zi = ( N i + 1)( Yi Yi-1 ) para i = 1,, N. Entonces i Wj j 1 N j 1 Yi para i = 1,, N, así que la transformación es invertible y el jacobiano de la transformación inversa es 1/N!. Más aún, por simple álgebra, N N i 1 i 1 Wi Yi Ahora se sigue fácilmente del Teorema 7.4.1 que W1,... WN tienen densidad conjunta g w1 ,..., wN N exp w1 wN 236 DESCOMPOSICIÓN RADIOACTIVA para wi > 0, i = 1,... N, y g(w1,... wN) = 0 para otros valores de w1,... wN. Eso es, W1,... WN son variables aleatorias independientes, y Wi tiene la distribución exponencial con parámetro para i = 1,... N. Así, Zi Wi N i 1 son independientes, por el Teorema 7.2.1, y Zi tiene la distribución exponencial con parámetro i = (N - i +1), por el Ejemplo 7.1.5b. //// REFERENCIAS Para un desarrollo más completo de las ideas de la Sección 7.5, ver Hogg y Craig (1970), cap. 6. Para un desarrollo diferente de la distribución Poisson como el modelo apropiado para la descomposición radioactiva, ver Feller (1968), cap. 17. TEORÍA DE DISTRIBUCIONES 237 7.7 PROBLEMAS 7.1 Una moneda no cargada es lanzada n veces. Cada vez que un águila aparece ganas un dólar, y cada vez que un sol aparece pierdes un dólar. Denote X sus ganancias netas (posiblemente negativas). Encontrar la función masa de X. 7.2 Permita que X tenga la distribución geométrica con parámetro p, 0 < p < 1. Encontrar la función masa de Y = mín (X,10). 7.3 Sea X uniformemente distribuida sobre (0,1). Encontrar una densidad para Y = sen (½)X. 7.4 Sea X uniformemente distribuida sobre (0,1). Encontrar densidades para Y = sen 2X y Z = cos 2X. 7.5 Sea X uniformemente distribuida sobre (0,1). Encontrar una densidad para Y = X/(1 X). 7.6 Permita que X tenga la distribución uniforme sobre (0,1). Encontrar una densidad para X, donde > 0. 7.7 Tenga X la distribución normal con parámetro de localidad y parámetro de escala . Encontrar una densidad para Y = eX. La distribución de Y se denomina distribución log normal. 7.8 Permita que X tenga la función de distribución normal estándar . ¿Cuál es la 238 PROBLEMAS distribución de (X)? 7.9 Permita que X tenga la función de distribución normal estándar . ¿Cuál es la distribución de (X)2? 7.10 Permita que X tenga la distribución normal con parámetro de localidad y parámetro de escala . Encontrar una densidad para Y = X2. 7.11 Permita que X tenga la distribución Cauchy estándar. Encontrar una densidad para Y = X2 . 7.12 Mostrar que si X tiene la distribución Cauchy estándar con densidad f(x) = 1/(1 + x2) para < x < , entonces 1/X también tiene la densidad Cauchy estándar. 7.13 Permita que X tenga densidad f; sea Y = X si X < 0, y sea Y = 2X si X > 0. Encontrar una densidad para Y. 7.14 Permita que X tenga la distribución exponencial con parámetro , y sea Y = [X] el mayor entero que es menor o igual a X. Encontrar la función masa de Y. 7.15 Sean X y Y como en el Problema 7.14, y sea Z = X Y. Encontrar una densidad para Z. 7.16 Sean Y y Z como en el Problema 7.15. Mostrar que Y y Z son independientes. 7.17 Sea G una función de distribución continua que tiene una derivada continua G´en todos excepto un número finito de puntos, digamos a1,, an, donde G´ puede no existir. Mostrar que Gx g y dy x para toda x, < x < , donde g(y) = G´(y), y ai, y g puede estar definida arbitrariamente en los puntos a1,, an. Sugerencia: Para a1 < x < a2, escribir G(x) = G(x) G(a1 + ) + G(a1 + ) G(a1 ) + G(a1 ), use el teorema fundamental del cálculo, y permita que 0. Entonces proceda por inducción. 7.18 Probar el Teorema 7.1.1: (a) Bajo la suposición de que f es continua por piezas, eso es, continua en todos excepto un número finito de puntos. (b) Bajo la suposición de que la función w(x) = 0 en un número finito de puntos y w´ no cambia de signo. 7.19 Sean X1,, Xn variables aleatorias independientes las cuales están uniformemente distribuidas sobre (0,1). Sea Y1 = mín (X1,, Xn), y Y2 = máx (X1,, Xn). Encontrar una densidad conjunta para Y1 y Y2. 7.20 Encontrar densidades para Y1, Y2, y (Y1,Y2), como fueron definidas en el Problema 7.19, TEORÍA DE DISTRIBUCIONES 239 cuando X1,, Xn son variables aleatorias independientes las cuales son distribuidas exponencialmente con parámetro > 0. 7.21 Sean X1,, X5 variables aleatorias independientes las cuales están uniformemente distribuidas sobre (0,1), y denoten Y1,, Y5 los estadísticos de orden. Encontrar la probabilidad de que 0.3 < Y3 < 0.7. 7.22 Sean X1,, Xn variables aleatorias independientes con densidad común f, y sean Y1,, Yn los estadísticos de orden. Mostrar que una densidad conjunta para Y1,, Yn es g(y1,, yn) = n! f(y1) f(yn) si < y1 < < yn < y g(y1,, yn) = 0 para otros valores de y1,, yn. Sugerencia: Suponer que f es continua, y considere h-n Pr (yi h < Yi yi, i = 1,, n) para h pequeña. 7.23 (a) Sean X1,, Xn independientes con densidad común f y función de distribución F, y denoten Y1,, Yn los estadísticos de orden. Además, sean 1 k1 < k2 < < kr n enteros. Mostrar que Y1,, Yr tienen densidad conjunta n! k 1 F y1 1 k1 1!k 2 k1 1! n k r ! F y 2 y1 2 k k1 1 1 F y r nkr f y1 f y r para < y1 < < yr < . (b) Especialice la parte (a) al caso donde F es la distribución uniforme sobre (0,1). 7.24 Sean X1 y X2 variables aleatorias independientes las cuales están uniformemente distribuidas sobre (0,1). Encontrar una densidad para Y = X1 X2. Sugerencia: Dibuje una gráfica. 7.25 Sean X y Y variables aleatorias independientes las cuales tienen la distribución Poisson con el mismo parámetro . Encontrar la función masa de Z = X Y. 7.26 Sean X1,, Xk uniformemente distribuidas sobre la bola unitaria B = {x Rk : x12 + + xk2 1} Encontrar la función de distribución de R, donde R2 = X12 + + Xk2. 7.27 Sean X y Y variables aleatorias independientes, y sean u y v funciones crecientes. Mostrar directamente que u(X) y v(Y) son independientes. 7.28 Sean X y Y variables aleatorias independientes las cuales están uniformemente 240 PROBLEMAS distribuidas sobre (0,1). Mostrar que Z = X + Y tiene la densidad triangular z f z 2 z 0 z 1 1 z 2 7.29 Sean X y Y variables aleatorias independientes las cuales están geométricamente distribuidas con el mismo parámetro p. Encontrar la función masa de X + Y. 7.30 Sean X1, X2, y X3 variables aleatorias normal estándar. Encontrar una función densidad para R X 1 2 X 2 2 X 3 2 . 7.31 Sean X1 y X2 variables aleatorias independientes las cuales están uniformemente distribuidas sobre (0,1). Encontrar una densidad para X1X2. Sugerencia: Considere logaritmos. 7.32 Sean X1,, Xn variables aleatorias independientes las cuales están uniformemente distribuidas sobre (0,1). Encontrar la distribución de Y = X1 X2 Xn. 7.33 Sean X y Y independientes con densidad común f(x) = (½)e-x, < x < . Encontrar una densidad para X + Y. 7.34 Mostrar que si X y Y son independientes con densidades f y g, respectivamente, entonces Z = X/Y tiene densidad hz y f zy g y dy para < z < . Sugerencia: Calcule la función de distribución y diferencie. 7.35 Mostrar que si X y Y son variables aleatorias independientes normal estándar, entonces Z = X/Y tiene la distribución Cauchy estándar. 7.36 Permita que X tenga la función de distribución F, sea Y uniformemente distribuida sobre (a,a), a > 0, y sean X y Y independientes. Mostrar que la función de distribución de Z = X + Y es H z 1 a F z y dy 2a a 7.37 Si X y Y son independientes con funciones de distribución F y G, respectivamente, mostrar que Z = X + Y tiene la función de distribución TEORÍA DE DISTRIBUCIONES 241 H z F z y dG y Si F es absolutamente continua, mostrar que H es también absolutamente continua, aun si G es discreta. 7.38 Sean X1 y X2 variables aleatorias independientes normal estándar. Mostrar que X1 X2 y X1 + X2 son también independientes. 7.39 Sean X y Y variables aleatorias independientes normal estándar. Encontrar la distribución conjunta de R y , donde X = R cos y Y = R sen . 7.40 Sean X, Y, y Z variables aleatorias independientes normal estándar. Definir R, , y por /2 < /2, < , R 0, X = R cos cos , Y = R cos sen , y Z = R sen . (a) Mostrar que R, , y tienen densidad conjunta f(r,,) = (1/2)3/2 cos r2 exp ((½)r2) para /2 < /2, < , r 0. (b) Mostrar que (,) tienen densidad marginal g(,) = (1/4) cos para /2 < /2, < . (c) ¿Cuál es la distribución de R? (d) ¿Son R, , y independientes? 7.41 En la notación del Problema 7.40, sea U = cos cos , V = cos sen , y W = sen . Mostrar que (U,V,W) tiene la distribución uniforme sobre la superficie de la esfera unitaria en R3 en el sentido que Pr ((U,V,W) B) = (área de la superficie de B)/4 para subconjuntos B de la superficie de la esfera. 7.42 Sean X1, X2, y X3 variables aleatorias independientes exponencialmente distribuidas con el mismo parámetro. Encontrar la distribución conjunta de Y1 = X1/(X1 + X2 +X3), Y2 = X2/(X1 + X2 +X3), y Y3 = X1 + X2 +X3. 7.43 Más generalmente, sean X1,, Xk +1 independientes, y permita que Xi tenga la distribución gama con parámetros i y , i = 1,, k. Encontrar la distribución conjunta de Y1,, Yk +1, donde Yk +1 = X1 + + Xk +1 y Yj = Xj/Yk +1, j = 1,, k. 7.44 Mostrar que la distribución marginal (conjunta) de Y1,, Yk y (1 Y1 Yk) en el Problema 7.43 es la distribución Dirichlet con parámetros 1,, k +1. 7.45 Si X y Y tienen la distribución normal bidimensional estándar con parámetros r, 1 < r < 1, encontrar densidades para X Y y X + Y . 7.46 Sean X1 y X2 variables aleatorias independientes, y permita que Xi tenga la distribución 242 PROBLEMAS gama con parámetros i y , i = 1, 2. Encontrar la distribución de X1/X2. 7.47 Denote gk la densidad de la distribución t con k grados de libertad. Mostrar que 1 1 2t2 e 2 lim g k t cuando k para toda t, < t < . 7.48 Una matriz B es denominada una matriz proyección si y sólo si B´= B = B2. Mostrar que si B es una matriz proyección y X1,, Xn son variables aleatorias independientes normal estándar, entonces XBX´ tiene la distribución ji-cuadrada sobre r grados de libertad, donde r es el rango de B. Sugerencia: Si B es cualquier matriz simétrica, entonces hay una matriz ortogonal A tal que ABA´ es diagonal. 7.49 Para 0 < s < t < , encontrar la distribución de N(s,t) = Nt Ns. 7.50 Mostrar que cuando N de tal manera que = N permanece fijo, lim Pr (N(s,t) = k) = 1 k (t s)ke- (t s) k! para cualquier k = 0, 1, fija. 7.51 Mostrar que si s1 < t1 < s2 < t2, entonces N(s1,t1) y N(s2,t2) son asintóticamente independientes en el siguiente sentido. Cuando N y 0 con = N fija k j t1 s1 j t 2 s 2 k e t s t lim PrN s1 , t1 j , N s 2 , t 2 k j! k! 1 para toda j y k fijas. 1 2 s2 8 8 ESPERANZA 8.1 ESPERANZA Sea X una variable aleatoria discreta con función masa f, y sea C = {x0,x1, ...} un conjunto infinito contable o finito para el cual Pr (X C) = 1. Definimos la esperanza, o valor esperado, de X para ser el número E X xf x (1.1) C provisto que la suma sobre el lado derecho de (1.1) converge absolutamente.1 Podemos interpretar la esperanza como sigue. Suponer, por sencillez, que C = {x0,x1,... xk} es un conjunto finito, e imagine que el experimento a que X se refiere es repetido n veces, donde n es grande. Además, denote Xj el valor de X sobre el j-ésimo ensayo (repetición). Entonces podemos calcular el promedio empírico observado de X sobre las n repeticiones como Xn k 1 n X j xi f n xi n j 1 i 0 donde fn(xi) es la frecuencia relativa con la cual Xj = xi durante las n repeticiones. Eso es, 1 1 Recuerde que C xf(x) significa que los números xf(x), x C, deben ser sumados. La suma converge absolutamente si y sólo si C xf(x) es finita. Éste será siempre el caso si C es un conjunto finito pero puede fallar si C es infinito. 244 ESPERANZA fn(xi) = 1/n (el número de veces Xj = xi), como en la Sección 2.1. Ahora de acuerdo a la interpretación frecuentista de probabilidad, fn(xi) converge a Pr (X = xi) = f(xi) cuando n . Esto sugiere que X n convergerá a xi f xi xf x E X k i 0 C cuando n , y en la Sección 9.2 mostramos que este es, de hecho, el caso. Eso es, E(X) representa un promedio empírico idealizado para X en la misma forma que las probabilidades representan frecuencias relativas idealizadas. EJEMPLO 8.1.1 a Si Pr (X = c) = 1, donde c es una constante, entonces nosotros podemos tomar C = {c} y obtenemos E(X) = c 1 = c por la Ecuación (1.1). En particular, E(0) = 0 y E(1) = 1. b Considere un apostador quien gana un dólar con probabilidad p y pierde un dólar con probabilidad q = 1 p. Si X denota su ganancia (positiva o negativa), podemos tomar C = {1,1} y obtenemos E(X) = 1 p 1 q = p q. c Si un dado balanceado de n lados es lanzado una vez y X denota el número de puntos que aparece, entonces X tiene la distribución uniforme discreta; eso es, Pr (X = k) = 1/n, k = 1,,n. Por tanto, EX k n k 1 1 1 nn 1 n 1 n n 2 2 En particular, si n = 6, entonces el número esperado de puntos es 3.5. Observe que en las partes b y c, E(X) no necesariamente es un valor de X. //// Consideremos ahora variables aleatorias absolutamente continuas. Si X es absolutamente continua con densidad f, entonces por analogía con (1.1), definimos la esperanza, o valor esperado, de X para ser E X xf x dx provisto que una integral que aparece en (1.2) converge absolutamente.1 EJEMPLO 8.1.2 1 2 La integral converge absolutamente si y sólo si x f x dx es finita; ver Apéndice B. (1.2) ESPERANZA 245 a Si X tiene la distribución uniforme sobre el intervalo (a,b), a < b, entonces X tiene la densidad f(x) = 1/(b a) para a < x < b y f(x) = 0 para x (a,b). Por tanto, E X a b xdx b 2 a 2 a b b a 2b a 2 el punto intermedio del intervalo. b Si X tiene una densidad simétrica f, eso es, f(x) = f(x ) para toda x, y si E(X) está definida, entonces E(X) = 0; porque si f es simétrica, entonces 0 xf x dx 0 xf x dx En particular, si X tiene la distribución normal estándar, entonces E(X) = 0. c Si X denota el tiempo de espera hasta la primera emisión de una substancia radioactiva, entonces X tiene la distribución exponencial con parámetro , la intensidad de la radiación (ver Ejemplo 5.5.4). Por tanto, E X 0 xe x dx ye y dy 2 0 1 1 1 d Si X tiene la distribución Cauchy [con densidad f(x) = 1/(1 + x2), < x < ], entonces b 2 2 a xf x dx 2 log 1 b log1 a 1 la cual no se aproxima a ningún límite cuando a y b independientemente. Por tanto, E(X) no está definida. Las ecuaciones (1.1) y (1.2) pueden ser combinadas en una ecuación usando la integral de Riemann-Stieltjes.1 Indiscutiblemente, si X es discreta o absolutamente continua, con función de distribución F, entonces E X xdF x (1.3) provisto que la integral en (1.3) converge absolutamente. Más aún, la integral que aparece en 1 3 La integral de Riemann-Stieltjes es discutida en el Apéndice B. Los lectores quienes deseen hacerlo así pueden considerar xdFx como una notación que significa C xf x xf x dx si F es absolutamente continua con densidad f. si F es discreta con función masa f y significa 246 ESPERANZA (1.3) existirá para muchas funciones de distribución que no son ni discretas ni absolutamente continua. Podemos por tanto extender la definición de esperanza como sigue. Si X es cualquier variable aleatoria con función de distribución F, definimos la esperanza, o valor esperado, de X por (1.3) provisto solamente que la integral en la Ecuación (1.3) converge absolutamente. Si X es una variable aleatoria, eso es, si Pr (X 0) = 1, entonces F(x) = 0 para x < 0, así que (1.3) se reduce a E X 0 xdF x (1.4) que es totalmente significativa aun si la integral diverge (necesariamente a ). Podemos por tanto hacer una extensión final de la definición de esperanza permitiendo tener a las variables aleatorias no negativas esperanza infinita. Eso es, si X es no negativa, definimos E(X) por (1.4), aun si la integral diverge. EJEMPLO 8.1.3 a Dejemos que X tenga la distribución uniforme sobre (0,2), y sea Y = máx(1,X). Entonces la función de distribución de Y es 0 y G y 2 1 y 1 1 y 2 y2 Por tanto, E Y 1G1 G1 1 2 xdx 12 34 1 2 5 4 b Si X y Y son variables aleatorias independientes distribuidas exponencialmente (con el mismo parámetro ), entonces el cociente Z = X/Y tiene densidad f(z) = 1/(1 + z)2 para z > 0 (ver Ejemplo 7.4.4b). Ahora, para a > 0, 1 a a 0 zf z dz 2 1 z 1 dz 12 loga 1 log2 1 que diverge a cuando a . Por tanto, E(Z) = . Observe que E(Z) no es igual a E(X)/E(Y) = 1. //// 247 ESPERANZA 1 Concluimos esta sección con una descripción geométrica útil e interesante de esperanza. Teorema 8.1.1 Sea X cualquier variable aleatoria, y denote F su función de distribución. Entonces E X 0 1 F x dx F x dx 0 (1.5) en el siguiente sentido: si uno u otro lado de (1.5) es finito, entonces así es el otro y ellos son iguales. El Teorema 8.1.1 admite la siguiente interpretación geométrica. En la Figura 12 E(X) es el área entre la gráfica de F y la línea de altura 1 para x 0 menos el área entre la gráfica de F y la línea de altura 0 para x 0. Figura 12. Una interpretación geométrica de E(X). PRUEBA Para probar el teorema, integraremos por partes las dos integrales que aparecen en la siguiente expresión para E(X): E X 0 xdF x xdF x La primera de éstas es el límite cuando b de 1 4 El resto de esta sección trata un tópico especial y puede ser omitido. 0 (1.6) 248 ESPERANZA 0 xdF x bF b 0 F x dx b b bF b 1 0 1 F x dx b (1.7) (ver Teorema B.5 del Apéndice B). Suponer que la primera integral en (1.6) es finita. Entonces tenemos 0 b1 F b b b dF x b xdF x que tiende a cero cuando b , puesto que es la cola de una integral convergente. Por tanto, permitiendo b en la Ecuación (1.7), encontramos que 0 xdF x 0 1 F x dx (1.8) si el lado izquierdo de (1.8) es conocido para ser finito. Si el lado derecho de (1.8) es finito, entonces b xdF x 0 xdF x blim 0 lim 0 1 F x dx b b 0 1 F x dx así que (1.8) también se cumple. Así hemos mostrado que un lado de (1.8) es finito si y sólo si el otro lo es, en cuyo caso ellos son iguales. Un argumento similar mostrará que xdF x F x dx 0 0 en el mismo sentido. El teorema se sigue. //// Los siguientes corolarios al teorema son útiles. Corolario 8.1.1 entonces Si X es una variable aleatoria no negativa con distribución F, E X 0 1 F x dx finita o infinita. ESPERANZA Corolario 8.1.2 enteros, entonces 249 Si X es una variable aleatoria no negativa valuada en los E X Pr X k k 1 finita o infinita. PRUEBA El primer corolario se sigue directamente del teorema, y el segundo entonces se sigue del hecho de que si X está valuada en los enteros, entonces Pr (X > x) = Pr (X k) para k 1 x < k. EJEMPLO 8.1.4 Si X tiene la distribución geométrica con parámetro p, entonces Pr (X k) = qk1, k = 1,2,, así que E(X) = 1 + q + q2 + = 1/(1 q) = 1/p. //// 8.2 PROPIEDADES DE LA ESPERANZA En esta sección desarrollaremos varias propiedades generales de la esperanza, así como desarrollamos las propiedades generales de la probabilidad en las Secciones 2.3, 2.4, y 2.5. Comenzamos con un teorema importante. Teorema 8.2.1 Sea X una variable aleatoria variables aleatorias con función de distribución F, y sea D un subconjunto de R para el cual Pr (X D) = 1. Además, sea w una función valuada en los reales sobre D, y sea Y la variable aleatoria definida por Y = w(X). Entonces EY D wx dF x (2.1) provisto que la integral apareciendo sobre el lado derecho de (2.1) converge 1 absolutamente. PRUEBA Probaremos el teorema sólo en el caso de que X tenga una distribución discreta, aunque es verdadero en la generalidad establecida. Denote f la función masa de X, y, por simplicidad, sea D el conjunto de x R para los cuales f(x) > 0. Entonces 1 5 Lectores quienes no están familiarizados con la integral de Riemann-Stieltjes pueden considerar a como una notación que significa D wx dF x D wx f x si F es discreta con función masa f y significa D wx f x d x si F es absolutamente continua con densidad f. 250 PROPIEDADES DE LA ESPERANZA D wx dF x wx f x (2.2) xD es una serie absolutamente convergente (por suposición). Denote E el rango de Y, y para cada y E sea By = w-1({y}) el conjunto de x D para las cuales w(x) = y. Entonces puesto que los términos de una serie absolutamente convergente pueden ser 1 sumados en cualquier orden al mismo valor, escribimos x B y wx f x wx f x x D y E y f x y E x B y yPrY y E Y (2.3) y E donde hemos usado la Ecuación (1.2) del Capítulo 7 en la tercera igualdad y la definición de E(Y) en la igualdad final. Las Ecuaciones (2.2) y (2.3) claramente se combinan para probar el teorema en el caso discreto. //// En el caso absolutamente continuo (cuando F tiene densidad f), la Ecuación (2.1) toma la forma E Y D wx f x dx (2.4) y una prueba de (2.4) es bosquejada en el Problema 8.14. Ahora consideremos algunos ejemplos. EJEMPLO 8.2.1 a Permita que X tenga la distribución uniforme sobre el intervalo (0,2], y sea Y = sen X. Entonces, la función de distribución de Y es tediosa de calcular, pero la esperanza de Y puede ser calculada fácilmente, ya que E Y 0 2 b sinx 1 cos 0 cos 2 0 dx 2 2 Si X es cualquier variable aleatoria y Y = X2, entonces E Y x 2 dF x 1 6 Ver, por ejemplo, Rudin (1964), p. 66. ESPERANZA 251 En particular, si X tiene la distribución exponencial con parámetro , entonces E X 2 0 x 2 e x dx 3 2 2 2 //// Las Ecuaciones (2.3) y (2.4) también permanecen válidas si X = (X1,... Xn) es un vector aleatorio, f denota la función masa o densidad de X, y D denota el conjunto de x Rn para las cuales f(x) > 0 [y dx es interpretado como el elemento volumen en Rn en la Ecuación (2.4)]. EJEMPLO 8.2.2 a Sean X1 y X2 variables aleatorias independientes distribuidas exponencialmente con parámetro común = 1, y sea Y = X1X2. Entonces E Y 0 0 x1 x2 e x1 x2 dx1dx2 0 xe x dx 2 1 2 2 b Permita que (X, Y) tenga función masa conjunta f, y sea D un conjunto infinito contable o finito para el cual f(x,y) = 0 si (x,y) D. Si E(X) es finita, entonces E X xf x , y D donde la sumatoria se extiende sobre todo (x,y) D. Esto se sigue del Teorema 8.2.1 tomando w(x,y) = x para (x,y) D. Regresamos ahora a algunas propiedades básicas de la esperanzasu linealidad y monotonicidad como un operador sobre variables aleatorias. Teorema 8.2.2 Sean X y Y cualesquiera dos variables aleatorias distribuidas conjuntamente con esperanzas finitas, y sean y cualesquiera números reales. Entonces EX Y E X EY Más aún, si Pr (X Y) = 1, entonces E(X) E(Y). PRUEBA De nuevo, probaremos (2.5) sólo en el caso discreto, aunque es verdadera en la generalidad establecida, Denote f la función masa conjunta de X y Y, y denote D R2 un conjunto infinito contable o finito para el cual f (x,y) = 0 si (x,y) D. Entonces, por el Teorema 8.2.1, 252 PROPIEDADES DE LA ESPERANZA E X Y x y f x , y D xf x , y yf x , y E X E Y D D donde la sumatoria se extiende sobre todo (x,y) D. Esto establece la primera aseveración del teorema. La segunda aseveración del teorema es trivial si Y = 0, porque entonces Pr (X x) = 0 para x < 0 [ver Ecuación (1.4)]. En general, podemos hacer X = X Y. Entonces, E( //// X ) 0 y E( X ) = E(X) E(Y). Corolario 8.2.1 Si X tiene esperanza finita y y son números reales, entonces E(X + ) = E(X) + . Corolario 8.2.2 Sean X1,... Xn variables aleatorias distribuidas conjuntamente con esperanza finita, y sea S = X1 + + Xn. Entonces E S E X 1 E X n PRUEBA El Corolario 8.2.1 se sigue tomando Y = 1 en el Teorema 8.2.2, y el Corolario 8.2.2 puede ser establecido por inducción. //// EJEMPLO 8.2.3 a Denote X el número de águilas que resultan de n lanzamientos independientes de una moneda que tiene probabilidad p de que una águila ocurra sobre cada lanzamiento. Entonces podemos escribir X = X1 + + Xn, donde Xi es 1 si el i-ésimo lanzamiento resulta en águila y 0 si resulta en sol, i = 1,,n. Puesto que la E(Xi) = 1 p + 0 q = p, i = 1,,n, se sigue ahora del Corolario 8.2.2 que E(X) = E(X1) + + E(Xn) = p + + p = np. Observe que la variable X tiene la función de distribución binomial con parámetros n y p. b La independencia de X1,... Xn no es requerida por el Corolario 8.2.2. Así, si una muestra de tamaño k es seleccionada sin reemplazo de una urna que contiene m bolas rojas y n m bolas blancas, el número esperado de bolas rojas es E(X) = km/n; porque podemos escribir X = X1 + + Xk, donde Xi = 1 si la i-ésima bola seleccionada es roja y Xi = 0 si es blanca, y claramente, E(Xi) = m/n, i = 1,,k. c Permita que la variable X tenga la función de distribución normal con parámetros y 2. Entonces, por el Ejemplo 7.1.5a, Z = (X )/ tiene la distribución normal estándar, así que E(Z) = 0 por el Ejemplo 8.1.2b. Puesto que X = Z + , ahora se sigue que E(X) = 0 + = . Por tanto, el parámetro de una distribución normal es la esperanza. //// ESPERANZA 253 La esperanza del producto de dos variables aleatorias independientes es el producto de sus esperanzas. Teorema 8.2.3 Sean X y Y variables aleatorias independientes con esperanzas finitas. Entonces E(XY) = E(X) E(Y). PRUEBA De nuevo, probaremos el Teorema 8.2.3 sólo en el caso en que X y Y son variables aleatorias discretas, aunque es verdadero en la generalidad establecida. Sean X y Y variables aleatorias discretas independientes con esperanzas finitas. Denoten g y h las funciones masa (marginales) de X y Y, y sean D y E conjuntos contables para los cuales Pr (X D) = 1 = Pr (Y E). Entonces la función masa conjunta de X y Y es f, donde f(x,y) = g(x)h(y), y claramente f(x,y) = 0 a menos que (x,y) C = D E. Por tanto, E XY xyf x , y C xg x yh y E X E Y D E como se aseveró. Aquí las sumatorias se extienden sobre (x,y) C, x D, y y E, respectivamente. //// El Teorema 8.2.3 se extiende por inducción de dos variables aleatorias a varias. Corolario 8.2.4 Sean X1,... Xn variables aleatorias independientes con esperanza n finita, y sea Y = i 1 X i . Entonces E Y E X i n i 1 8.3 LA MEDIA Y LA VARIANZA La esperanza de una variable aleatoria X es también conocida como la media de X, denotada por . Así, E X xdF x (3.1) donde F denota la función de distribución de X. Análogamente, la esperanza de la variable aleatoria Y = (X )2 es conocida como la varianza de la variable aleatoria X y denotada por 2 o D(X). Así, 2 = D(X) = E[(X )2], donde = E(X). Por el Teorema 8.2.1, nosotros tenemos 254 LA MEDIA Y LA VARIANZA 2 D X x dF x 2 (3.2) donde F denota la función de distribución de X. La raíz cuadrada positiva de la varianza es conocida como la desviación estándar de X. Por supuesto, las integrales Riemann-Stieltjes que aparecen en (3.1) y (3.2) se simplifican a sumas si F es discreta y a integrales ordinarias si F es absolutamente continua. La media y la varianza de una variable aleatoria proporciona información importante acerca de su distribución. Como indicamos en la Sección 8.1, la media = E(X) puede ser pensada como un promedio de largo plazo de X a través de muchos ensayos del experimento al que X se refiere. Análogamente, la varianza 2 = E[(X )2] puede ser pensada como un promedio de largo plazo de (X )2.. Así, la varianza 2 proporciona una medida de la tendencia de X para desviarse de su media. Eso es, valores grandes de 2 indican una tendencia hacia desviaciones apreciables, mientras que valores pequeños de 2 indican que la distribución de X se concentra cercanamente alrededor de . En la Sección 9.1 daremos, de hecho, una desigualdad que acota a Pr (X a) por una función sencilla de a y 2 Ilustraremos la diferencia entre varianzas pequeñas y grandes en la Figura 13. Otra, complementaria forma de considerar la media y la varianza es proporcionada por el siguiente lema. Lema 8.3.1 Sea X cualquier variable aleatoria para la cual E(X2) es finita. Entonces entre todos los números reales a, E[(X a)2] es minimizada tomando a = = E(X), en cuyo caso el mínimo es 2 = E[(X )2]. PRUEBA Para cualquier a tenemos E[(X a)2] = E(X2) 2aE(X) + a2 por el Teorema 8.2.2. La derivada de esta expresión con respecto a a es 2E(X) + 2a, que se hace cero si y sólo si a = = E(X). Más aún, la segunda derivada es 2 > 0, y así el extremo es un mínimo. //// Podemos replantear el lema como sigue. Suponer que teníamos que predecir el valor de X por un simple número a, y suponer que por así hacerlo incurrimos en una pérdida de (X a)2. Si deseamos minimizar nuestra pérdida esperada, entonces debemos predecir X por su media a = = E(X), en cuyo caso incurrimos en la pérdida 2 = E[(X )2]. Así, la media puede ser pensada como la mejor suposición constante o predictor para la variable aleatoria X, y 2 como una medida de nuestra habilidad para predecir. Para nuestros ejemplos, los siguientes lemas serán convenientes. Lema 8.3.2 Sea X cualquier variable aleatoria para la cual E(X2) es finita. Entonces la varianza de X es ESPERANZA 255 2 E X 2 2 donde = E(X). Eso es, 2 es la del cuadrado de X menos el cuadrado de la esperanza de X. PRUEBA Tenemos 2 E X 2 E X 2 2E X 2 E X 2 2 2 2 E X 2 2 como se aseveró. //// Figura 13. Distribuciones normales con diferentes varianzas. (a). σ2 = 1; (b). σ2 = 9. 256 LA MEDIA Y LA VARIANZA Lema 8.3.3 Sea X una variable aleatoria con media y varianza 2. Entonces, la media y la varianza de la variable aleatoria Y = aX + b son = a + b y 2 = a22, respectivamente. PRUEBA tanto, = E(Y) = E(aX + b) = aE(X) + b = a + b por el Corolario 8.2.1. Por 2 E Y 2 E aX a 2 a 2 E X 2 a 2 2 por el mismo corolario. //// EJEMPLO 8.3.1 a Permita que X tenga la distribución uniforme sobre (0,1). Entonces E X 0 xdx 1 1 2 E X 2 0 x 2 dx 13 1 así que 2 = 1/3 (1/2)2 = 1/12. b Si X tiene la distribución exponencial con parámetro , entonces E(X) = -1 por el Ejemplo 8.1.2c, y análogamente, E(X2) = 2 -2 por el Ejemplo 8.2.1b. Así, 2 = 2 -2 -2 = -2. c Más generalmente, si X tiene la distribución gama con los parámetros y , entonces E X k 0 x k x 1 x e dx k 0 y k 1 y k k e dy para k = 1,2,. En particular, = E(X) = ( + 1)/() = /, y E(X2) = ( + 1)/2, así que se obtiene 2 = /2. En particular, la media y la varianza de una función de distribución Ji-cuadrada con k grados de libertad ( = k/2 y = 1/2) son = k y 2 = 2k. //// EJEMPLO 8.3.2 Si Z tiene distribución normal estándar , entonces Z tiene media E(Z) = 0 por el Ejemplo 8.1.2b y Z2 tiene la distribución Ji-cuadrada con un grado de libertad por el Ejemplo 7.1.7. Eso es, Z2 tiene la distribución gama con parámetros = ½ y = 1/2. Por lo tanto, la varianza de Z es E(Z2) = 1 por el Ejemplo 8.3.1. Más generalmente, si X tiene la distribución ESPERANZA 257 normal con parámetros y , entonces X = Z + , donde Z = (X )/ tiene la distribución normal estándar (ver Ejemplo 7.1.5a). Así, la media y la varianza de la variable aleatoria X son E(X) = y 2, respectivamente, por el Lema 8.3.3. Eso es, los parámetros y de la distribución normal son su media y desviación estándar, respectivamente. //// Para variables aleatorias independientes, no sólo la media sino también la varianza es aditiva. Teorema 8.3.1 Sean X1,... Xn variables aleatorias independientes con varianzas 2 2 1 ,,n , respectivamente. Entonces la varianza de la suma S = X1 + + Xn es 2 12 n 2 PRUEBA Probaremos el teorema en el caso especial de n = 2. El caso general entonces se sigue fácilmente por inducción matemática. Denoten 1 y 2 las medias de X1 y X2, respectivamente, y sea Yi = Xi i, i = 1,2. Entonces, E(Yi) = 0, i = 1,2, y la varianza de Xi es E(Yi2) = i2, i = 1,2. Más aún, puesto que la media de S es = 1 + 2 por el Teorema 8.2.2, nosotros tenemos S = Y1 + Y2. Por lo tanto, la varianza de S es E Y 2 E Y Y E Y 2 E S 2 E Y1 Y2 2 2 1 2 1 2 2 Ahora Y1 y Y2 son independientes, así que E(Y1Y2) = E(Y1)E(Y2) = 0 por el Teorema 8.2.3. Por tanto, 2 E Y12 E Y2 2 12 2 2 como se aseveró. //// EJEMPLO 8.3.3 Sean X1,... Xn variables aleatorias independientes para las cuales Pr (Xi = 1) = p y Pr (Xi = 0) = q = 1 p, i = 1,,n. Entonces, la suma S = X1 + + Xn tiene la distribución binomial con parámetros n y p. Calculemos la varianza de S del Teorema 8.3.1. Nosotros tenemos E(Xi) = p y E(Xi2) = E(Xi) = p, así que la varianza de cada una de las variables Xi es i2 = p p2 = pq, i = 1,,n. Por lo tanto, la varianza de la variable S es 2 = npq por el Teorema 8.3.1. //// 258 LA FUNCIÓN GENERATRIZ DE MOMENTOS 8.4 LA FUNCIÓN GENERATRIZ DE MOMENTOS Sea X cualquier variable aleatoria, y denote F su función de distribución. Entonces los números k E X k (4.1) k = 1, 2, son denominados los momentos de X. Más precisamente, k es denominado el késimo momento de X, provisto que E X k < . Así, el primer momento es simplemente la media = E(X), y la varianza de X es 2 = 2 12 por el Lema 8.3.2. Denote F la función de distribución de X. Entonces, por el Teorema 8.2.1, tenemos k x k dF x (4.1a) provisto que la integral que aparece sobre el lado derecho de (4.1a) converge absolutamente. Por supuesto, la integral de Riemann-Stieltjes en (4.1a) simplifica a una integral ordinaria si F es absolutamente continua y a una suma si F es discreta. EJEMPLO 8.4.1 a Permita que X tenga la distribución beta con parámetros y . Entonces 1 1 k 1 x x 1 x dx 0 k k k 1k k k k 1 k k donde para el real x, (x)k = x(x 1)(x k + 1). En particular, la media y la varianza son = 1 = /( + ) y 2 = 2 12 = /( + )2 ( + + 1) por simple álgebra. b Análogamente, si X tiene la distribución gama con parámetros y , entonces k por el Ejemplo 8.3.1c. k 1k k //// De nuevo, sea X cualquier variable aleatoria. Definimos la función generatriz de momentos ESPERANZA 259 de X por M t E e tX (4.2) provisto que la esperanza que define a M(t) es finita para todo t en algún intervalo no degenerado (a,b), a < b. Si F denota la función de distribución de X, entonces M t e tX dF x (4.2a) por el Teorema 8.2.1, provisto que la esperanza sobre el lado derecho de (4.2a) converge absolutamente. Otra vez, la integral de Riemann-Stieltjes en (4.2a) se simplifica a una integral ordinaria si F es absolutamente continua y a una suma si F es discreta. Tanto los momentos como la función generatriz de momentos de una variable aleatoria X dependen solamente sobre la función de distribución de X por (4.1) y (4.2). Algunas veces nos referiremos a la función generatriz de momentos de X como la función generatriz de momentos de F. El nombre función generatriz de momentos se deriva del hecho de que los momentos de X pueden ser calculados diferenciando M(t) en t = 0. Teorema 8.4.1 Sea X cualquier variable aleatoria con una función generatriz de momentos que es finita sobre algún intervalo abierto que contiene al cero, digamos M(t) < para -h < t < h, donde h > 0. Entonces X tiene momentos k M ( k ) 0 la k-ésima derivada de M en t = 0, k = 1, 2,. PRUEBA La idea es que puesto que ambas esperanza y diferenciación son operadores lineales, ellos deben conmutar. Eso es, debemos tener d k tX dk dk tX M t k E e E k e E X k e tX k dt dt dt de lo cual el teorema se sigue haciendo t = 0. Por supuesto, la igualdad crucial (segunda) requiere justificación puesto que un intercambio de límites está involucrado. Regresaremos a este punto en la siguiente sección. //// Tomando logaritmos podemos obtener un método simple para calcular la media y la varianza de una variable aleatoria. Corolario 8.4.1 Sea X una variable aleatoria con función generatriz de momentos que es finita sobre un intervalo abierto que contiene a cero. Además, sea t = log M(t). Entonces la media y la varianza de X están dadas por 260 LA FUNCIÓN GENERATRIZ DE MOMENTOS ' 0 and 2 ' ' 0 PRUEBA Primero observamos que M(0) = E(e0X) = E(1) = 1. Por tanto, por la regla de la cadena, 0 = M 0 M 0 = 1 = , y ' ' 0 M ' ' 0M 0 M ' 0 2 M 0 2 2 1 2 2 como se aseveró. //// Consideremos ahora algunos ejemplos. EJEMPLO 8.4.2 Si X tiene la distribución binomial con parámetros n y p, entonces n n n k n M t e kt p k q nk pet q nk q pet k 0 k 0 k k n para - < t < , donde la igualdad final se sigue del teorema binomial. Por diferenciación podemos rederivar el resultado que = np y 2 = npq. //// EJEMPLO 8.4.3 Si X tiene la distribución Poisson con parámetro , entonces M t e kt k 0 1 1 k e e e t k! k 0 k ! k e e e e ( e 1 ) t t para todo t, < t < . En este ejemplo, t = log M(t) = (et 1) es fácil de diferenciar, y encontramos que = 0 = y 2 = 0 = . Por tanto, la media y varianza de la distribución Poisson son ambas . //// EJEMPLO 8.4.4 a Si X tiene la distribución binomial negativa [con función masa f(k) = k 1 r k r p q ,k r , r 1,... ], entonces r 1 ESPERANZA k 1 r k r p q M t e kt r 1 k r t pe k 1 r k r p1 q1 p 1 k r r 1 261 (4.3) donde hemos hecho q1 = qet y p1 = 1 q1. Ahora, si q1 < 1, entonces la suma final en (4.3) es la suma de probabilidades binomiales negativas con parámetros r y p1 y es por tanto 1. Se sigue que pet M t t 1 qe r para t < log q, eso es, q1 < 1. La suma diverge si t log q. La media y varianza de la distribución binomial negativa puede ahora ser calculada por diferenciación. Sin lugar a dudas, haciendo t = log M(t), encontramos rqet ' t r 1 qet and ' ' t rqet 1 qe t 2 así que = r + rq/(1 q) = rp-1 y 2 = rq/(1 q)2 = rqp-2. b La distribución geométrica es un caso especial de la binomial negativa con r = 1. La media y varianza son = qp-1 y 2 = qp-2. //// EJEMPLO 8.4.5 a Si X tiene una distribución gama con parámetros y , entonces M t 0 e tx 0 x 1e x dx x 1 t x e dx y 1e y 0 dy t t para t < , y la integral diverge si t . La tercera igualdad de arriba se sigue del cambio de variable y = ( t)x, y la igualdad final de la definición de la función gama. 262 LA FUNCIÓN GENERATRIZ DE MOMENTOS La media y varianza de la distribución gama fueron encontradas en el Ejemplo 8.3.1b para ser = -1 y 2 = -2. Este resultado puede ser verificado por diferenciación. b La distribución exponencial es un caso especial de la gama con = 1. Así, la función generatriz de momentos de la distribución exponencial es M t t para t < . La media y varianza son = -1 y 2 = -2. //// Para nuestro siguiente ejemplo, será conveniente tener el siguiente lema. Lema 8.4.1 Sea X una variable aleatoria con función generatriz de momentos M, y sean a y b números reales. Entonces, la función generatriz de momentos de Y = aX + b es N(t) = ebtM(at). PRUEBA Tenemos N t E e tY E e atX bt e bt E e atX e bt M at para toda t para la cual M(at) sea finita. //// EJEMPLO 8.4.6 Si Z tiene la distribución normal estándar, entonces Z tiene función generatriz de momentos M t e 2 1 2 t (4.4.) para < t < . Indiscutiblemente, puesto que x2 2tx = (x t)2 t2, tenemos M t e tx e 1 2 t 2 e 12 x 2 2 e dx 1 12 x 2 tx e dx 2 12 x t 2 2 dx y la última integral es simplemente la integral de una densidad normal con media = t y varianza 2 = 1 y es, por tanto, 1. Esto establece (4.4). Ahora suponer que X tiene la distribución normal con media y varianza 2. Entonces podemos escribir X = Z + , donde Z = (X )/ tiene la distribución normal estándar (ver Ejemplo 7.1.5a). Por tanto, denotando por N y M las funciones generatrices de momentos de X y Z, respectivamente, tenemos ESPERANZA N t e t M t exp t 12 2 t 2 263 //// Hemos visto que la función generatriz de momentos es una herramienta útil para calcular medias y varianzas. Es también útil para encontrar la distribución de una suma de variables aleatorias independientes. La técnica depende de los siguientes dos resultados. Teorema 8.4.2 Sean X y Y variables aleatorias con funciones de distribución F y G, respectivamente. También, permita que X tenga una función generatriz de momentos M, y permita que Y tenga una función generatriz de momentos N. Si M(t) = N(t) (finita) para todo t en algún intervalo no degenerado, entonces F(x) = G(x) para toda x, < x < . Eso es, si X y Y tienen la misma función generatriz de momentos , ellas tienen la misma distribución. Así, podemos determinar la distribución de una variable aleatoria encontrando su función generatriz de momentos. La prueba del Teorema 8.4.2 está fuera del alcance del libro; probaremos un resultado relacionado en la Sección 8.4.1, sin embargo. En aplicaciones del Teorema 8.4.2, será útil tener el siguiente teorema. Teorema 8.4.3 Sean X1,... Xn variables aleatorias independientes con funciones generatrices de momentos M1,... Mn, respectivamente. Si M1,... Mn son todas finitas sobre el mismo intervalo (a,b), a < b, entonces la suma S = X1 + + Xn tiene función generatriz de momentos M t M i t n i 1 para a < t < b. PRUEBA Para cualquier t, las variables aleatorias e tX 1 , ,e tX n son independientes por el Teorema 7.2.1. Por tanto, por el Corolario 8.2.4, n n n E e tS E e t X1 X n E e tX i E e tXi M i t i 1 i 1 i 1 para a < t < b, como se aseveró. //// Podemos ahora derivar de nuevo los resultados del Teorema 7.3.2. EJEMPLO 8.4.7 Si X1,... Xn son variables aleatorias independientes, normalmente distribuidas, entonces la 264 LA FUNCIÓN GENERATRIZ DE MOMENTOS función generatriz de momentos de Xi es M i t exp ti 12 i t 2 2 para < t < , donde y denota la media y i2 la varianza de Xi, i = 1,,n. Ahora se sigue del Teorema 8.4.3 que la función generatriz de momentos de S = X1 + + Xn es M t exp t 12 2t 2 para < t < , donde = 1 + + n y 2 = 12 + + n2. Puesto que M es la función generatriz de momentos de una distribución normal con media y varianza 2, se sigue ahora del Teorema 8.4.2 que S tiene la distribución normal con media y varianza 2. //// De manera semejante uno puede establecer las siguientes aseveraciones. Teorema 8.4.4 S = X1 + + X k . Sean X1,... Xk variables aleatorias independientes, y sea S la suma (i) Si cada Xi tiene la distribución binomial con parámetros ni y la misma p, entonces S tiene la distribución binomial con parámetros n = n1 + + nk y p. (ii) Si cada Xi tiene la distribución binomial negativa con parámetros ri y la misma p, entonces S tiene la distribución binomial negativa con parámetros r = r1 + + rk y p. (iii) Si Xi tiene distribución Poisson con parámetro i, entonces S tiene la distribución Poisson con parámetro = 1 + + k. (iv) Si cada Xi tiene la función de distribución gama con parámetros i y la misma , entonces S tiene la distribución gama con parámetros = 1 + + k y . 8.4.1 Funciones Generatrices 1 Sea a0, a1, a2, una sucesión de números reales. Entonces definimos la función generatriz de la sucesión a0, a1, a2, para ser At a k t k (4.5) k 0 1 7 En esta sección probamos un caso especial de los Teoremas 8.4.1 y 8.4.2. Los resultados de esta sección son usados sólo en las Secciones 10.6 y 12.5, y puede ser omitida sin pérdida de continuidad. ESPERANZA 265 provisto que la serie converge para toda t en algún intervalo no degenerado alrededor de cero, digamos para h < t < h. Si X es una variable aleatoria no negativa valuada en los enteros, y si ak Pr X k para k = 0, 1, 2,, entonces referiremos a A como la función generatriz de X. En este caso A(1) = 1, puesto que a0, a1, a2, son probabilidades y la serie (4.5) converge para 1 t 1. También, si A es la función generatriz de X, entonces At E t X (4.6) para 1 t 1. Así, si A denota la función generatriz de X, y si M denota la función generatriz de momentos de X, entonces M t A e t (4.7) EJEMPLO 8.4.8 a Si ak = 1 para k = 0, 1, 2,, entonces la función generatriz de a0, a1, a2, es A(t) = 1/(1 t) para 1 < t < 1 por el Ejemplo 1.7.3b. b Si ak = 1/k! para k = 0, 1, 2,, entonces la función generatriz de a0, a1, a2, es A(t) = et para < t < por el Ejemplo 1.7.3a. c Si X tiene la distribución binomial con parámetros n y p, entonces X tiene la función generatriz A(t) = (q + pt)n para < t < por (4.7) y el Ejemplo 8.4.2. d Análogamente, si X tiene la distribución Poisson con parámetro , entonces X tiene función generatriz A(t) = e(t 1) para < t < . e Si X tiene la distribución binomial negativa con parámetros r y p, entonces X tiene función generatriz A(t) = [pt/(1 qt)]r para q -1 < t < q -1. //// Las funciones generatrices tienen propiedades semejantes a aquellas de las funciones generatrices de momentos, pero puesto que sólo variables aleatorias discretas están involucradas, las funciones generatrices son más simples que las funciones generatrices de momentos, y será posible tratarlas más ampliamente; en particular, probaremos análogos a los Teoremas 8.4.1 y 8.4.2. Usamos el hecho de que una serie de potencias puede ser diferenciada término a término.1 Así si A es la función generatriz de a0, a1, a2,, y si A(t) converge para h < t < h, donde h > 0, entonces 1 8 Ver, por ejemplo, Rudin (1964), p. 158. 266 LA FUNCIÓN GENERATRIZ DE MOMENTOS A' t kak t k 1 (4.8) k 1 y A(t) también converge para h < t < h. Más generalmente, la j-ésima derivada de A existe y está dada por A j t k j a k t k j (4.9) k j para h < t < h, donde (k)j = k(k 1) (k j + 1). Observe que A(j) es la función generatriz de la sucesión a0 , a1 ,..., donde ak k j j ak j para k = 0, 1,. Teorema 8.4.5 Sea X cualquier variable aleatoria no negativa valuada en los enteros, y denote A su función generatriz. Entonces E X A1 (4.10) el límite de A(t) cuando t 1 con t < 1. La Ecuación (4.10) es válida ya sea que E(X) sea finita o infinita. PRUEBA Tenemos ak = Pr (X = k) 0 para k = 0, 1, 2,, y así A es una función no decreciente, por (4.8). Por tanto, A(1) existe. Ahora k 0 k 0 A' t kak t k 1 kak E X para todo t < 1. así que A(1) E(X). Más aún, para cualquier n = 1, 2, n n k 0 k =0 k 0 A1 lim kak t k 1 lim kak t k 1 kak donde el límite es tomado cuando t 1 con t < 1. Finalmente n k 0 k 0 kak kak E X cuando n , y así el teorema se sigue. //// Teorema 8.4.6 Permita que a0, a1, a2, tenga una función generatriz A, y permita que b0, b1, b2, tenga una función generatriz B. Si A(t) = B(t) para h < t < h para algún h > 0, entonces ak = bk para toda k = 0, 1, 2,. PRUEBA Si A(t) = B(t) para h < t < h, entonces por (4.9) ESPERANZA ak 267 1 k 1 A 0 B k 0 bk k! k! para toda k = 0, 1, 2,. //// Si a0, a1, a2, y b0, b1, b2, son dos sucesiones de números reales, entonces definimos su convolución para ser la sucesión c0, c1, c2,, donde n cn a k bnk (4.11) k 0 para n = 0, 1, 2,. Si ak = Pr (X = k) y bk = Pr (Y = k) para k 0, donde X y Y son variables aleatorias independientes no negativas valuadas en los enteros, entonces cn = Pr (X + Y = n) para n 0 por el Teorema 7.3.1. Sin embargo, no requerimos que las sucesiones a0, a1, a2, y b0, b1, b2, sean probabilidades en la definición (4.11). Teorema 8.4.7 Permita que a0, a1, a2, tenga la función generatriz A, y permita que b0, b1, b2, tenga la función generatriz B. Si ambas A(t) y B(t) convergen para h < t < h, entonces c0, c1, c2, tiene función generatriz C, donde C(t) = A(t)B(t) para h < t < h. PRUEBA Supongamos primero que ak y bk son no negativas para k 0. Entonces, puesto que términos negativos pueden ser sumados en cualquier orden al mismo límite, tenemos C t c n t n a k bn k t n n 0 n n 0 k 0 a k t k bn k t n k Bt a k t k At Bt k 0 k 0 nk (4.12) para h < t < h, como se aseveró. Para el caso general, reemplace ak y bk por ak y bk en (4.12), y deduzca que la serie converge absolutamente para h < t < h. El intercambio del orden de las sumatorias puede entonces ser justificado por la convergencia absoluta. //// EJEMPLO 8.4.9 Sean X1 y X2 variables aleatorias independientes, y permita que Xi tenga distribución geométrica con parámetro pi, i = 1, 2 donde p1 p2. ¿ Cuál es la distribución de Y = X1 + X2? La función generatriz de Xi es 268 COVARIANZA Y CORRELACIÓN Ai t pi t 1 qi t para qi-1 < t < qi-1 para i = 1, 2. Así, la función generatriz de Y es p1 p2 t 2 C t 1 q1t 1 q2t y C converge para 1 < t < 1. Expandamos C como una fracción parcial como C t = p1 p 2 t 2 q1 q 2 q1 q2 1 q t 1 q t 1 2 p1 p 2 k 1 q1 q 2k 1 t k 2 q1 q 2 k 0 El coeficiente de tk en la expansión de C(t) es simplemente ck = Pr (Y = k). Así Pr Y k p1 p2 q1k 1 q2k 1 q1 q2 para k = 2, 3,. //// 8.5 COVARIANZA Y CORRELACIÓN1 En la Sección 8.3 caracterizamos la media de una variable aleatoria X como el número (constante a) que minimiza E[(X a)2], y describimos a como el mejor predictor constante de X. Ahora suponer que se nos permite predecir a X por una función lineal de alguna otra variable aleatoria Y. Por ejemplo, este problema puede surgir si X fuera el estado no observable de algún sistema y Y = X + Z, donde Z representa un error de observación. Sobre la base de observar Y, desearíamos estimar o predecir el valor de X. Si nos restringimos a estimaciones que sean funciones lineales de Y, digamos aY + b, y si medimos el error de estimación por el error cuadrático medio E X aY b 2 entonces el problema puede ser establecido como sigue. Encuentre constantes a y b que minimicen E[(X aY b)2]. 1 9 Esta sección trata un tópico especial y puede ser omitida. 269 ESPERANZA Teorema 8.5.1 Sean X y Y variables aleatorias conjuntamente distribuidas con medias y y varianzas 2 y 2, respectivamente. Si 2 > 0, entonces E[(X aY b)2] es minimizado tomando b = a, donde a E X Y (5.1) 2 PRUEBA Por el Lema 8.3.1 sabemos que para cualquier a, E[(X aY b)2] es minimizada tomando b = E(X aY) = a. Con esta selección de b, tenemos E X aY b E X 1 aY1 2 2 (5.2) donde X1 = X y Y1 = Y . Expandiendo (5.2), ahora encontramos que E X 1 aY1 E X 1 2aE X 1Y1 a 2 E Y1 2 2 2 2aE X 1Y1 a 2 2 2 Diferenciando, ahora encontramos que el mínimo ocurre cuando a = E(X1Y1)/2, como se aseveró. //// Si 2 > 0, entonces encontramos del Teorema 8.5.1 que el mínimo de E[(X aY b)2] es 2 2aE X 1Y1 a 2 2 2 E X 1Y1 2 2 1 r 2 (5.3) donde (por definición) r E X Y (5.4) Así si predecimos X por una función lineal de Y, es posible reducir el error esperado por un factor de r2 [de 2 a 2(1 r2)] del error que habría sido incurrido si sólo hubiéramos predicho X por su media . Por tanto podemos pensar de r como una medida de la dependencia lineal entre X y Y. Denominaremos a r el coeficiente de correlación de X y Y. Además, definimos la covarianza de X y Y para ser C X ,Y E X Y (5.5 a) así que r C X ,Y (5.5 b) 270 COVARIANZA Y CORRELACIÓN Ambas covarianza y correlación son simétricas en X y Y. Antes que consideremos ejemplos, observemos que el valor de (5.3) debe siempre ser no negativo, puesto que es simplemente E[(X aY b)2]. Por tanto, siempre debemos tener r2 1, o equivalentemente, 1 r 1 (5.6 a) En términos de la covarianza y varianzas, (5.6a) puede también ser escrita C Y , X (5.6 b) donde 2 y 2 denotan las varianzas de X y Y, respectivamente. La expresión (5.6b) es un caso especial de la desigualdad de Schwarz, que es discutida con más detalle en el Problema 8.18. En los cálculos de covarianzas y correlaciones, la identidad C X ,Y E XY E X EY (5.7) es completamente útil. Su prueba es similar a esa del Lema 8.3.2 y será dejada como un ejercicio. La Ecuación (5.7) tiene una consecuencia teórica interesante, es decir, si X y Y son variables aleatorias independientes, entonces C(X,Y) = 0, y consecuentemente r = 0 también. De hecho, si X y Y son independientes, entonces E(XY) = E(X)E(Y) por el Teorema 8.2.3. Puesto que hemos interpretado a r como una medida de dependencia entre X y Y, debemos ciertamente anticipar este resultado. Es posible, sin embargo, para variables aleatorias dependientes no estar correlacionadas, eso es, tener correlación cero, como veremos en los siguientes ejemplos. EJEMPLO 8.5.1 Permita que X y Y tengan densidad conjunta 2 0 x y 1 f x , y 0 de otro modo Entonces, cálculos simples producen = 1/3, = 2/3, 2 = 1/18 = 2, y E XY 20 0 xydxdy 0 y 3 dy 14 1 y así que 1 ESPERANZA 13 23 1 r 18 2 271 1 4 //// EJEMPLO 8.5.2 Sean X y Z variables aleatorias independientes con medias cero y varianzas 2 y 2, respectivamente. Si Y = X + Z, entonces la varianza de Y es r2 = 2 + 2 por el Teorema 8.3.1, y C X ,Y E XY E X 2 E XZ 2 Por tanto, la correlación es r = 2/ 2 2 = / 2 2 . El mejor predictor lineal de X es aY, donde a = C(X,Y)/2 = 2/(2 + 2). //// EJEMPLO 8.5.3 Es posible para variables aleatorias dependientes no estar correlacionadas. Por ejemplo, permita que X tenga la distribución uniforme sobre (1,1), y sea Y = X2. Entonces, X y Y son altamente dependientes puesto que Y es, de hecho, una función de X. Sin embargo, EX 1 1 xdx 0 2 1 1 1 E XY E X 3 1 x 3 dx 0 2 así que C(X,Y) = 0 y consecuentemente r = 0. //// Para los ejemplos restantes, encontraremos útil el siguiente lema. Lema 8.5.1 Sean X y Y variables aleatorias distribuidas conjuntamente con coeficiente de correlación r, y sea X = aX + b y Y = cY + d, donde ac 0. Entonces, el coeficiente de correlación de X y Y es r = acr/ac. En particular, r = r. La prueba del Lema 8.5.1 es semejante a esa del Lema 8.3.3 y, por tanto, será omitida. EJEMPLO 8.5.4 a Permita que X y Y tengan la distribución normal bivariada estándar con parámetro r, 1 < r < 1. Eso es, permita que X y Y tengan la densidad conjunta f x , y 1 x 2 2rxy y 2 exp 2 2 1 r 2 1 r 2 1 para < x,y < . Entonces r es la correlación entre X y Y. Para ver esto observe 272 COVARIANZA Y CORRELACIÓN primero que X y Y ambas tienen la distribución normal univariada estándar por el Ejemplo 6.2.4, así que E(X) = E(Y) = 0 y D(X) = D(Y) = 1 por el Ejemplo 8.3.2. Por tanto, la correlación entre X y Y es simplemente C(X,Y) = E(XY). Ahora, puesto que x2 2rxy + y2 = (x ry)2 + (1 r2)y2, 1 x 2 2rxy y 2 dxdy E XY xy exp 2 1 r2 2 1 r 2 1 x ry 2 1 x exp dx 2 2 1 r 2 1 r 2 1 1 y2 ye 2 dx 2 1 Más aún, la integral interior es simplemente la media de una distribución normal con media = ry y varianza 2 = 1 r2, eso es, ry. Así, E XY ry 2 1 12 y 2 e dy r 2 como se aseveró. b Más generalmente, permita que W y Z tenga la distribución normal bivariada estándar con parámetro r, 1 < r < 1, y sea X W y Y Z donde < , < , > 0, y > 0. Entonces, por una simple aplicación del Corolario 7.4.1, X y Y tienen densidad conjunta g x , y 1 Q x , y exp 2 2 1 r 2 1 r 2 1 x y y x dondeQx, y 2r . 2 2 La densidad g es conocida como la densidad normal general bivariada con parámetros , , , y r. Los parámetros son completamente fáciles de interpretar. Por el Lema 8.3.3 y el Ejemplo 8.3.2, y 2 son la media y la varianza de X, y y 2 son la media y la ESPERANZA 273 varianza de Y. Más aún, por la parte a y el Lema 8.5.1, la correlación entre X y Y es r. //// EJEMPLO 8.5.5 Sea X cualquier variable aleatoria con una varianza positiva finita 2, y sea Y = aX + b, donde a 0. Entonces la correlación entre X y Y es 1 o 1. Indiscutiblemente, es obvio que la correlación entre X y X es simplemente 2/2 = 1, así que la correlación entre X y Y = a/a por el Lema 8.5.1. El recíproco de este enunciado también es cierto. Si X y Y son variables aleatorias con coeficiente de correlación r que es 1 o 1, entonces hay constantes a y b para las cuales Pr (Y = aX + b) = 1 (ver Problema 9.3). //// Teorema 8.5.2 Sean X1,... Xm y Y1,... Yn variables aleatorias distribuidas conjuntamente con varianzas finitas. Además, sea S = X1 + + Xm y T = Y1 + + Yn. Entonces C S ,T C X i ,Y j m n (5.8 a) i 1 j 1 En particular, si i2 denota la varianza de Xi, i = 1,,m, entonces la varianza de S es 2 i 2 2 C X i , X j PRUEBA m m i 1 i 1 i 2 j 1 (5.8 b) Tenemos m n m n E ST E X iY j E X iY j i 1 j 1 i 1 j 1 y m n m n E S E T E X i E Y j E X i E Y j i 1 j 1 i 1 j 1 así que C S ,T E ST E S E T E X i Y j E X i E Y j C X i ,Y j m n i 1 j 1 m n i 1 j 1 Esto establece (5.8a), de la cual (5.8b) se sigue tomando m = n y Xi = Yi, i = 1,,m. //// 274 EJEMPLOS Como un corolario al Teorema 8.5.2, podemos rederivar el resultado de que la varianza de una suma de variables aleatorias independientes es la suma de sus varianzas. Sin lugar a dudas, si X1,... Xm son independientes, entonces C(Xi,Xj) = 0 para i j, así que el resultado se sigue de (5.8b). Como una segunda aplicación del Teorema 8.5.2, calcularemos la varianza de la distribución hipergeométrica. EJEMPLO 8.5.6 Tómese una muestra aleatoria ordenada de tamaño k sin reemplazo de una urna que contiene m bolas rojas y n m bolas blancas, donde k n. Además sea Xi = 1 si la i-ésima bola tomada es roja, y sea Xi = 0 si la i-ésima bola tomada es blanca. Entonces S = X1 + + Xk da el número total de bolas rojas en la muestra, así que S tiene la distribución hipergeométrica con parámetros m, n, y k (ver Ejemplo 5.2.2). Ahora, tenemos que EX i m 2 E Xi n y E X i X j mm 1 nn 1 para i = 1,,k, j = 1,,k, e i j. Así, la media y varianza de Xi son = p y 2 = pq, donde p = m/n y q = 1 p. Más aún, por (5.7) la covarianza entre Xi y Xj es C(Xi,Xj) = E(XiXj) E(Xi)E(Xj) = pq/(n 1). Por lo tanto, por el Teorema 8.5.2, la media y la varianza de S están dados por E S kp y DS kpq nk n 1 (5.9) respectivamente. Puesto que S tiene la distribución hipergeométrica, y puesto que la media y varianza de una variable aleatoria depende sólo sobre su función de distribución, hemos mostrado que la media y varianza de la distribución hipergeométrica están dadas por (5.9). //// 8.6 EJEMPLOS1 EJEMPLO 8.6.1 Muestreo estratificado Considere una población que consiste de t estratos, t 2, como en el Ejemplo 3.3.6. Deseamos conducir una encuesta de opinión para aprender, por ejemplo, cuál proporción de la población favorece a un candidato político o tema particular. Denote ni el tamaño del iésimo estrato, y denote mi el número de personas en el i-ésimo estrato quienes favorecen al 1 10 Esta sección trata un tópico especial y puede ser omitida sin pérdida de continuidad. ESPERANZA 275 candidato o tema en cuestión. Entonces el tamaño de la población total es n = n1 + + nt, del cual m = m1 + + mt favorece al candidato o tema. Además, sea i = ni/n la proporción de la población en el i-ésimo estrato, y sea pi = mi/ni la proporción de aquellos individuos en el i-ésimo estrato quienes favorecen al candidato o tema. Entonces la proporción de la población quienes favorecen al candidato o tema es p 1 p1 2 p2 t pt Por supuesto, 1 + + t = 1. Suponer ahora que 1,,t son conocidos, que p1,,pt y p son desconocidos, y que deseamos conducir una encuesta de opinión para saber acerca de ellos. Suponer también que tenemos suficientes recursos para tomar una muestra de tamaño k de la población. Dos posibilidades presentan ellos mismos. Podemos tomar una muestra aleatoria simple. Eso es, podemos tomar una muestra aleatoria de la población entera. Si hacemos eso, y si denotamos por X el número de personas en la muestra quienes favorecen al candidato o tema, entonces podemos estimar p por p̂ 1 X k la proporción de la muestra quienes favorecen al candidato o tema. Por el Ejemplo 8.5.6, la media y varianza de p son entonces E p̂ p y D p̂ 1 nk pq k n 1 (6.1) donde q = 1 p. Otra posibilidad es tomar una muestra estratificada. Eso es, dividimos el tamaño de la muestra k en grupos de tamaños k1,,kt, donde k1 + k2 + + kt = k, y tomamos una muestra de tamaño ki del i-ésimo estrato para i = 1,,t. Si denotamos por Xi el número de personas en la muestra del i-ésimo estrato quienes favorecen al candidato o tema, entonces podemos estimar pi por p i X i k i y p por ˆp̂ 1 p̂1 t p̂t La media y varianza de ˆp̂ son entonces E( ˆp̂ ) = 1 E p̂1 2 E p̂2 t E p̂t 1 p1 2 p2 t pt p y 276 EJEMPLOS t 1 n ki 2 D ˆp̂ i pi qi i ni 1 i 1 k i (6.2) por el Ejemplo 8.5.6, el Lema 8.3.3, y el Teorema 8.3.1. ¿Cómo podemos comparar estos dos esquemas de muestreo? ¿Cuál de los dos es mejor? La respuesta a la primera de estas preguntas es completamente simple. Puesto que ambos p̂ y ˆp̂ tienen media p, y puesto que la varianza mide la tendencia de una variable aleatoria a desviarse de su media, parece razonable compararlos sobre la base de las varianzas. Eso es, una estimación será juzgada mejor que la otra si y sólo si tiene una varianza más pequeña. La segunda pregunta es más sutil, pero puede ser respondida como sigue. Si los tamaños de muestra k1,,kt son seleccionados para ser proporcionales a los tamaños de los estratos n1,,nt, entonces el muestreo estratificado es mejor que el muestreo aleatorio simple. Para ver porqué, haremos la suposición simplificante de que n es grande comparada con k y que ni es grande comparado con ki, así que los factores (n k)/(n 1) y (ni ki)/(ni 1) pueden ser quitados en (6.1) y (6.2). Encontramos que D p̂ 1 pq k D ˆp̂ 1 2 i pi qi i 1 k i t y Seleccionemos ahora los tamaños de muestra ki para ser proporcionales a los tamaños de los estratos. Eso es, sea ki = ik para i = 1,,t. Entonces tenemos D ˆp̂ 1 t i pi qi k i 1 Simple álgebra ahora muestra que 1 t 1 1 t 2 p q pq i i i i pi p k i 1 k k i 1 Esto es estrictamente menor que (1/k)pq D( p̂ ) a menos que p1 = p2 = = pt. Así, tenemos D( p ) < D( p̂ ) a menos que p1 = p2 = = pt, en cuyo caso D( ˆp̂ ) D( p̂ ). //// EJEMPLO 8.6.2 Un problema de inventario Un comerciante tiene que almacenar una cantidad de bienes z para satisfacer una demanda aleatoria X. El comerciante compra sus bienes a un costo fijo c y las vende a un precio fijo p > c. ¿Cuánto debe el ordenar si desea maximizar su ganancia esperada? Supondremos, por simplicidad, que la demanda X tiene una función de distribución ESPERANZA 277 absolutamente continua F con densidad f, que es positiva sobre (0,). También suponemos que la demanda no es negativa, así que F(x) = 0 para x 0. Si el comerciante ordena z unidades de inventario, su ganancia es Y p min X , z cz Así, su ganancia esperada es E Y 0 pxf x dx pz1 F z cz z Aquí hemos usado el Teorema 8.2.1 para calcular la esperanza del mín (X,z). Si ahora diferenciamos E(Y) con respecto a z, encontramos d E Y p1 F z c dz que es cero si y sólo si F(z) = (p c)/p. Más aún, puesto que la segunda derivada de E(Y) es pf(z), que es negativo, vemos que el extremo es un máximo. Así, el comerciante debe ordenar z0 unidades, donde z0 es la solución a la ecuación F z pc p En el caso especial que F sea la distribución exponencial con parámetro , encontramos z0 = (log p log c)/. //// REFERENCIAS Si X es cualquier variable aleatoria, entonces la función característica de X está definida por (t) = E(eitX) para < t < , donde i denota 1 . Las funciones características tienen propiedades semejantes a aquellas de las funciones generatrices de momentos y tienen la ventaja que cada variable aleatoria tiene una función característica. Por otro lado, ellas son más complicadas puesto que exponenciales complejos están involucrados. Para los lectores interesados en las funciones características, recomendamos Parzen (1960), capítulo 9, para un tratamiento elemental y Feller (1966), chap. 15, para un tratamiento más detallado. Si X es una variable aleatoria no negativa, entonces M(t) = E(e-tX), t > 0, es conocida como la Transformada de Laplace de X. Las transformadas de Laplace tienen varias propiedades adicionales importantes que son discutidas en Feller (1966), capítulo 13. Para un tratamiento más completo del muestreo estratificado y otros esquemas de muestreo interesantes, ver Cochran (1963). Lectores interesados en modelos de inventarios (Ejemplo 8.6.2) deben consultar Arrow, Karlin, y Scarf (1958, 1962). 278 PROBLEMAS 8.7 PROBLEMAS 8.1 Permita que X tenga la distribución Rayleigh [con densidad f(x) = 2x exp (x2), x > 0, y f(x) = 0 para x 0]. Encontrar E(X). 8.2 Permita que X tenga la distribución exponencial bilateral [ con densidad f(x) = (/2)e- x , x R]. Encontrar E(X). 8.3 Sean dos dados balanceados tirados, y denote X el número total de puntos que aparecen. Encontrar E(X). 8.4 Dos dados balanceados son tirados. Si X denota el número máximo de puntos que aparecen, encontrar E(X). 8.5 ¿Estaría dispuesto a jugar el siguiente juego repetidamente? Dos dados balanceados son tirados. Ganas 3 dólares si 2, 7, ó 12 puntos aparecen y pierdes 1 dólar de otro modo. 8.6 Considere el siguiente juego. Una moneda balanceada es lanzada hasta que un águila aparece. Si un águila aparece en el primer lanzamiento, ganas 1 dólar. De otro modo, ganas n dólares, donde n es el número de lanzamientos requerido para obtener un águila. ¿Cuál es tu ganancia esperada? 8.7 Sean X1,, Xn variables aleatorias independientes las cuales son uniformemente distribuidas sobre (0,1). Encontrar el valor esperado de mín (X1,, Xn) y máx (X1,, Xn). ESPERANZA 279 8.8 Sean X1,, Xn como en el Problema 8.7. Encontrar el valor esperado de Yk, el k-ésimo más pequeño de X1,, Xn. 8.9 Sea X cualquier variable aleatoria acotada, eso es, cualquier variable aleatoria para la cual Pr (a < X b) = 1 para algunas constantes a y b. Para n = 1, 2,, defina una variable aleatoria Xn por Xn = k2n si k 1 < X2n k Mostrar que lim E(Xn) = E(X) cuando n . Sugerencia: Esto se sigue fácilmente de la definición de la integral de Riemann-Stieltjes. 8.10 Sea X cualquier variable aleatoria para la cual E(X) está definida, y para cualquier entero n = 1, 2, sea Xn = X si X n y Xn = 0 si X > n. Mostrar que lim E(Xn) = E(X) . Sugerencia: De nuevo, esto se sigue fácilmente de la definición de la integral de Riemann-Stieltjes. 8.11 Permita que X tenga una función de distribución F, donde F(x) = 0 para x < 0 y F(x) = 1 (1 + x)2 para x 0. Encontrar la E(X). 8.12 Permita que X tenga la distribución uniforme sobre (0,1). Encontrar las esperanzas de cos 2X y cos (2X)2. 8.13 Permita que X tenga la distribución gama con parámetro = 2 y = 1. Encontrar la esperanza de 1/X. Comparar su respuesta con 1/E(X). 8.14 Sea X una variable aleatoria, y sea D un intervalo para el cual Pr (X D) = 1. Permita que X tenga densidad f la cual es continua sobre D, y sea w una función continuamente diferenciable para la cual w´(x) 0 para cualquier x D. Sea Y = w(X). Mostrar directamente que E Y wx f x dx D 8.15 Probar el Teorema 8.2.2 en el caso especial que X y Y tengan una densidad conjunta. 8.16 Si k bolas son ubicadas en n celdas de acuerdo a la estadística de Maxwell-Boltzmann (cualquier bola es igualmente verosímil para ir dentro de cualquier celda), encontrar: (a) El número esperado de bolas en la primera celda. (b) El número esperado de celdas vacías. 8.17 Repita el Problema 8.16 para la estadística de Bose-Einstein (ver Sección 1.6). 8.18 Derive la desigualdad de Schwarz. Si X y Y son cualesquiera variables aleatorias para las cuales E(X2) y E(Y2) son ambas finitas, entonces E(XY)2 E(X2)E(Y2). Sugerencia: E[(X tY)2] es no negativa para toda t R. Encontrar su mínimo por diferenciación. 8.19 Derive la desigualdad de Minkowski. Si X y Y son variables aleatorias para las cuales 280 PROBLEMAS E(X2) < y E(Y2) < , entonces E[(X + Y)2]1/2 E(X2)1/2 + E(Y2)1/2 Sugerencia: Use la desigualdad de Schwarz. 8.20 Si (X,Y) tiene la distribución uniforme sobre el cuadrado unitario en R2, encontrar la esperanza de XY. Sugerencia: X y Y son independientes. 8.21 N partículas radioactivas decaen independientemente. Si el tiempo hasta el decaimiento de la i-ésima partícula tiene la distribución exponencial con parámetro , encontrar la esperanza del tiempo en el cual el primer decaimiento es observado. Sugerencia: Ver Sección 7.6. 8.22 En el Problema 8.21 encontrar la esperanza del tiempo en el cual el k-ésimo decaimiento es observado. 8.23 En la notación del Problema 8.21, encontrar el número esperado de partículas que decaen en el intervalo de tiempo (0,t). 8.24 Encontrar la media y varianza de X cuando X tiene la distribución exponencial bilateral [ con densidad f(x) = (/2)e- x, < x < ]. 8.25 Encontrar la media y varianza de X cuando X tiene la distribución Rayleigh [con densidad f(x) = x exp(x2/2), x > 0]. 8.26 Encontrar la media y varianza de X cuando X tiene la distribución Pareto [con densidad Cx - 1/(1 + x) + , x > 0, donde C = ( + )/()()]. 8.27 Sean X1,, Xn variables aleatorias independientes las cuales están uniformemente distribuidas sobre (0,1). Sea Y = máx (X1,, Xn). Encontrar la media y varianza de Y. 8.28 Sean X1,, Xn como en el Problema 8.27. Sea Y1 = mín (X1,, Xn), y sea Y2 = máx (X1,, Xn). Encontrar la media y varianza de Y2 – Y1. 8.29 Sean X1,, Xn variables aleatorias independientes con media común y varianza común 2. Encontrar la media y varianza de X = (X1 + + Xn)/n. 8.30 Sean X1,, Xn como en el Problema 8.29, y sea n n 1S 2 X i X 2 i 1 Encontrar E(S2) en términos de y 2. 8.31 Sean X y Y variables aleatorias independientes con varianzas positivas finitas 2 y 2, respectivamente. Encontrar el número el cual minimiza la varianza de Z = X + (1 )Y. ESPERANZA 281 8.32 Sean X1,, Xn variables aleatorias independientes con varianzas positivas finitas 12,, n2, respectivamente. Encontrar 1,, n las cuales minimizan la varianza de 1X1 + + nXn, sujeto a la restricción 1 + + n = 1. Sea X una variable aleatoria positiva con media finita y varianza 2. Entonces, el cociente / es conocido como el cociente señal-a-ruido. Encontrar el cociente señal-a-ruido para las distribuciones (a) gama; (b) Rayleigh; (c) Pareto; y (d) Poisson. Sus respuestas involucrarán a los parámetros de estas distribuciones. 8.34 Si X tiene una distribución exponencial con varianza 2 = 1, encontrar Pr (X 1). Sugerencia: Encontrar . 8.35 Considere tres básculas. Si un objeto es pesado en cualquiera de las tres básculas, el resultado es una variable aleatoria normalmente distribuida cuya media es el verdadero peso del objeto. Las varianzas de las tres máquinas son diferentes. De hecho, ellas son 12 = 1, 22 = 2, y 32 = 3. ¿Obtendría una estimación más precisa del verdadero peso de un objeto pesándolo en la báscula 1 o pesándolo en las básculas 2 y 3 y usando el promedio? (Suponga que los errores cometidos por las tres básculas son independientes.) 8.36 Considere dos marcas de focos. La marca A se funde con una longitud de tiempo normalmente distribuida con media A = 100 horas y desviación estándar A = 1 hora. La marca B se funde con una longitud de tiempo distribuida normalmente con media B = 102 horas y desviación estándar B = 10 horas. ¿Cuál marca tiene la mayor probabilidad de fundirse para más de 90 horas? 8.37 Sea X una variable aleatoria con esperanza finita. Mostrar que E(X a) es mínima cuando a es una mediana de X. 8.38 Suponer que la masa es distribuida sobre el intervalo I = (0,1] de acuerdo a una distribución masa F. Eso es, suponer que la cantidad de masa en el intervalo (a,b] es F(b) F(a) para 0 a b 1, donde F es una función continua por la derecha no decreciente. El centro de gravedad está definido para ser ese número a que minimiza 1 2 x a dF x . Derive una expresión para el centro de gravedad. Comente sobre 0 cualquier analogía con la teoría de probabilidad. 8.39 En el Problema 8.38 denote m el centro de gravedad. Entonces 2 x m2 dF x es 0 1 denominado el momento de inercia. Mostrar que 2 2 x 2 dF x x dF x F 1 F 01 1 0 1 0 282 PROBLEMAS 8.40 Si X es una variable aleatoria con momentos 1, 2,, definimos los momentos centrales de X por k = E[(X )k], k = 1, 2,, donde = 1 es la media de X. Exprese los momentos centrales como combinaciones lineales de los momentos ordinarios 1, 2,. 8.41 La asimetría y curtosis de una variable aleatoria X son definidos para ser s = 3 -3 y k = 4 -4 3 donde k denotan los momentos centrales de X y 2 = 2 denota la varianza de X. Derive las siguientes dos propiedades de asimetría y curtosis: (a) Si Y = aX + b, donde a y b son constantes, entonces Y tiene la misma asimetría y curtosis como X. (b) Si X tiene una distribución normal entonces s = 0 = k. Asimetría y curtosis pueden ser pensadas como medidas de que tanto la distribución de X se desvía de la normalidad. 8.42 Calcular la asimetría y curtosis de X cuando X tiene cada una de las siguientes propiedades: (a) Binomial con parámetros n y p. (b) Poisson con parámetro > 0. (c) Uniforme sobre el intervalo (a,b) con a < b. (d) Beta con parámetros y . (e) Exponencial con parámetro . 8.43 Exprese los momentos de la función de distribución normal estándar en términos de la función gama. 8.44 Permita que X tenga la distribución exponencial bilateral [con densidad f(x) = (/2)e- x, < x < ]. (a) Encontrar la función generatriz de momentos de X. (b) Encontrar los primeros cuatro momentos. 8.45 Si X tiene la función generatriz de momentos M(t) = (senh t)/t para t 0 y M(0) = 1, ¿cuál es la distribución de X? 8.46 Si X tiene una función generatriz de momentos M(t) = cosh t para < t < , ¿cuál es la distribución de X? 8.47 Si X tiene función generatriz de momentos M(t) = exp (t + t2), ¿cuál es la función de distribución de X? ESPERANZA 283 8.48 Probar las aseveraciones (iii) y (iv) del Teorema 8.4.4. 8.49 Sean X1,, Xn variables aleatorias independientes distribuidas geométricamente con distintos parámetros p1,, pn. Encontrar la función masa de S = X1 + + Xn. 8.50 Sean X1 y X2 variables aleatorias independientes exponencialmente distribuidas con distintos parámetros 1 y 2. Encontrar una densidad para S = X1 + X2. 8.51 Sean X1,, Xn variables aleatorias independientes exponencialmente distribuidas con parámetros distintos 1,, n. Encontrar una densidad para S = X1 + + Xn. 8.52 Permita que X tenga función generatriz A. Mostrar que E[(X)k] = A(k)(1) finita o infinita para k = 1, 2,. Los números fk = E[(X)k] son denominados los momentos factoriales de X. 8.53 Sea X una variable aleatoria valuada en los enteros, y suponer que los momentos factoriales f1, f2, y f3 son finitos. Mostrar que los momentos usuales 1, 2, y 3 están dados por 1 = f1, 2 = f2 + f1, y 3 = f3 + 3f2 + f1. Encontrar los momentos factoriales para las distribuciones (a) binomial, (b) geométrica, y (c) Poisson. Use los resultados de los Problemas 8.53 y 8.54 para encontrar la media y varianza de las distribuciones (a) binomial, (b) geométrica, y (c) Poisson. 8.56 Evaluar k n k j j para n y j arbitrarias. 8.57 Permita que U tenga la distribución uniforme sobre (0,1), y sea X = sen 2U y X = cos 2U. Mostrar que var (X + Y) = var X + var Y. ¿Son X y Y independientes? 8.58 Permita que X y Y tengan la densidad conjunta f(x,y) = 120xy(1 x y) para x > 0, y > 0, y x + y 1. Encontrar la correlación entre X y Y. 8.59 Más generalmente, permita que X y Y tengan la densidad conjunta f(x,y) = Cx - 1 y - 1(1 x y) - 1 para x > 0, y > 0, y x + y 1, donde C = ( + + )/()()(). Mostrar que la correlación entre X y Y es . 8.60 Probar la Ecuación (5.7). 8.61 Probar el Lema 8.5.1. 8.62 Sean X y Y variables aleatorias independientes con media y y varianzas 2 y 2, respectivamente. Sea W = X + Y y Z = X Y. Encontrar la correlación entre X y Z. 8.63 Permita que X1,, Xn tenga la distribución hipergeométrica multivariada (Ejemplo 284 PROBLEMAS 6.3.1a). Encontrar la covarianza y correlación entre Xi y Xj para i j. 8.64 Permita que X1,, Xk tenga la distribución multinomial con parámetros n y p = (p1,, pk), como en el Ejemplo 6.3.1b. Mostrar que la covarianza entre Xi y Xj es pipj para i j. 8.65 Si A1,, An son eventos con unión A = A1 An, entonces 1 IA = 1 I . n k 1 Ak 8.66 Use el resultado del Problema 8.65 para dar una prueba independiente del Teorema 2.4.1. Sugerencia: P(A) = E(IA). 9 9 TEOREMAS LÍMITES 9.1 ALGUNAS DESIGUALDADES ÚTILES Hay varias desigualdades importantes que relacionan esperanzas y probabilidades. Muchas son variaciones de la siguiente desigualdad básica, conocida como la desigualdad de Markov. Teorema 9.1.1. Sea X cualquier variable aleatoria, y sean y r cualesquiera números reales positivos. Entonces Pr X r E X r (1.1) PRUEBA Permita que A denote el evento donde X , y denote IA la función indicadora de A. Eso es, sea IA = 1 si A ocurre, y sea IA = 0 de otro modo. Entonces rIA Xr, puesto que X si IA = 1 e IA = 0 de otro modo. Así, E(Xr) E(rIA) = rE(IA) = rP(A) = r Pr (X ), como se aseveró. //// Como un caso especial de la desigualdad de Markov, obtenemos la desigualdad de Chebyshev. Corolario 9.1.1 Sea X una variable aleatoria con media y varianza 2. Entonces para cualquier > 0 286 ALGUNAS DESIGUALDADES ÚTILES 2 Pr X 2 (1.2) PRUEBA Aplicamos la desigualdad de Markov a Y = X con r = 2 y encontramos que Pr (|X ) –2E{X 2} = –22. //// EJEMPLO 9.1.1 a Denote X el número de águilas que resultan de n lanzamientos independientes de una moneda que tiene probabilidad p de ocurrir en águila sobre cada lanzamiento, así que X tiene la distribución binomial con parámetros n y p. Sea Y = X/n la frecuencia relativa de águilas. Entonces Pr Y p 01 . Pr X np 01 . n npq 100 pq 2 n 0.01n (1.3) puesto que la media y varianza de X son np y npq, respectivamente. Más aún, puesto que pq = p(1 p) 1/4, 0 p 1, (1.3) puede ser además acotada por 25/n. Así, si n 1000, la probabilidad que Y difiera de p por más de 0.1 es a lo más 0.025 para cualquier p posible. b Si X tiene la distribución normal estándar, entonces Pr (X 2) = 1 Pr (2 < X < 2) = 0.046 1/20 por el Ejemplo 5.6.1a. La desigualdad de Chebyshev proporciona sólo que Pr (X 2) 1/4, sin embargo. //// Como este ejemplo indica, la desigualdad de Chebyshev puede horrorosamente sobreestimar Pr (X ). De hecho, horrorosamente sobreestima Pr (X ) para la mayoría de las distribuciones, aunque hay situaciones en las cuales es exacta (Problema 9.4). La virtud de la desigualdad de Chebyshev es su generalidad, no su exactitud. La desigualdad de Chebyshev es válida para cualquier variable aleatoria con una varianza finita, mientras que la estimación más exacta Pr (X 2) 1/20 del Ejemplo 9.1.1b depende sobre X que tiene la distribución normal estándar. La desigualdad de Chebyshev apoya la interpretación de la varianza como una medida de la tendencia de una variable aleatoria para desviarse de su media (Sección 8.3). En verdad, la desigualdad de Chebyshev provee una cota sobre la probabilidad de que X se desvíe de su media por más que en términos de y 2, la varianza de X. En el caso extremo que 2 = 0 tenemos el siguiente corolario. Corolario 9.1.2 Sea X una variable aleatoria con varianza 2 = 0. Entonces, Pr (X = ) = 1, donde = E(X). PRUEBA Si 2 = 0, entonces Pr (X ) = 0 para cualquier > 0 por la desigualdad de Chebyshev. Dejando 0, tenemos entonces Pr (X > 0) = 0, 287 TEOREMAS LÍMITES como se aseveró. Otra variación útil sobre la desigualdad de Markov, la desigualdad de Bernstein, puede ser establecida como sigue. Teorema 9.1.2 Sea S cualquier variable aleatoria con una función generatriz de momentos M. Entonces para cualquier s y cualquier t > 0, tenemos Pr S s e st M t (1.4) PRUEBA Aplicamos la desigualdad de Markov a la variable aleatoria Y = eS con r = t y = es. Tenemos Pr S s Pr e S e s e st E etS e st M t como se aseveró. //// Para una s dada, la desigualdad (1.4) es válida para toda t > 0. Parece natural usar la t que minimiza el lado derecho de (1.4), pero desafortunadamente esta t puede raramente ser encontrada explícitamente. Sin embargo, si E(S) = 0, puede ser encontrada aproximadamente de la siguiente manera. Sea m(t) = log M(t), y recuerde que m(t) = E(S) = 0 y m(t) = 2 = D(S). Así, por el teorema de Taylor, podemos aproximar m(t) por m(0)t + (½)m(0)t2 = (½)2t2 para t pequeña. Se sigue que podemos aproximar M(t) = exp m(t) por exp (½)2t2 y e–stM(t) por exp (st + (½)2t2). El valor mínimo de exp ((½)2t2 st) es fácilmente visto para ocurrir cuando t = t0, donde t0 s 2 (1.5) Así, t0 parece una selección razonable de t en la Ecuación (1.4) y produce la desigualdad P S s e s 2 / 2 s M 2 En el caso especial que S sea la suma de variables aleatorias independientes, la desigualdad de Bernstein produce cotas sorprendentemente bajas. Corolario 9.1.3 Sean X1,... Xn variables aleatorias independientes con función generatriz de momentos M0, y sea S = X1 + + Xn. Entonces Pr S ns e nst M0 t n para toda s > 0 y toda t > 0. PRUEBA La función generatriz de momentos de S es M(t) = M0(t)n por el 288 LA LEY DÉBIL DE LOS GRANDES NÚMEROS Teorema 8.4.3, así que Pr S ns e nst M 0 t n para s > 0 y t > 0, como se aseveró. //// EJEMPLO 9.1.2 Sean X1,... Xn variables aleatorias independientes con la distribución común Pr X i 1 1 2 Tabla 12 n 0.1 0.2 0.5 10 0.9512 0.8177 0.2728 25 0.8823 0.6045 0.0389 50 0.7785 0.3655 0.0015 100 0.6060 0.1336 y sea S = X1 + + Xn. La función generatriz de momentos de X1 es E etX1 12 et 12 e t cosh t para < t < , así que la función generatriz de momentos de S es M(t) = (cosh t)n (Teorema 8.4.3). También, la media y varianza de X1 son 0 y 1, respectivamente, así que la media y varianza de S son 0 y n. Haciendo s = n, ahora encontramos que t0 = n/n = , y por tanto Pr S n e cosh 2 n (1.6) para > 0. El lado derecho de (1.6) está dado en la Tabla 12 para varios valores de n y . //// 9.2 LA LEY DÉBIL DE LOS GRANDES NÚMEROS En la Sección 8.1 indicamos que la media de una variable aleatoria X puede ser considerada como el promedio empírico de largo plazo de X sobre muchas repeticiones del experimento al que X se refiere. En esta sección probaremos dos teoremas que apoyan esta interpretación de la media. Consideraremos variables aleatorias independientes X1,... Xn con una media común , y pensaremos de X1,... Xn como los sucesos de n repeticiones de un experimento. Mostraremos que el promedio empírico TEOREMAS LÍMITES Xn 289 1 X1 X n n converge a cuando n , en el sentido que abajo es definido. Empezamos observando que si X1,... Xn son variables aleatorias independientes con una media común y una varianza común 2, entonces la media y varianza de la suma Sn = X1 + + Xn son E S n n y D S n n 2 por el Teorema 8.3.1. Por tanto la media y varianza de X n = Sn/n son E Xn 1 E S n n y D Xn 1 D S n n n 2 2 (2.1) por el Lema 8.3.3. El punto para ser observado es que la varianza de X n es substancialmente menor que esa de cada una de las Xi individuales si n es grande. Si recordamos que la varianza es una medida de la tendencia de una variable aleatoria para desviarse de su media, entonces vemos que el promedio X n tiende a desviarse mucho menos de que lo que las Xi lo hacen. Esta simple observación es la base para los resultados de esta sección. Decimos que una sucesión de variables aleatorias Y1, Y2, converge en probabilidad a otra variable aleatoria Y cuando n si y sólo si lim Pr Yn Y 0 n (2.2) para cualquier > 0. Por supuesto, (2.2) es equivalente a lim Pr Yn Y 1 n (2.2a ) para cualquier > 0. Eso es, Yn converge a Y en probabilidad cuando n si y sólo si Yn es arbitrariamente cercana a Y con probabilidad arbitrariamente alta para n suficientemente grande. El mayor uso de esta terminología será en casos donde Y sea una constante. EJEMPLO 9.2.1 Sean X1,... Xn variables aleatorias independientes que están uniformemente distribuidas sobre (0,1), y sea Yn = máx (X1,... Xn) para n = 1, 2,. Entonces, Yn 1 en probabilidad cuando n . En verdad, Pr (Yn > 1) = 0, y para 0 < < 1 290 LA LEY DÉBIL DE LOS GRANDES NÚMEROS Pr Yn 1 1 n que tiende a cero cuando n (ver Ejemplo 7.2.1a). //// Ahora estableceremos dos teoremas que afirman la convergencia de X n a en probabilidad. Teorema 9.2.1 Sean X1,... Xn variables aleatorias independientes que tienen una media común y una varianza (finita) común 2, y sea Xn X1 X n 1 n n 1 Entonces X n en probabilidad cuando n . PRUEBA El Teorema 9.2.1 se sigue fácilmente de la Ecuación (2.1) y la desigualdad de Chebyshev. En verdad, para > 0 Pr X n 1 2 D X n que tiende a cero cuando n . 2 n 2 //// Mientras que el Teorema 9.2.1 es adecuado para muchas aplicaciones, tiene un defecto en que la varianza 2 es supuesta para ser finita. Suponiendo que las variables aleatorias X1,... Xn tienen una función de distribución común, podemos eliminar la condición de que 2 < . La hipótesis de que X1,... Xn tengan la misma función de distribución es ciertamente razonable si pensamos a X1,... Xn como los sucesos de ensayos independientes del mismo experimento. Diremos que X1,... Xn son idénticamente distribuidas si ellas tienen la misma función de distribución. Teorema 9.2.2 Sean X1,... Xn variables aleatorias independientes que tienen una misma función de distribución F. Si la media x dF x (2.3) es finita, entonces X n converge a en probabilidad cuando n . El Teorema 9.2.2 es conocido como la ley débil de los grandes números. Probaremos este teorema abajo, pero primero discutimos algunas de sus implicaciones. Primero, hace precisa la interpretación dada a la media en la Sección 8.1 como el valor límite de X n. En particular, apoya la interpretación frecuentista de probabilidad prediciendo el tipo de comportamiento sobre el cual la interpretación frecuentista está fundamentada. En TEOREMAS LÍMITES 291 verdad, si A es un evento que puede ocurrir sobre cada uno de n ensayos independientes, entonces la frecuencia relativa con la cual A ocurre es simplemente fn(A) = X n, donde Xi = 1 si A ocurre sobre el iésimo ensayo y Xi = 0 de otro modo, i = 1,,n,. Puesto que X1,... Xn son independientes con una distribución común, el Teorema 9.2.2 afirma la convergencia de 2 X n a la media = E(Xi), que es simplemente P(A). Puesto que E(X1 ) es finita en este ejemplo, la convergencia de X n a = P(A) también se sigue del Teorema 9.2.1. Puesto que es casi un axioma de teoría de probabilidad que cualquier teorema realmente interesante debe tener aplicaciones al juego, veamos que tiene que decir el Teorema 9.2.2 acerca del juego. Considere un jugador quien juega n repeticiones de un juego fijo, y denote Xi su ganancia (posiblemente negativo) sobre el iésimo juego, i = 1,,n. Entonces su ganancia total es simplemente Sn = X1 + + Xn. Si ahora suponemos que X1,... Xn son independientes con función de distribución común, entonces el Teorema 9.2.2 tiene las siguientes implicaciones. Si la ganancia esperada = E(Xi) en cada jugada es positiva, entonces Pr S n 12 n Pr X n 12 que tiende a 1 cuando n por el Teorema 9.2.2. Eso es, jugando el juego suficientemente (n grande), el jugador ganará una cantidad arbitrariamente grande (al menos n/2) con probabilidad arbitrariamente alta. En este caso, > 0, decimos que el juego es favorable. Análogamente, si < 0, el jugador perderá una cantidad arbitrariamente grande con probabilidad arbitrariamente alta jugando el juego suficientemente y decimos que el juego es desfavorable. Si = 0, es sugerente llamar al juego limpio, y lo haremos así, aunque esta terminología es algo cuestionable en los casos donde la varianza es infinita.1 Ahora regresamos a la prueba del Teorema 9.2.2. Sean X1,... Xn como descritas en sus hipótesis, variables aleatorias independientes con una función de distribución común F y una media finita . Debemos mostrar que, dada una > 0 arbitraria y > 0, la desigualdad Pr X n se cumple para toda n suficientemente grande. Sea > 0 y > 0 dadas; sea = E(X1), que es finita por suposición; sea = 2/8; y defina Y1,... Yn por Xk Yk 0 Entonces Y1,... Yn son independientes con media común 1 1 Ver Feller (1968), p. 249. si n X k n de otro modo 292 VARIACIONES DE LA LEY DÉBIL DE LOS GRANDES NÚMEROS n n y dF y n y varianza n 2 n y 2 dF y n 2 n (2.4) Ahora, cuando n , n , así que n por definición de la integral de RiemannStieltjes impropia en (2.3). Por tanto hay una n0 para la cual n (1/2) para toda n n0. Por tanto, para n n0 tenemos Pr Y Pr X Pr X n Pr X n n 12 n n 1 2 n Yn (2.5) Ahora, por la desigualdad de Chebyshev , Pr ( Yn n (1/2)) 4n2/n. Más aún, por (2.4), n 2 n y 2 dF y n n y dF y ny n n donde (recordamos) = E(X1). Por tanto, por definición de , tenemos Pr Yn n 12 4 2 12 (2.6) para toda n = 1, 2,. Más aún, Pr X n Yn Pr X k Yk n k 1 n Pr X1 n n x n dF x 1 x n x dF x que tiende a cero cuando n , puesto que es la cola de una integral convergente. Así, hay una n1 para la cual Pr ( X n Yn ) (1/2) para toda n n1. Combinando esta información con (2.5) y (2.6), ahora vemos que Pr ( X n ) siempre que n máx(n0,n1). //// 9.3 VARIACIONES DE LA LEY DÉBIL DE LOS GRANDES NÚMEROS Hay muchas variaciones sobre las leyes de grandes números dadas en la sección previa, y presentamos tres de ellas en esta sección. Comenzamos por observar que el Teorema 9.2.1 TEOREMAS LÍMITES 293 no usó realmente la independencia de las Xi muy fuertemente. Sólo usó el hecho de que ellas no estaban correlacionadas, que se sigue de la independencia pero es una condición mucho más débil (ver Ejemplo 8.5.3). De hecho, todo lo que realmente es necesario es que las Xi sean asintóticamente no correlacionadas en el sentido de que lim C X i , X j 0 (3.1) donde el límite es tomado cuando i j . Teorema 9.3.1 Sean X1,... Xn variables aleatorias distribuidas conjuntamente con media común y varianzas acotadas 12,,n2, digamos i2 b, i = 1,,n, donde b es independiente de n. Si (3.1) se cumple, entonces X n en probabilidad cuando n . PRUEBA Por la desigualdad de Chebyshev, tenemos Pr X n 1 2 D X n para toda > 0, así que será suficiente mostrar que lim D X n 0 (3.2) n Ahora 2 1 n n D X n C X i , X j n i1 j 1 por el Teorema 8.5.2. Dada > 0, hay por (3.1) un entero m para el cual C(Xi,Xj) /2 provisto sólo que i j m. Más aún, por la desigualdad de Schwarz (Sección 8.5), tenemos también C X i , X j i j b para toda i y j. Por tanto, para n 2mb/, VARIACIONES DE LA LEY DÉBIL DE LOS GRANDES NÚMEROS 294 2 1 D X n b C X i , X j n i j m i j m nmb n n m 2 n 2n 2 y (3.2) se sigue. //// Si requerimos que las Xi en el Teorema 9.3.1 de hecho no sean correlacionadas, la suposición de que sus varianzas sean acotadas puede ser relajada. Teorema 9.3.2 Sean X1,... Xn variables aleatorias no correlacionadas con media común y varianzas 12,,n2, respectivamente. Si hay constantes > 0 y < 1 tal que k 2 k k 1,, n n 1 entonces X n converge a en probabilidad cuando n . Dejamos la prueba del Teorema 9.3.2 como un ejercicio (Problema 9.13). Ahora consideremos algunos ejemplos. EJEMPLO 9.3.1 Sea Y uniformemente distribuida sobre el intervalo (1,1), y sea Xk = sen kY, k = 1, 2,. Entonces 1 1 sin ky dy 0 2 1 2 1 1 1 sin ky dy 2 E X k E Xk2 1 2 1 1 cos j k y cos j k y dy 0 para j k . Por tanto, las X i no 4 1 están correlacionadas y tienen media común = 0 y varianza común 2 = 1/2. Ahora se sigue del Teorema 9.3.1 o del Teorema 9.3.2 que X n converge a = 0 en probabilidad, aun cuando las Xk son altamente dependientes. //// y E X j Xk EJEMPLO 9.3.2 Sean X0,... Xn–1 no correlacionadas con media común E(Xi) = 0 y varianza E(Xi2) = 2, y defina k Yk 2 j X k j j 1 TEOREMAS LÍMITES 295 para k = 1,,n. La sucesión Y1,... Yn es denominada un promedio móvil de la sucesión X0,... Xn–1. Entonces k E Yk 2 j E X k j 0 j 1 k k E Yk 2 4 j E X k2 j 4 j 2 j 1 j 1 1 3 1 4 k 2 para k = 1,,n. Más aún, haciendo m = mín(j,k) da m C Yj ,Yk E Yj Yk 2 k j 4 i i 1 que tiende a cero cuando k j . Por tanto, el Teorema 9.3.1 se aplica y afirma que Yn converge a 0 en probabilidad cuando n . //// Otra aplicación de la ley débil de los grandes números consiste en usar métodos probabilísticos para probar un teorema famoso de análisis, el teorema de aproximación de Weierstrass, que afirma que cualquier función continua sobre el intervalo cerrado [0,1] puede ser uniformemente aproximada a cualquier grado deseado de exactitud por un polinomio. Teorema 9.3.3 Sea g cualquier función continua definida sobre el intervalo cerrado [0,1]. Entonces hay una sucesión de polinomios gn, n = 1, 2,, para la cual lim gn(p) = g(p) uniformemente en 0 p 1 cuando n . PRUEBA Permita que Sn tenga la distribución binomial con parámetros n y p, sea X n = Sn/n, y defina gn por g n p E g X n para 0 p 1. Cada gn es un polinomio, puesto que n n k k n E g X n g p k 1 p k 0 n k n n k j k j k n n k g 1 p k 0 j 0 n k j para 0 p 1 y n = 1, 2,. Así sólo necesitamos mostrar que gn converge a g uniformemente cuando n tiende a infinito, eso es, para cada > 0, hay un entero n0 para el cual gn(p) g(p) para toda n n0 y toda p, 0 p 1. Puesto que g es continua, g es acotada y uniformemente continua. Por tanto, hay una constante b para la cual g(p) b, 0 p 1, y dada > 0, hay una constante para la cual g(p1) g(p2) /2 296 EL TEOREMA DEL LÍMITE CENTRAL siempre que p1 p2 . Más aún, tenemos Pr X n p pq 1 2 n 4n 2 para toda n = 1, 2, por la desigualdad de Chebyshev. Sea An el evento X n p < , y sea I An la función indicadora de An, así que I An = 1 o 0 de acuerdo a X n p < o X n p . Entonces I An g( X n) g(p) /2 por la selección de , así que g n p g p E g X n g p E I An g X n g p + E 1 I An g X n g p 2 2 Pr X n p 2b Pr X n p 2b 4n 2 que es menor que provisto que n b/ 2. //// Los polinomios gn son conocidos como los polinomios de Bernstein, en honor a S. Bernstein, a quien se debe esta prueba. 9.4 EL TEOREMA DEL LÍMITE CENTRAL En esta sección presentamos un teorema, conocido como el teorema del límite central, que simultáneamente provee una aproximación efectiva, simple a probabilidades determinadas por sumas de variables aleatorias independientes y explica la gran importancia de la distribución normal en la teoría de probabilidades. Su enunciado preciso es el siguiente: sean X1,... Xn variables aleatorias independientes idénticamente distribuidas con media y varianza finita positiva 2. Además, sea Sn = X1 + + Xn y S n S n n n S n* es el número de desviaciones estándar por las cuales Sn difiere de su media. La media y desviación estándar de S n* son 0 y 1, respectivamente, por el Lema 8.3.3. Teorema 9.4.1 Sean X1,... Xn variables aleatorias independientes con función de distribución común F, media , y varianza finita positiva 2. Entonces TEOREMAS LÍMITES lim Pr S n a a 297 (4.1) n para toda a, < a < , donde denota la función de distribución normal estándar a a e 12 x 2 2 dx Eso es, si substraemos la media n = E(Sn) de Sn y dividimos la diferencia por la desviación estándar n D S n , obtenemos una variable aleatoria S *n cuya función de distribución Pr (Sn a) es aproximadamente la función de distribución normal estándar (a). Se sigue que a n Pr S n a Pr S n n es aproximadamente [(a n)/( n )]. En correspondencia diremos que la función de distribución de Sn es aproximadamente normal con media n y varianza n2. Observe que la aproximación a la función de distribución de Sn depende sobre la distribución común de X1,... Xn sólo a través de la media común y la varianza común 2. Aún es posible ubicar una cota sobre la tasa de convergencia en (4.1). El resultado es conocido como el teorema de BerryEsseen. Teorema 9.4.2 finita, entonces Si, en adición a las hipótesis del Teorema 9.4.1, = E(Xi3) es Pr S n a a 5 n 3 para toda a, < a < , y n = 1, 2,. Daremos un argumento plausible para el teorema del límite central al final de esta sección. No probaremos el teorema de BerryEsseen. Antes de ir a los ejemplos, observemos que (4.1) implica que lim Pr a S n b b a n para toda a < b, puesto que Pr (a < S *n b) = Pr ( S *n b) Pr ( S *n a). EJEMPLO 9.4.1 (4.2) 298 EL TEOREMA DEL LÍMITE CENTRAL El teorema del límite central contiene al teorema límite de la integral de DeMoivreLaplace de las Secciones 4.5 y 4.6 como un caso especial. En verdad, si Sn tiene la distribución binomial con parámetros n y p, entonces Sn tiene la misma distribución que X1 + + Xn, donde las Xi son independientes con distribución común Pr (Xi = 1) = p y Pr (Xi = 0) = q = 1 p. Puesto que estas variables aleatorias son idénticamente distribuidas con media común = p y varianza común 2 = pq, (4.2) afirma que S np lim Pr n n npq (4.3) para toda < . Por supuesto, (4.3) es simplemente el teorema límite de la integral de DeMoivreLaplace, del cual aplicaciones prácticas fueron dadas en la Sección 4.5. EJEMPLO 9.4.2 Suponer que n números son aproximados al entero más cercano y después sumados. Qué tan grande podemos esperar encontrar una diferencia entre la suma de los números aproximados y la suma de los números originales; eso es, ¿qué tan grande será el error total debido a la aproximación? Denote Xi el error introducido por la aproximación del iésimo número, i = 1,,n, y suponer que X1,... Xn son independientes con una distribución uniforme común sobre el intervalo (1/2,1/2]. Entonces X1,... Xn son idénticamente distribuidas con 1 21 x dx 0 2 1 y 2 21 x 2 dx 121 2 Puesto que el error total es Sn = X1 + + Xn, el teorema del límite central provee una respuesta a nuestra pregunta. Por ejemplo, si n = 12, este afirma que Pr (1 < Sn 1) = Pr (1 < S *n 1) es aproximadamente (1) (1) = 0.683. Más generalmente, muestra que n n Pr Sn Pr S n 12 12 es aproximadamente () (), que es casi 1 para 3. Por tanto, el error de aproximación crece como n en lugar de n. //// El teorema del límite central puede ser visto como un suplemento a la ley débil de los grandes números. En verdad, en la notación de la sección previa, tenemos TEOREMAS LÍMITES n X n 299 S n n S n n Así, si X1,... Xn son independientes e idénticamente distribuidas con media y varianza 2, entonces X n converge a a la tasa 1/ n en el sentido de que ( n / )( X n ) tiene una 1 distribución que se aproxima a la normalidad. El teorema del límite central también tiene implicaciones que conciernen a la clasificación de juegos como limpios en la Sección 9.2. En verdad, si X1,... Xn denota las ganancias de n jugadas de un juego, si la ganancia esperada = E(Xi) sobre cada jugada es = 0, y si la varianza 2 = E(Xi2) es finita , entonces para cada > 0 tenemos, para n grande, a Pr S n a n Pr S n a 1 a Pr S n a n así que la probabilidad de ganar al menos a n es aproximadamente la misma que la de perder al menos a n . En adición a las aplicaciones arriba citadas, el teorema del límite central tiene algunas implicaciones importantes para la construcción de modelos. En verdad, establece que cualquier variable aleatoria que está determinada como la suma de un número grande de variables aleatorias independientes, idénticamente distribuidas con varianza finita tendrá aproximadamente una distribución normal. Más aún, el requisito de que los sumandos sean idénticamente distribuidos puede ser relajado al requisito de que cada uno contribuya insignificantemente a la suma (Sección 9.4.1). Muchos fenómenos que ocurren naturalmente pueden ser pensados de esta manera, eso es, como la suma de muchas desviaciones independientes, cada una de las cuales contribuye poco. Por ejemplo, tales atributos como las alturas y los coeficientes de inteligencia de los individuos son determinados por muchos factores ambientales y genéticos independientes o casi independientes cada uno de los cuales contribuye sólo en una pequeña cantidad. Del mismo modo, muchos errores de producción y medida son la suma de varios errores independientes más pequeños. Suponer ahora que deseamos construir un modelo para algún fenómeno del tipo de anterior. Probablemente desearemos hacer algunas suposiciones acerca de la distribución del fenómeno, y en vista del teorema del límite central, normalidad parece ser la suposición natural. Por ejemplo, en los ejemplos antes mencionados, alturas, coeficientes de 1 2 Para un resultado relacionado, ver Sección 11.8. 300 EL TEOREMA DEL LÍMITE CENTRAL inteligencia, y errores de producción y medida son comúnmente supuestos para seguir distribuciones normales por gentes quienes trabajan con ellos. Permítasenos ahora indicar la prueba del teorema del límite central. Considere n variables aleatorias independientes idénticamente distribuidas X1,... Xn con media común y varianza 2, 0 < 2 < , y suponer también que X1,... Xn tienen una función generatriz de momentos común M que está definida (finita) sobre algún intervalo abierto (–h,h) que contiene al cero. Mostraremos que la función generatriz de momentos de S *n S n n / n converge a la función generatriz de momentos de la distribución normal estándar, es decir, M0 t e 2 1 t2 t (Ejemplo 8.4.6). Esto es aceptadamente algo diferente de la conclusión del Teorema 9.4.1, que asegura que la función de distribución de S *n converge a la función de distribución normal estándar, pero al menos debe rendir la conclusión del Teorema 9.4.1 de manera altamente plausible. La función generatriz de momentos de Sn es M(t)n por el Teorema 8.4.3, y por tanto la función generatriz de momentos de S *n es n n t M n t exp t M n para t < h n por el Lema 8.4.1. En términos de logaritmos, tenemos n t log M n t n t n (4.4) donde log M . Expandamos en una serie de Taylor alrededor de t = 0, recordando que (0) = y (0) = 2 (Corolario 8.4.1). Tenemos t t t t 16 t1 n n 2 n n 2 2 3 donde t1 t/ n . Substituyendo la expansión de la serie de Taylor en (4.4), encontramos que 3 t 2 16 t1 t log M n t 2 3 n (4.5) TEOREMAS LÍMITES 301 Ahora, el último término en (4.5) contiene el factor 1/ n y por tanto tiende a cero cuando n tiende a infinito, así que lim logM n t t 2 2 cuando n o, equivalentemente, lim M n t lim exp log M n t e n 1 2 t 2 n como se aseguró. 9.4.1 El Teorema de Lindeberg- 1 Hay una versión más general del teorema del límite central que permite a las variables aleatorias X1,... Xn tener distribuciones diferentes. Es conocido como el teorema de LindebergFeller y puede ser establecido como sigue. Teorema 9.4.3 Sean X1,... Xn variables aleatorias independientes con funciones de distribución F1,... Fn, medias 1,... n, y varianzas finitas 12,... n2. Sea n 1 n n 2 12 n 2 y S *n = (Sn – n)/n para n 1. Si 2 n lim n 2 x x k dFk x 0 k i (4.6) n cuando n para cualquier > 0, entonces para cualquier a, < a < , lim Pr S *n a a n (4.7) La condición (4.6) es conocida como la condición de LindebergFeller. En particular, requiere que n2 cuando n . EJEMPLO 9.4.3 a Si hay una constante c para la cual Pr (Xk k c) = 0 para k = 1,... n, n 1, y si n2 cuando n , entonces la condición de LindebergFeller se satisface. Sin lugar a dudas, si > 0 es dada, entonces hay una n0 para la cual n > c para n n0. Así, para n n0, tenemos 1 3 Esta sección trata un tópico especial y puede ser omitido sin pérdida de continuidad. 302 EL TEOREMA DEL LÍMITE CENTRAL x x k dFk x 0 2 n para k = 1,... n, así que el lado izquierdo de (4.6) es de hecho igual a cero para n n0. b Sean Y1,... Yn variables aleatorias independientes con función de distribución común F, media común , y varianza positiva finita común 2, y sea Xk = kYk, k = 1,... n. Entonces, la condición LindebergFeller es satisfecha. Por simplicidad, consideramos sólo el caso donde = 0 y 2 = 1. En este caso k2 = k2, así que n 2 12 n 2 ~ 0 x 2 dx 13n3 n cuando n . Más aún, tenemos 2 2 2 x n x dFk k x / k n x dF x k 2 x / n x 2 dF x n para k = 1,... n, así que n n 2 x x 2 dFk x k 1 n n n 2 k 2 x / n x 2 dF x x / n x 2 dF x n n k 1 que tiende a 0 cuando n , puesto que (1/n)n cuando n . //// La condición LindebergFeller requiere que cada sumando contribuya de modo no significativo a la suma Sn = X1 + + Xn en el siguiente sentido. Lema 9.4.1 Sean X1,... Xn como en el Teorema 9.4.3. Si la condición (4.6) es satisfecha, entonces lim max n 2 k 2 0 k n (4.8) cuando n . PRUEBA entonces tenemos Podemos suponer que k = 0, k = 1,... n. Si es dada, 0 < < ½, TEOREMAS LÍMITES 303 k 2 x 2 dFk x n x 2 dFk x x x 2 dFk x n n n 2 n 2 x x 2 dFj x (4.9) n j 1 para k = 1,... n. Ahora, por (4.6), hay una n0 para la cual el segundo término en la última línea de (4.9) es a lo más 2n2 para n n0. Por tanto, para n n0, tenemos n 2 max k 2 2 2 k n El lema se sigue. //// EJEMPLO 9.4.4 Sean X1,... Xn independientes, y sea Pr (Xk = ±2k–1) = ½, k = 1,... n. Entonces k2 = 4k–1, así que n 2 4 k 1 13 4 n 1 n k 1 para n 1. Por tanto, n2/n2 ¾ 0 cuando n , y la condición Lindeberg–Feller es violada. //// Observamos que en este ejemplo Xn y Sn son ambos del orden de magnitud 4n, así que Xn no contribuye insignificantemente a Sn. La condición LindebergFeller implica que S n* tiene una distribución normal aproximada para valores grandes de n y que cada uno de los sumandos contribuye de modo insignificante a la suma. De hecho, la condición LindebergFeller es equivalente a estos dos enunciados. Un enunciado completo del teorema LindebergFeller es el siguiente. Teorema 9.4.4 Sean X1,... Xn como en el enunciado del Teorema 9.4.3. Entonces la condición (4.6) es equivalente a (4.7) y (4.8). Omitimos la prueba. 9.5 DISTRIBUCIONES DE VALORES EXTREMOS1 En la sección previa presentamos una simple aproximación a la función de distribución de sumas normalizadas de variables aleatorias independientes . En esta sección presentaremos 1 4 Esta sección trata un tópico especial y puede ser omitida. 304 DISTRIBUCIONES DE VALORES EXTREMOS una aproximación similar a la función de distribución de máximos normalizados de variables aleatorias independientes. El tratamiento de máximos es semejante al de las sumas pero más sencillo. Sean X1,... Xn variables aleatorias independientes con función de distribución común F, y sea M n max X1 ,..., X n La función de distribución de Mn es entonces F n (Ejemplo 7.2.1). Así, si an > 0 y bn son constantes, entonces la función de distribución de M n* M n bn an Gn x F an x bn es n para < x < . Ahora mostraremos como escoger las constantes an y bn de tal manera que Gn se aproxime a un límite cuando n . Por simplicidad, consideraremos sólo el caso donde F(x) < 1 para toda < x < . El caso donde F(b) = 1 para algún b (finito) es tratado en los problemas al final de este capítulo. Consideremos algunos ejemplos. EJEMPLO 9.5.1 Suponer que F(x) = 1 x para x 1. En este caso podemos asignar an = n y bn = 0 para obtener x Gn x 1 n n para anx 1, y se sigue fácilmente que lim Gn x exp x n para toda x > 0 (ver Lema 4.3.1). EJEMPLO 9.5.2 Sea F la función de distribución exponencial F(x) = 1 e–x para x 0. En este caso podemos asignar an = 1 y bn = log n para obtener e x Gn x 1 n para x –log n, así que n TEOREMAS LÍMITES lim Gn x exp e x n 305 para – < x < . //// Estos ejemplos son más generales de lo que ellos puedan parecer en principio. De hecho, tenemos el siguiente teorema. Teorema 9.5.1 Suponer que existen constantes positivas c y para las cuales 1 F x ~ cx cuando x . Defina an y bn por an = cn y bn = 0. Entonces lim Gn x exp x x n (5.1) para toda x > 0. Teorema 9.5.2 Suponer que hay constantes , , c, y d para las cuales c, d, y son positivas y 1 F x ~ cx exp dx (5.2) cuando x . Defina an y bn por dbn log n 1 log log n 1 log d log c dbn 1an 1 Entonces lim Gn x exp e n para toda x, – < x < . PRUEBA La prueba del Teorema 9.5.1 es semejante a esa del Ejemplo 9.5.1 y será omitida. Para probar el Teorema 9.5.2, observe primero que 1 bn ~ log n d 1 y an bn 1 1 0 dbn cuando n . En particular, para cualquier x, – < x < , an x bn ~ bn cuando n , así que 1 F an x bn ~ can x bn exp d an x bn (5.3) 306 DISTRIBUCIONES DE VALORES EXTREMOS cuando n . Si ahora expandimos (anx + bn) en una serie de Taylor alrededor de bn, encontramos que an x bn bn cn 1an x donde cn es un valor intermedio y bn – cn anx. En particular, puesto que anbn–1 0, debemos también tener que cn bn y dcn 1an 1 cuando n por definición de an. Exponenciando y usando las definiciones de an y bn, ahora encontramos que exp dc 1 F an x bn ~ c an x bn exp dbn dcn 1an x donde 1 n an x e x y c an x bn exp dbn 1 1 c an x bn exp log log n log d log c ~ n n cuando n . Por tanto, cuando n , 1 F an x bn ~ 1 x e n y Gn x 1 1 F an x bn n n 1 ~ 1 e x exp e x n como se aseguró. //// EJEMPLO 9.5.3 Si F es la función de distribución normal estándar, entonces 1 F x ~ cuando x (ver Lema 4.4.2). Ésta es de la forma (5.2) con c 1 = 2. Así, las selecciones apropiadas de an y bn son 1 1 x2 e 2 x 2 2 , d = ½, = 1, y TEOREMAS LÍMITES bn 2 log n log log n log 4 an bn 1 307 //// Las funciones de distribución límite de (5.1) y (5.2) son conocidas como las funciones de distribución doble exponencial y Weibull, respectivamente. Ambas son referidas como distribuciones de valores extremos, ya que ellas surgen en el contexto de extremos muestrales (máximos y mínimos). REFERENCIAS La prueba usual del teorema del límite central usa funciones características. Parzen (1960), caps. 9 y 10, da tal prueba del Teorema 9.4.1 junto con los resultados preliminares sobre funciones características. Feller (1966), cap. 15, da pruebas de los Teoremas 9.4.1, 9.4.3, y 9.4.4 vía funciones características. 308 PROBLEMAS 9.6 PROBLEMAS 9.1 Sean X1,, Xn variables aleatorias independientes las cuales están uniformemente distribuidas sobre (1,1). Use la desigualdad de Chebyshev para estimar Pr ( X n 0.05). ¿Qué tan grande debe ser n para que la cota sea menor o igual a 0.05? 9.2 Permita que X tenga la distribución binomial con parámetros n y p, 0 < p < 1. (a) Use la desigualdad de Chebyshev para estimar Pr ( X p 0.1), donde X = X/n. (b) ¿Qué tan grande debe ser n para que la cota sea menor o igual a 0.05 para p, 0 < p < 1? 9.3 Sean X y Y variables aleatorias conjuntamente distribuidas con varianzas finitas y coeficiente de correlación r. Si r = 1, entonces hay constantes a y b para las cuales Pr (Y = aX + b) = 1. Mostrar esto y encontrar las constantes a y b. Sugerencia: Encontrar a y b para las cuales X aY b tenga varianza cero. 9.4 Mostrar que si X es una variable aleatoria la cual es igual a >0 con probabilidad p y es igual a 0 con probabilidad q = 1 p, entonces la desigualdad de Markov es, de hecho, una igualdad. Mostrar que si X es igual cada una con probabilidad p < ½ y X = 0 con probabilidad 1 2p, entonces la desigualdad de Chebyshev es una igualdad. 9.5 Sean X1,, Xn independientes con media , varianza 2, y cuarto momento central finito = E[(X1 )4]. Mostrar que E[(X1 )4] 34/n2 + /n3. TEOREMAS LÍMITES 9.6 Sean X1,, Xn como en el Problema 9.5. Mostrar que n 1 309 Pr X n para cualquier > 0. 9.7 Sean X1,, Xn variables aleatorias independientes con función de distribución común F. Mostrar que si hay un número b para el cual F(b) = 1 y F(a) < 1 para cualquier a < b, entonces máx (X1,, Xn) b en probabilidad cuando n . 9.8 Sean Xn y Yn variables aleatorias conjuntamente distribuidas. Mostrar que si Xn X y Yn Y en probabilidad cuando n , entonces Xn + Yn X + Y en probabilidad cuando n . 9.9 Si Xn y Yn son variables aleatorias conjuntamente distribuidas para las cuales Xn X y Yn Y en probabilidad cuando n , mostrar que XnYn XY en probabilidad cuando n . 9.10 Sean X1,, Xn variables independientes con media finita y varianza 2. Mostrar que S n2 1 X i X n 2 n en probabilidad cuando n . Sugerencia: Use el Problema 9.8. 9.11 Sean X1,, Xn variables aleatorias independientes no negativas idénticamente distribuidas con esperanza finita. Mostrar que X n en probabilidad en el sentido que Pr ( X n a) 1 cuando n para cualquier constante finita a. 9.12 Sea g una función continua sobre R. Mostrar que si X n X en probabilidad, entonces g(Xn) g(X) en probabilidad. Sugerencia: Dados , ´> 0, seleccionar r tal que Pr (X r 1) ´/2; entonces puesto que g es uniformemente continua sobre [r,r], hay una , 0 < < 1, tal que x r, y r, y x y implica g(x) g(y) . Ahora se sigue que Pr (g(Xn) g(X) ) Pr (Xn X ) + Pr (X r 1), lo cual es a lo más ´/2 + ´/2 = ´ para n suficientemente grande. 9.13 Probar el Teorema 9.3.2. 9.14 Sea g(x) = sen 2x, 0 < x < 1, y sea gn la aproximación polinomial de Bernstein de g. Encontrar una n para la cual g(x) gn(x) 0.05 para toda x, 0 < x < 1. 9.15 Sean X1,, Xn variables aleatorias independientes, y permita que Xk tenga la distribución Poisson con parámetro k , k = 1,, n. Describir el comportamiento de X n cuando n . 9.16 Sea un dado balanceado lanzado 100 veces, y denote X la suma total de puntos. Use el teorema central del límite para estimar la probabilidad que 300 < X < 400. 310 PROBLEMAS 9.17 Repita el Problema 9.1 usando el teorema central del límite en lugar de la desigualdad de Chebyshev. 9.18 Repita el Problema 9.2 usando el teorema central del límite en lugar de la desigualdad de Chebyshev. 9.19 Permita que Xn tenga la distribución Poisson con parámetro = n, y sea Yn = (Xn n)/ n . Mostrar que la función generatriz de momentos de Yn converge a la función generatriz de momentos de la distribución normal estándar. ¿Qué sugiere esto? 9.20 Si X tiene la distribución Poisson con parámetro 100, estimar la probabilidad que 85 X 110. 9.21 Si X tiene la distribución gama con parámetros = 400 y = 1, estimar la probabilidad que 390 X 450. 9.22 Sean X1,, Xn variables aleatorias independientes las cuales están uniformemente distribuidas sobre (0,1), y sea Yn = máx (X1,, Xn). Mostrar que la función de distribución de Zn = n(1 Yn) se aproxima a un límite, y evaluar ese límite. Sea F una función de distribución, y sea b un número real para el cual F(b) = 1 y F(x) < 1 para x < b. Suponer también que hay números positivos c y para los cuales 1 F(x) c(b x) cuando x b. Sean X1,, Xn independientes con función de distribución común F, y sea Gn la función de distribución de an(b Mn), donde Mn = máx (X1,, Xn) y an = n. Encontrar el límite de Gn cuando n . 9.24 Sean X1,, Xn variables aleatorias independientes las cuales tienen la distribución gama con parámetros = k, un entero positivo, y = 1, y sea Mn = máx (X1,, Xn). ¿Cómo deben an y bn ser escogidas para que la función de distribución de Mn* = (Mn bn)/an se aproxime a un límite cuando n . 9.25 Sean X1,, Xn variables aleatorias independientes para las cuales Xk = k, cada una con probabilidad ½, donde > 0, k = 1,, n. Mostrar que la condición LindebergFeller es satisfecha. 9.26 Sea Xk uniformemente distribuida sobre el intervalo (ak,ak), donde ak > 0, k = 1,, n. Suponer también que ak 1, k = 1,, n, n 1. Mostrar que la condición LindebergFeller es satisfecha si y sólo si a12 + + an2 cuando n . 10 10 ESPERANZA Y DISTRIBUCIONES CONDICIONALES 10.1 FUNCIONES MASA Y DENSIDADES CONDICIONALES Sean X y Y variables aleatorias discretas, conjuntamente distribuidas con función masa f, y denoten g y h las funciones masa (marginales) de X y Y, respectivamente. Además, sea D el conjunto de x R para las cuales g(x) = Pr (X = x) > 0. Entonces para x D definimos la función masa condicional de Y dado que X = x por h y x f x , y g x y (1.1a ) Eso es, definimos h(y x) para ser la probabilidad condicional del evento Y = y dado que X = x. Análogamente, si h(y) > 0, definimos la función masa condicional de X dado que Y = y por la fórmula g x y f x , y x h y (1.1b) Observamos que para cualquier x D, la función h( x) define una función masa. En verdad, permitiendo ser a E el conjunto infinito contable o finito para el cual h(y) > 0, encontramos que f(x,y) h(y) = 0 para y E. Más aún, 312 FUNCIONES MASA Y DENSIDADES CONDICIONALES h y x yE g x 1 1 f x , y g x yE g x para x D por la Ecuación (2.3) del Capítulo 6. Más aún, si X y Y son variables aleatorias independientes, entonces f(x,y) = g(x)h(y) para toda x y y, así que h y x h y (1.2) para < y < y x D. En cualquier caso (aun si X y Y no son independientes), tenemos la factorización f x , y h y x g x (1.3) para < y < y x D. Por supuesto, los papeles de X y Y pueden ser intercambiados en la discusión anterior. EJEMPLO 10.1.1 a Sea un dado balanceado rolado n veces, denote X el número de ases que aparecen, y denote Y el número de seises. Entonces x y n x y n 1 1 4 f x , y x , y , n x y 6 6 6 para todos los enteros no negativos x y y para los cuales x + y n (ver Teorema 4.1.2). También, n 1 5 g x x 6 6 x n x para x = 0,,n, por el Teorema 4.1.1. Se sigue que n x 1 4 h y x y 5 5 y n x y y = 0,,n x y x = 0,,n. Así, la distribución condicional de Y dado que X = x es binomial con parámetros n x y 1/5. Podemos interpretar este resultado como sigue: dado que habían x ases, Y tiene la distribución del número de seises en n x lanzamientos de un dado de cinco lados (sin ases). b Sean X y Y variables aleatorias independientes que tienen distribuciones binomiales, digamos ESPERANZA Y DISTRIBUCIONES CONDICIONALES m Pr X x p x q m x x x 0, , m n Pr Y y p y q n y y y 0, , n 313 y sea Z = X + Y. Entonces, la distribución condicional de X, dado que Z = z donde z = 0,,m + n, es hipergeométrica. Indudablemente, tenemos m n z m n z Pr Z z p q z para z = 0,, m + n, así que g x z Pr X x , Z z Pr Z z Pr X x Pr Y z x Pr Z z m x m x n z x n z x m n p q p q x z x x z x m n z m n z m n p q z z n para x = 0,, m y z = 0,, m + n. [Recuerde que 0 si k < 0 ó k > n.] k //// Ahora consideremos el caso absolutamente continuo. Así, permita que X y Y tengan densidad conjunta f, y denoten g y h las densidades marginales de X y Y, respectivamente. Sea D el conjunto de x R para los cuales g(x) > 0. Entonces para x D definimos la densidad condicional de Y dado que X = x por la fórmula h y x f x , y g x y (1.4a ) y análogamente, si h(y) > 0 definimos la densidad condicional de X dado que Y = y por la fórmula g x y f x , y h y x Como en el caso discreto, h(·|x) define una densidad para cada x D, y (1.4b) 314 FUNCIONES MASA Y DENSIDADES CONDICIONALES f x , y h y x g x (1.5) para < y < y x D. Más aún, si X y Y son independientes, entonces f(x,y) = g(x)h(y) define una densidad para X y Y, en cuyo caso h y x h y (1.6) para < y < y x D. Por supuesto, los papeles de X y Y pueden ser intercambiados en la discusión anterior. Hay dos elementos inusuales en el caso absolutamente continuo. Primero, h(y | x) no da ya la probabilidad condicional del evento Y = y dado el evento X = x. Ambos eventos tienen probabilidad cero. Más aún, hay alguna ambigüedad en la definición de h(y | x) y g(x | y), puesto que hay alguna ambigüedad en la selección de f (recuerde que una densidad puede ser cambiada sobre un conjunto finito sin afectar su integral). Realmente debemos referir a h(·| x) y g(·| y) como densidades condicionales con respecto a f, pero la frase nominadora será omitida. EJEMPLO 10.1.2 Permita que (X,Y) tenga la distribución uniforme sobre el círculo unitario. Eso es, permita que X y Y tengan la densidad conjunta f x , y 1 x2 y2 1 y f(x,y) = 0 para otros valores de x y y . Entonces, la densidad marginal de X es g x 2 1 1 x 2 1 x 1 y g(x) = 0 para otros valores de x (ver Ejemplo 6.2.3). Se sigue que para 1 < x < 1, h y x 1 2 1 x 2 1 x2 y 1 x2 Así, la distribución condicional de Y dado X = x es uniforme sobre el intervalo (a,a), donde //// a 1 x2 . EJEMPLO 10.1.3 Sean X y Y variables aleatorias independientes distribuidas exponencialmente con el mismo parámetro > 0. Entonces la distribución condicional de X dado que Z = X + Y = z es uniforme sobre el intervalo (0,z) para z > 0. ESPERANZA Y DISTRIBUCIONES CONDICIONALES 315 Para ver esto debemos primero encontrar una densidad conjunta para X y Z y la densidad marginal de Z. Una densidad conjunta para X y Y es d x , y 2e x y para x > 0 y y > 0, y d(x,y) = 0 para otros valores de x y y por independencia. Así, por el Teorema 7.4.1, una densidad conjunta para X y Z es f(x,z) = d(x, z x), la cual se simplifica a f x , z 2 e z para 0 < x < z y f(x,z) = 0 para otros valores de x y z. La densidad marginal de Z puede ser ahora calculada por una integración directa (fue también encontrada en las Secciones 7.3 y 8.4) como h z 2 ze z para z > 0. Así, g x z 1 z para 0 < x < z, como se aseveró. //// EJEMPLO 10.1.4 Permita que X y Y tengan la distribución normal bivariada estándar con parámetro (coeficiente de correlación) r, 1 < r < 1. Entonces la distribución condicional de Y dado que X = x es normal con media rx y varianza 1 r2. Para ver esto recuerde del Ejemplo 6.2.3 f x , y Cr e 12 Q x , y x y g x 1 12 x 2 e 2 x donde Cr1 2 1 r 2 y x 2 2rxy y 2 Q x , y 1 r2 Podemos escribir Q x , y x 2 z 2 , donde 316 FUNCIONES MASA Y DENSIDADES CONDICIONALES z y rx 1 r2 así que h y x 2 Cr e 12 z 2 1 2 1 r 2 1 y rx 2 exp 2 2 1 r para < x < y < y < , como se aseveró. Por supuesto, los papeles de X y Y pueden ser intercambiados en este ejemplo. //// Retornemos brevemente a las Ecuaciones (1.3) y (1.5). Por ejemplo, (1.5) establece que si X y Y tienen densidad conjunta f, entonces f x , y h y x g x (1.5) < y < y x D, donde g y h denotan la densidad marginal de X y la densidad condicional de Y dado X, respectivamente, y D denota el conjunto de x R para las cuales g(x) > 0. Eso es, podemos determinar una densidad conjunta para X y Y especificando una densidad marginal para X y una densidad condicional para Y dado X. En muchos problemas ésta es la forma más natural para introducir una densidad conjunta . La densidad marginal de Y y la densidad condicional de X dado Y = y pueden ser calculadas de h x D h y x g x dx g x y y h y x g x h y (1.7) (1.8) para x D y h(y) > 0. Las Ecuaciones (1.7) y (1.8) pueden ser consideradas como extensiones del teorema de Bayes para el caso absolutamente continuo, y la discusión general del teorema de Bayes (Sección 3.2) se aplica a (1.7) y (1.8). Las fórmulas correspondientes en el caso discreto, ESPERANZA Y DISTRIBUCIONES CONDICIONALES f x , y h y x g x x D h y h y x g x 317 (1.3) (1.7a ) x D g x y h y x g x (1.8) h y para h(y) > 0 son, de hecho, simplemente restablecimientos del teorema de Bayes. EJEMPLO 10.1.5 Permita que X tenga la distribución uniforme sobre el intervalo (0,1), y condicionalmente, dado X = x, permita que Y tenga la distribución uniforme sobre el intervalo (0,x). Eso es, sea g x 1 y h y x 1 x 0 x 1 0 y x Entonces 11 h y y dx log y x para 0 < y < 1, y g x y 1 log y x para y < x < 1. Es interesante observar que la distribución condicional de X dado Y = y no es uniforme, aun cuando la distribución condicional de Y dado X = x es uniforme. 10.1.1 Distribuciones Mezcladas1 En esta sección extenderemos las nociones de la sección previa al caso de distribuciones mezcladas, por lo cual entendemos distribuciones conjuntas donde una variable es discreta y la otra es absolutamente continua. Así, sean X y Y variables aleatorias conjuntamente distribuidas, y suponer que X es discreta con función masa g y que Y es absolutamente continua con densidad h. Además, denote D el conjunto finito o infinito contable de x R para las cuales g(x) > 0, y sea E un intervalo para el cual h(y) > 0 cuando y E y h(y) = 0 1 1 Esta sección trata un tópico especial y puede ser omitida. 318 FUNCIONES MASA Y DENSIDADES CONDICIONALES cuando y E. Entonces, para cualquier x D y y R, podemos calcular H y x Pr Y y X x Pr Y y , X x Pr X x y llamaremos a H(· | x) la función de distribución condicional de Y dado que X = x. En concordancia, definimos la densidad condicional de Y dado X = x para ser la derivada h y x d H y x dy para < y < y x D, siempre que la derivada exista. Además, definimos la función masa condicional de X dado Y = y por medio de una variación sobre el teorema de Bayes. Eso es, definimos 1 g x y h y x g x h y (1.9) para x D y y E. Se sigue fácilmente que h y x g x y h y g x (1.10) para x D y y E. Como en los casos absolutamente continuo y discreto, las relaciones g x E g x y h y dy x D (1.11) h y h y x g x y E (1.12) xD pueden ser obtenidas (ver Problema 10.21). Se sigue fácilmente que h(· | x) es una densidad para cualquier x D y que g(· | y) es una función masa para toda y E. Más aún, si X y Y son independientes, entonces Pr (Y y | X =x) = Pr (Y y) para < y < y x D, así que h y x h y por diferenciación, y 1 2 Es suficiente que la derivada exista en todos excepto un número finito de puntos. y E x D (1.13) ESPERANZA Y DISTRIBUCIONES CONDICIONALES g x y g x x D y E 319 (1.14) por (1.9). EJEMPLO 10.1.6 Sea Z una variable aleatoria absolutamente continua, y suponer que Z tiene una densidad continua f la cual es positiva en todas partes. Calcularemos Pr (Z > 0 | |Z | = y) para y > 0. Sea X la indicadora del evento Z > 0. Eso es, sea X = 1 si Z > 0, y sea X = 0 si Z 0. También, sea Y = |Z |. Entonces, X tiene la función masa g0 F 0 g1 1 F 0 y donde F denota la función de distribución de Z; y Y tiene densidad h y f y f y y0 por el Ejemplo 7.1.3b. Encontremos h(y 0). Ahora, H y 0 Pr Y y X 0 Pr Z y Z 0 Pr y Z 0 F 0 F y Pr Z 0 F 0 para y > 0. Por tanto, f y F 0 y0 f y 1 F 0 y0 h y 0 por diferenciación y análogamente, h y 1 Pr Z 0 Z y Pr X 1 Y y g1 y puede ser ahora encontrada de la Ecuación (1.9). Sin duda, tenemos g1 y h y 1r1 h y f y f y f y para y > 0. En particular, g(1 y) = ½ para toda y > 0 si f es simétrica, eso es, f(x) = f(x) para 320 FUNCIONES MASA Y DENSIDADES CONDICIONALES toda x. //// Algunas veces es natural describir una distribución mezclada conjunta especificando la distribución incondicional de una variable y la distribución condicional de la otra. En tales casos muchas probabilidades y probabilidades condicionales interesantes pueden ser calculadas directamente de (1.9) a (1.12). Ilustraremos este procedimiento con algunos ejemplos. EJEMPLO 10.1.7 a Sea Y un punto seleccionado del intervalo unitario de acuerdo a la distribución uniforme, y entonces permita que una moneda con probabilidad Y de ocurrir en águila sea lanzada hasta que un águila aparezca. Denote X el número de lanzamientos requeridos para obtener un águila. Entonces parece más natural describir una distribución conjunta para X y Y especificando primero la densidad marginal de Y y entonces la función masa condicional de X dado Y = y. De hecho, estamos dando que Y tiene la distribución uniforme, así que h y 1 0 y 1 Más aún, dado Y = y, X es simplemente el número de lanzamientos requeridos para obtener un águila, así que X debe tener la distribución geométrica con parámetro y. Eso es, g x y y1 y x 1 para x = 1, 2, y 0 < y < 1. La función masa incondicional de X ahora puede ser calculada de (1.11) para ser g x 0 y1 y dy 0 1 uu x 1du 1 x 1 1 1 x x 1 para x = 1, 2,. (Aquí hicimos el cambio de variable u = 1 y.) La densidad condicional de Y dado que X = x ahora puede ser calculada de (1.10) para ser h y x g x y h y g x x x 1 y1 y x 1 para 0 < y < 1 y x = 1, 2,. b Ahora permita que Y tenga la distribución beta con parámetros > 0 y > 0, y sea X el número de águilas en n lanzamientos independientes de una moneda que tiene probabilidad Y de ocurrir en águila sobre cada lanzamiento. En este caso estamos dando que Y tiene densidad ESPERANZA Y DISTRIBUCIONES CONDICIONALES h y 321 1 1 y 1 y para 0 < y < 1, y que X tiene función masa condicional n x n g x y y y x 1 y para x = 0,, n y 0 < y < 1. Haciendo x y x , se sigue que 1 n ' 1 g x 0 y ' 1 1 y dy x n ' ' x ' ' para x = 0,, n y que h y x ' ' ' 1 ' 1 y 1 y ' ' para 0 < y < 1 y x = 0,, n. Así, la distribución condicional de Y dado X = x es de nuevo beta , pero con nuevos parámetros, x y n x . //// 10.2 PROBABILIDAD CONDICIONAL Si X y Y son variables aleatorias discretas, si x es un número real para el cual g(x) = Pr (X = x) > 0, y si B es un subconjunto infinito contable o finito de R, entonces por el Teorema 3.1.1, tenemos Pr Y B X x Pr Y y X x h y x yB (2.1) yB donde h(· x) denota la función masa condicional de Y dado X = x. Sin embargo, si X y Y son absolutamente continuas (conjuntamente), entonces la probabilidad condicional de que Y B dado que X = x no está definida porque el último evento tiene probabilidad cero. Ahora definiremos la notación Pr (Y B | X = x) en el caso absolutamente continuo por una fórmula análoga a (2.1). Sean X y Y conjuntamente absolutamente continuas , denote g la 322 PROBABILIDAD CONDICIONAL densidad marginal de X, y denote h(· x) la densidad condicional de Y dado que X = x. Si B es un subconjunto de R y g(x) > 0, entonces definimos Pr Y B X x B h y x dy (2.2) provisto que la integral sobre el lado derecho de (2.2) existe. Podemos también definir la notación Pr (Y B | X = x) en el caso que X y Y tengan una distribución mezclada. De hecho, si X es absolutamente continua y Y es discreta, definimos Pr (Y B | X = x) por (2.1); y si X es discreta y Y es absolutamente continua, definimos Pr (Y B | X = x) por la Ecuación (2.2). La única diferencia es que la densidad o función masa condicional es calculada como en la Sección 10.1.1. En cualquiera de los cuatro casos, nosotros definimos la función de distribución condicional de Y dado X = x por la siguiente fórmula1 H y x Pr Y y X x (2.3) para < y < provisto que g(x) > 0. Por supuesto, los papeles de X y Y pueden ser intercambiados en la discusión anterior para producir la definición de Pr (X B | Y = y). Consideremos ahora algunos ejemplos. EJEMPLO 10.2.1 a Permita que X y Y tengan la distribución uniforme sobre el círculo unitario en R2, como en el Ejemplo 10.1.2. Entonces, para 1 < x < 1, la distribución condicional de Y dado X = x es uniforme sobre el intervalo (a,a), donde a 1 x 2 , de manera que tenemos Pr Y 0 X x 1 a dy 2a 0 1 2 para 1 < x < 1. b Permita que X y Y tengan distribución normal estándar bivariada con coeficiente de correlación r, 1 < r < 1. Entonces, por el Ejemplo 10.1.4, la distribución condicional de Y dado que X = x es normal con media rx y varianza 1 r 2 . Por tanto, se obtiene que 1 3 Que esta definición de H es consistente con la dada en la Sección 10.1.1 se sigue de (1.9) y (1.10). 323 ESPERANZA Y DISTRIBUCIONES CONDICIONALES y rx Pr Y y X x 1 r2 donde denota la función de distribución normal estándar. //// Ahora desarrollaremos algunas propiedades generales de probabilidad condicional. Por simplicidad, los resultados serán establecidos y probados únicamente para variables absolutamente continuas conjuntamente. Los resultados análogos para variables discretas y mezcladas pueden ser obtenidos intercambiando las palabras “densidad” y “función masa” y los símbolos y en los lugares apropiados tanto en los enunciados como en las pruebas de los Teoremas 10.2.1 a 10.2.3. El Teorema 10.2.4 es interesante solamente en el caso de variables mezcladas y absolutamente continuas. El primer elemento del negocio es mostrar que la probabilidad condicional obedece los axiomas de probabilidad. Teorema 10.2.1 Sean X y Y absolutamente continuas conjuntamente y denote g la densidad marginal de X. Si g(x) > 0, entonces 0 Pr (Y B | X = x) 1 para todos los intervalos B R, y Pr Y A B X x Pr Y A X x Pr Y B X x siempre que A y B sean intervalos disjuntos. El teorema es una consecuencia obvia de la definición (2.2). El tercer axioma de probabilidad es también verdadero en el caso discreto (ver Teorema 3.1.1). Teorema 10.2.2 Sean X y Y variables aleatorias independientes absolutamente continuas, y denote g la densidad marginal de X. Si g(x) > 0, entonces Pr Y B X x Pr Y B para todos los intervalos B R. PRUEBA De hecho, si X y Y son independientes, y g(x) > 0, entonces h(y x) = h(y) para toda y por la Ecuación (1.6), donde h(· x) y h denota la densidad condicional de Y dado que X = x y la densidad marginal de Y, respectivamente. Por tanto, Pr Y B X x B h y x dy B h y dy Pr Y B para todo B, como se aseveró. (2.4) //// 324 PROBABILIDAD CONDICIONAL Como en la Sección 3.2, podemos usar probabilidades condicionales como herramientas en el cálculo de probabilidades incondicionales. Teorema 10.2.3 Sean X y Y conjuntamente absolutamente continuas; denote g la densidad marginal de X; y denote D el conjunto de x R para los cuales g(x) > 0. Si B es una subregión de R2, entonces Pr X ,Y B D Pr Y Bx X x g x dx donde para cada x D , Bx denota el conjunto de y R para los cuales x , y B. PRUEBA Claramente, Pr X D 1, así que Pr X ,Y B Pr X ,Y B, X D Más aún (ver Sección 6.4), x dy g x dx Pr X ,Y B , X D D B f x , y dy dx x D Bx h y D Pr Y Bx X x g x dx como se aseveró. //// El Teorema 10.2.3 tiene algunos corolarios interesantes. Corolario 10.2.1 Si A y B son intervalos, entonces Pr X A,Y B AD Pr Y B X x g x dx (2.5) Pr Y B D Pr Y B X x g x dx (2.6) En particular, PRUEBA Puesto que (2.6) se sigue de (2.5) tomando A = D, será suficiente probar (2.5). Ahora Pr X A,Y B Pr X ,Y A B , donde A B denota el producto cartesiano de A y B. Más aún, (A B)x = B si x A y (A B)x = si x A. Así (2.5) se sigue directamente del Teorema 10.2.3. //// Si Pr Y B X x Pr Y B para toda x D y cualquier intervalo B, entonces X y Y son independientes. Corolario 10.2.2 ESPERANZA Y DISTRIBUCIONES CONDICIONALES PRUEBA 325 Por el Corolario 10.2.1 Pr X A,Y B AD Pr Y B X x g x dx Pr Y B AD g x dx Pr X AD Pr Y B Pr X A Pr Y B para todos los intervalos A y B. Por tanto X y Y son independientes. //// El Ejemplo 10.2.1a muestra que es posible tener Pr Y B X x Pr Y B para toda x D para un B particular, aun si X y Y son dependientes. EJEMPLO 10.2.2 Como una aplicación de los Teoremas 10.2.2 y 10.2.3, rederivaremos la fórmula de convolución de la Sección 7.3. Sean X y Y variables aleatorias independientes con densidades g y h, respectivamente. Primero calcularemos la probabilidad de que Z X Y z para un arbitrario valor de z. Denote B el conjunto de (x,y) para los cuales x y z . Entonces Bx es simplemente el intervalo (, z x], y Pr (Y Bx | X = x) = Pr (Y Bx) = H(z x) por el Teorema 10.2.2. Aquí H denota la función de distribución de Y. Por tanto, por el Teorema 10.2.3, tenemos Pr Z z Pr X ,Y B D H z x g x dx donde D denota el conjunto de x R para las cuales g(x) > 0. Diferenciación ahora muestra que Z tiene densidad f z D h z x g x dx para z . En el caso absolutamente continuo, donde Pr (X = x) = 0, es natural esperar Pr (Y B | X = x) para ser el límite cuando 0 de Pr (Y B | |X x| ) = Pr (Y B, |X x| )/ Pr (|X x| ). Ahora mostraremos que esto es de hecho el caso bajo algunas modestas condiciones de regularidad. Teorema 10.2.4 Sean X y Y variables aleatorias absolutamente continuas conjuntamente, denote g la densidad marginal de X, y denote D el conjunto de x R para las cuales g(x) >0. Además, sea B R y defina la función w sobre D por w x Pr Y B X x x D 326 PROBABILIDAD CONDICIONAL Si a D, y si ambas w y g son continuas en a, entonces wa lim Pr Y B X a cuando 0. PRUEBA Puesto que g en a y g(a) > 0, tenemos (a , a + ) D para > 0 suficientemente pequeña. Más aún, para tal , tenemos Pr Y B, X a a w x g x dx a por el Teorema 10.2.3. También, Pr X a a g x dx a por la definición de una densidad. Ahora, por el teorema fundamental del cálculo, lim o 1 a g x dx ga 2 a así que Pr (|X a| )/2 g(a) cuando 0. Análogamente, Pr (Y B, |X a| )/2 w(a) g(a) cuando 0, de nuevo por el teorema fundamental del cálculo. Por tanto, Pr Y B X a w a ga w a g a cuando 0. //// El Teorema 10.2.4 es también válido si una variable es absolutamente continua y la otra es discreta. Ilustramos con un ejemplo. EJEMPLO 10.2.3 Reconsideremos el Ejemplo 10.1.6. Así, sea Z una variable aleatoria absolutamente continua con densidad continua f positiva en todas partes; sea Y = |Z |; y sea X la indicadora del evento Z > 0 (eso es, X = 1 si Z > 0 y X = 0 si Z 0). Calculemos Pr (X = 1 | Y =y) por el Teorema 10.2.4. Para a > 0 y a/2, tenemos Pr X 1, Y a Pr Z a a f z dz a así que Pr (X =1, |Y a| )/2 f(a) cuando 0. También, ESPERANZA Y DISTRIBUCIONES CONDICIONALES 327 Pr Y a Pr Z a Pr Z a así que Pr (|Y a| )/2 f(a) + f(a). Por tanto, Pr X 1 Y a Pr X 1, Y a Pr Y a f a f a f a //// 10.3 ESPERANZA CONDICIONAL Sean X y Y variables aleatorias conjuntamente distribuidas, y sea Z una variable aleatoria que está determinada como una función de X y Y, digamos Z w X ,Y Definiremos la esperanza condicional de Z dado X = x. Suponer primero que X y Y son discretas con la función masa conjunta f, y denoten g y h las funciones masa marginales de X y Y, respectivamente. Además, denoten D y E el conjunto de x R para las cuales g(x) > 0 y el conjunto de y R para las cuales h(y) > 0. Para x D definimos la esperanza condicional de Z dado X = x para ser E Z X x w x , y h y x (3.1) yE provisto que la suma converge absolutamente. Aquí h(· x) denota la función masa condicional de Y dado X = x. Análogamente, si X y Y son conjuntamente absolutamente continua, si g denota la densidad condicional de X, y si D denota el conjunto de x R para las cuales g(x) > 0, entonces definamos la esperanza condicional de Z dado X = x para x D por E Z X x w x , y h y x dy (3.2) provisto que la integral converge absolutamente. Aquí h(· x) denota la densidad condicional de Y dado X = x. Si X y Y tienen una distribución mezclada, entonces nosotros podemos también definir la esperanza condicional de Z dado X = x por una versión apropiada de (3.1) o (3.2). De hecho, si X es absolutamente continua y Y es discreta, entonces definimos E(Z | X = x) por (3.1); y si 328 ESPERANZA CONDICIONAL X es discreta y Y absolutamente continua, entonces definimos E(Z | X = x) por (3.2). Los cuatro casos pueden ser sintetizados bajo una ecuación escribiendo E Z X x w x , y dH y x (3.3) donde H(· | x) denota la función de distribución condicional de Y dado X = x. Las condiciones bajo las cuales E(Z | X = x) está definida pueden también ser establecidas sucintamente como sigue: H(· x) debe estar definida, y la integral que aparece en (3.3) debe converger absolutamente. Un caso especial importante ocurre cuando tomamos Z = Y. Así, EY X x ydH y x (3.4) sujeta a las condiciones arriba establecidas. EJEMPLO 10.3.1 a Permita que X y Y tengan la distribución normal bivariada estándar con coeficiente de correlación r, 1 < r < 1. Entonces, por el Ejemplo 10.1.4, la distribución condicional de Y dado X = x es normal con media rx y varianza 1 r2. Por tanto, E(Y | X = x) = rx. b Análogamente, si X y Y denotan el número de ases y seises en n lanzamientos de un dado balanceado, entonces la distribución condicional de Y dado X = x es binomial con parámetros 1/5 y n x, x = 0,, n (ver Ejemplo 10.1.1a). Por tanto, E(Y | X = x) = (n x)/5, puesto que la media de una distribución binomial con parámetros n y p es np. c Permita que Y tenga la distribución uniforme sobre (0,1); sea una moneda con probabilidad Y de ocurrir en águila lanzada hasta que un águila aparezca; y denote X el número de lanzamientos requeridos, como en el Ejemplo 10.1.7a. Entonces, por el Ejemplo 10.1.7a, h y x x x 1 y1 y x 1 para 0 < y < 1 y x = 1, 2,. Por tanto, EY X x x x 1 0 y 2 1 y dy 1 x 1 que se reduce a 2/(x + 2) después de algunas manipulaciones. d Sea B una región de R2 y sea Z = IB(X,Y). Así, Z = 1 si (X,Y) B y Z = 0 si (X,Y) ESPERANZA Y DISTRIBUCIONES CONDICIONALES 329 B. Además, denote Bx el conjunto de y R para las cuales (x,y) B. Entonces IB(x,y) = 1 si y Bx y 0 si y Bx, así que E Z X x I B x , y dH y x B 1dH y x Pr Y Bx X x x para toda x para la cual H(· x) este definida. //// Como la esperanza ordinaria (incondicional), la esperanza condicional disfruta de varias propiedades útiles e interesantes, que ahora desarrollaremos. Las primeras dos son linealidad y monotonicidad. Teorema 10.3.1 Sean X y Y conjuntamente distribuidas; sean Z1= w1(X,Y) y Z2 = w2(X,Y); y sean 1 y 2 números reales. Si E(Z1 | X = x) y E(Z2 | X = x) están ambas definidas, entonces E 1Z1 2 Z2 X x 1 E Z1 X x 2 E Z2 X x Más aún, si w1(x,y) w2(x,y) para toda y R, entonces E(Z1 | X = x) E(Z2 | X = x). En particular, |E(Z1 | X = x)| E(|Z1| | X = x). PRUEBA Las propiedades enunciadas para la esperanza condicional son propiedades bien conocidas de las operaciones suma e integración que definen la esperanza condicional (compare con el Teorema 8.2.2). //// Nuestro siguiente teorema es también anticipado. Teorema 10.3.2 Sean X y Y independientes, y sea Z = v(Y), donde v es una función sobre R. Si E(|Z|) < , entonces E Z X x E Z para toda x para la cual la esperanza condicional este definida. La prueba es dejada como un ejercicio. Nuestro siguiente teorema asegura que dado X = x, las funciones de X actúan como escalares en esperanzas condicionales. Teorema 10.3.3 Sean X y Y conjuntamente distribuidas, y sea Z = u(X)w(X,Y), donde 330 ESPERANZA CONDICIONAL u y w son funciones sobre R y R2, respectivamente. Si E[w(X,Y) | X = x] está definida, entonces así lo está E(Z | X = x) y E Z X x u x E w X ,Y X x PRUEBA caso Nosotros daremos la prueba en el caso absolutamente continuo. En este E Z X x u x w x , y h y x dy u x w x , y h y x dy u x E w X ,Y X x como se aseveró. //// Nuestro siguiente teorema y su corolario son los resultados más importantes de esta sección. Teorema 10.3.4 Sean X y Y variables aleatorias conjuntamente distribuidas, y sea D un subconjunto de R para el cual Pr (X D) = 1. También, sea Z = w(X,Y) una variable aleatoria para la cual E(Z | X = x) está definida para cualquier x D. Si E(Z) es finita, entonces E Z D E Z X x dG x (3.5) donde G denota la función de distribución de X, provisto que la integral en (3.5) converge absolutamente. PRUEBA Probaremos el teorema únicamente en el caso discreto, aunque es verdadero en la generalidad establecida. Denote f la función masa conjunta de X y Y y denote g la función masa marginal de X, y sea D el conjunto de x R para las cuales g(x) > 0. Además sea E cualquier conjunto infinito contable o infinito para el cual Pr (Y E) = 1. Entonces E Z w x , y f x , y x , y D E x , y D E w x , y h y x g x [ w x , y h y x ]g x x D y E E Z X x g x D E Z X x dG x x D como se aseveró. //// ESPERANZA Y DISTRIBUCIONES CONDICIONALES 331 Combinando los Teoremas 10.3.3 y 10.3.4 se produce el siguiente corolario. Corolario 10.3.1 Sea Z como en el Teorema 10.3.4, y sea U = u(X), donde u es una función sobre R. Entonces EUZ D u x E Z X x dG x provisto que la integral converge absolutamente. PRUEBA Simplemente observe que E(UZ | X = x) = u(x)E(Z | X = x), x D, y aplique el Teorema 10.3.4 a la variable aleatoria UZ. //// El Teorema 10.3.4 es establecido más naturalmente en una notación ligeramente diferente. Sean X, Y y Z como en el enunciado del Teorema 10.3.4, y para cada x D, sea (x) = E(Z | X = x). Entonces, es una función bien definida sobre D, así que (X) es una variable aleatoria. Denotaremos esta variable aleatoria por E(Z | X). Así, E Z X X (3.6) donde (x) = E(Z | X = x) para cada x D. El resultado del Teorema 10.3.4 ahora puede ser establecido E Z E E Z X (3.5' ) porque el lado derecho de (3.5) es simplemente la esperanza de la variable aleatoria (X) = E(Z | X). EJEMPLO 10.3.2 a Permita que X tenga la distribución uniforme sobre (0,1), y condicionalmente dado X = x, permita que Y tenga la distribución uniforme sobre (0,x), 0 < x < 1, como en el Ejemplo 10.1.5. Entonces, h(y x) = 1/x, 0 < y < x < 1, así que EY X x 1 x ydy 12 x 0 x 332 ESPERANZA CONDICIONAL 0 < x < 1. Eso es, E(Y | X) = 1 2 X. Puesto que E(X) = 1 2 , ahora se sigue que EY E EY X E 12 X 1 4 b Permita que Y tenga la distribución beta con parámetros > 0 y > 0, y condicionalmente dado Y = y, permita que X tenga la distribución binomial con parámetros n y y, 0 < y < 1. Entonces, E(X | Y = y) = ny, 0 < y < 1, y E(Y) = /( + ) por el Ejemplo 8.4.1a. Por tanto, E(X) = E[E(X | Y)] = nE(Y) = n/( + ). //// Denominaremos a la función de la Ecuación (3.6) la media condicional de Z dado X y la función 2 definida por 2 x E{[Z x ]2 X x} para x D la varianza condicional de Z dado X = x, provisto, por supuesto, que es finita para toda x D. Entonces es fácilmente verificado que 2 x E Z 2 X x x 2 (3.7) para x D. Nuestro corolario final relaciona a la varianza incondicional de Z a su media y varianza condicionales. En esto, hemos denotado a la variable aleatoria 2(X) por D(Z | X). Corolario 10.3.2 Permita que Z tenga varianza finita, y sean la media y varianza condicionales de Z bien definidas. Entonces D Z E D Z X D E Z X En palabras, la varianza de Z es la esperanza de su varianza condicional más la varianza de su esperanza condicional PRUEBA Podemos suponer que E(Z) = 0, en cuyo caso D(Z) = E(Z2) = E[E(Z2 | X)]. Más aún, por (3.7) E(Z2 | X) = 2(X) + (X)2, así que E Z 2 E 2 X E X 2 (3.8) Finalmente, E[(X)] = E(Z) = 0, por el Teorema 10.3.4, así que E[(X)2] = D[(X)]. El teorema se sigue. //// ESPERANZA Y DISTRIBUCIONES CONDICIONALES 333 10.4 DIMENSIONES MAYORES1 Las nociones de las tres secciones precedentes se extienden fácilmente del caso de dos variables aleatorias al caso de varias. De hecho, las definiciones y teoremas de las Secciones 10.1 a 10.3 permanecen válidos cuando X o Y, o ambas, son vectores aleatorios, provisto que una concesión propia es hecha para la dimensión del dominio de las densidades marginales y condicionales y funciones masa que aparecen en las Secciones 10.1 a 10.3. Describiremos estas extensiones únicamente en el caso absolutamente continuo. El caso discreto es análogo y generalmente más simple, y el mezclado es también análogo. Sean X1,... Xm y Y1,... Yn variables aleatorias distribuidas conjuntamente. Además, sea f una densidad conjunta para el vector aleatorio (X1,... Xm Y1,... Yn), y denoten g y h las densidades marginales de los vectores X = (X1,... Xm) y Y = (Y1,... Yn), respectivamente. Finalmente, denote D el conjunto de x = (x1,... xm) Rm para los cuales g(x) > 0. Para x D, definimos la densidad condicional de Y dado que X = x por h y x f x , y g x y Rn (4.1) Más aún, si B es una región de Rn, y si x D, entonces definimos la probabilidad condicional de que Y B dado que X = x por Pr Y B X x B h y x dy (4.2) Y finalmente, si Z = w(X,Y) es una variable aleatoria que está determinada como una función de X y Y, entonces nosotros definimos la esperanza condicional de Z dado que X = x para x D por E Z X x Rn w x , y h y x dy (4.3) provisto que la integral (ndimensional) que aparece en (4.3) converge absolutamente. Alternativamente, la esperanza condicional de Z dado que X = x puede ser calculada de la fórmula E Z X x zdK z x (4.4) donde K(· | x) denta la función de distribución condicional de Z dado X = x . Eso es, K(z | x) = Pr (Z z | X = x) para z R y x D. La equivalencia de (4.3) y (4.4) puede ser establecida aplicando el Teorema 8.2.1 a la distribución condicional de Y dado X = x y la función Z = 1 4 Esta sección trata un tópico especial y puede ser omitido sin pérdida de continuidad. 334 DIMENSIONES MAYORES w(x,Y) para cada x D. Ahora es fácilmente verificado que los Teoremas 10.2.1 a 10.2.4 y 10.3.1 a 10.3.4 y sus corolarios permanecen válidos con las definiciones extendidas de esperanza y probabilidad condicional, provisto sólo que una concesión propia es hecha para las dimensiones de los dominios de las densidades condicionales y funciones masa que aparecen en ellos. Ambos, los enunciados y las pruebas, de estos resultados en el caso de dimensiones mayores son tan semejantes a aquellos del caso de dos dimensiones que ellos no necesitan ser reproducidos aquí. El teorema de Bayes es también válido para densidades condicionales multivariadas. Eso es, en la notación de (4.1) a (4.4), h y D h y x g x dx (4.5) y g x y h y x g x h y (4.6) si h(y) > 0. EJEMPLO 10.4.1 a Permita que X1,,Xm y Y1,,Yn tengan la distribución multinomial, digamos f x1 ,..., x m , y1 ,..., y n N x1 x y y p1 pmm q1 1 qn n x1 , , x m , y1 , , y n para enteros no negativos x1,,yn con x1 + ··· + yn = N. Aquí p1,,pm,q1,,qn son no negativos, y p1 + ··· + pm + q1 + ···+ qn = 1. Suponer también que q1 + ··· + qn > 0. Por el Problema 6.25 la función masa marginal de X1,... Xm es N x1 x k g x1 , , x n p1 pmm r x1 , , x m , k para x1 + ··· + xm N, donde k = N x1 ··· xm y r = q1 + ··· + qn. La función masa condicional de Y1,,Yn dado X1,,Xm es h y1 , , y n x1 , , x m f x1 , , x m , y1 , , y n g x1 , , x m ESPERANZA Y DISTRIBUCIONES CONDICIONALES 335 que se simplifica a k q1 y1 qn yn r y1 , , y n r Así, la distribución condicional de Y1,,Yn es multinomial con parámetros nuevos k N x1 x m qi y qi r para i = 1,, n. b Análogamente, si X1,,Xm y Y1,,Yn tienen la distribución hipergeométrica multinomial, digamos s1 sm r1 r1 x x m y1 y1 f x1 , , x m , y1 , , y n 1 s1 sm r1 rn k para enteros no negativos x1,, xm, y1,,yn con x1 + ··· + yn = k, entonces r1 rn y yn h y1 , , y n x1 , , x m 1 r1 rn k donde //// k = k x1 ··· xm. Un nuevo fenómeno en dimensiones mayores es la noción de independencia condicional. Así, sean X = (X1,,Xm) y Y = (Y1,,Yn) conjuntamente distribuidos, vectores aleatorios absolutamente continuos conjuntamente con densidades g y h, respectivamente. Además, sea D el conjunto de x Rn para las cuales g(x) > 0, y para x D denoten h(· | x) h1(· | x),,hn(· | x) las densidades condicionales de Y y Y1,,Yn dado X = x. Si h y1 , , y n x hi yi x n i 1 para toda y = (y1,,yn) Rn y toda x D, entonces diremos que Y1,,Yn son independientes condicionalmente dado X. En este caso, la densidad marginal de Y será 336 DIMENSIONES MAYORES h y1 ,, y n D hi yi x g x dx n i 1 así que Y1,,Yn no necesitan ser independientes incondicionalmente. La noción de independencia condicional nos conduce, de hecho, a una nueva clase de modelos. EJEMPLO 10.4.2 Permita que X tenga la distribución exponencial con parámetro = 1, y condicionalmente dado X = x > 0, sean Y1,,Yn variables aleatorias independientes, distribuidas exponencialmente con parámetro = x (en este caso m = 1). Eso es, sea g x e x x0 h y1 ,, yn x x n e x y1 yn y para yi > 0, i = 1,, n. La densidad marginal de Y = (Y1,,Yn) es entonces h y1 , , y n 0 x n e x y1 yn e x dx 0 x n e x 1 y1 yn dx n! 1 y1 yn n1 para yi > 0, i = 1,, n. [La igualdad final se sigue del cambio de variables x = x(1 + y1 + + yn) y la definición de la función gama.] Haciendo z = y1 + + yn, ahora se sigue de (4.6) que la densidad condicional de X dado Y = y = (y1,,yn) es g x y n 1 1 z x n e 1 z x n! para x > 0 y yi > 0, i = 1,, n. Eso es, la distribución condicional de X dado Y = y es gama con parámetros = n + 1 y = 1 + z. Por tanto, E X Y y n 1 1 z //// Ahora consideraremos una extensión del Teorema 10.3.4. Sea X, Y y Z vectores aleatorios absolutamente continuos conjuntamente, y denoten f, h, y g la densidad conjunta de X, Y, y Z, la densidad marginal de X dado Y, y la densidad marginal de X, respectivamente. Además, sea ESPERANZA Y DISTRIBUCIONES CONDICIONALES 337 W w X ,Y , Z una variable aleatoria que está determinada como una función de X, Y, y Z, y suponer que las esperanzas condicionales x EW X x v x , y E W X x ,Y y existen siempre que g(x) > 0 y h(x,y) > 0. Como en la sección previa, denotaremos a las variables aleatorias (X) y v(X,Y) por E(W | X) y E(W | X,Y), respectivamente, así que el Teorema 10.3.4 (como extendido a dimensiones mayores) asegura que EW E EW X E EW X ,Y Teorema 10.4.1 tenemos (4.7) Con las notaciones y suposiciones del párrafo previo, nosotros E EW X ,Y X x EW X x siempre que g(x) > 0. Eso es, E[E(W | X,Y) | X] = E(W | X). PRUEBA Denote k(· | x,y) y l(·,· | x) la densidad condicional de Z dado X = x y Y =y y la densidad condicional de Y y Z dado X = x, respectivamente. Entonces k z x , y f x , y , z f x , y , z g x l y , z x h x , y h x , y g x h y x siempre que g(x) > 0 y h(x,y) > 0. Por tanto, v x , y w x , y , z k z x , y dz 1 w x , y , z l y , z x dz h y x si h(y | x) > 0. Más aún, E EW X ,Y X x E v X ,Y X x v x , y h y x dy 338 TEORÍA DE DECISIÓN donde la integral se extiende sobre las y para las cuales h(y x) > 0. Combinando estas expresiones, encontramos E E W X ,Y X x w x , y , z l y , z x dydz EW X x como se aseguró. //// 10.5 TEORÍA DE DECISIÓN1 En esta sección consideraremos un modelo matemático para el problema de tomar decisiones frente a condiciones de incertidumbre. El desarrollo de este modelo descansa fuertemente sobre las nociones de las cuatro secciones precedentes y puede ser considerado como una aplicación de ellos. Por supuesto, estaremos posibilitados sólo a esbozar la superficie de esta rica área, y referimos a los lectores interesados a las referencias al final del este capítulo. Nuestro modelo involucra los siguientes elementos. Primero, supondremos que el estado de la naturaleza es desconocido para nosotros pero que hay un conjunto conocido D de posibles estados de la naturaleza. Consideraremos aquí sólo el caso donde D es un intervalo de números reales, ya que la teoría puede ser extendida al caso donde D es una región de espacios euclidianos de mayores dimensiones. Denotaremos a los elementos de D, eso es, los estados posibles de la naturaleza, por x. También, suponemos que estamos obligados a tomar una de un conjunto específico de acciones A y que si tomamos la acción a A cuando el estado de la naturaleza es de hecho x D, entonces incurrimos en una pérdida L(a,x), donde L es una función continua2 sobre el producto cartesiano A D. Finalmente, suponemos que antes de tomar cualquier acción se nos permite realizar un experimento para aprender acerca del estado desconocido de la naturaleza. El resultado de este experimento se supone que es un vector o variable aleatoria Y cuya distribución depende del estado desconocido de la naturaleza x. La pregunta que deseamos responder es la siguiente: ¿Si nosotros observamos Y = y, cuál acción debemos tomar? Para responder esta pregunta, especificaremos una densidad g que representa nuestra opinión a priori acerca del estado de la naturaleza antes del experimento. Eso es, consideraremos el estado desconocido de la naturaleza como una variable aleatoria X con densidad g, donde g es seleccionada de modo que Pr X B B g x dx 1 5 Esta sección trata un tópico especial y puede ser omitido sin pérdida de continuidad. 2 6 Si A es finito, esto significa que L(a,x) debe ser continua debe ser continua en x para cada a. ESPERANZA Y DISTRIBUCIONES CONDICIONALES 339 nos de nuestra probabilidad subjetiva de que X pertenece a cualquier subintervalo B D anterior al experimento. Referiremos a g como la densidad a priori, y supondremos que g es positiva sobre D y se desvanece fuera de D. Ahora acordamos tratar a X y Y como variables distribuidas conjuntamente de la siguiente manera. La función masa o densidad condicional de Y dado que X = x, digamos h(· x), es supuesta conocida para cada x D, y la densidad marginal de X es g. La función masa o densidad marginal de Y entonces será h y D h y x g x dx Después de que el experimento es realizado y el valor de Y observado, podemos calcular la densidad condicional de X dado Y. La última densidad entonces describe nuestra nueva opinión acerca de X, el estado de la naturaleza desconocido, después de que el experimento ha sido realizado y a menudo es referida como la densidad a posteriori de X. Por el teorema de Bayes es g x y h y x g x h y para x D y h(y) > 0. Sea E el conjunto de y para las cuales h(y) > 0, así que Pr (Y E) = 1. Definimos una política de decisión para ser una función, digamos , de E dentro de A, el espacio de acciones. Una política de decisión es una regla que nos dice toma la acción (y) cuando observamos el resultado Y = y. En este caso nuestra pérdida esperada es R E L Y , X donde la esperanza es tomada con respecto a la distribución conjunta de X y Y. Por supuesto, debemos suponer que la política es suficientemente regular para que la esperanza definiendo a R( ) exista. Llamaremos a tales políticas políticas regulares, y consideraremos sólo políticas regulares. Una política regular 0 será denominada óptima si minimiza la pérdida esperada. Eso es, 0 es óptima si y sólo si R 0 R para cualquier otra política regular . La cuestión obvia entonces es: ¿Cómo podemos determinar una política óptima? La respuesta la provee el siguiente teorema. Teorema 10.5.1 Si la política regular 0 tiene la propiedad E L 0 y , X Y y min E La , X Y y aA (5.1) 340 TEORÍA DE DECISIÓN para cualquier y E, entonces 0 es óptima. Eso es, la política óptima puede ser determinada permitiendo que 0(y) sea esa acción a A que minimiza la pérdida esperada condicional dado Y = y para cada y E. PRUEBA La prueba del teorema es fácil. Indudablemente, si es cualquier política regular, entonces se sigue de (5.1) que E L 0 y , X Y y E L y , X Y y para cualquier y E. Por tanto, por el Teorema 10.3.4, E L y , X R 0 E E L 0 y , X Y y h y dy E Y y h y dy R (5.2) como se aseveró. [Si Y es discreta, la integral en (5.2) debe ser remplazada por una sumatoria, pero el resultado es el mismo.] //// EJEMPLO 10.5.1 Suponer que deseamos determinar la probabilidad de que una moneda caiga en águila. Aquí podemos tomar al estado de la naturaleza para ser la probabilidad en cuestión, en cuyo caso D = (0,1), el intervalo unitario abierto. Más aún, puesto que nos piden suponer el estado de la naturaleza, podemos tomar el espacio de acciones para ser A = D = (0,1). Para la función pérdida L, parece natural tomar La , x c x a 2 (5.3) o posiblemente La , x c x a donde c es una constante positiva. Consideraremos sólo la función pérdida (5.3) en este ejemplo, dejando la otra función pérdida para un problema. Para aprender acerca del estado de la naturaleza desconocido, podemos lanzar la moneda varias veces y contar el número de águilas. Si lanzamos la moneda n veces y denota Y el número de águilas, entonces la distribución condicional de Y dado X = x será binomial con parámetros n y x. Eso es, tendremos n n y h y x x y 1 x y para y = 0,, n y 0 < x <1. Finalmente, debemos especificar la densidad a priori g. Por razones de operatividad ESPERANZA Y DISTRIBUCIONES CONDICIONALES 341 matemática, supondremos que nuestra opinión a priori está adecuadamente representada por una densidad beta, digamos g x 1 1 x 1 x para 0 < x < 1, donde > 0 y > 0. Los parámetros y quizá sean seleccionados para representar nuestra opinión a priori. Por ejemplo, la selección = = 6 puede ser apropiada si tuviéramos una fuerte creencia de que X está cerca de ½, mientras que la selección = = 1 (la distribución uniforme) puede ser apropiada si tuviéramos muy poca opinión a priori acerca de X. Habiendo especificado el problema completamente, ahora lo resolveremos. El primer paso es encontrar la distribución condicional de X dado Y. Por el Ejemplo 10.1.7b, esta es beta con parámetros = + y y = + n y. Eso es, g x y ' ' ' 1 ' 1 x 1 x ' ' para 0 < x < 1 y = 0,... n. Enseguida, nosotros debemos minimizar la pérdida esperada condicional E La , X Y y c 0 x a g x y dx 1 2 con respecto a a. Por el Lema 8.3.1 sabemos que esto es hecho tomando a E X Y y 0 xg x y dx 1 Finalmente, del Ejemplo 8.4.1a, sabemos que la esperanza de la densidad beta es /( + ). Por tanto, la política óptima es 0 y E X Y y y n Observamos que la estimación 0(y) es diferente de la frecuencia real de águilas y/n. El hecho de que la política óptima de decisión fuera hacer 0(y) = E(X | Y = y), y E, en el Ejemplo 10.5.1 dependió únicamente de la función pérdida (5.3) y no de otras especificaciones del problema. //// EJEMPLO 10.5.2 342 TEORÍA DE DECISIÓN Supongamos que deseamos decidir si una cantidad desconocida x es positiva o negativa. Más precisamente, supongamos que todos los valores reales de x son posibles, en cuyo caso D = R, y que se nos pide tomar una de las dos acciones a0 y a1, donde a0 representa la decisión de que x 0 y a1 la decisión de que x > 0. También nosotros supondremos que no hay pérdida por tomar una decisión correcta y que la pérdida por una decisión incorrecta es proporcional a |x|. Eso es, nosotros tomamos nuestra función pérdida para ser si a a0 y x 0 o a a1 y x 0 0 La , x c x de otra manera donde c es una constante positiva. Finalmente, nosotros suponemos que se nos permiten hacer n mediciones sobre x, digamos Y1,,Yn, que están sujetas a error de medición. De hecho, suponemos que dado X = x, Y1,,Yn son independientes y tienen la distribución normal con media x y varianza 2. Finalmente, suponemos que nuestra opinión a priori acerca de X está adecuadamente descrita por una distribución normal con media y varianza 2. Sea L0(a,x) = L(a,x) L(a0,x), a A, x R. Entonces minimizamos E[L( (y),X)] con respecto a si y sólo si minimizamos E L0 Y , X E L Y , X E La0 , X con respecto a , porque la diferencia es independiente de . Ahora L(a0,x) = 0 para toda x R, y L0(a1,x) = cx para todo x R. Por tanto, E L a , X Y y cE X E L0 a0 , X Y y 0 0 1 (5.4a ) Y y (5.4b) para toda y Rn. Por el Teorema 10.5.1, una política óptima es hacer (y) = a1 si y sólo si (5.4b) es menor que (5.4a). Eso es, a1 0 y ao si E X Y y 0 si E X Y y 0 (5.5) [De hecho, cual decisión es admisible si E(X | Y = y) = 0.] Todo lo que queda es encontrar E(X | Y = y), y esto será dejado como un ejercicio (Problema 10.41). La respuesta es ESPERANZA Y DISTRIBUCIONES CONDICIONALES 343 2 nz 2 E X Y y 2 n 2 donde z = y = (y1 + + yn)/n. Como en el problema anterior, el resultado (5.5), la forma general de la política óptima, depende sólo de la función pérdida y no de otras especificaciones del problema. 10.6 PROCESOS RAMIFICADOS1 En esta sección consideramos un modelo para el crecimiento de una población. Suponemos que al principio de la primera generación una población tiene X0 miembros. Durante la primera generación cada uno de estos X0 miembros tiene un número aleatorio de progenie, y al final de la primera generación todos los miembros X0 originales mueren o abandonan la población. Sea Z1i el número de progenie del i-ésimo de los miembros X0 originales. Entonces el número de progenie al final de la primera generación es X0 X1 Z1i (6.1) i 1 En generaciones posteriores este proceso se repite a sí mismo. Si hay Xn-1 miembros en la población al final de la (n 1)-ésima generación, donde n 2, y si la i-ésimo de estos tiene progenie Zni durante la n-ésima generación, entonces el tamaño de la población al final de la n-ésima generación es X n 1 X n Zni (6.2) i 1 Interpretamos Xn como cero si Xn-1 = 0. Si Xn = 0 para alguna n, entonces Xm = 0 para toda m n por (6.2). En este caso diremos que la población se extinguió. Deseamos calcular la probabilidad de que la población se extinga. Para hacer eso, tendremos que hacer algunas suposiciones acerca de la evolución de la población. Supondremos que para cada n, Zn1,,Znk son condicionalmente independientes dado X0 = k0, X1 = k1,, Xn-1 = kn-1. También supondremos que la función masa condicional de Zni no depende de n, i, o k0,,kn-1. Así, f j Pr Zni j X 0 k0 ,, X n1 kn1 es la probabilidad de que un miembro de la población tenga exactamente j progenie para j = 0,1,2,, y esta probabilidad se supone independiente de la generación n, el miembro de la 1 7 Esta sección trata un tópico especial y puede ser omitido sin pérdida de continuidad. 344 PROCESOS RAMIFICADOS población i, y los tamaños de las generaciones previas k0,,kn-1. Supondremos que f(0) > 0, puesto que de otra manera la probabilidad de extinción es trivialmente cero. Es fácil calcular E(Xn). Denote el número esperado de progenie de un sólo individuo. Eso es, sea jf j j 0 Lema 10.6.1 E(Xn) = X0n para n = 1,2,. PRUEBA Por (6.1), tenemos E(X1) = X0. Más aún, por (6.2) y la independencia condicional de las Zni, tenemos E(Xn | X0,,Xn-1) = Xn-1. Por tanto, por el Teorema 10.3.4, tenemos E(Xn) = E(Xn-1) = 2E(Xn-2) = = n-1E(X1) = X0n. //// Una técnica similar puede ser usada para calcular la función generatriz de Xn. Denote Gn la función generatriz de Xn, Gn t E t X n Pr X n j t n j 0 para 1 t 1. También, denote F la función generatriz de las Zni, F t E t Zni f j t j para 1 t 1. Entonces G1(t) = F t Z11,, Z1 X 0 . Más aún, X0 j 0 por (6.1), el Teorema 8.4.7, y la independencia de E t X n X 0 ,, X n1 F t X n 1 por (6.2) y la independencia condicional de Zn1,, ZnX n1 dado Xn-1. Lema 10.6.2 1. Para n = 1,2,, tenemos Gn(t) = Gn-1F(t) = Gn-1(F(t)) para 1 t PRUEBA Por el Teorema 10.3.4, tenemos Gn t E t X n E E t X n X 0 , , X n1 = E F t para 1 t 1. X n 1 G n 1 F t //// Definamos Fn recursivamente por F1(t) = F(t), F2(t) = F F(t), y Fn(t) = Fn-1° F(t) para 1 t ESPERANZA Y DISTRIBUCIONES CONDICIONALES 345 1. Puesto que la composición es asociativa, podemos escribir Fn(t) = F ° F °° F, la composición de F consigo mismo n veces, y se sigue que Fn(t) = F ° Fn-1(t) para 1 t 1 y n 1. Corolario 10.6.1 PRUEBA Para n = 1,2, y 1 t 1, Gn(t) = Fn t 0 . X Cuando n = 1, esta relación ha sido antes observada; y si es cierta cuando n = m 1, entonces Gm(t) = Gm-1 °F(t) = Fm1 F t se sigue por inducción. X0 Fm t 0 . El corolario //// X Sea n = Pr (Xn = 0). Entonces, puesto que Xn = 0 implica Xn+1 = 0, debemos tener n n+1 para cualquier n 1. Se sigue que lim n n existe. Denominaremos a la probabilidad de extinción. Teorema 10.6.1 Si 1, entonces = 1; y si > 1, entonces = X 0 , donde es la solución positiva más pequeña de la ecuación F (6.3) PRUEBA Sea n = Fn(0), así que n = Gn(0) = Fn 0 0 nX0 . También, sea = lim n cuando n , así que = X0 . Entonces n = Fn(0) = F(Fn-1(0)) = F(n-1), y la Ecuación (6.3) puede ser obtenida permitiendo n . Para ver que es la solución positiva más pequeña a (6.3), sea cualquier otra solución positiva. Entonces, puesto que F es una función no decreciente, debemos tener 1 = F(0) F() = . Por inducción, entonces tenemos n = F(n-1) F() = , y por tanto = lim n cuando n . X Queda demostrar que = 1 si 1. Postulamos que si 1, entonces F (t) < 1 para 0 < t < 1. Para ver esto escribir F' t jf j t j 1 j 1 para 0 < t < 1. Si f(j) > 0 para alguna j 2, entonces f(j)tj-1 < f(j) y consecuentemente F (t) < F (1) = 1 para 0 < t < 1; y si f(j) = 0 para toda j 2, entonces F (t) = f(1), que es menor que 1 porque f(0) > 0. Ahora, si < 1, entonces 1 = 1 F() = F ()(1 ) con < < 1 por el teorema del valor medio. Se sigue que F () = 1, contradiciendo la suposición de que 1 (ver Figura 14). 346 PROCESOS RAMIFICADOS Figura 14. La ecuación β = F(β) ESPERANZA Y DISTRIBUCIONES CONDICIONALES 347 REFERENCIAS Un tratamiento general completo de esperanza y probabilidad condicional requiere la teoría de la medida abstracta. Lectores quienes estén interesados en este enfoque pueden consultar Neveu (1965), cap. 4. Para una presentación más detallada de la teoría de decisión (Sección 10.5), ver DeGroot (1970) o Blackwell y Girshick (1954). Para un tratamiento más detallado de procesos ramificados (Sección 10.6), ver Karlin (1966), cap. 11. El tipo de dependencia exhibido para procesos ramificados es un caso especial de dependencia markoviana. No daremos una exposición sistemática de este tema. Referimos a los lectores interesados a Karlin (1966), caps. 2 a 5, y Feller (1968), caps. 15 y 16. 348 PROBLEMAS 10.7 PROBLEMAS 10.1 Sea una muestra aleatoria de tamaño k extraída sin reemplazo de una urna que contiene r bolas rojas, b bolas negras, y w bolas blancas (k n = r + b + w). También, denoten X y Y el número de bolas blancas y rojas en la muestra, respectivamente. Encontrar la función masa condicional de Y dado X = x para todos los posibles valores de x. Interpretar sus resultados. 10.2 Sean X y Y variables aleatorias independientes que tienen la distribución Poisson con parámetros > 0 y > 0, respectivamente. También, sea Z = X + Y. Mostrar que la función masa condicional de X dado Z = z es binomial con parámetros n = z y p = /( + ) para z = 0, 1, 2,. 10.3 Sean X y Y variables aleatorias independientes las cuales están geométricamente distribuidas con el mismo parámetro p, 0 < p < 1, y sea Z = X + Y. Para z = 2, 3,, encontrar la función masa condicional de X dado Z = z. 10.4 Sean dos dados balanceados lanzados, y sean X y Y la suma y el número máximo de puntos que aparecen sobre los dos dados, respectivamente. Para y = 1, 6, encontrar la función masa condicional de X dado Y = y. 10.5 Generalice el Problema 10.4 a tres dados. 10.6 Permita que X y f x , y 1 2 1 x 2 y 3 Y tengan densidad Cauchy bidimensional , < x, y < . Encontrar la densidad condicional de X ESPERANZA Y DISTRIBUCIONES CONDICIONALES 349 dado Y = y para < y < . 10.7 En el Problema 10.6 mostrar que Y y Z X 1 Y 2 son independientes. Permita que X y Y tengan la densidad Dirichlet bidimensional f(x,y) = cx –1y -1(1 x y) -1 para 0 < x, y < 1 y x + y < 1, donde , , y son positivos y c = ( + + )/()()(). Encontrar la densidad condicional de X dado Y = y para 0 < y < 1. 10.9 En el Problema 10.8 mostrar que Y y Z = X/(1 Y) son independientes. 10.10 Sean X y Y variables aleatorias independientes normal estándar, y sea Z = X + Y. Encontrar la densidad condicional de: (a) X dado Z = z para z R. (b) Z dado X = x para x R. 10.11 Sean X1,, Xn variables aleatorias independientes las cuales tienen una densidad común f, y sean Y = mín (X1,, Xn) y Z = máx (X1,, Xn). Encontrar la densidad condicional de Z dado Y = y para todos los posibles valores de y. Interprete sus resultados. 10.12 Condicionalmente, dado que X = x, 0 < x < 1, permita que Y tenga la distribución geométrica con el parámetro x, y permita que X tenga la distribución beta con los parámetros > 0 y >0. Encontrar la función masa (incondicional) de Y en términos de funciones gama y factoriales. 10.13 Condicionalmente, dado X = x, permita que Y tenga la función de distribución normal con media x y varianza 2. También, permita que X tenga la función de distribución normal con media y varianza 2. Mostrar que la distribución marginal de Y es normal con media y varianza 2 + 2. 10.14 Condicionalmente, dado que X = x > 0, permita que Y tenga la distribución Poisson con parámetro x, y permita que X tenga la distribución gama con parámetros > 0 y > 0. Encontrar la función masa de Y, y simplificar su resultado en el caso especial donde = 1 y = 1. 10.15 Condicionalmente, dado X = x > 0, permita que Y tenga la distribución gama con parámetros > 0 y x, y X tenga la distribución exponencial estándar. Encontrar la función de densidad de Y. 10.16 Condicionalmente, dado que X = x, permita que Y tenga la distribución uniforme sobre (0,x), y permita que X tenga la densidad g(x) = 1/x2 para x 1. Encontrar la densidad de Y. 10.17 Encontrar la distribución condicional de X dado Y = y en los Problemas 10.14 y 10.15. 350 PROBLEMAS 10.18 Encontrar la distribución condicional de X dado Y = y en el Problema 10.16. 10.19 Permita que X tenga la distribución normal con media y varianza 2. Encontrar la distribución condicional de X, dado X2 = z > 0. Simplificar su resultado en el caso especial que = 0. 10.20 Permita que X tenga la distribución uniforme sobre (0,1). Encontrar la distribución condicional de X dado que sen 4X = ½. 10.21 Derivar las Ecuaciones (1.11) y (1.12). 10.22 Permita que X y Y tengan la distribución Cauchy bidimensional (Problema 10.6). Encontrar la esperanza condicional de Y dado X = x para x R. 10.23 Sean X y Y variables aleatorias independientes absolutamente continuas. Denote f una densidad para X, denote G la función de distribución de Y, y suponga que f(x) > 0 si y sólo si x > 0. Permita ser Z = Y/X. Mostrar que la función distribución condicional de Z dado X = x > 0 es Pr (Z z X = x) = G(xz) para z R. Use este resultado y el Teorema 10.2.3 para derivar la función de distribución y densidad de Z. 10.24 ¿Cómo cambiarían tus respuestas al Problema 10.23 si f(x) fuera supuesta para ser positiva para toda x, < x < ? 10.25 Permita que X y Y tengan la distribución normal bidimensional estándar con parámetro r, 0 < r < 1. ¿Qué tan grande debe de ser x para que Pr (Y 0 X = x) 0.95? 10.26 Permita que X tenga la distribución uniforme sobre (0,1), y condicionalmente dado X = x, 0 < x < 1, permita que Y tenga la distribución geométrica con parámetro x. Encontrar Pr (X > ½ Y = y) para y = 1, 2,. 10.27 Permita que X y Y tengan la distribución uniforme sobre el disco unitario en R2. Encontrar E(Y X = x) y E(Y2 X = x) para 1 < x < 1. 10.28 Permita que X y Y tengan la distribución Dirichlet bidimensional con parámetros , , y (ver Problema 10.8). Encontrar la media y varianza condicional de Y dado X = x para 0 < x < 1. 10.29 Permita que X y Y tengan la distribución hipergeométrica bidimensional (Ejemplo 6.1.4). Encontrar E(Y X = x) para todos los posibles valores de x. 10.30 Sean X y E variables aleatorias independientes distribuidas binomialmente con los parámetros m, n, y (la misma) p. Además, sea Z = X + Y. Encontrar E(X Z = z) para z = 0,, m + n. 10.31 Condicionalmente, dado X = x, permita que Y tenga la distribución Poisson con parámetro x, y permita que X tenga la distribución gama con parámetros > 0 y > 0 ESPERANZA Y DISTRIBUCIONES CONDICIONALES 351 (como en el Problema 10.14). Encontrar la media y varianza incondicional de Y. 10.32 Si la distribución condicional de Y dado X = x es exponencial con parámetro x, y si la distribución incondicional de X es gama con parámetros > 2 y > 0, encontrar la media y varianza incondicional de Y. 10.33 Permita que X tenga la distribución beta con parámetros y , y condicionalmente dado X = x, permita que Y tenga la distribución binomial con parámetros n y x, como en el Ejemplo 10.1.7. Encontrar la media y varianza incondicional de Y. 10.34 Sean X y Y independientes ambas con medias cero y varianza común 2. Sea Z = X + Y. Mostrar que E(Z2 X = x) = x2 + 2 para toda x para la cual la esperanza condicional está definida. 10.35 Sean X y Y variables aleatorias discretas, y sea Z = w(X,Y). Si E(Z X = x) está definida, entonces E(Z X = x) = z Pr (Z = z X = x), donde la sumatoria se extiende sobre todas las z para las cuales Pr (Z = z X = x) > 0. 10.36 Sean X y Y variables aleatorias conjuntamente distribuidas, y suponer que E(Y X = x) está definida para toda x D, donde D es un intervalo para el cual P(X D) = 1. Suponer también que E(Y X = x) = ax + b, x D, donde a y b son constantes. Exprese a y b en términos de las medias y varianzas de X y Y y la correlación entre las variables aleatorias X y Y. 10.37 Si X y Y son variables aleatorias conjuntamente distribuidas para las cuales E(Y) = 0 y E(Y2) = E[E(Y X)2], ¿qué puede ser dicho acerca de la distribución conjunta de X y Y? 10.38 En el Ejemplo 10.4.1a, encontrar la media y varianza condicional de Y1, dado Xi = xi, i = 1,, m. 10.39 En el Ejemplo 10.4.1a encontrar la media y varianza condicional de Y1 + Y2 dado Xi = xi, i = 1,, m. 10.40 En el Ejemplo 10.4.1b, encontrar la media y varianza condicional de Y1 + Y2 dado Xi = xi, i = 1,, m. 10.41 Permita que X tenga la distribución normal con media y varianza 2, y condicionalmente dado X = x, sean Y1,, Yn variables aleatorias independientes normalmente distribuidas con media x y varianza 2. Mostrar que la distribución condicional de X, dado Yi = yi, i = 1,, n es normal con media ´ = ( -2 + z -2)/( -2 + n -2) y varianza 1/( -2 + n -2), donde z = y1 + + yn. 10.42 Sean X1, X2, y X3 variables aleatorias independientes las cuales están uniformemente distribuidas sobre (0,1), y denoten Y1, Y2, y Y3 los valores ordenados de X1, X2, y X3. Encontrar la densidad condicional de Y1 y Y3 dado Y2 = y para 0 < y < 1. 352 PROBLEMAS 10.43 Sean X1,, Xn independientes con densidad común f, y denoten Y1,, Yn los valores ordenados de X1,, Xn. Encontrar la densidad condicional de Y2,, Yn -1 dado Y1 = y1 y Yn = yn para todos los posibles valores de y1 y yn. 10.44 En el Problema 10.43 sea 1 < k < n, y encontrar la densidad condicional de Y1,, Yk 1, Yk +1,, Yn dado Yk = y para todos los posibles valores de y. Comente sobre su resultado. 10.45 Probar el siguiente resultado: si X1,, Xn son independientes con una función de distribución común F, y si S = X1 + + Xn, entonces E(Xi S) = (1/n)S para i = 1,, n. 10.46 Para estimar la intensidad x > 0 con la cual una substancia radiactiva decae, la substancia es observada por t > 0 unidades de tiempo y el número de emisiones Y es registrado. Suponer que la función masa condicional de Y dado X = x es h(y x) = (1/y!)(tx)ye-tx para y = 0,1, 2, (ver Sección 7.6) y que la distribución a priori de X es gama con parámetros > 0 y > 0. Si la pérdida por estimar x con a es (x a)2, encontrar la política óptima y la pérdida esperada total incurrida por usar la política óptima. 10.47 En el Problema 10.46 sea = 1 y = 1, y suponer que tú debes decidir si x 1 ó x > 1. Si hay pérdida unitaria para una decisión incorrecta y ninguna pérdida para una decisión correcta, y si es observado que Y = 0, ¿cuál decisión haría? 10.48 Para estimar la probabilidad X con la cual una moneda cae águila, la moneda es lanzada hasta que una águila aparece y el número de lanzamientos Y es registrado. Si la distribución a priori de X es uniforme sobre el intervalo (0,1), y si la pérdida por estimar X con a es (X a)2, ¿cómo estimaría X? 10.49 En el Problema 10.48 suponer que deseamos decidir si X ½ ó X > ½ y que la pérdida para una decisión errónea es X ½ con ninguna pérdida para una decisión correcta. Describe la política óptima. 10.50 Condicionalmente, dado X = x sean Y1,, Yn distribuidas normalmente con media x y varianza 1, y sea X normalmente distribuida con media y varianza 2. Si la pérdida incurrida por estimar X con a es X a, encontrar la estimación óptima de X. 10.51 En el Problema 10.50 encontrar la pérdida esperada en la que se incurre cuando la política óptima es usada. 10.52 Mostrar que si Y y Z son condicionalmente independientes dado X, entonces E[w(Z) X = x, Y = y] = E[w(Z) X = x] para todas las selecciones de x y y para las cuales las esperanzas condicionales están definidas. 11 11 CAMINATAS ALEATORIAS1 11.1 SUCESIÓN INFINITA DE VARIABLES ALEATORIAS En lo que resta de este libro estaremos interesados con sucesiones infinitas de variables aleatorias, Eso es, consideraremos variables aleatorias X1, X2,, todas ellas definidas sobre el mismo espacio de probabilidad (S,,P). En este caso X1,,Xn tendrán una distribución conjunta para toda n = 1, 2,. Diremos que las variables aleatorias X1, X2, son independientes si y sólo si X1,,Xn son (mutuamente) independientes para cualquier n. Eso es, X1, X2, son independientes si y sólo si n Pr ( X 1 I1 , , X n I n ) Pr ( X i I i ) i 1 para cualquier selección de los intervalos I1,,In para cualquier n = 1, 2,. También, diremos que las variables aleatorias X1, X2, son idénticamente distribuidas si ellas tienen la misma función de distribución. Si X1, X2, son independientes e idénticamente distribuidas, denominaremos a la sucesión de sumas parciales S0, S1, S2, , definida por S0 = 0 y Sn X1 X n 1 1 Este capítulo trata un tópico especial y puede ser omitido. 354 SUCESIÓN INFINITA DE VARIABLES ALEATORIAS para n = 1, 2,, una caminata aleatoria. Podemos considerar la sucesión S0, S1, S2, como las alturas sucesivas de una partícula que se mueve una distancia vertical Xk en cada tiempo total k, y es esta interpretación la que inspira el nombre de caminata aleatoria (ver Figura 15). Podemos también considerar a S0, S1, S2, como las ganancias acumuladas de un jugador quien juega una sucesión de juegos independientes y gana Xk en el k-ésimo juego para cualquier k = 1, 2,. En el caso especial de que la distribución común de X1, X2, este dada por Pr ( X k 1) p y Pr ( X k 1) q donde 0 < p < 1 y q = 1 p, la caminata aleatoria será denominada simple. En este caso la caminata aleatoria se puede mover por saltos unitarios. Hemos graficado una posible realización de una caminata aleatoria simple en la Figura 15. Figura 15. Interpolación lineal de una caminata aleatoria simple En este capítulo estudiaremos caminatas aleatorias en algún detalle. Comenzaremos con dos observaciones útiles simples. CAMINATAS ALEATORIAS 355 Lema 11.1.1 Sea S0 , S1 , S2 , una caminata aleatoria; sea n cualquier número positivo; y defina S0 , S1 , por S k Sn k Sn para k = 0, 1, 2,. Entonces S0 , S1 , S2 , es de nuevo una caminata aleatoria, y ( S1 , , Sk ) tiene la misma distribución como ( S1 , , Sk ) para cualquier k. Además, ( S1 , , Sk ) es independiente de ( S0 , , Sn ) para cualquier k. PRUEBA Por hipótesis, Sk X 1 X k , donde X1, X2, son independientes con una función de distribución común, digamos F. Sea X k X nk , k = 1, 2,. Entonces X 1 , X 2 , son de nuevo independientes con función de distribución común F. Además, Sk Snk Sn X n1 X nk X 1 X n para k = 1, 2,, así que S0 , S1 , S2 , es una caminata aleatoria. Más aún, ( S1 , , Sk ) tiene la misma distribución como ( S1 , , Sk ), puesto que ( X 1 , , X k ) tiene la misma distribución como ( X 1 , , X k ). Finalmente, ( S1 , , Sk ) está determinado por ( X 1 , , X k ) = ( X n1 , , X nk ) y es por tanto independiente de ( S1 , , Sn ), que está determinado por ( X 1 , , X n ). Puesto que, por definición, Snk Sk Sn para k = 1, 2,, el resultado del Lema 11.1.1 puede ser parafraseado diciendo que en cualquier tiempo entero n, la caminata aleatoria inicia de nuevo pero inicia desde la posición Sn. Lema 11.1.2 Defina Sea S0 , S1 , S2 , una caminata aleatoria, y sea n un entero positivo. S k Sn Sn k para k = 1,, n. Entonces ( S1, , Sn ) tiene la misma distribución como ( S1 , , Sn ), y ( S1, , Sn ) es independiente de ( S1 , S k ) para k = 1, 2,. PRUEBA El Lema 11.1.2 se sigue de la observación que Sk X n X nk 1 por un argumento similar a ese dado en la prueba del Lema 11.1.1. Regresemos brevemente a un punto técnico. No hemos mostrado como construir un espacio muestral sobre el cual una sucesión de variables aleatorias independientes pueda ser definidas. No daremos esta construcción porque los detalles nos guiarían dentro de la esencia de la teoría de la medida abstracta y lejos del comportamiento de las caminatas aleatorias. Le solicitamos al lector aceptar sin prueba el siguiente hecho. Dada cualquier sucesión F1, F2, de funciones de distribución univariadas, hay una sucesión de variables aleatorias independientes X1, X2, con funciones de distribución F1, F2,, respectivamente. Eso es, 356 EL PROBLEMA DE LA RUINA DEL JUGADOR sucesiones de variables aleatorias independientes existen. De hecho, más es cierto y puede ser encontrado en los Problemas 11.1 a 11.6. 11.2 EL PROBLEMA DE LA RUINA DEL JUGADOR Considere la caminata simple aleatoria de la sección previa. Eso es, sean X1, X2, variables aleatorias independientes con distribución común dada por Pr ( X 1 1) p y Pr ( X 1 1) q (2.1) donde q = 1 – p, y sea S0 0 y Sn X 1 X n para n = 1, 2,. En esta sección consideraremos a S0 , S1 , como las ganancias acumuladas de un jugador quien gana un dólar con probabilidad p y pierde un dólar con probabilidad q en cada uno de una sucesión de juegos independientes. El oponente del jugador será llamado la casa. Suponemos que el jugador inicia con a dólares y la casa inicia con b dólares, donde a y b son enteros no negativos. El capital total c = a + b es un entero positivo fijo que no cambia de juego a juego. Finalmente, suponemos que el jugador y la casa aceptan continuar jugando hasta que uno de ellos haya ganado todo el dinero, y se nos pide la probabilidad de que el jugador eventualmente gane todo el dinero de la casa. Estableceremos el problema matemáticamente. Para n = 0, 1, 2,, sea Bna el evento a Sk b para k 0, , n 1 y Sn b que el jugador gane todo el dinero de la casa después de exactamente n juegos del juego. Requerimos la probabilidad del evento Ba Bna n0 que el jugador gane después de un número no especificado de juegos (después de exactamente n juegos para alguna n = 0, 1, 2,). Denote a la probabilidad en cuestión. Entonces a P( Ba ) P( Bna ) (2.2) n0 puesto que los eventos B1a , B2a , son mutuamente excluyentes. En particular, tenemos 0 0 y c 1 (2.3) CAMINATAS ALEATORIAS 357 puesto que B0c es cierto y Bn0 es imposible para cualquier n. Para 0 < a < c, calcularemos a por el siguiente nuevo método. Derivaremos una ecuación diferencia que la a debe satisfacer, y entonces resolveremos la ecuación diferencia sujeta a las condiciones frontera (2.3). Lema 11.2.1 Para 0 < a < c = a + b, tenemos a p a 1 q a 1 . PRUEBA La idea es muy simple. Ba es el evento de que un jugador quien inicia con a dólares eventualmente gane. Además, si X1 = 1, entonces el jugador efectivamente inicia encima con a + 1 dólares (ver Lema 11.1.1). Así, Pr ( Ba | X 1 1) P( Ba 1 ) a 1 y análogamente, PrBa X 1 1 PBa 1 a 1 . Por tanto, a P( Ba ) Pr ( Ba | X 1 1) Pr ( X 1 1) Pr ( Ba | X 1 1) Pr ( X 1 1) p a 1 q a 1 Puesto que infinitamente muchas variables aleatorias entran en la definición de Ba , el enunciado de que PrBa X 1 1 a 1 no requiere mayor justificación que la que hemos dado. Los detalles de esta justificación están descritos en los Problemas 11.13 y 11.14. //// Ahora resolveremos la ecuación diferencia del Lema 11.2.1. Teorema 11.2.1 Sea = q/p. Si = 1 (p = q), entonces a a a b ; y si entonces a 1 a 1 a b (2.4) PRUEBA Se sigue del Lema 11.2.1 e inducción que a a 1 a a a 1 1 0 para a = 0,,c = a + b. Además, 0 0 por (2.3), así que a 1 a 1 k 0 k 0 a a 0 ( k 1 k ) 1 k (2.5) 358 EL PROBLEMA DE LA RUINA DEL JUGADOR para a = 0,, c. Por tanto, si = 1, entonces a a 1 para a = 0,, c, y puesto que c 1 por (2.3), se sigue que 1 1 c y a a c a a b para a = 0,, c. Si 1, entonces (2.5) produce a 1 1 a 1 para a = 0,,c. Más aún, tenemos de nuevo c 1 , así que 1 1 1 c . La Ecuación (2.4) ahora se sigue por substitución. //// Ahora consideraremos la fortuna de un jugador quien juega contra un oponente infinitamente rico. Sea a ,b 1 a . Mostraremos abajo que a ,b es la probabilidad de que el jugador pierda todo su dinero con la casa (vaya a la ruina) cuando la casa inicia con b dólares y el jugador inicia con a dólares. Eso es, mostraremos que la probabilidad de que el juego termine es 1 cuando ambos jugadores inician con capital finito. Esperamos que la probabilidad de que el jugador vaya a la ruina cuando juegue contra un oponente infinitamente rico sea el límite cuando b de a ,b . Puesto que ab 0 o cuando b de acuerdo a si < 1 o > 1, se sigue fácilmente del Teorema 11.2.1 que si p 12 1 a lim (a ,b) a b si p 12 (2.6) donde (2.6) define a a. Eso es, un jugador inexperto (p < ½) con certeza pierde todo su dinero contra una casa infinitamente rica, pero un jugador experimentado perderá con probabilidad a donde = q/p y a es la fortuna inicial del jugador. La Tabla 13 da los valores de a para ciertos valores de p y a. Por ejemplo, un jugador quien inicia con a = 12 dólares y gana con probabilidad p = 0.6 es virtualmente cierto para prosperar contra una casa infinitamente rica. Ahora mostraremos que (2.6) da, de hecho, la probabilidad deseada. El primer elemento del negocio es mostrar que a ,b es la probabilidad de que el jugador pierda cuando la casa inicia con b dólares. Lema 11.2.2 Sean a y b enteros positivos, y sea D el evento –a < Sn < b para cualquier n = 1, 2,. Entonces P(D) = 0. PRUEBA Para n = 1, 2,, sea Dn el evento que –a < Sk < b para k = 1,, n. Entonces la ocurrencia de D implica la ocurrencia de Dn para cualquier n, así que P(D) P(Dn) para cualquier n = 1, 2,. Sea c = a + b. Entonces CAMINATAS ALEATORIAS 359 Pr (| Sc | c) p c q c 0 Sea Zk = Skc – Skc-c para k = 1, 2,. Entonces Z1, Z2, son independientes e idénticamente distribuidas (Lema 11.1.1), y Pr (|Zk| c) = p c + q c = d, digamos, para cualquier k = 1, 2,. Por tanto, P( Dnc ) Pr ( a S k b , k 1, , nc) Pr ( a S kc b , k 1, , n ) Pr ( c Z k c , k 1, , n ) n Pr ( c Z k c ) (1 d ) n k 1 para cualquier n = 1, 2,. Se sigue que P(D) (1 – d)n para cualquier n = 1, 2,, y consecuentemente, que P(D) = 0. //// Para a > 0 y b > 0, sea Cab el evento para alguna n = 1, 2, a Sk b para k 1, ,n y Sn a Así, Cab es el evento que el jugador pierda cuando la casa inicia con b dólares. Corolario 11.2.1 P(Cab) = a ,b 1 a . PRUEBA Sean Ba y D como en el Teorema 11.2.1 y Lema 11.2.2, respectivamente. Entonces Ba, Cab, y D son eventos exhaustivos mutuamente excluyentes, así que P(Ba) + P(Cab) + P(D) = 1. Además, P(D) = 0 por el Lema 11.2.2, así que P(Cab) = 1 – P(Ba) = 1 a , como se aseveró. //// Ahora probaremos que a proporciona la probabilidad de perder contra una casa infinitamente rica. Sea Ca el evento que S n a para alguna n 1,2, Así, Ca es el evento de que el jugador pierda contra una casa infinitamente rica. Teorema 11.2.2 P(Ca) = a, donde a está definida en (2.6). PRUEBA Defina los eventos Cab como en el anterior corolario. Entonces para a fija, Cab implica Ca(b+1) para cualquier b, así que Ca1, Ca2, es una sucesión creciente de eventos. Más aún, la unión de Ca1, Ca2, es simplemente Ca. Por tanto, por el Teorema 2.5.1, tenemos 360 EL PROBLEMA DE LA RUINA DEL JUGADOR P(Ca ) lim PCab lim (a ,b) a b //// b Es posible ver el resultado del Teorema 11.2.2 en otra forma. Diremos que la caminata aleatoria S0 , S1 , S2 , pasa a través o visita un entero a si Sn a para alguna n 1,2, Puesto que el jugador pierde contra una casa infinitamente rica si y sólo si S0 , S1 , S2 , pasa a través de –a, donde a es la fortuna inicial del jugador, se sigue del Teorema 11.2.2 que si a es un entero positivo y p ½, entonces la probabilidad de que S0 , S1 , S2 , pase a través de – a es 1. Por simetría, si a es un entero positivo y p ½, entonces la Tabla 13 a p 2 4 6 8 12 0.600 0.444 0.198 0.088 0.039 0.008 0.667 0.250 0.063 0.016 0.004 0.750 0.111 0.012 0.001 probabilidad de que S0 , S1 , S2 , pase a través de a es 1. En particular, si p = ½ y a 0, entonces la probabilidad de que S0 , S1 , S2 , pase a través de a es 1. Diremos que la caminata aleatoria regresa al origen si y sólo si Sn = 0 para alguna n = 1, 2,. Observe que si la caminata aleatoria pasa a través de ambos 1 y –1, entonces debe regresar al origen. Así, si p = ½, entonces la probabilidad de que la caminata aleatoria regrese al origen es 1. Resumimos la discusión anterior. Teorema 11.2.3 Sea S0 , S1 , S2 , una caminata aleatoria simple. Si p ½ y a es un entero positivo, entonces la probabilidad de que la caminata aleatoria pase a través de a es 1. Si p = ½, entonces la probabilidad de que la caminata aleatoria regrese al origen es 1. CAMINATAS ALEATORIAS 361 11.3 LOS LEMAS DE BOREL-CANTELLI Si A1, A2, es cualquier sucesión infinita de eventos, podemos formar una nueva sucesión B1, B2, haciendo Bn Ak (3.1) k n para n = 1, 2,. De este modo, Bn es el evento que Ak ocurra para alguna k n. Por lo tanto, el evento B Bn (3.2) n 1 es el evento que infinitamente muchos de los eventos A1, A2, ocurran, porque B ocurre si y sólo si Ak ocurre para alguna k n para cualquier n = 1, 2,. Denominaremos a B el evento que An ocurre infinitamente a menudo, y escribiremos B = {An, i.m.}. La terminología B = lim sup An es también usada. En esta sección probaremos dos teoremas que relacionan la probabilidad de B a las probabilidades de los eventos A1, A2,. Estos teoremas son conocidos como los lemas de Borel-Cantelli. Teorema 11.3.1 i.m}. Si Sea A1, A2, cualquier sucesión infinita de eventos, y B = {An, P( An ) (3.3) n 1 entonces P(B) = 0. PRUEBA Para cualquier n, tenemos así que B1, B2, es una sucesión decreciente. Se sigue del Teorema 2.5.1 que P( B) lim P( Bn ) n Además, P( Bn ) P( Ak ) k n para cualquier n, así que la convergencia de la serie (3.3) implica que lim P(Bn) = 0 362 LOS LEMAS DE BOREL-CANTELLI cuando n . El teorema se sigue. EJEMPLO 11.3.1 Sea S0 , S1 , S2 , una caminata aleatoria simple, y sea p = Pr (S1 = 1). Si An denota el evento de que S2n = 0, entonces 2n 1 P( An ) p n q n ~ (4 pq) n n n cuando n por la fórmula de Stirling (Sección 1.8). Si p ½entonces 4pq < 1, así que P(A1) + P(A2) + Eso es, si p ½, entonces la probabilidad de que la caminata aleatoria S0 , S1 , S2 , regrese a 0 infinitamente a menudo es cero. Si p = ½, entonces 4pq = 1 y la serie P(A1) + P(A2) + diverge. De hecho, si p = ½, entonces Pr ( Sn 0, i.m.) 1 como mostraremos en la siguiente sección. //// Hay un contrario al Teorema 11.3.3. Si A1, A2, es cualquier sucesión infinita de eventos , entonces diremos que son independientes si y sólo si A1,An, son (mutuamente) independientes para cualquier n = 1, 2,Se verifica fácilmente que si X1, X2, son variables aleatorias independientes, y si An está determinado por Xn, entonces A1, A2, son eventos independientes. Teorema 11.3.2 Si A1, A2, son eventos independientes, y si P( An ) (3.4) n 1 entonces Pr (An, i.m.) = 1. PRUEBA Probaremos el Teorema 11.3.2 mostrando que sus hipótesis implican PB 0 , donde B está definido por (3.2) y el apóstrofe denota complemento. Como en la prueba del Teorema 11.3.1, tenemos PB lim PBn cuando n , y así será suficiente mostrar que PBn 0 para cualquier n = 1, 2, Ahora Bn Ak k n así que CAMINATAS ALEATORIAS 363 nm Bn Ak k n para cualquier n y m. Por tanto, n m nm k n k n P( Bn ) P( Ak ) [1 P( Ak )] Para cualquier número real x, se tiene la desigualdad 1 – x < e-x, ya que el segundo término en la expansión de la serie de Taylor de ex en x = 0 es positivo. Por tanto, nm nm P( Bn ) e P ( Ak ) exp P( Ak ) k n k n (3.5) para cualquier n y cualquier m. Finalmente, si las serie en (3.4) diverge, entonces el exponente en (3.5) debe divergir a – cuando m para cualquier n. Puesto que la desigualdad (3.5) es válida para cualquier n y cualquier m, se sigue que nm P( Bn ) lim exp P( Ak ) 0 m k n para cualquier n, como se requería. //// EJEMPLO 11.3.2 Sean X1, X2, variables aleatorias independientes que tienen una densidad exponencial común f ( x) e x para x > 0 y f(x) = 0 para x 0. Sea An el evento que Xn > a log n, donde a > 0. Entonces An ocurre infinitamente a menudo con probabilidad 1 si a y An ocurre infinitamente a menudo con probabilidad 0 si a > 1. De hecho, A1, A2, son independientes (puesto que An está determinado por Xn), y P( An ) Pr ( X n a log n) = exp ( a log n) = n a para n = 1, 2,. Es bien conocido que la serie 1– a + 1– a + 1– a + es finita o infinita de acuerdo con a > 1 o a 1. //// Es interesante que si A1, A2, son eventos independientes, entonces Pr (An, i.m.) es 0 o 1, 364 RECURRENCIA puesto que la serie P(A1) + P(A2) + es finita o infinita. 11.4 RECURRENCIA En esta sección justificaremos el enunciado del Ejemplo 11.3.1 que una caminata aleatoria simétrica (p = ½), simple regresa a 0 infinitamente a menudo. De hecho, mostraremos que una caminata aleatoria simétrica simple visita cualquier entero infinitamente a menudo. Teorema 11.4.1 Entonces Sea S0 , S1 , S2 , una caminata aleatoria simétrica, simple. Pr (Sn = a, i.m.) = 1 (4.1) para cualquier entero a. PRUEBA La idea es la siguiente. Sabemos de la Sección 11.2 que la caminata aleatoria pasará a través de a al menos una vez (con probabilidad 1). Además, si primero pasa a través de a en el tiempo n, entonces Sk Snk Sn ,k 0,1,2, , será de nuevo una caminata aleatoria simétrica simple la cual debe por tanto pasar a través de 0 (con probabilidad 1). Puesto que Sn = a, esto significa que la caminata aleatoria debe visitar a al menos dos veces. Continuando de esta manera, estamos forzados a la conclusión de que la caminata aleatoria pasa a través de a arbitrariamente a menudo. Podemos hacer esta idea precisa como sigue. Para enteros positivos n y j, sea Bnj el evento que la caminata aleatoria pasa a través de a por j-ésima vez después de exactamente n movimientos. Eso es, sea Bnj el evento que Sn = a y exactamente j – 1 de S1,,Sn-1 son igual a a. Más aún, sea B j Bnj y n 1 B Bj j 1 Así, Bj es el evento que la caminata aleatoria pase a través de a al menos j veces, y B es el evento que Sn = a para infinitamente varios valores de n. Mostraremos que P(B) = 1. Sabemos de la Sección 11.2 que una caminata aleatoria simétrica simple pasa a través de cualquier entero a con probabilidad 1. Así, P(B1) = 1. Suponer inductivamente que P(Bj) =1, y demostremos que P(Bj+1) = 1. Puesto que Bj+1 implica Bj, debemos tener P( B j 1 ) P( Bnj B j 1 ) n 1 CAMINATAS ALEATORIAS 365 Además, puesto que Bnj implica Sn = a, Bnj y Bj+1 ocurrirán simultáneamente si y sólo si Bnj ocurre y S k S nk S n 0 para alguna k 1,2, (4.2) Sea Cn el evento definido por (4.2). Entonces P(Cn) = 1 por el Lema 11.1.1 y los resultados de la Sección 11.2. Más aún, Bnj B j 1 Bnj Cn , así que P( Bnj B j 1 ) P( Bnj Cn ) P( Bnj ) P( Bnj Cn ) P( Bnj ) puesto que PBnj Cn PCn 0 . Por tanto, P( B j 1 ) P( Bnj ) P( B j ) 1 n 1 donde el último paso se sigue de la hipótesis de inducción. Por tanto, P(Bj) = 1 para toda j = 1, 2, por inducción matemática. Ahora se sigue fácilmente que P(B) = 1. De hecho, PB PB1 PB2 = 0 //// + 0 + = 0, así que P(B) = 1. 11.5 CONVERGENCIA CON PROBABILIDAD1 En esta sección introduciremos y estudiaremos un nuevo modo de convergencia. Sea X, X1, X2, una sucesión infinita de variables aleatorias, todas ellas definidas sobre el mismo espacio de probabilidad (S,,P). Diremos que Xn converge a X con probabilidad 1 cuando n si y sólo si Pr (lim X n X ) 1 n (5.1) Eso es, Xn converge a X con probabilidad 1 si y sólo si P(C) = 1, donde C denota el conjunto de s S para las cuales lim Xn(s) = X(s) cuando n . Equivalentemente, Xn converge a X con probabilidad 1 si y sólo si P(D) = 0, donde D = C denota el conjunto1 de s S para las cuales Xn(s) falla a converger a X(s) cuando n . Teorema 11.5.1 Sean X, X1, X2, variables aleatorias que están definidas sobre el mismo espacio de probabilidad. Entonces Xn converge a X con probabilidad 1 cuando n si y sólo si 1 2 Que C y D son eventos es mostrado en la prueba del Teorema 11.5.1. 366 CONVERGENCIA CON PROBABILIDAD1 Pr (| X n X | , i.m.) 0 (5.2) para cualquier > 0. PRUEBA Para cualquier s, Xn(s) no convergerá a X(s) si y sólo si hay una = (s) > 0 para la cual |Xn(s) – X(s)| para infinitamente muchos valores de n, y podemos restringir nuestra atención a de la forma 1/j, donde j es un entero positivo. Así, el conjunto de s S para las cuales Xn(s) no converge a X(s) cuando n es D Dj j 1 donde Dj denota el evento que |Xn – X| 1/j infinitamente a menudo. Puesto que 1/j > 1/(j + 1) para cualquier j = 1, 2,debemos tener Dj Dj+1 para cualquier j. Eso es, D1, D2, es una sucesión creciente de eventos. Como consecuencia del Teorema 2.5.1 se tiene que P ( D j ) P ( D j 1 ) y P( D) lim P( D j ) j Así, P(D) = 0 si y sólo si P(Dj) = 0 para cualquier j = 1, 2,, y esto es equivalente a (5.2). //// El Teorema 11.5.1 tiene varios corolarios interesantes. Sean X, X1, X2, variables aleatorias que están definidas sobre el mismo espacio de probabilidad, y sea > 0. Entonces el evento que |Xn – X| para infinitamente muchos valores de n es D Bn n 1 donde Bn es el evento que |Xk – X| para alguna k n. Además, B1, B2, es una sucesión decreciente de eventos , así que P(D) = lim P(Bn) cuando n . Por tanto, tenemos el siguiente corolario. Corolario 11.5.1 Sean X, X1, X2, variables aleatorias que están definidas sobre el mismo espacio de probabilidad. Entonces Xn converge a X cuando n si y sólo si lim Pr | X k X | para alguna k n 0 n para cualquier > 0. (5.3) 367 CAMINATAS ALEATORIAS La comparación de convergencia con probabilidad 1 y convergencia en probabilidad es ahora fácil. Si X, X1, X2, son variables aleatorias que están definidas sobre el mismo espacio de probabilidad, entonces Xn converge a X en probabilidad si y sólo si lim Pr |X n X| ε 0 n (5.4) para cualquier > 0 (Sección 9.2). Puesto que (5.3) implica (5.4), tenemos otro corolario. Corolario 11.5.2 Sean X, X1, X2, variables aleatorias que están definidas sobre el mismo espacio de probabilidad. Si Xn converge a X con probabilidad 1 cuando n , entonces Xn converge a X en probabilidad cuando n . Un ejemplo de una sucesión X1, X2, para la cual Xn converge a 0 en probabilidad y Xn no converge a 0 con probabilidad 1 cuando n será dado abajo. El Teorema 11.5.1 nos permite usar los lemas de Borel-Cantelli para decidir cuestiones de convergencia con probabilidad 1. EJEMPLO 11.5.1 Sean X1, X2, variables aleatorias independientes e idénticamente distribuidas, y denote F la función de distribución común de X1, X2,. Entonces Xn/n converge a 0 con probabilidad 1 cuando n si y sólo si m |x| dF(x) Para ver esto observe que Xn/n 0 con probabilidad 1 cuando n si y sólo si Pr (| X n | n , i.m.) 0 para cualquier > 0 por el Teorema 11.5.1. Además puesto que X1, X2, son independientes, la última condición es equivalente a Pr (| X n | n) (5.5) n 1 por los Teoremas 11.3.1 y 11.3.2. Así, necesitamos sólo mostrar que (5.5) es equivalente a la finitud de m. Sea Y el entero más grande que es menor que o igual a |X1–1|. Entonces 0 |X1–1| – Y < 1, así que E(Y) es finita si y sólo si m = E(|X1|) es finita. Ahora Pr (| X n | n) Pr (| X 1 | n) Pr (Y n) así que 368 ALGUNAS DESIGUALDADES n 1 n 1 Pr (| X n | n) Pr (Y n) E (Y ) por el Corolario 8.1.2. La equivalencia de (5.5) y la finitud de m se sigue. //// EJEMPLO 11.5.2 Sean X1, X2, variables aleatorias independientes e idénticamente distribuidas para las cuales E(|X1|) = . Entonces Xn/n no converge a cero con probabilidad 1 cuando n , por el ejemplo previo. Sin embargo, Pr (|Xn| ) = Pr (|X1| ), la cual tiende a 0 cuando n para cualquier > 0. Por tanto, Xn/n converge a cero en probabilidad cuando n. //// 11.6 ALGUNAS DESIGUALDADES En la siguiente sección mostraremos que la convergencia en la ley de los grandes números es, de hecho, convergencia con probabilidad 1. En esta sección desarrollaremos algunas desigualdades relevantes. Primero, mostraremos como la desigualdad de Chebyshev puede ser mejorada en la presencia de independencia. El resultado es conocido como desigualdad de Kolmogorov. Teorema 11.6.1 Sean X1,... Xn variables aleatorias independientes con medias E(Xi) = 0, i = 1, n, y varianzas finitas i2 = E(Xi2), i = 1,, n. Entonces para cualquier > 0, Pr (max | S k | ) k n 2 2 donde 2 = 12 + + n2 es la varianza de Sn. Observe que la desigualdad de Chebyshev da la misma cota para la probabilidad del evento más pequeño, |Sn| . PRUEBA Para k = 1,, n, sea Ak el evento que |Sk| y |Sj| < para j = 1,, k – 1. Entonces A1,,An son mutuamente excluyentes, y la unión A = A1 An es el evento que |Sk| para alguna k = 1,, n. Por tanto, n Pr (max | S k | ) P( Ak ) k n k 1 (6.1) CAMINATAS ALEATORIAS 369 Denote I Ak la función indicadora del evento Ak, k = 1,, n. Eso es, sea I Ak = 1 si Ak ocurre, y sea I Ak = 0 si Ak no ocurre. Entonces 2 I Ak Sk2 I Ak para todas las posibles realizaciones de X1,... Xn. Por tanto, P( Ak ) E ( I Ak ) 2 E (S k2 I Ak ) (6.2) E (S k2 I Ak ) E ( S n2 I Ak ) (6.3) para k = 1,, n. Ahora declaramos que para k = 1,, n. Para ver esto observe que Ak está determinado por X1,... Xk y es por lo tanto independiente de Sn – Sk = Xk+1 + + Xn. Así, E[ I Ak S k (S n S k )] E ( I Ak S k ) E (S n S k ) 0 Por tanto, E ( I Ak S n2 ) E ( I Ak S k2 ) E[ I Ak (S n S k ) 2 ] E ( I Ak S k2 ) para k = 1,, n, como se aseveró. Si ahora combinamos (6.1) a (6.3) y usamos el hecho que I A1 + + I An = I A 1, encontramos que n Pr (max | S k | ) 2 E ( S n2 I Ak ) 2 E ( S n2 I A ) 2 2 k n k 1 como se aseveró. //// Hay otra desigualdad interesante que relaciona la distribución del máx (S1,... Sn) a esa de Sn en el caso especial que X1,... Xn tengan distribuciones las cuales sean simétricas alrededor de 0. El resultado, conocido como desigualdad de Levy, ahora será presentado. Si F es una función de distribución, F es simétrica alrededor de 0 si y sólo si F ( x ) 1 F ( x ) (6.4a) para toda x, – < x < . Si X es una variable aleatoria con función de distribución F, entonces (6.4a) es equivalente a Pr ( X x) Pr ( X x) (6.4b) 370 ALGUNAS DESIGUALDADES para toda x, – < x < . Así, X tiene una función de distribución simétrica (alrededor de 0) si y sólo si X y –X tienen la misma función de distribución. EJEMPLO 11.6.1 Si F tiene una densidad f para la cual f(x) = f(–x) para toda x, – simétrica. De hecho, <x< , entonces F es F ( x) f ( y) dy x f ( y) dy 1 F ( x) x para – < x < , y F es continua. En particular, las distribuciones normal estándar y Cauchy sin simétricas alrededor de cero. //// EJEMPLO 11.6.2 Si X1,... Xn son variables aleatorias independientes, todas las cuales tienen distribuciones que son simétricas alrededor de 0, entonces (X1,... Xn) y (–X1,... –Xn) tienen las mismas distribuciones. Consecuentemente, S = X1 + +Xn y –S = –X1 – –Xn tienen las mismas distribuciones. Eso es, S tiene una distribución que es simétrica alrededor de 0. //// Teorema 11.6.2 Sean X1,... Xn variables aleatorias independientes cuyas distribuciones son todas simétricas alrededor de 0. Además, sea Sk = X1 + +,Xk para k = 1,, n. Entonces Pr (max S k ) 2 Pr ( Sn ) k n para cualquier > PRUEBA Por simplicidad de notación, sea M = máx (S1,... Sn). Entonces Sn implica M , así que Pr ( M ) Pr ( M , Sn ) Pr ( M , Sn ) Pr ( Sn ) Pr ( M , Sn < ) (6.5) Por tanto, será suficiente mostrar que Pr ( M , Sn < ) Pr ( Sn ) (6.6) Para k = 1,n, sea Ak el evento que Sk y Sj < para j = 1,, k – 1. Entonces, como en la prueba del Teorema 11.6.1, A1,,An son mutuamente excluyentes, y la unión A = A1 An es el evento que M . Por tanto, CAMINATAS ALEATORIAS 371 n Pr ( M , S n < ) Pr ( Ak , S n < ) (6.7) k 1 Ahora Ak está determinada por X1,,Xk y es por lo tanto independiente de Sn Sk. Aunque todavía, Ak y Sn < implican Ak y Sn Sk < 0. Se sigue que Pr ( Ak , S n < ) Pr ( Ak , S n S k < 0) Pr ( Ak ) Pr ( S n S k < 0) P( Ak ) Pr ( S n S k > 0) Pr ( Ak , S n S k > 0) Pr ( Ak , S n ) Aquí la igualdad de en medio se sigue del hecho que Sn Sk tiene una distribución simétrica (Ejemplo 11.6.2), y la desigualdad final se sigue del hecho que Ak y Sn Sk > 0 implican Ak y Sn . Substitución en (6.7) ahora produce n Pr ( M , S n < ) Pr ( Ak , S n ) k 1 Pr ( M , S n ) Pr ( S n ) Esto establece (6.6), de lo cual el teorema se sigue. //// Por supuesto, el Teorema 11.6.2 puede ser aplicado a X1,, Xn para producir Pr (min S k ) 2 Pr (S n ) k n (6.8) para > 0. Cuando se combina con la conclusión del Teorema 11.6.2, (6.8) produce el siguiente corolario. Corolario 11.6.1 Sean X1,,Xn como en el enunciado del Teorema 11.6.1. Entonces para cualquier > 0, Pr (max | S k | ) 2 Pr (| S n | ) k n En el caso de una caminata aleatoria simétrica simple, los argumentos usados en la prueba del Teorema 11.6.2 producen la siguiente igualdad. Teorema 11.6.3 Sea S0, S1, S2, una caminata aleatoria simétrica simple, y escriba Mn = máx(S0, S1,,Sn) para n = 1, 2,. Entonces 372 ALGUNAS DESIGUALDADES Pr (M a) Pr (S n a) Pr( S n a) para enteros positivos n y a. PRUEBA Como en la prueba del Teorema 11.6.2, nosotros tenemos Pr (Mn a) = Pr (Sn a) + Pr (Mn a, Sn < a), y así será suficiente mostrar que Pr (Mn a, Sn < a) = Pr (Sn > a). También, como en la prueba del Teorema 11.6.2, nosotros podemos escribir n Pr ( M n a, S n a) Pr ( Ak , S n a) (6.9) k 1 donde Ak denota el evento de que Sk a y Sj < a para j = 1, , k 1. En el caso de una caminata aleatoria simétrica simple Ak implica Sk = a, así que Ak y Sn < a ocurrirán simultáneamente si y sólo si Ak ocurre y Sn Sk < 0. Por lo tanto, Pr ( Ak , S n a) Pr ( Ak , S n S k 0) P( Ak ) Pr ( S n S k 0) P( Ak ) Pr ( S n S k 0) Pr ( Ak , S n S k 0) Pr ( Ak , S n a) Substitución en (6.9) ahora produce Pr (Mn a, Sn < a) = Pr (Mn a, Sn > a) = Pr (Sn > a), como se aseveró. //// El Teorema 11.6.3 tiene una aplicación interesante. Sea S0, S1, S2, una caminata aleatoria simétrica simple. Si a es cualquier entero, entonces la probabilidad que S0, S1, S2, pase a través de a es 1 por los resultados de la Sección 11.2. De hecho, la caminata aleatoria visitará a infinitamente a menudo (Sección 11.4). Sea Na el tiempo en el cual la caminata aleatoria pasa primero a través de a. Eso es, N a al menos n 1 para la cual S n a Hacemos Na = si Sn a para toda n = 1, 2,. Puesto que el último evento tiene probabilidad 0, no requiere preocuparnos. Llamaremos a Na el tiempo del primer paso a través de a. Encontraremos la distribución exacta de Na en la Sección 12.5. Aquí derivaremos una aproximación simple que es válida para a grande. Para a > 0 tenemos la relación Pr ( N a n) Pr (M n a) Pr (S n a) Pr (S n a) por el Teorema 11.6.3, puesto que Na n si y sólo si Mn a. Si permitimos ser a n el mayor CAMINATAS ALEATORIAS 373 entero que es menor que o igual a a2t, donde t > 0, y aplicamos el teorema del límite central (Sección 4.5 y 9.4), encontramos a S 1 Pr ( S n a) Pr n 1 n t n cuando a . Más aún, el mismo límite es obtenido para Pr (Sn > a). Por lo tanto, hemos encontrado la distribución límite de Na. Resumimos nuestros resultados en el siguiente teorema. Teorema 11.6.4 Sea S0, S1, S2, una caminata aleatoria simétrica simple, y sea Na el tiempo del primer paso a través de a. Entonces cuando a , 1 lim Pr ( N a a 2 t ) 21 t para t > 0, donde denota la función de distribución normal estándar. 11.7 LA LEY FUERTE DE LOS GRANDES NÚMEROS Sean X1, X2variables aleatorias independientes con medias finitas 1, 2,, y sea X n X 1 X n n y n 1 n n para n = 1, 2,. En esta sección daremos condiciones las cuales aseguren que lim ( X n n ) 0 con probabilidad 1 n En particular, mostraremos que la convergencia en la ley de los grandes números (Teorema 9.2.2) es convergencia con probabilidad 1. Teorema 11.7.1 Sea X1, X2, variables aleatorias independientes con medias 1, 2, y varianzas finitas 12, 22,. Si k2 k 1 k2 (7.1) entonces li m ( X n n ) 0 con probabilidad 1 cuando n . PRUEBA Sin pérdida de generalidad, podemos asumir que k = 0 para k = 1, 2,, en cuyo caso debemos mostrar que 374 LA LEY FUERTE DE LOS GRANDES NÚMEROS Pr (| X n | , i.o.) 0 para cualquier > 0. Sea > 0 dado, y permita An sea el evento que X n . Además, permita ser a Bn el evento que X k para alguna k, 2n-1 < k 2n. Entonces la ocurrencia de An infinitamente a menudo implica la ocurrencia de Bn infinitamente a menudo, y así será suficiente mostrar que Pr (Bn, i.m.) = 0. Ahora Bn implica que Sk = X1 + + Xk k para cualquier k, 2n-1 < k 2n, lo cual (a su vez) implica que Sk 2n-1 para alguna k 2n. Se sigue de la desigualdad de Kolmogorov (Teorema 11.6.1) que 2n P( Bn ) Pr (max | S k | 2 n1 ) 4 2 4 n k2 k n k 1 Por lo tanto,1 2n 2 P ( B ) 4 4 n k2 4 n k2 4 2 n n 1 n 1 k 1 k 1 2n k Sea j = jk el entero más pequeño el cual es mayor que o igual a log2 k, el logaritmo de k en base 2. Entonces 4 n 4 n ( 34 )4 j 2k 2 2n k n j Por lo tanto, 2 k2 k 1 k2 P( Bn ) 8 n 1 la cual es finita por suposición. Por lo tanto, Pr (Bn, i.m.) = 0 por los lemas de BorelCantelli (Teorema 11.3.1). El Teorema 11.7.1 se sigue. //// En particular, la condición (7.1) es satisfecha si X1, X2, tienen la misma varianza 12 = 2 para toda k = 1, 2,. Corolario 11.7.1 Sean X1, X2, variables aleatorias independientes con media común y varianza (finita) 2 común. Entonces X n cuando n con probabilidad 1. 1 3 El intercambio en el orden de las sumatorias está justificado porque los sumandos son no negativos. Ver Apóstol (1957), p. 374. CAMINATAS ALEATORIAS 375 Enseguida mostramos que si X1, X2, son idénticamente distribuidas, la suposición de que ellas tienen una varianza finita puede ser omitida. Lema 11.7.1 Sea a1, a2, una sucesión de números reales. Si lim ak = a cuando n , entonces lim an a cuando n , donde an (a1 an ) / n para n = 1, 2,. La prueba del Lema 11.7.1 será dejada como un ejercicio. El siguiente teorema es conocido como la ley fuerte de los grandes números. Teorema 11.7.2 Sean X1, X2, variables aleatorias independientes idénticamente distribuidas, y denote F su función de distribución común. Si la media x dF ( x) es finita, entonces X n con probabilidad 1 cuando n . PRUEBA Usamos el método de truncamiento. Sea Yk = Xk si –k Xk k, y sea Yk = 0 de otro modo. Además, permita a k y k2 denotar la media y la varianza de Yk, respectivamente, para k = 1, 2,. Entonces podemos escribir X n ( X n Yn ) (Yn n ) (n ) y discutiremos los tres términos separadamente. Tenemos k k x dF ( x) k cuando n por definición de integral impropia de Riemann-Stieltjes (Apéndice B). Por lo tanto, n cuando n por el Lema 11.7.1. Análogamente, en el Ejemplo 11.5.1 mostramos que Pr (|Xn| n, i.m.) = 0 si X1, X2, son independientes e idénticamente distribuidas y tienen una media finita. Se sigue que X n Yn 0 con probabilidad 1 cuando n , de nuevo por el Lema 11.7.1. Para mostrar que Yn n 0 con probabilidad 1 cuando n , usaremos el Teorema 11.7.1. Debemos verificar la condición (7.1). Para k = 1, 2,, sea Bk el conjunto de x para las cuales k 1 < |x| k. Entonces 376 LA LEY DEL LOGARITMO ITERADO k k2 E (Yk2 ) k y 2 dF ( y) B y 2 dF ( y) k j 1 j así que k k 2 k2 k 2 B y 2 dF ( y ) k 1 k 1 j 1 j k 2 B y 2 dF ( y ) j 1 k j j Más aún, k j k j 1 k 2 j 1 k 2 j 1 j 1 x 2 dx 2 j 1 Se sigue que k 1 j 1 2 k 2 k2 B y 2 dF ( y ) j j 2B | y | dF ( y ) j 1 j 2 | y | dF ( y ) 2 E (| X 1 |) la cual es finita por suposición. Por lo tanto, Yn n converge a 0 con probabilidad 1 por el Teorema 11.7.1. //// Las implicaciones de la ley fuerte de los grandes números para juegos y para la interpretación frecuencial de la teoría de probabilidades son semejantes a aquellas de la ley débil de los grandes números (Sección 9.2). Una aplicación de la ley fuerte de los grandes números a la teoría de números está esbozada en los Problemas 11.35 a 11.38. 11.8 LA LEY DEL LOGARITMO ITERADO En esta sección investigaremos la tasa de convergencia en la ley fuerte de los grandes números. Sean X1, X2, variables aleatorias independientes e idénticamente distribuidas con media finita . Entonces sabemos de la ley fuerte de los grandes números (Teorema 11.7.2) que CAMINATAS ALEATORIAS 1 ( S n n ) X n 0 n 377 (8.1) con probabilidad 1 cuando n . Postulamos que si X1, X2, tienen una varianza positiva finita 2, entonces la convergencia en (8.1) toma lugar a la tasa an 2 2 n log (log n) para n 3. Con mayor precisión, postulamos que Pr (( S n n ) (1 )an , i.o.) 0 (8.2 a) Pr (( S n n ) (1 )an , i.o.) 1 (8.2 b) para cualquier > 0. Este resultado es conocido como la ley del logaritmo iterado. Por supuesto, el resultado (8.2) se aplica a Sn también como a Sn. Combinando los resultados para Sn entonces produce Pr (| S n n | (1 )an , i.o.) 0 (8.3 a) Pr (| S n n | (1 )an , i.o.) 1 (8.3b) para cualquier > 0. Teorema 11.8.1 Sean X1, X2, variables aleatorias independientes e idénticamente distribuidas con media y varianza positiva finita 2. Entonces (8.2) se cumple. PRUEBA Probaremos el Teorema 11.8.1 sólo en el caso que X1, X2, tengan una distribución normal común. Además, no hay pérdida de generalidad en suponer que = 0 y 2 = 1. En este caso Sn tendrá la distribución normal con media 0 y varianza n para cualquier n (Ejemplo 8.4.7). Denote la función de distribución normal estándar. Usaremos la relación 1 ( x) ~ 1 1 x2 e 2 x 2 (8.4) cuando x (Lema 4.4.2). Nosotros comenzamos con la prueba de (8.2a). Sea > 0 dado, y sea c > 1 tan cercano a 1 que (1 + )2/c > 1 + 2. Además para cualquier entero k, sea nk un entero para el cual ck nk < ck + 1 y observe que nk cuando k . Para k = 1, 2,, sea Ak el evento que S n (1 )an para alguna n nk 1 n nk Entonces puesto que Sn > (1 + )an infinitamente a menudo implica la ocurrencia de Ak 378 LA LEY DEL LOGARITMO ITERADO para infinitamente muchos valores de k, será suficiente mostrar que Pr (Ak, i.m.) = 0. Ahora para n 3, an es una función creciente de n, así que Ak implica max S n (1 )ank 1 nnk Por lo tanto, por la desigualdad de Levy (Teorema 11.6.2) P Ak 2 Pr S nk 1 ank 1 21 d k (8.5) 1 2 donde d k nk 1 ank 1 . Ahora, cuando k , d k2 (1 ) 2 nk1an2k 1 ~ 2 (1 ) 2 c 1 log (log c k 1 ) ~ 2 (1 ) 2 c 1 log k puesto que nk ~ ck y log (log ck-1) = log[(k 1) + log c] ~ log k cuando k . Por la selección de c tenemos (1 + )2c –1 > 1 + 2. Por lo tanto, tenemos d k2 2(1 ) log k (8.6) para todos los valores de k suficientemente grandes. Ahora se sigue de (8.4) y (8.6) que 1 d k 1 dk 1 1 2 k para k suficientemente grande. Por lo tanto, k 1 P Ak . Así, Pr (Ak, i.m.) = 0 por el Teorema 11.3.1. Esto establece (8.2a). Ahora probaremos (8.2b). Sea > 0 dado y seleccione ´ > 0 tan pequeño y c > 1 tan grande que (1 ) 2 c 1 c 1 y 1 2 1 c (8.7) Para cada entero k = 1, 2, sea nk un entero para el cual ck nk ck + 1, y sea Ak el evento que S nk S nk 1 1 (1 )ank Entonces A1, A2, son eventos independientes, puesto que diferentes A´s son determinadas por diferentes X´s. CAMINATAS ALEATORIAS 379 Como en la prueba de (8.2a), encontramos que P(Ak) = 1 (dk), donde d 2 k (1 ) 2 an2k nk nk 1 2(1 ) 2 c k log ( log c k ) ~ c k c k 1 c ~ 2(1 ) 2 log k c 1 cuando k . Se sigue que dk 2 log k para valores de k suficientemente grandes. Por lo tanto, por (8.4), 1 (d k ) 1 (2 log k ) ~ 1 dk 1 2 k para k suficientemente grande. Se sigue que k 1 P Ak y consecuentemente, que Pr (Ak, i.m.) = 1. Así, la probabilidad es 1 de que S nk S nk 1 1 (1 )ank para infinitamente muchos valores de k. Más aún, por (8.2a) aplicada a X1, X2,, la probabilidad es 1 de que S nk 1 1 32 ank 1 1 para todos excepto un número finito de k. Cuando k , ank1ank 1 1 c 1 por simple álgebra, así que (1 )ank 32 ank 1 1 (1 2c 1 )ank (1 )ank para todos los valores de k suficientemente grandes por la selección de ´ y c. Así, la probabilidad es 1 de que S nk 1 ank para infinitamente muchos valores de k. Puesto que esto implica que Sn > (1 )an para infinitamente muchos valores de n, (8.2b) se sigue. //// Mientras que hemos probado el Teorema 11.8.1 sólo en el caso de variables aleatorias distribuidas normalmente, su conclusión debe ser plausible para sucesiones arbitrarias de variables aleatorias independientes e idénticamente distribuidas con una varianza positiva finita. Indudablemente, por el teorema central del límite (Sección 9.4), Sn tendrá una distribución normal aproximada para cualquiera de tales sucesiones. 380 LA LEY DEL LOGARITMO ITERADO REFERENCIAS Para un tratamiento más detallado de caminatas aleatorias simples, incluyendo un desarrollo más completo del problema de la ruina del jugador, ver Feller (1968). CAMINATAS ALEATORIAS 381 11.9 PROBLEMAS 11.1 Sea X1, X2, cualquier sucesión infinita de variables aleatorias todas las cuales están definidas sobre el mismo espacio de probabilidad. Además, denote Fn la función de distribución conjunta de X1,, Xn para n = 1, 2,. Mostrar que Fn(x1,, xn) = Fn+1(x1,, xn,) (P.1) para todo (x1,, xn) Rn y toda n = 1, 2,. 11.2 Una sucesión de funciones de distribución Fn, n = 1, 2,, que satisface la condición (P.1) es denominada una sucesión consistente. Mostrar que si G1, G2, son funciones de distribución univariadas y si Fn(x1,, xn) = G1(x1)G2(x2) Gn(xn) para todo (x1,, xn) Rn y toda n = 1, 2,, entonces Fn es una sucesión consistente. 11.3 Un teorema famoso, conocido como el teorema de la consistencia de Kolmogorov,1 asegura que si F1, F2, es cualquier sucesión consistente de funciones de distribución, entonces hay una sucesión de variables aleatorias X1, X2, tal que la función de distribución conjunta de X1,, Xn es Fn para cualquier n. Use el teorema de la consistencia de Kolmogorov y el Problema 11.2 para mostrar la existencia de una sucesión infinita de variables aleatorias independientes que tengan funciones de distribución preasignadas arbitrariamente. 1 4 Para una prueba, ver Neveu (1965), cap. 3. 382 11.4 PROBLEMAS Para n = 1, 2,, sea fn una función de densidad n-dimensional, y denote Fn la función de distribución de fn. Si f n x1 , , x n f n 1 x1 , , x n , y dy (P.2) para todo (x1,, xn) Rn y toda n = 1, 2,, entonces F1, F2, es una sucesión consistente de funciones de distribución. 11.5 Para cada y R, sea gy una función de densidad univariada. Suponer también que gy(x) está acotada y conjuntamente continua en (x,y). Sea H cualquier función de distribución univariada, y defina fn(x1,, xn) = g y x1 g y x 2 g y x n dH y para (x1,, xn) R y n = 1, 2,. Mostrar que f1, f2, satisfacen la condición (P.2). n 11.6 Use el resultado del Problema 11.5 para deducir la existencia de variables aleatorias Y, X1, X2, con las siguientes propiedades. La distribución de Y es normal y condicionalmente dado Y = y, la distribución de X1,, Xn es esa de variables aleatorias normales independientes con media común y y varianza común 1. 11.7 Encontrar una densidad conjunta para X1,, Xn en el Problema 11.6. 11.8 Mostrar la existencia de variables aleatorias X1, X2, con la siguiente propiedad. Para cualquier n = 1, 2,, X1,, Xn tienen la densidad conjunta fn, donde fn(x1,, xn) = n!/(1 + x1 + + xn)n +1 si xi > 0 para i = 1,, n y fn(x1,, xn) = 0 para otros valores de (x1,, xn). NOTA: Los Problemas 11.9 a 11.14 se refieren al problema de la ruina del jugador, descrito en la Sección 11.2. 11.9 Sea N el tiempo en el cual el juego termina. Eso es, sea N = mínima n 0 para la cual ya sea Sn = a ó Sn = b ó si tal n no existe. Observe que Pr (N < ) = 1 por el Lema 11.2.2. Mostrar que E(N) < . Sea a = E(N). Mostrar que a = 1 + pa+1 + qa –1 para 0 < a < c. 11.11 Mostrar que E(N) = ab si p = ½. 11.12 Mostrar que a c 1 a E N q p q p 1 c si p ½. Mostrar que PrBna X 1 1 PBna11 y que PrBna X 1 1 PBna11 para 0 < a < c y n = 1, 2,. CAMINATAS ALEATORIAS 383 Use el Problema 11.13 y la Ecuación (2.2) para mostrar que P(Ba X1 = 1) = P(Ba+1) y P(Ba X1 = 1) = P(Ba -1) para 0 < a < c. 11.15 Sea X1, X2, cualquier sucesión de variables aleatorias independientes e idénticamente distribuidas para las cuales Pr (X1 = 0) < 1. Mostrar que Pr (a < Sn < b para toda n = 1, 2,) = 0 para cualquier a > 0 y b > 0. NOTA: Los problemas 11.16 a 11.22 estudian la probabilidad de que una caminata aleatoria simple siempre retorne al origen. 11.16 Sea S0, S1, S2, una caminata aleatoria simple, y sea B el evento que Sn = 0 para alguna n = 1, 2,. Mostrar que P(B) = 1 p q. Sugerencia: Escriba P(B) = Pr (B X1 = 1) Pr (X1 = 1) + Pr (B X1 = 1) Pr (X1 = 1). 11.17 Sea un = Pr (S2n = 0), y sea vn = Pr (Sk 0 para k = 1,, 2n 1 y S2n = 0) para n = 1, 2,. Además, sea u0 = 1 y v0 = 0. Mostrar que n u n vk u nk (P.3) k 1 para n = 1, 2,. La Ecuación (P.3) es conocida como la ecuación de la renovación. 11.18 Denoten U y V las funciones generatrices de u0, u1, u2, y v1, v2, respectivamente. Use (P.3) para mostrar que U(s) 1 = U(s)V(s) para 0 < s < 1. 11.19 Mostrar que U(s) = (1 4pqs) –1/2 para 0 < s < 1. Sugerencia: Use el Problema 1.60. 11.20 Mostrar que V s 1 1 4 pqs para 0 < s < 1. 11.21 Use el Problema 11.20 para derivar otra vez el resultado del Problema 11.16. 1 / 2 n 1 n 1 4 pq para n = 1, 2,. 11.22 Mostrar que v n n 11.23 Sea A1 , A2, sucesión infinita de eventos. Nosotros lim inf An n 1 k n Ak . Mostrar que (lim sup An ) = lim inf An . una definimos 11.24 Sea S = (0,1) el intervalo unitario abierto. Sea A2n = (0, 1 1/n) y A2n –1 = (0, 1/n) para n = 1, 2,. Encontrar lim sup An y lim inf An. 11.25 Sea X1, X2, variables aleatorias independientes, sean J1, J2, intervalos, y sea An el evento Xn Jn para n = 1, 2,. Mostrar que A1, A2, son eventos independientes. 11.26 Sean X1, X2, variables aleatorias independientes que son uniformemente distribuidas sobre (0,1). ¿Cuál es la probabilidad de Xn < 1/n, i.m.; cuál es la probabilidad de Xn < 1/n2, i.m.? 384 PROBLEMAS 11.27 Sean X1, X2, variables aleatorias independientes las cuales tienen la distribución exponencial estándar. Sea Ba el evento Xn > log n + a log (log n), i.m. para a > 0. ¿Para cuáles valores de a se cumple P(Ba) = 1? 11.28 Sea S0, S1, S2, una caminata aleatoria simétrica simple, y sea Nk el tiempo del késimo retorno al origen. Mostrar que N1 y N2 N1 son variables aleatorias independientes. 11.29 Encontrar la función generatriz de N2. Encontrar Pr (N2 = n) para n = 1, 2,. 11.30 Mostrar que Xn X con probabilidad 1 cuando n si y sólo si sup k n X k X 0 en probabilidad cuando n . 11.31 Mostrar que Xn X con probabilidad 1 cuando n si y sólo si la siguiente condición es satisfecha. Para cualquier > 0 y > 0, hay un entero n0 = n0(,) para el cual Pr (Xk X para alguna k = n0,, n) para toda n n0. 11.32 Sea U una variable aleatoria que está uniformemente distribuida sobre (0,1). Sea Ank el evento k 1 < nU < k para k = 1,, n y n = 1, 2,. Además, permita que X1, X2, sean I A , I A , I A , . Mostrar que Xn 0 en probabilidad pero Xn no converge a 0 11 21 22 con probabilidad 1 cuando n . 11.33 Probar el Lema 11.7.1. 11.34 Sean X1, X2, variables aleatorias independientes, y sea Xk = k cada uno con probabilidad ½. Mostrar que X n 0 con probabilidad 1 cuando n si y sólo si < ½. Sugerencia: Use el teorema de Lindeberg-Feller para mostrar que si ½, entonces X n no converge a 0 en probabilidad cuando n . NOTA: Los Problemas 11.35 a 11.38 esbozan una aplicación de la ley fuerte de los grandes números a la teoría de números. Para x > 0, sea w(x) el entero más grande que es menor que o igual a x. 11.35 Para 0 < x < 1, sea w1(x) = w(10x) y para k 2, sea k 1 wk x w10 k x 10 j w j x j 1 Mostrar que x k 110 k wk x para 0 < x < 1. wk(x) es el k-ésimo decimal en la expansión decimal de x. 11.36 Sea S = (0,1), sea la clase de subconjuntos de Borel de S, y sea P(A) la longitud de A para cualquier subintervalo A S. Además, sea Wk = wk(s) para s S. Mostrar que W1 y W2 tienen la distribución uniforme discreta sobre los enteros 0, 1,, 9. Mostrar CAMINATAS ALEATORIAS 385 también que W1 y W2 son independientes. (Sugerencia: Ver Ejemplo 3.3.3c.) 11.37 Mostrar que W1, W2, son independientes e idénticamente distribuidas. 11.38 Para j fija, 0 < j < 9, sea Xk = 1 si Wk = j y sea Xk = 0 de otro modo. Además, sea Sn = X1 + + Xn para n = 1, 2,. Así, Sn es el número de j´s entre los primeros n decimales de un número seleccionado aleatoriamente. Mostrar que Sn/n 0.1 con probabilidad 1 cuando n . Eso es, si un número es seleccionado al azar del intervalo (0,1), la proporción de j´s entre los primeros n decimales converge a 0.1 con probabilidad 1 cuando n para j = 0,, 9. 12 12 MARTINGALAS1 12.1 SISTEMAS DE JUEGO En esta sección consideraremos estrategias de juego, o sistemas de juego como los nombraremos. Dado un sistema particular, definiremos variables aleatorias para representar la fortuna del jugador como ésta se desarrolla en el tiempo, y probaremos que a menos que el jugador tenga una cantidad de tiempo ilimitado, ningún sistema de juego convertirá una sucesión de juegos limpios en un juego favorable. Considere un jugador quien puede jugar una sucesión de juegos cada uno de los cuales el gana con probabilidad ½ y pierde con probabilidad ½. Sean X1, X2, variables aleatorias independientes con distribución común Pr X i 1 1 2 Pr X i 1 (1.1) e interprete el evento Xi = 1 (Xi = 1) como aquel evento donde el jugador gana (pierde) el iésimo juego para i = 1, 2,. Observe que cada juego es limpio en el sentido de que si el jugador apuesta cualquier cantidad w en el i-ésimo juego, sus ganancias esperadas en el iésimo juego son w Pr (Xi = 1) w Pr (Xi = 1) = 0. Permitamos que el jugador empleé un sistema por lo cual entendemos una regla para 1 1 Este capítulo trata un tópico especial y puede ser omitido. 388 SISTEMAS DE JUEGO cambiar sus apuestas de acuerdo a su fortuna. La única restricción a la que sujetaremos al jugador es que no le es permitido averiguar el futuro. Eso es, la cantidad que el apueste en el i-ésimo juego puede depender en los resultados de los primeros i 1 juegos, pero no puede depender del resultado del i-ésimo o cualquier juego posterior. Definimos un sistema de juego para ser una sucesión de funciones no negativas w1, w2,, donde w1 es una constante, y, para k 2, wk es una función cuyo dominio es Rk-1. Nosotros denominaremos a la variable aleatoria Wk wk X 1 ,, X k 1 (1.2) la apuesta del jugador en el k-ésimo juego. Sea Y0 una constante que representa la fortuna inicial del jugador. Entonces podemos representar la fortuna del jugador después de n partidas del juego por la variable aleatoria n Yn Y0 Wk X k (1.3) k 1 puesto que el jugador gana la cantidad WkXk en el k-ésimo juego para k = 1, 2,. Llamaremos a Yn la fortuna del jugador en el tiempo n. EJEMPLO 12.1.1 El siguiente sistema ha fascinado a los jugadores por años: Dobla tus apuestas hasta que ganes un juego; entonces retírate. Formalmente, sea W1 = w, una constante, y sea w2 k 1 Wk 0 si X i 1 para i 1,,k 1 de otro modo (1.4) para k = 2, 3,. Usando esta estrategia, un jugador está seguro de ganar. Indiscutiblemente, el jugador está seguro de ganar al menos un juego (Sección 4.2); y si el primer juego que el jugador gana es el n-ésimo, entonces el habrá perdido w 2w 2n2 w 2n1 1 w en los primeros n 1 juegos, pero el ganará 2n-1w en el n-ésimo juego. Por lo tanto, la probabilidad es 1 de que el jugador ganará w. Por supuesto, hay una trampa. El jugador debe tener tanto tiempo ilimitado como capital ilimitado para emplear la estrategia de este ejemplo, porque el perderá los primeros n juegos con probabilidad 2-n > 0 para cualquier n = 1, 2,. Por ejemplo, si un jugador inicia con una reserva inicial de Y0 = 2m 1 dólares y no tiene crédito, y si el apuesta 1 dólar (w = 1) en el primer juego, entonces (1.4) debe ser modificada a MARTINGALAS 2 k 1 Wk 0 389 si X i 1 para i para k m de otro modo (1.4 a) En este caso el jugador perderá todo su dinero si el pierde los primeros m juegos, lo que ocurre con probabilidad 2-m; y, como arriba, el ganará 1 dólar si el gana al menos 1 de los primeros m juegos. Por lo tanto, sus ganancias esperadas son 1 Pr ganar 2m 1 Pr perder 1 1 2 m 2m 1 2 m 0 Por lo tanto, las ganancias esperadas usando el sistema (1.4a) son 0. La probabilidad de ganar, 1 2-m, puede ser significativamente alta, sin embargo. //// Ahora probaremos que en la ausencia de tiempo ilimitado ningún sistema de juego convertirá una sucesión de juegos limpios en un juego favorable. Teorema 12.1.1 Sean X1, X2, variables aleatorias independientes con distribución común dada por (1.1), y sea Yn definida por (1.2) y (1.3) para n = 1, 2,. Además, sea Xn = (X1,,Xn) para n = 1, 2,. Entonces E Yn1 X n Yn E Yn Y0 (1.5) (1.6) para n = 1, 2,. PRUEBA que Primero probemos (1.5). Tenemos Yn+1 = Yn + Wn+1Xn+1 por (1.3), así E Yn1 X n E Yn X n E Wn1 X n1 X n por el Teorema 10.3.1. Ahora Yn y Wn+1 están determinadas por Xn, y Xn+1 es independiente de Xn. Por lo tanto, E Yn X n Yn y E Wn1 X n1 Xn Wn1E X n1 Xn Wn1E X n1 0 por los Teoremas 10.3.2 y 10.3.3. También usamos el hecho de que E(Xn+1) = 0. Esto establece (1.5), y un argumento similar con esperanzas incondicionales reemplazando esperanzas condicionales mostrará que E(Y1) = Y0. La ecuación (1.6) ahora se sigue de (1.5) y el Teorema 10.3.4 puesto que E Yn1 EE Yn1 Xn E Yn 390 MARTINGALAS para n = 1, 2,. De hecho, E(Yn) = E(Yn-1) = = E(Y1) = Y0. //// Las interpretaciones de (1.5) y (1.6) son las siguientes. La ecuación (1.5) establece que dados los resultados de los primeros n juegos, las ganancias esperadas de uno en el (n + 1)ésimo juego, son cero, mientras que (1.6) asevera que la fortuna esperada de uno después de cualesquiera n juegos es la misma que la fortuna inicial de uno. Eso es, uno no puede incrementar la fortuna esperada de uno jugando un número finito de juegos limpios. El Teorema 12.1.1 deja abierta la posibilidad de convertir una sucesión de juegos limpios en un juego favorable jugando un número (no acotado) aleatorio de juegos, como en el Ejemplo 12.1.1. Regresaremos a esta cuestión en la Sección 12.4. 12.2 MARTINGALAS En la sección previa, definimos una sucesión de variables aleatorias Y0, Y1, para representar las fortunas de un jugador quien juega una sucesión de juegos limpios, y encontramos que tenían la propiedad E Yn1 X 1 , , X n Yn (2.1) para cualquier n = 1, 2,. Esta propiedad está plena de abstracción. Sea X1, X2, una sucesión finita o infinita de variables aleatorias o vectores aleatorios. Las Xi no necesitan ser independientes i idénticamente distribuidas; ellas no necesitan ser ni siquiera de la misma dimensión. Para n = 1, 2,, sea Xn = (X1, ,Xn), y sea Dn un subconjunto del rango de Xn para el cual Pr (Xn Dn) = 1. Además, sea w1, w2, una sucesión de funciones reales con dominios D1, D2,, y sea Y1, Y2, una sucesión de variables aleatorias definidas por Yn wn X 1 , , X n para n = 1, 2,. Diremos que la sucesión Y1, Y2, es una submartingala con respecto a X1, X2, si y sólo si E Yn E Yn1 X n x n wn x n (2.2) (2.3) para todo xn Dn para cualquier n = 1, 2,. Suponemos que las esperanzas condicionales en (2.3) pueden estar definidas por una de las recetas de la Sección 10.3. En la secuela escribiremos (2.3) en la forma equivalente E Yn1 X n Yn (2.3 a) MARTINGALAS 391 (ver Sección 10.3). Además, diremos que Y1, Y2, es una martingala con respecto a X1, X2, si y sólo si hay igualdad en (2.3) y (2.3a). Así, Y1, Y2, es una martingala con respecto a X1, X2, si y sólo si (2.1) y (2.2) se cumplen para cualquier n = 1, 2,, y Y1, Y2, es una submartingala con respecto a X1, X2, si y sólo si (2.2) y (2.3a) se cumplen para cualquier n = 1, 2,. Observe que Y1, Y2, es una martingala con respecto a X1, X2, si y sólo si Y1, Y2, y Y1, Y2, son ambas submartingalas con respecto a X1, X2,. Donde no hay peligro de confusión, omitiremos la frase calificadora “con respecto a X1, X2,.” La sucesión Y1, Y2, de la sección previa es una martingala. Varios ejemplos adicionales ahora serán dados. Ejemplo 12.2.1 Muchas martingalas interesantes pueden ser construidas de variables aleatorias independientes. a Sean X1, X2, variables aleatorias independientes con esperanza común E(Xk) = 0 para k = 1, 2,. Entonces la sucesión de sumas parciales Sn X1 X n n 1,2, es una martingala. Indiscutiblemente, E S n E X 1 E X n para n = 1, 2,. Más aún, E S n1 X n E S n X n E X n1 X n y, como en la prueba del Teorema 12.1.1, E(SnXn) = Sn porque Sn está determinada por Xn, y E(Xn+1Xn) = E(Xn+1) = 0 puesto que Xn+1 es independiente de Xn. b Sean X1, X2, independientes con medias E(Xk) = 0 y varianzas finitas k2 = E(Xk2) para k = 1, 2,. Además, sea sn2 = 12 + + n2 la varianza de Sn para n = 1, 2,. Entonces Yn S n sn 2 2 n 1,2, define una martingala. Observe primero que E Yn E S n 2 sn 2 2sn 2 para n = 1, 2,. Más aún, puesto que S n21 S n 2S n X n1 X n21 y 2 E S n X n1 X n S n E X n1 X n S n E X n1 0 por los Teoremas 10.3.2 y 10.3.3, tenemos E S n21 X n E S n 2 X n E X n21 X n S n2 n21 , donde la igualdad final también se sigue de los Teoremas 10.3.2 y 10.3.3. Se sigue que E Yn1 X n E S n21 X n sn21 S n 2 n21 sn21 S n 2 sn 2 Yn para n = 392 MARTINGALAS 1, 2,, como se requería. c Ahora sean X1, X2, variables aleatorias independientes no negativas con esperanza común E(Xk) = 1 para k = 1, 2,. Entonces n Yn X k n 1,2, k 1 define una martingala. De hecho, E Yn nk1 E X k 1 para n = 1, 2,, y E Yn1 Xn Yn E X n1 Xn Yn E X n1 Yn por los Teoremas 10.3.2 y 10.3.3. d Como un caso especial de la parte c, sean X1, X2, independientes e idénticamente distribuidas con función generatriz de momentos común M. Entonces para cualquier t para la cual M(t) es finita, Yn etS n n M t n 1,2, define una martingala. //// Para que el lector no piense que las martingalas son sumas o productos de variables aleatorias independientes, consideraremos algunos ejemplos de una naturaleza diferente. EJEMPLO 12.2.2 El esquema de la urna de Polya. Suponer que extracciones repetidas son hechas de una urna la cual contiene bolas negras y rojas. Suponer que después de cada extracción, la bola extraída es remplazada, junto con c bolas del mismo color, donde c es un entero positivo. Denote Yn la proporción de bolas rojas en la urna después de la n-ésima extracción. Mostraremos que Y1, Y2, es una martingala con respecto a la sucesión X1, X2, la cual será definida abajo. Suponer que hay r bolas rojas y b bolas negras en la urna en el momento de la primera extracción, donde r y b son enteros positivos. Sea Xn = 1 si la n-ésima bola extraída es roja, y sea Xn = 0 si la n-ésima bola extraída es negra. Además, denoten rn y bn el número de bolas rojas y el número de bolas negras en la urna después de la n-ésima extracción. Entonces Yn para n = 1, 2,; y rn, bn, y Xn se desarrollan de acuerdo a las ecuaciones rn rn bn MARTINGALAS rn c rn1 rn si X n1 1 si X n1 0 bn bn1 bn c 393 si X n1 1 si X n1 0 Aquí nosotros establecemos r0 = r y b0 = b. Ahora Pr (Xn+1 = 1Xn) = Yn para n = 1, 2,, así que E Yn1 X n rn c rn rn bn rn bn c rn bn rn bn c rn bn rn Yn rn bn para n = 1, 2,, como es requerido. //// EJEMPLO 12.2.3 Razones de verosimilitud. Sea X1, X2, cualquier sucesión de variables aleatorias con distribuciones conjuntas absolutamente continuas. Denote fn una densidad conjunta de X1,, Xn, y supongamos que f1, f2, satisfacen la condición de consistencia f n x1 ,, xn f n1 x1 ,, xn , y dy (2.4) para todo (x1,, xn) Rn para toda n = 1, 2, (ver Sección 6.3 y Problema 11.4). Sea g1, g2, cualquier otra sucesión de funciones de densidad la cual satisface la condición de consistencia (2.4), y suponga, por simplicidad, que fn(x1,, xn) es positiva para toda x = (x1,, xn) Rn. Yn g n X 1 ,, X n f n X 1 ,, X n n 1,2, Entonces Y1, Y2, es una martingala. Para ver esto observe que una densidad condicional para Xn+1 dado Xn = xn es h y x n para < y < . Por lo tanto, f n1 x n , y f n x n 394 PROPIEDADES ELEMENTALES DE LAS MARTINGALAS E Yn1 X n x n g n+1 x n , y h y x n dy f n1 x n , y g n+1 x n , y g x dy n n f n x n f n x n donde el paso final se sigue de la consistencia de la sucesión g1, g2,. La igualdad de martingala (2.1) ahora se sigue remplazando xn con Xn. //// EJEMPLO 12.2.4 En este ejemplo presentamos un método general para construir martingalas. Sean Z, X1, X2, variables aleatorias las cuales están definidas en el mismo espacio de probabilidad y suponer que Z tiene una esperanza finita. Entonces la sucesión Yn E Z X 1 ,, X n n 1,2,... es una martingala. De hecho, Yn E Z X n , así que E Yn EE Z X n E Z , la cual es finita por hipótesis. Más aún, E Yn1 Xn EE Z Xn1 Xn E Z Xn Yn para n = 1, 2, por el Teorema 10.4.1. //// 12.3 PROPIEDADES ELEMENTALES DE LAS MARTINGALAS Ahora desarrollaremos algunas propiedades elementales de las martingalas y submartingalas. Lema 12.3.1 Si Y1, Y2, es una submartingala con respecto a X1, X2,, entonces EYn EYn1 (3.1) para cualquier n = 1, 2,. Si Y1, Y2, es una martingala, entonces se cumple la igualdad en (3.1). PRUEBA La desigualdad en (3.1) se sigue de la desigualdad de submartingala (2.3a) y el Teorema 10.3.4. De hecho, E Yn1 EE Yn1 Xn E Yn para n = 1, 2,. Más aún, hay igualdad si Y1, Y2, es una martingala por (2.1). //// EJEMPLO 12.3.1 El esquema de la urna de Polya revisitada. En la notación del Ejemplo 12.2.2, la MARTINGALAS 395 probabilidad que una bola roja sea extraída en la n-ésima extracción es Pr (Xn = 1). Todavía más Pr X n 1 EPr X n 1 X n1 E Yn1 E Y1 r r b donde la penúltima igualdad se sigue del Lema 12.3.1. Así, la probabilidad incondicional de extraer una bola roja es la misma para cada extracción. //// Lema 12.3.2 Sea Y1, Y2, una submartingala con respecto a X1, X2,. Si n y k son enteros positivos para los cuales n < k, entonces E Yk X n Yn con igualdad si Y1, Y2, es una martingala. PRUEBA Probaremos el Lema 12.3.3 por inducción. Por definición, el lema es cierto si k n = 1. Suponer que el lema es cierto cuando k n < m, y considere el caso cuando k n = m. Entonces, por el Teorema 10.4.1, E Yk Xn EE Yk Xn1 X n Por inducción, tenemos E Yk X n1 Yn1 , y por (2.3a) tenemos E Yn1 X n Yn . Consecuentemente, E Yk X n E Yn1 X n Yn . Esto completa la inducción de la cual la primera aseveración del lema se sigue. La segunda puede ser establecida por un argumento análogo el cual usa (2.1) en lugar de (2.3a). Alternativamente, la segunda aseveración del lema puede ser establecida aplicando la primera a las submartingalas Y1, Y2, y Y1, Y2,. //// Ahora daremos un método para construir submartingalas de martingalas. Lema 12.3.3 Sea Y1, Y2, una martingala con respecto a una sucesión X1, X2,. Entonces Y1, Y2, es una submartingala con respecto a X1, X2,. Si, además, E(Yn2) < para toda n = 1, 2,, entonces Y12, Y22, es una submartingala con respecto a X1, X2,. PRUEBA El lema usa (2.1) y el Teorema 10.3.1. De hecho, tenemos E Yn1 X n E Yn1 X n Yn para n = 1, 2,. Esto establece la primera aseveración, y la segunda se sigue de un argumento similar. //// 396 EL TEOREMA DE LA INTERRUPCIÓN OPCIONAL 12.4 EL TEOREMA DE LA INTERRUPCIÓN OPCIONAL Sea Y1, Y2, una martingala con respecto a la sucesión X1, X2,, y consideremos a Y1, Y2, como las fortunas de un jugador. Entonces, por el Lema 12.3.1, E(Yn) = E(Y1) para cualquier n = 1, 2,, así que la fortuna esperada del jugador no se incrementa con el tiempo. Sin embargo, nosotros vimos en el Ejemplo 12.1.1 como un jugador de hecho puede garantizar el mismo una ganancia neta jugando un número aleatorio de juegos. Esta es una posibilidad emocionante. Desafortunadamente, puede ser realizado sólo por jugadores quienes tienen un crédito ilimitado, como mostraremos en esta sección. Sea X1, X2, cualquier sucesión de variables aleatorias o vectores aleatorios, y sea N una variable aleatoria la cual está determinada como una función de la sucesión X1, X2,. Diremos que N es un tiempo de interrupción con respecto a la sucesión X1, X2, si y sólo si las siguientes condiciones son satisfechas: 1 N toma sólo valores enteros positivos o el valor . Pr (N < ) = 1 2 (4.1) 3 Para cualquier n = 1, 2,, el evento N = n está determinado por Xn = (X1,, Xn) en el sentido que hay un subconjunto Bn del rango de Xn para el cual N n si y sólo si X n Bn (4.2) Si pensamos de X1, X2, como los resultados de una sucesión de juegos, como en la Sección 12.1, entonces podemos considerar a N como una regla la cual le dice a un jugador cuanto tiempo continuar jugando las partidas, eso es, interrumpir después de la N-ésima partida. La condición (4.1) entonces requiere que el jugador interrumpa en algún tiempo finito., y la condición (4.2) requiere que la decisión de interrumpir después de la n-ésima partida dependa sólo de los resultados de las primeras n partidas y no de los resultados de cualesquiera partidas posteriores. Eso es, (4.2) requiere que al jugador no le sea permitido mirar en el futuro. EJEMPLO 12.4.1 Sea S0, S1, S2, una caminata aleatoria simple. Eso es, sean X1, X2, variables aleatorias independientes e idénticamente distribuidas las cuales toman los valores 1 y 1 con probabilidades p y q = 1 p, respectivamente, y sea Sn = X1 + + Xn para n = 1, 2,. a Si p ½ y a es un entero positivo, entonces la variable aleatoria Na definida por Na = mínima n 1 para la cual Sn = a ó si no existe tal n es un tiempo de interrupción (con respecto a X1, X2,). Indudablemente, Na toma sólo valores enteros positivos o el valor , y Pr (Na < ) = 1 por el Teorema 11.2.3. Más aún, el evento Na = n ocurre si y sólo si Sk < a para k = 1, , n 1 y Sn = a, y el último evento está determinado por MARTINGALAS 397 X1,, Xn en el sentido de (4.2). Denominaremos a Na el tiempo del primer paso a través de a. b Si p = ½, entonces la variable aleatoria N0 definida por N0 = mínima n 1 para la cual Sn = 0 ó si no existe tal n es un tiempo de interrupción. De nuevo N0 toma sólo valores enteros positivos o el valor , y Pr (N0 < ) = 1 por el Teorema 11.2.3. Más aún, el evento N0 = n ocurre si y sólo si Sk 0 para k = 1,, n 1 y Sn = 0, y el último evento depende sólo de X1,, Xn en el sentido de (4.2). Denominaremos a N0 el tiempo del primer retorno al origen. c Si p ½, entonces N0 no es un tiempo de interrupción, puesto que Pr(N0 < ) = 1 p q (Problema 11.16). d Si N = mínima n 1 para la cual Xn+1 = 1 ó si no existe tal n, entonces N no es un tiempo de interrupción con respecto a X1, X2,, porque la condición (4.2) es violada. //// Lema 12.4.1 Sea N un tiempo de interrupción con respecto a la sucesión X1, X2,. Entonces para n = 1, 2,, los eventos N n y N > n están determinados por Xn = (X1,, Xn). Más aún, si k es cualquier entero positivo, entonces M = mín (N,k) es un tiempo de interrupción con respecto a X1, X2,. PRUEBA Por simplicidad, asumiremos que X1, X2, son variables aleatorias. Denote Aj el evento N = j. Entonces, por hipótesis, hay subconjuntos Bj Rj para los cuales Aj Xj 1 B j Xn1 B j R n j para j n. Por lo tanto, el evento N n es A j X n1 B j R n j X n1 B j R n j n n j 1 j 1 j 1 n Así, el evento dado por N n está determinado por X1,, Xn en el sentido de (4.2). El evento N > n es el complemento del evento N n, y así está determinado por X1,, Xn también. Ahora sea k un entero positivo, y sea M = mín(N,k). Entonces el evento dado por M = j es el mismo como el evento N = j si j < k; es el evento que N > k 1 si j = k; y es imposible si j > k. En cualquier caso, el evento dado por M = j está determinado por X1,, Xn, como se requirió. //// Ahora suponer que Y1, Y2, es una martingala y que N es un tiempo de interrupción con 398 EL TEOREMA DE LA INTERRUPCIÓN OPCIONAL respecto a la misma sucesión X1, X2,. Entonces podemos definir una variable aleatoria YN haciendo YN = Yn si N = n, donde n = 1, 2,, y haciendo YN = 0 si N = . Equivalentemente, podemos definir YN por la fórmula YN Yn I An (4.3) n1 donde An denota el evento N = n y IA denota la función indicadora de A. Si consideramos a Y1, Y2, como las fortunas de un jugador quien juega una sucesión de partidas y se detiene después de jugar N partidas, podemos considerar a YN como la fortuna del jugador en el momento que el termina su juego. Los resultados de esta sección dan las condiciones bajo las cuales E YN E Y1 (4.4) En la terminología de juegos, (4.4) asegura que el jugador no incrementa su fortuna esperada usando un tiempo de interrupción. Teorema 12.4.1 Sea Y1, Y2, una submartingala, y sea N un tiempo de interrupción con respecto a la misma sucesión X1, X2,. Si hay un entero k para el cual N k para todas las posibles realizaciones de X1, X2,, entonces E YN E Yk (4.5 a) E YN E Y1 (4.5b) Si, además, Y1, Y2, es una martingala, entonces PRUEBA Como en (4.3), denote An el evento N = n, y denote IA la función indicadora del evento A. Entonces puesto que N k, debemos tener I An = 0 para n > k. Por lo tanto, por (4.3), E Yk I An X n I An E Yk X n Suponer primero que Y1, Y2, es una submartingala. Entonces Yn E Yk X n para n = 1,, k por el Lema 12.3.2. Más aún, puesto que I An está determinada por Xn, nosotros también tenemos E Yk I An X n I An E Yk X n por el Teorema 10.3.3. Por lo tanto, Yn I An I An E Yk X n E Yk I An X n para n = 1,, k. Se sigue que E YN E Yk I An E Yk I A1 I Ak k n1 MARTINGALAS 399 Finalmente, puesto que N k, nosotros debemos tener I A1 I Ak 1 . La desigualdad (4.5a) se sigue. Si Y1, Y2, es una martingala, podemos aplicar (4.5a) a YN y a YN para deducir que E(YN) = E(Yk). Todavía más, por el Lema 12.3.1, tenemos E(Yk) = E(Y1), así que (4.5b) se sigue. //// Ahora relajaremos la condición de que N sea acotada. Sea Y1, Y2, una martingala, y sea N un tiempo de interrupción con respecto a la misma sucesión X1, X2,. Entonces para cada entero k = 1, 2,, definimos la variable aleatoria N k min N ,k Nk es un tiempo de interrupción por el Lema 12.4.1, y Nk k. Por lo tanto, E YNk E Y1 para cualquier k = 1, 2,. Ahora cuando k , Nk N, y así parece razonable esperar que E YNk E YN , dejando E(YN) = E(Y1). Para instrumentar este programa, tendremos que imponer algunas condiciones adicionales sobre la martingala Y1, Y2, y el tiempo de interrupción N. Requeriremos que E YN (4.6 a) lim E Yk I B 0 k (4.6 b) k donde Bk denota el evento N > k. Teorema 12.4.2 Sea Y1, Y2, una martingala, y sea N un tiempo de interrupción con respecto a la misma sucesión X1, X2,. Si las condiciones (4.6) son satisfechas, entonces E(YN) = E(Y1). Puesto que YNk YN si N k y YNk Yk si N > k, podemos escribir YN 1 I Bk Yk I Bk , donde Bk es el evento N > k. Por lo tanto, PRUEBA YNk E Y1 E YN 1 I Bk E Yk I Bk (4.7) por el Teorema 12.4.1. Puesto que el segundo término del lado derecho de (4.7) tiende a 0 cuando k por la suposición (4.6b), será suficiente mostrar que el primero se aproxima a E(YN). Denote F la función de distribución conjunta de N y YN. Entonces 400 EL TEOREMA DE LA INTERRUPCIÓN OPCIONAL E YN 1 I Bk 0 y dF x , y k la cual converge a 0 y dF x , y E YN cuando k por la definición de la integral impropia de Riemann-Stieltjes. El teorema se sigue. //// Ahora listaremos algunas condiciones simples las cuales son suficientes para asegurar la validez de las condiciones (4.6a) y (4.6b). EJEMPLO 12.4.2 Si hay una constante c para la cual Yk c para toda k = 1, 2,, entonces las condiciones (4.6) son satisfechas. En este caso E(YN) c < , y E( Yk I Bk ) c Pr (N > k), la cual tiende a 0 cuando k por (4.1). Si Y1, Y2, son consideradas como las fortunas de un jugador, la condición de este ejemplo puede ser interpretada como requiriendo que el jugador y su oponente tengan sólo una cantidad finita de capital y crédito limitado. //// EJEMPLO 12.4.3 Algunas otras condiciones fácilmente verificables las cuales implican la validez de (4.6b) son las siguientes. a Si hay una constante c para la cual N > k implica Yk c, entonces E( Yk I Bk ) c Pr (N > k) 0 cuando k por (4.1). b Si hay una constante c para la cual E(Yn2) cn para n = 1, 2,, y si E(N) < , entonces (4.6b) es satisfecha. Indudablemente, por la desigualdad de Schwarz (Problema 8.18), tenemos E Yk I Bk 2 la cual tiende a 0 cuando k si E(N) < . E Yk Pr N k ck Pr N k 2 //// Ahora nos especializaremos considerando sumas de variables aleatorias independientes. El siguiente resultado es conocido como el lema de Wald. Teorema 12.4.3 Sean X1, X2, variables aleatorias independientes con esperanza común E(Xi) = , i = 1, 2,. Sea N un tiempo de interrupción con respecto a X1, X2,, y sea Sn= X1 + + Xn para n = 1, 2,. Si E(N) < , entonces MARTINGALAS E S N E N 401 (4.8) PRUEBA Es posible deducir el Teorema 12.4.3 del Teorema 12.4.2, pero una prueba directa es muy simple, y daremos una prueba directa. Suponer primero que X1, X2, todas variables aleatorias no negativas. Denote An el evento N = n, y denote Bn el evento N > n para n = 1, 2,. Entonces n E S N E S n I An E X k I An E X k I An n 1 n 1 k 1 k 1 n k E X k I An E X k I Bk 1 k 1 nk k 1 (4.9) Aquí el intercambio en el orden de las sumas está justificado porque todos los sumandos son no negativos.1 La justificación del intercambio de esperanzas y sumatorias es más difícil, pero también puede ser justificado para variables aleatorias no negativas.2 Ahora Bk-1 está determinado por X1,, Xk-1 por el Lema 12.4.1, y por lo tanto Bk-1 es independiente de Xk. Se sigue que E X k I Bk 1 E X k PBk 1 Pr N k Por lo tanto, E S N Pr N k E N k 1 por el Corolario 8.1.2. Esto completa la prueba de (4.8) en el caso especial donde X1, X2, son no negativas. En el caso general, cuando X1, X2, no son supuestas no negativas por más tiempo, primero aplicamos el caso especial a X1, X2, y deducimos que la serie en (4.9) converge absolutamente. La convergencia absoluta de la serie es también suficiente para justificar el intercambio en el orden de las sumatorias y el intercambio de esperanzas y sumatorias. La prueba del Teorema 12.4.3 en el caso general entonces procede como en el caso especial. //// 1 2 Ver, por ejemplo, Apóstol (1957), p. 374. 2 3 Ver, por ejemplo, Neveu (1965), pp. 3742. 402 APLICACIONES DEL TEOREMA DE LA INTERRUPCIÓN OPCIONAL 12.5 APLICACIONES DEL TEOREMA DE LA INTERRUPCIÓN OPCIONAL Las implicaciones del Teorema 12.4.2 para juegos pueden ser resumidas como sigue: sujeto a las condiciones (4.6) uno no puede convertir una sucesión de juegos limpios en un juego favorable usando un tiempo de interrupción. En esta sección veremos cómo este principio general puede ser usado para simplificar muchos cálculos probabilísticos. Comenzamos rederivando algunos de los resultados de la Sección 11.2. EJEMPLO 12.5.1 El problema de la ruina del jugador Sea S0, S1, S2, una caminata aleatoria simple. Eso es, sean X1, X2, variables aleatorias independientes e idénticamente distribuidas las cuales toman los valores 1 y 1 con probabilidades p y q = 1 p, respectivamente, y sea Sn= X1 + + Xn para n = 1, 2,. Consideraremos a Xi como nuestra ganancia en el i-ésimo de una sucesión de juegos independientes, en cuyo caso Sn es nuestra ganancia acumulada después de n partidas. Sean a y b enteros positivos. Consideramos a como nuestro capital inicial y b como el capital inicial de nuestro oponente. Acordamos continuar jugando hasta que hayamos uno u otro ganado todo el dinero de nuestro oponente o perdido todo nuestro dinero, y requerimos la probabilidad de ganar. Sea N la duración del juego. Eso es, sea N = mínima n 1 para la cual Sn = a ó Sn = b o sea N = si tal n no existe. Mostramos en el Lema 11.2.2 que Pr (N < ) = 1. Todavía más, N satisface la condición (4.2), puesto que el evento N = n ocurre si y sólo si a < Sn < b para k = 1, , n 1 y Sn = a ó b y el último evento depende de X1,, Xn en el sentido de (4.2). Por lo tanto, N es un tiempo de interrupción con respecto a X1, X2,. Sea c = a + b. Para posterior referencia observe que SN máx (a,b) < c y N k implica Sk c (5.1) Esta observación será útil para verificar la condición (4.6). Primero consideremos el caso cuando p = ½. En este caso E(Xi) = 0, así que S1, S2, es una martingala. En vista de (5.1) y el Ejemplo 12.4.3a se sigue del Teorema 12.4.2 que E(SN) = E(S1) = 0. Denote la probabilidad que nosotros ganemos todo el dinero de nuestro oponente. Entonces = Pr (SN = b), así que E(SN) = b (1 )a por cálculo directo. Por lo tanto, la probabilidad de ganar es a ab Un argumento análogo proporcionará la E(N). Puesto que la varianza común de X1, X2, es 2 = E(Xi2) = 1, la sucesión Yn = Sn2 n, n = 1, 2, es una martingala (Ejemplo 12.2.1b). De nuevo, se sigue de (5.1), Problema 11.9, y el Teorema 12.4.2 que E(YN) = E(Y1) = 0, así que E(SN2) = E(N). Por cálculo directo, E(SN2) = b2 + (1 )a2 = ab. Por lo tanto, E(N) = MARTINGALAS 403 ab. Cuando p ½, los juegos ya no son limpios, así que la técnica usada arriba no puede parecer ser aplicable. Es, sin embargo. Nosotros tenemos que ser sólo un poco inteligentes. Sea = q/p. Entonces E X i p q 1 1 así que Yn Sn n 1,2, define una martingala por el Ejemplo 12.2.1c. Puesto que YN máx ( c, -c) y N > k implica Yk máx ( b, -a) por (5.1), se sigue del Ejemplo 12.4.3a y el Teorema 12.4.2 que E(YN) = E(Y1) = 1. También, E(YN) = b + (1 ) -a por cálculo directo. Así, 1 a 1 a b (5.2) Haciendo b en (5.2), encontramos que la probabilidad de perder contra un oponente infinitamente rico es a si p 1 2 1 si p 1 2 lim 1 b Más aún, puesto que nosotros perdemos frente a un oponente infinitamente rico si y sólo si Sn = a para alguna n = 1, 2,, tenemos Pr S n a para alguna n 1,2, 1 (5.3) si p ½. Eso es, en el lenguaje de la Sección 11.2, un paso a través de a es cierto si p ½ y a > 0. Por simetría, un paso a través de a es cierto si p ½ y a > 0. //// EJEMPLO 12.5.2 Podemos usar el Teorema 12.4.2 para calcular la distribución del tiempo del primer paso a través de a (Ejemplo 12.4.1a). Suponer p ½, y sea a un entero positivo. Entonces el tiempo del primer paso a través de a, Na = mínima n 1 para la cual Sn = a ó si tal n no existe, es un tiempo de interrupción por el Ejemplo 12.4.1a. Para referencia posterior, observamos que S Na a y N a k implica Sk a Calcularemos la función generatriz de Na. Para t > 1, tenemos la identidad (5.4) 404 APLICACIONES DEL TEOREMA DE LA INTERRUPCIÓN OPCIONAL E t X i pt qt 1 Sea = (t) = pt + qt –1, y observe que (t) > 1 para t > 1. Se sigue del Ejemplo 12.2.1c que la sucesión Yn t Sn n 1,2, n es una martingala. Por (5.4), YNa t a Na t a para t > 1, y Na > k implica Yk < ta/k ta para t > 1. Por lo tanto, las condiciones (4.6) son satisfechas, y se sigue del Teorema 12.4.2 que E( YN a ) = E(Y1) = 1. Puesto que S Na a con probabilidad 1, tenemos E Na t a (5.5) para t > 1. Ahora para 0 < s < 1, sea t 1 1 1 1 4 pqs2 2qs Entonces t es una solución del a ecuación pt + qt –1 = s, y es fácilmente verificado que t > 1. Substitución en (5.5) ahora produce E s Na 1 1 4 pqs2 2qs a (5.6) para 0 < s < 1. Así hemos encontrado la función generatriz P(s) = E( s N a ), 0 < s < 1, de la variable aleatoria Na. La función generatriz P unívocamente determina la distribución de Na (Sección 8.4.1). Por ejemplo, la esperanza de Na es E(Na) = P´(1). Después de algunos cálculos, encontramos que E(Na) = a/(p q) si p > ½ y E(Na) = si p = ½. Si a = 1, la función generatriz P puede ser expandida por el teorema binomial generalizado (Sección 1.7) como 1 12 n Ps 4 pq s 2 n1 n1 2q n para 0 < s < 1, y se sigue que MARTINGALAS Pr N1 2n 1 405 1 12 1n1 4 pqn 2q n para n = 1, 2,. Para una a general, el resultado es Pr N a 2n a a 2n a n n a p q 2n a n a para n = 1, 2,. Omitimos los detalles. //// 12.6 LA DESIGUALDAD DE LA SUBMARTINGALA Las técnicas usadas en los Ejemplos 12.5.1 y 12.5.2 se extienden a martingalas y submartingalas arbitrarias, pero en general, ellas sólo producen desigualdades. Las desigualdades (6.1) y (6.2a) de abajo son conocidas como las desigualdades de la martingala y submartingala. Teorema 12.6.1 Sea Y1, Y2, una submartingala no negativa con respecto a la sucesión X1, X2,. Entonces Pr maxYn a n k 1 E Yk a (6.1) para cualquier a > 0 y cualquier k = 1, 2,. PRUEBA Dados a y k, sea N el mínimo entero n, 1 n k, para el cual Yn a si hay tal n, y sea N = k si tal n no existe (eso es, si Yn < a para n = 1,, k). Entonces N es un tiempo de interrupción. Indudablemente, N k < ; y para n = 1,, k 1, el evento N = n ocurre si y sólo si Yn a y Yj < a para j = 1,, n 1. El último evento está determinado por Y1,, Yn, las cuales a su vez están determinadas por X1,, Xn. El evento N = k es el complemento del evento N k 1 y está por lo tanto determinado por X1,, Xk-1; y el evento N = n es imposible para n > k. Sea A el evento que el máx (Y1,, Yk) a. Entonces, por definición de N, A ocurre si y sólo si YN a. Por lo tanto, P(A) a-1E(YN) por la desigualdad de Markov (Sección 9.1). Más aún, puesto que N es un tiempo de interrupción y N k, E(YN) E(Yk) por el Teorema 12.4.1. La desigualdad (6.1) se sigue. //// Corolario 12.6.1 Entonces Sea Y1, Y2, una martingala con respecto a la sucesión X1, X2,. 406 LA DESIGUALDAD DE LA SUBMARTINGALA (6.2 a) (6.2 b) Pr max Yn a a 1 E Yk n k para a > 0 y k = 1, 2,. Si, además, E(Yk2) < , entonces Pr max Yn a a 2 E Yk n k 2 para a > 0. PRUEBA La desigualdad (6.2a) es una consecuencia del Teorema 12.6.1 y el Lema 12.3.3, el cual asegura que si Y1, Y2, es una martingala, entonces Y1, Y2, es una submartingala. La prueba de (6.2b) es semejante. //// EJEMPLO 12.6.1 La desigualdad (6.2b) contiene la desigualdad de Kolmogorov (Sección 11.6) como un caso especial. Indudablemente, si X1, X2, son variables aleatorias independientes con esperanzas E(Xk) = 0 y varianzas finitas E(Xk2) para k = 1, 2,, entonces Sn = X1 + + Xn, n = 1, 2,, define una martingala, así que Pr max S n a a 2 E S k n k por (6.2b). Por supuesto, (6.3) es la desigualdad de Kolmogorov. 2 (6.3) //// MARTINGALAS 407 12.7 PROBLEMAS NOTA: Los resultados de la Sección requieren la independencia de los resultados X1, X2,. Los problemas 12.1 a 12.5 muestran cómo construir sistemas de juego los cuales trabajan cuando los resultados exhiben un tipo particular de dependencia.1 Sea una muestra aleatoria ordenada de tamaño n extraída sin remplazo de una urna que contiene n bolas rojas y n bolas blancas. Suponer también que tú ganas el i-ésimo juego si la i-ésima bola extraída es roja y que tú pierdes de otra manera. Suponer también que te es permitido apostar cualquier cantidad entre 1 y 10 dólares en cada extracción. 12.1 Sea Xi = 1 si la i-ésima bola extraída es roja, y sea Xi = 1 de otro modo. Mostrar que Pr (Xi = 1) = ½ = Pr (Xi = 1) para i = 1,, n. Eso es, cada juego es limpio. 12.2 Suponer n = 2 y considere la siguiente estrategia. Tu apuestas w1 = 1 dólar en la primera extracción. Si la primera bola extraída es roja, entonces tu también apuestas w2 = 1 dólar en la segunda extracción; pero si la primera bola extraída es blanca, entonces tu apuestas w2 = 10 dólares en la segunda extracción. Mostrar que tus ganancias esperadas son 1.5 dólares. 12.3 Para cualquier n, uno puede emplear la siguiente estrategia. Apueste w = 10 dólares 1 4 Una aplicación más práctica de estas ideas puede ser encontrada en H. O. Thorp, “Beat the Dealer,” Blaisdell, Nueva York, 1962. 408 PROBLEMAS en aquellas extracciones que son extraídas cuando la urna contiene más bolas rojas que bolas blancas, y apueste w = 1 dólar en las otras extracciones. Calcule las ganancias esperadas que resulten de esta estrategia para: (a) n = 3 (b) n = 4 (c) n = 5 12.4 La estrategia del Problema 12.3 es, de hecho, óptima. Eso es, produce la ganancia esperada más grande. Verificar esto en el caso n = 2. 12.5 Sean X1, X2, variables aleatorias independientes con media común = 0. ¿Cuáles de las siguientes sucesiones son martingalas con respecto a X1, X2,? (a) Yn = Sn/n, n = 1, 2, (b) Yn = Sn / n , n = 1, 2, (c) Yn = X1 X2 Xn, n = 1, 2, (d) Yn = exp Sn, n = 1, 2, 12.6 Sean Y, X1, X2, variables aleatorias con las siguientes propiedades. La variable aleatoria Y tiene la distribución exponencial estándar, y para cualquier n = 1, 2, la distribución condicional de X1,, Xn dado Y = y > 0 es esa de variables aleatorias distribuidas exponencialmente, independientes con parámetro común y. Mostrar que Yn = (n + 1 )/(1 + X1 + + Xn) es una martingala con respecto a X1, X2,. Sugerencia: Calcule la E(Y X1,, Xn). 12.7 Sean X, X1, X2, variables aleatorias. Suponer que la variable aleatoria X tiene la distribución normal con media y varianza 2 y que dado X = x, X1, X2, son variables aleatorias independientes distribuidas normalmente con media x y varianza 1. Mostrar que la variable Yn = ( -2 + Sn)/(n + -2), n = 1, 2, es una martingala con respecto a las variables X1, X2,. 12.8 Sean X1, X2, variables aleatorias independientes normal estándar, y sea Sn = X1 + + Xn. Mostrar que para cualquier R, Yn() = exp (Sn (1/2)n2) es una martingala con respecto a X1, X2,. 12.9 Sea Yn() como en el Problema 12.8, y sea H cualquier función de distribución sobre R. Mostrar que Yn Yn dH es una martingala con respecto a X1, X2,. 12.10 Sean X1, X2, variables aleatorias independientes normal estándar, y sea Sn = X1 + + Xn para n 1. Mostrar que MARTINGALAS Yn exp 409 S n2 2n 2 n 1 es una martingala con respecto a X1, X2,. Sugerencia: Aplique el Problema 12.9 con H igual a la función de distribución normal estándar. 12.11 Sea N un entero positivo o una variable aleatoria valuada en infinito que está determinada como una función de una sucesión X1, X2,. Suponer también que Pr (N < ) = 1. Mostrar que N es un tiempo de interrupción con respecto a X1, X2, si y sólo si el evento N n está determinado por X1,, Xn para cada n = 1, 2,. 12.12 Sean M y N tiempos de interrupción con respecto a la misma sucesión X1, X2,. Mostrar que mín (N,M) y máx (N,M) son también tiempos de interrupción con respecto a X1, X2,. 12.13 Sean X1, X2, variables aleatorias independientes idénticamente distribuidas las cuales toman los valores 1 y 1 con probabilidades p y q = 1 p, respectivamente: ¿cuáles de las siguientes variables aleatorias son tiempos de interrupción? (a) N = mínima n 1 para la cual Xn = 1 ó si tal n no existe. (b) N = mínima n 1 para la cual Sn 10 ó si tal n no existe. (c) N = mínima n 1 para la cual Sn+1 = 0 ó si tal n no existe. Justifique sus respuestas. 12.14 Calcular E(SN) para la variable aleatoria N de la parte (a) en el Problema 12.13. 12.15 Sea Y1, Y2, una martingala, y sea N un tiempo de interrupción con respecto a la sucesión X1, X2,. Suponer también que hay una constante b para la cual Pr (Yn b) = 1 para toda n = 1, 2,. Mostrar que E(YN) E(Y1). Interprete su resultado en términos de juego. NOTA: Los Problemas 12.16 a 12.22 bosquejan una aplicación del teorema de la interrupción opcional a la teoría de la renovación. Nosotros suponemos que los eventos ocurren en el tiempo y que los tiempos entre eventos sucesivos son variables aleatorias no negativas independientes e idénticamente distribuidos X1, X2,. Nosotros también suponemos que X1 tiene una media finita positiva. El tiempo en el cual el n-ésimo evento ocurre es entonces Sn = X1 + + Xn. Una aplicación particular es para la teoría de colas, donde Sn es considerada como el tiempo en el cual el n-ésimo cliente entra a un negocio para ser servido. 12.16 Sea t > 0 y N1 = mínimo entero positivo n para el cual Sn > t ó si tal n no existe. Así, Nt 1 eventos han ocurrido por el tiempo t. Mostrar que N es un tiempo de 410 PROBLEMAS interrupción. Sugerencia: Pr (N > n) = Pr (Sn t). 12.17 Mostrar que E(Nt) es finita para cualquier t > 0. Sugerencia: Dada t, hay un entero r para la cual Pr (Sr > t) > 0; entonces Pr (N > nr) Pr (Sr t)n. 12.18 Mostrar que E(Nt) t/. Sugerencia: Use el lema de Wald. Suponer que hay una constante c para la cual Pr (X1 c) = 1. Mostrar que E(Nt) (t + c)/. 12.20 La función V definida por V(t) = E(Nt) para t > 0 es conocida como la función de renovación. Calcule V(t) en el caso especial donde X1 tiene la distribución exponencial con parámetro > 0. Suponer que hay una constante c para la cual Pr (X1 c) = 1. Mostrar que V(t) t -1 cuando t . 12.22 Mostrar que V(t) puede también ser escrita en la forma V t n0 PrSn t . 12.23 Sea Y1, Y2, una martingala no negativa con esperanza común E(Yn) = 1. Mostrar que Pr (Yk > a para alguna k 1) 1/a para a > 1. 12.24 Sean X1, X2, variables aleatorias independientes normal estándar, y sea Sn = X1 + + Xn para n 1. Además, sea cn(a)2 = (n + 1)[a2 + log (n + 1)] para n 1. Mostrar que 2 Pr (Sn cn(a), para alguna n 1) e a 2 . Sugerencia: Use los Problemas 12.23 y 12.10. 13 13 APÉNDICES 13.1 APÉNDICE A. TEORÍA DE CONJUNTOS Un conjunto A es una colección de objetos o elementos a. La notación a A significa que a es uno de los elementos que constituyen A. Dos conjuntos son iguales si y sólo si ellos contienen los mismos elementos. Eso es, A = B si y sólo si a A si y sólo si a B. Definimos un conjunto especificando cuáles son elementos de A y cuáles no. Por ejemplo, definimos un conjunto Z especificando que Z contiene todos los enteros no negativos. Análogamente, definimos otro conjunto R especificando que R contiene todos los números reales. La notación Z y R se reserva para estos dos conjuntos a través de este apéndice. Algunos mecanismos notacionales útiles para especificar conjuntos son los siguientes. Si a1,, an son objetos, entonces {a1,, an} denotará el conjunto cuyos elementos son a1,, an. También, si A es un conjunto, y si (a) es una proposición que es verdadera o falsa para cualquier a A, entonces {a A: (a)} denotará el conjunto de aquellos elementos a A para los cuales (a) es verdadera. Por ejemplo, {0,1,2,3,4} denota el conjunto cuyos elementos son los enteros 0, 1, 2, 3, y 4. Este conjunto puede también ser escrito {a Z: a 4}. Usaremos la siguiente notación para intervalos. Para números reales a y b con a < b, sea 412 APÉNDICE A. TEORÍA DE CONJUNTOS (a ,b) {x R : a x b} (a ,b] {x R : a x b} [a ,b) {x R : a x b} [a ,b] {x R : a x b} (a,b) será denominado el intervalo abierto de a a b; (a,b] será denominado el intervalo abierto por la izquierda y cerrado por la derecha de a a b; [a,b) será denominado el intervalo cerrado por la izquierda y abierto por la derecha de a a b; y [a,b] será denominado el intervalo cerrado de a a b. Usamos (a,b) para denotar tanto al intervalo abierto desde a hasta b como al par ordenado cuya primer componente es a y cuya segunda componente es b. El significado de la notación (a,b) siempre será claro del contexto en la cual sea usada. Si A y B son conjuntos, decimos que A es un subconjunto de B y escribimos A B si y sólo si a A implica a B. Por ejemplo, Z R. Note que A = B si y sólo si A B y B A. Hay un conjunto distinguido , denominado el conjunto vacío. Este conjunto no contiene elementos y es subconjunto de cualquier otro conjunto. Si A y B son conjuntos, entonces el conjunto B A = {a B: a A} es denominado la diferencia. Es también conocido como el complemento de A con respecto a B. Cuando no hay peligro de confusión, la frase calificadora “con respecto a B” será omitida y escribiremos A´ para B A. Si A y B son conjuntos, definimos su unión e intersección A B y A B como sigue: A B consiste de todos los objetos a para los cuales a A ó a B, o ambas; y A B consiste de todos los objetos a para los cuales a A y a B. La notación AB también será usada para A B. Por ejemplo, si A = {0,1,2,3,4} y B = {3,4,5,6,7}, entonces A B = {0,,7} y A B = {3,4}. En general, si I es un conjunto y si Ai es un conjunto para cada i I, entonces definimos la unión e intersección de la colección Ai, i I, como sigue. La unión I Ai consiste de todos los objetos a para los cuales a Ai para algún i I; y la intersección I Ai consiste de todos los objetos a para los cuales a Ai para toda i I. Si I = 1, 2,, n es el conjunto de los primeros n enteros, entonces escribiremos n Ai i 1 n y Ai i 1 I Ai e I Ai , respectivamente. Análogamente, si I = {1,2,} consiste de todos los enteros positivos, entonces escribiremos i1 Ai e i1 Ai para I Ai e I Ai . Si hay un para conjunto más grande S para el cual Ai S para toda i I, y si denotamos el complemento con respecto a S por una prima, entonces tenemos las leyes de De Morgan: APÉNDICES ( Ai ) Ai I I y 413 ( Ai ) A I I Si A y B son conjuntos, definimos el producto cartesiano de A y B como el conjunto de todos los pares ordenados (a,b) con a A y b B. El producto cartesiano será denotado por A B. Más aún, si A1,, An son conjuntos, entonces definimos el producto cartesiano de A1,, An como el conjunto de todas las n-adas ordenadas (a1,, an) con ai Ai para i = 1,, n. El producto cartesiano de A1,, An será denotado por A1 An. En el caso especial en que todos los conjuntos A1,, An sean el mismo, digamos Ai = A, i = 1,, n, denotaremos A1 An por An. Un caso especial importante ocurre cuando Ai = R, el conjunto de todos los números reales, para i = 1,, n. En este caso Rn consiste de todas las n-adas ordenadas (x1,, xn) de números reales. Referiremos a Rn como el espacio euclidiano n-dimensional. 414 APÉNDICE B. INTEGRACIÓN 13.2 APÉNDICE B. INTEGRACIÓN En este apéndice presentamos la integral Riemann-Stieltjes. Puesto que la integral de Riemann común es un caso especial de la integral Riemann-Stieltjes, este apéndice también puede servir como una revisión de los elementos de integración. Pruebas de las aseveraciones no probadas en este apéndice pueden encontrarse en Apóstol (1957), cap. 9. Sean a y b números reales con a < b. Por una partición del intervalo [a,b] entendemos un conjunto finito P = {x0,x1,,xn}, donde a = x0 < x1 < < xn = b. Si P y Q son dos particiones de [a,b], diremos que P es un refinamiento de Q si y sólo si Q P. Si P1 y P2 son cualesquiera dos particiones, entonces la unión P = P1 P2 es un refinamiento de ambas P1 y P2. Definimos la norma de una partición P para ser P = máx {xi xi –1: i = 1,, n}. Si para cualquier partición P de [a,b], s(P) es un número real que está determinado por P, entonces diremos que s(P) converge a s0 cuando P se hace infinitamente fina si y sólo si para cualquier > 0 hay una partición P para la cual s(P) s0 siempre que P sea un refinamiento de P. En este caso escribiremos s0 = lim s(P). Ahora sean F y g funciones acotadas que están definidas sobre [a,b,]. Si P {x0 , x1,, xn } es una partición de [a,b,], y si xi –1 ti xi para i = 1,, n, entonces podemos formar la suma APÉNDICES 415 n sF ( P, g ) g( ti )[ F ( xi ) F ( xi1 )] i 1 Por supuesto, sF(P,g) depende de t1,, tn también como de F, P, y g. Si lim sF(P,g) existe cuando P se hace infinitamente fina, y si el límite es independiente de la selección de t1,, tn, entonces diremos que g es integrable (Riemann-Stieltjes) con respecto a F sobre [a,b,], y definimos la integral (Riemann-Stieltjes) de g con respecto a F sobre [a,b,] para ser a g dF lim s F P , g b (B.1) La notación a g x dF x también será usada para la integral. b En el caso especial cuando F(x) = x para a x b, diremos que g es integrable sobre [a,b] y escribiremos a g x dx a g d F b b Puede ser demostrado que si g es continua y F es no decreciente sobre [a,b], entonces g es integrable con respecto a F sobre [a,b]. En particular, si g es continua sobre [a,b], entonces g es integrable sobre [a,b]. Los siguientes resultados son para ser anticipados. Teorema B.1 Sean g1 y g2 integrables con respecto a F sobre [a,b], y sean 1 y 2 constantes. Entonces g = 1g1 + 2g2 es integrable con respecto a F sobre [a,b] y a g dF 1 a g1 dF 2 a g 2 dF b b b Teorema B.2 Sea g integrable con respecto a F1 y F2 sobre [a,b], y sean 1 y 2 constantes. Entonces g es integrable con respecto a F = 1F1 + 2F2 sobre [a,b] y a g dF 1 a g dF1 2 a g dF2 b b b Teorema B.3 Sea g integrable con respecto a F sobre [a,b]. Si a < c < b, entonces g es integrable con respecto a F sobre [a,c] y [c,b]. Además, a g dF a g dF c g dF b Teorema B.4 c b Sea F no decreciente sobre [a,b], y sean g y h integrables con respecto 416 APÉNDICE B. INTEGRACIÓN a F sobre [a,b]. Si g(x) h(x) para a x b, entonces a g dF a h dF b b EJEMPLO B.1 a Sea F0(x) = 0 para x < 0, y sea F0(x) = 1 para x 0. Si a < 0 < b, y si g es cualquier función continua sobre [a,b], entonces a g dF g 0 b (B.2) De hecho, dada > 0, hay una > 0 para la cual g(x) g(y) siempre que a x b, a y b, y x y . Sea P cualquier partición de norma P , y sea P cualquier refinamiento de P. Escriba P = {x0, x1,, xn} y seleccione i de modo que xi–1 < 0 xi; además, sea xi–1 < ti xi para i = 1,, n. Entonces puesto que F(xj) F(xj-1) = 0 para j i, tenemos s F0 P , g g ti ; más aún, puesto que ti , también tenemos g(ti) g(0) . Ecuación (B.2) se sigue. b Sean 1,,n y t1,, tn cualesquiera constantes con a < t1 < t2 < < tn < b. Entonces la función F definida por F ( x ) i F0 x ti n i 1 para a x b es una función escalera con saltos de altura i en los puntos ti para i = 1,, n. Por el Teorema B.2, Ejemplo B.1a, y traslación tenemos a g dF i g ti b n i 1 para cualquier función continua g sobre [a,b]. //// Diremos que F es continuamente diferenciable sobre [a,b] si F´ existe y es continua sobre (a,b) y, en adición, F´(x) se aproxima a un límite finito cuando x a ó x b. EJEMPLO B.2 Suponer que F es continuamente diferenciable sobre [a,b]. Sea f = F´. Si g es cualquier función sobre [a,b] para la cual fg es integrable sobre [a,b], entonces g es integrable con respecto a F sobre [a,b] y APÉNDICES a g dF a fg dx b b 417 (B.3) En particular, (B.3) se cumple si g es continua sobre [a,b]. De hecho, si P = {x0, x1,, xn} es cualquier partición de [a,b], podemos escribir F(xi) F(xi-1) = f(si)(xi xi-1) con xi-1 < si < xi para i = 1,, n por el teorema del valor medio. Así si xi-1 ti xi, i = 1,, n, entonces s F P , g g t i f si xi xi 1 n i 1 f t i g t i xi xi 1 g t i f si f t i xi xi 1 n n i 1 i 1 (B.4) Ahora cuando P se hace infinitamente fina, la primera sumatoria en (B.4) se aproxima a b a fg dx , por hipótesis, y la última converge a 0 por la supuesta continuidad de f. Por tanto, lim s F P , g a fg dx b como se aseveró. //// Otros dos teoremas de interés dan las fórmulas para la integración por partes y cambio de variables. Teorema B.5 Sea g integrable con respecto a F sobre [a,b]. Entonces F es integrable con respecto a g sobre [a,b], y a g dF a F dg F bg b F a g a b b Teorema B.6 Sea g integrable con respecto a F sobre [a,b]. Además, sea h una función creciente sobre un intervalo [,] con h() = a y h() = b. Finalmente, sean f x g hx y Gx F hx para x . Entonces f es integrable con respecto a G y b f dG a g dF Corolario B.1 Sean las hipótesis del Teorema B.6 satisfechas con F(x) = x, a x b, y sea h continuamente diferenciable sobre [,]. Entonces 418 APÉNDICE B. INTEGRACIÓN a g dx g hx hx dx b PRUEBA El corolario se sigue del Teorema B.6 y el Ejemplo B.2 tomando F(x) = x, a x b. //// Suponer que g tiene una discontinuidad infinita en un punto c y que g es integrable con b respecto a F sobre [a,b] para cualquier b < c. Si a g dF se aproxima a un límite finito cuando b c, y si F es continua en c, decimos que g es integrable impropiamente con respecto a F sobre [a,c] para ser a g dF lim g dF bc a c b (B.5) b La integral c g dF está definida análogamente cuando g tiene una discontinuidad infinita en c, y g es integrable con respecto a F sobre [a,b] para cualquier a > c. Si g tiene una c b discontinuidad infinita en c, y si a g dF y c g dF están ambas definidas, donde a < c < b, entonces decimos que g es integrable impropiamente sobre [a,b] y definimos la integral impropia de g con respecto a F sobre [a,b] para ser a g dF a g dF c g dF b c b Ahora extendemos la definición de la integral a intervalos infinitos de integración. Sea g una función real que está definida sobre el intervalo [a,), y suponer que g es integrable b con respecto a F sobre [a,b] para cualquier b > a. Si a g dF se aproxima a un límite finito cuando b , decimos que g es integrable impropiamente con respecto a F sobre [a,), y definimos la integral impropia de g con respecto a F sobre [a,) para ser b g dF a g dF blim a a (B.6) a Integrales de la forma g dF se definen de manera semejante. Si ambas g dF y a g dF están definidas, entonces decimos que g es integrable impropiamente con respecto a F sobre (,) y definimos a g dF g dF a g dF (B.7) APÉNDICES 419 Si g es integrable impropiamente con respecto a F sobre (,), entonces decimos que la integral en el lado izquierdo de (B.7) converge absolutamente. Los Teoremas B.1 a B.4 permanecen válidos si el término “integrable” es reemplazado por “integrable impropiamente” a través de ellos. Esto puede ser visto tomando límites. 420 APÉNDICE C. TABLAS 13.3 APÉNDICE C. TABLAS Tabla C.1 LAS PROBABILIDADES BINOMIALES b(k;n,p) p n k 0.10 0.20 0.30 0.40 0.50 2 0 1 2 0 1 2 3 0 1 2 3 4 0 0.810 0.180 0.010 0.729 0.243 0.027 0.001 0.656 0.292 0.049 0.004 0.000 0.590 0.640 0.320 0.040 0.512 0.384 0.096 0.008 0.401 0.401 0.154 0.026 0.002 0.328 0.049 0.420 0.090 0.343 0.441 0.189 0.027 0.240 0.412 0.265 0.076 0.008 0.168 0.360 0.480 0.160 0.216 0.432 0.288 0.064 0.130 0.346 0.346 0.154 0.026 0.078 0.250 0.500 0.250 0.125 0.375 0.375 0.125 0.063 0.250 0.375 0.250 0.063 0.031 3 4 5 APÉNDICES Tabla C.1 LAS PROBABILIDADES BINOMIALES b(k;n,p) p n 6 7 8 k 0.10 0.20 0.30 0.40 0.50 1 2 3 4 5 0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 8 0.328 0.073 0.008 0.000 0.000 0.531 0.354 0.098 0.015 0.001 0.000 0.000 0.478 0.372 0.124 0.023 0.003 0.000 0.000 0.000 0.430 0.383 0.149 0.033 0.005 0.000 0.000 0.000 0.000 0.410 0.205 0.051 0.006 0.000 0.262 0.393 0.246 0.082 0.015 0.002 0.000 0.210 0.367 0.275 0.115 0.029 0.004 0.000 0.000 0.168 0.336 0.294 0.147 0.046 0.009 0.001 0.000 0.000 0.360 0.309 0.132 0.028 0.002 0.118 0.303 0.324 0.185 0.060 0.010 0.001 0.082 0.247 0.318 0.227 0.097 0.025 0.004 0.000 0.058 0.198 0.296 0.254 0.136 0.047 0.010 0.001 0.000 0.259 0.346 0.230 0.077 0.010 0.047 0.187 0.311 0.276 0.138 0.037 0.004 0.028 0.131 0.261 0.290 0.194 0.077 0.017 0.002 0.017 0.090 0.209 0.279 0.232 0.124 0.041 0.008 0.001 0.156 0.313 0.313 0.156 0.031 0.016 0.094 0.234 0.313 0.234 0.094 0.016 0.008 0.055 0.164 0.273 0.273 0.164 0.055 0.008 0.004 0.031 0.109 0.219 0.273 0.219 0.109 0.031 0.004 421 422 APÉNDICE C. TABLAS Tabla C.1 LAS PROBABILIDADES BINOMIALES b(k;n,p) p n k 0.10 0.20 0.30 0.40 0.50 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 10 0.387 0.387 0.172 0.045 0.007 0.001 0.000 0.000 0.000 0.000 0.349 0.387 0.194 0.057 0.011 0.001 0.000 0.000 0.000 0.000 0.000 0.134 0.302 0.302 0.176 0.066 0.017 0.003 0.000 0.000 0.000 0.107 0.268 0.302 0.201 0.088 0.026 0.006 0.001 0.000 0.000 0.000 0.040 0.156 0.267 0.267 0.172 0.074 0.021 0.004 0.000 0.000 0.028 0.121 0.233 0.267 0.200 0.103 0.037 0.009 0.001 0.000 0.000 0.010 0.060 0.161 0.251 0.251 0.167 0.074 0.021 0.004 0.000 0.006 0.040 0.121 0.215 0.251 0.201 0.111 0.042 0.011 0.002 0.000 0.002 0.018 0.070 0.164 0.246 0.246 0.164 0.070 0.018 0.002 0.001 0.010 0.044 0.117 0.205 0.246 0.205 0.117 0.044 0.010 0.001 10 APÉNDICES Tabla C.2 LAS PROBABILIDADES POISSON p(k;) k 0.5 1 2 3 4 5 0 0.607 0.368 0.135 0.050 0.018 0.007 1 0.303 0.368 0.271 0.149 0.073 0.034 2 0.076 0.184 0.271 0.224 0.147 0.084 3 0.013 0.061 0.180 0.224 0.195 0.140 4 0.002 0.015 0.090 0.168 0.195 0.175 5 0.003 0.036 0.101 0.156 0.175 6 0.001 0.012 0.050 0.104 0.146 7 0.003 0.022 0.060 0.104 8 0.001 0.008 0.030 0.065 9 0.003 0.013 0.036 10 0.001 0.005 0.018 0.002 0.008 0.001 0.003 0.001 423 424 APÉNDICE C. TABLAS Tabla C.3 LA FUNCIÓN DE DISTRIBUCIÓN NORMAL ESTÁNDAR x (x) x (x) x (x) 0.00 0.500 1.05 0.853 2.05 0.980 0.05 0.520 1.10 0.864 2.10 0.982 0.10 0.540 1.15 0.875 2.15 0.984 0.15 0.560 1.20 0.885 2.20 0.986 0.20 0.579 1.25 0.894 2.25 0.988 0.25 0.599 1.30 0.903 2.30 0.989 0.30 0.618 1.35 0.911 2.35 0.991 0.35 0.637 1.40 0.919 2.40 0.992 0.40 0.655 1.45 0.926 2.45 0.993 0.45 0.674 1.50 0.933 2.50 0.994 0.50 0.691 1.55 0.939 2.55 0.995 0.55 0.709 1.60 0.945 2.60 0.995 0.60 0.726 1.645 0.950 2.65 0.996 0.65 0.742 1.70 0.955 2.70 0.997 0.70 0.758 1.75 0.960 2.75 0.997 0.75 0.773 1.80 0.964 2.80 0.997 0.80 0.788 1.85 0.968 2.85 0.998 0.85 0.802 1.90 0.971 2.90 0.998 0.90 0.816 1.95 0.974 2.95 0.998 0.95 0.829 1.96 0.975 3.00 0.999 1.00 0.841 2.00 0.977 APÉNDICES 425 13.4 APÉNDICE D. REFERENCIAS APOSTOL, T.: ”Mathematical Analysis,” Addison-Wesley, Reading, Mass., 1957. ARROW, K., S. KARLIN, y H. SCARF (eds.): “Studies in the Mathematical Theory of Inventory and Production,” Stanford University Press, Stanford, Calif., 1958. _____, _____, y _____ (eds.): “Studies in Applied Probability and Management Science,” Stanford University Press, Stanford, Calif., 1962. BEYER, W.: “CRC Handbook of Tables for Probability and Statistics,” Chemical Rubber, Cleveland, 1966. BLACKWELL, D., y M. GIRSHICK: “Theory of Games and Statistical Decisions,” Wiley, New York, 1954. BALCKWOOD, O., T. OSGOOD, y A. RUARK: “An Outline of Atomic Physics,” Wiley, New York, 1957. COCHRAN, W. G.: “Sampling Techniques,” Wiley, New York, 1963. CONSTANT, F. W.: “Theoretical Physics,” Addison-Wesley, Reading, Mass., 1958. DAVID, F. N.: “Games, Gods, and Gambling: The Origins and History of Probability and Statistical Ideas from the Earliest Times to the Newtonian Era,” Hafner, New York, 1962. DE FINETTI, B.: Probabilidad: Interpretación en “International Encyclopedia of the Social Sciences,” vol. 12, pp. 496-504, Free Press, New York, 1968. DEGROOT, M. H.: “Optimal Statistical Decisions,” McGraw-Hill, New York, 1970. 426 APÉNDICE D. REFERENCIAS ESTES, W. K.: El Enfoque Estadístico a la Teoría del Aprendizaje, en S. Koch (ed.), “Psychology: A Study of Science,” vol. 2, McGraw-Hill, New York, 1959. FELLER, W.: “An Introduction to the Theory of Probability and Its Applications,” vol. 2, Wiley, New York, 1966. _____: “An Introduction to the Theory of Probability and Its Applications,” 3a ed., vol. 1, Wiley, New York, 1968. HOGG, R., y A. CRAIG: “Introduction to Mathematical Statistics,” Macmillan, New York, 1970. KARLIN, S.: “A First Course in Stochastic Processes,” Academic, New York, 1966. NEVEU, J.: “Mathematical Foundations of the Calculus of Probability,” trans. A. Feinstein, HoldenDay, San Francisco, 1965. PARZEN, E.: “Modern Probability Theory and Its Applications.” Wiley, New York, 1960. RIORDEN, J.: “An Introduction to Combinatorial Analysis,” Wiley, New York, 1958. RUDIN, W.: “Principles of Mathematical Analysis,” 2a ed., McGraw-Hill, New York, 1964. SELBY, S.: “Standard Mathematical Tables,” 14ava ed., Chemical Rubber, Cleveland, 1965. SMOKLER, H. E., y H. E. KYBURG, JR. (eds.): “Studies in Subjective Probability,” Wiley, New York, 1964. THOMAS, G. B., JR.: “Calculus and Analytical Geometry,” alt. Ed., Addison-Wesley, Reading, Mass., 1972. TODHUNTER, I.: “A History of the Mathematical Theory of Probability from the Time of Pascal to That of Laplace,” Macmillan, London, 1865. TUCKER, H.: “A graduate Course in Probability,” Academic, New York, 1967. APÉNDICES 427 13.5 APÉNDICE E. RESPUESTAS A PROBLEMAS SELECCIONADOS Capítulo 1 1.1 (a) S (H, H ),( H, T),(T,H), (T,T); S {( H, H, H), (H, H, T),(H, T,H), (T,H, H), (T,T,H), (T,H, T),(H, T,T),(T,T,T)}; (c) S x, y : x y y son enteros,1 x 52,1 y 52, y x y 1.2 (a) 4;8, (c) 52 51 = 2652 1.6 264 1.8 10 9 1.14 (a) , (b) 10 4 3 1.4 (a) 107, (b) (10)7 1.20 (a) 3 1 ; 8 2 1.10 10 2 (4) 2 (13) 2 13(4) 2 4(13) 2 ,(b) , (c ) ,(d ) (52) 2 (52) 2 (52) 2 (52) 2 1.24 No; la probabilidad que al menos un estudiante será seleccionado más de una vez es 1 (10)5 105 = 0.6976. 4 48 4 48 4 48 4 48 2 11 2 11 3 10 4 9 , (b) 1.26 (a) 52 52 13 13 428 APÉNDICE E. RESPUESTAS A PROBLEMAS SELECCIONADOS 6 4 6 4 6 4 2 1 2 1 3 0 , (b) 1.32 (a) 10 10 3 3 13 1.28 1.34 4 52 13 5 1 1.40 2 2 17 70 5 2 3 13 39 2 13 394 1.42 (a) 5 , (b) 52 525 1.44 2 3 3 1 (4) 3 (4) (4) 2 2 , (b) , (c ) 3 (6) 3 (6) 3 (6) 3 1.48 (a) 161 , (b) 165 1.46 Al menos 1 seis en 6 lanzamientos 5 5 5 4 3 2 3 1.50 (a) , (b) 9 9 9 6 6 6 2 1.52 m r 1 n m k r 1 r k r n k 1 k Capítulo 2 2.2 (a) S [0,) {x R : 0 x }, (b) S (0,) 2.7 (a) AB C, (b) A ( B C), (c) ( A B) AB, (d ) A [(B C) BC] 2.10 e 1 ; (2.5)e 1 1 2.12 14 e4 e 2.16 e 1 2.14 (a) 101 , (b) 53 4 1 ; 5 10 2.20 1 90 90 10 90 10 10 1 9 , (b) 1 2.24 1 100 100 10 10 2.26 (39) 2 (52) 21 (39)8 (52)81 13 52 2.30 1 4 5 5 5 2.28 2 j 1 36 1 2.32 54% APÉNDICES 13 13 39 4 k 7 k 13 k 2.34 52 13 13 39 4 13 4 6 7 2 6 2.42 52 13 2.40 2 39 4 13 52 13 26 1 Capítulo 3 3.2 (a) 3.6 3 2 (5) 2 3 2 (5) 2 , (b) (8) 3 (8) 3 13 5 26 5 3.4 3.8 10 2 47 2 4 1 3.16 4 4 k 1 k 4 6 4 2 4 k 4 4 2 , (b) k 2 k ,2,4 k (a) 4 6 6 5 5 6k k 2 k 3.12 20 45 3.18 (a) 0.75, (b) 0.25 13 13 39 9 4 4 5 4 1 47 3.20 52 5 n k 1 3 k 4 3.24 (a) k 1 , (b) n 1 3 4 para k 1 y n 1 k2 3.38 k 1 6 3.36 0.38, (b) 0.38 3.42 P( A ) 0 o 1 3.48 5 9 441 3.40 2 7 3.44 A y B son independientesen (a) 429 430 APÉNDICE E. RESPUESTAS A PROBLEMAS SELECCIONADOS Capítulo 4 4 k 4.2 4 5 13 k 2 2 18 18 4.8 10 10 10 (0.85) 8 (0.15) 2 , (b) (0.85) k (0.15)10k 0.95 k 7 k 8 4.10 4! 44 4.13 1 1 1 ; ; 4 2 4 k 4 4.6 8 3 1 k 6 k 4 4 k 8 8 k 0.6785 n k n k 1 2 para k n n 4.12 4.14 4.22 (r 1) / (k 1) 6 6 2 3 4.15 4 2 6 1 1 2,2,2 4 2 4.24 1 10 k 0 p(k ;2 5) 4.30 n 96 4.34 Sí; si el dado estuviera balanceado, la probabilidad de obtener al menos 2500 ases sería aproximadamente 1 (1225) < 0.001. Capítulo 5 5.4 1 1 arcsen 0.5 2 5.5 X (s1 , s 2 ) s12 s 22 , (b)Pr ( X r ) r 2 13(39) x 1 5.10 f ( x) (52) x 0 x 1,2, ,40 de otro modo 1 x 1,2, 5.14 f ( x) x( x 1) 0 de otro modo 5.16 0.328;al menos 5.30 1 log 100 log 0.8 (arctan3 arctan1) 0 x0 5.40 F ( x) x 0 x 1 1 x 1 5.18 2.5e 1 5.24 (a) c 83 , (b) c 12 5.32 (a) 0.3, (b) 0.3 5.42 1 f ( x) 2 x 0 0 x 1 de otro modo APÉNDICES 431 5.44 P( X 1) 0.08; P( X 2) 0.323 5.48 a 480.4; b 519.6 5.54 m 1 1 Capítulo 6 6.6 (b) g ( x) xe x para x > 0 y g(x) = 0 para x 0, h( y) e y , y , (c) no, X y Y no son independientes. 6.9 No 6.14 Pr (X = a, Y = b) 6.18 X tiene la función de distribución Cauchy unidimensional, y (X,Y) tiene la función de distribución Cauchy bidimensional. 12(1 x) 2 0 w x 1 de otro modo 0 6.22 (a) g (w, x) 12 y 2 0 y z 1 h( y , z ) de otro modo 0 (b) no 6.24 (a) Multinomial con parámetros n y p1 ,, p6 , (b) binomial con parámetros n y p1 p2 p3 , (c) multinomial con parámetros n y p1 p2 p3 , p4 , p5 , p6 . 6.32 1 2 Capítulo 7 7.5 7.6 1 Tanto Y como Z tienen densidad f ( x) 1 x 2 0 1 1 / 1 x 0 x 1 f ( x) 0 de otro modo 7.8 ( X ) tiene la distribución uniforme sobre (0,1) 7.10 g ( y) 1 1 y 2 1 exp 2 2y 2 7.14 g ( y) (e 1)e y , y 0,1,2, y cosh y0 2 1 x 1 de otro modo 432 APÉNDICE E. RESPUESTAS A PROBLEMAS SELECCIONADOS 7.20 f1 ( y) neny , y 0; f 2 ( y) ne y (1 e y ) n1 , y 0 ; f ( y1 , y 2 ) n(n 1)(e y1 e y2 ) n2 e y1 y2 , 0 y1 y 2 7.24 g ( y) 1 y , 1 y 1 Capítulo 8 8.2 0 8.4 161 36 8.6 8.8 k/(n + 1) 8.12 8.16 (a) k/n, (b) n(1 1/n)k 8.20 1 0; 12 1 4 8.24 0; 2 2 2 8.22 1 kj 1 ( N j 1) 1 1 ( 1 ) 8.26 (a) 1 (b) 2 para 2 ( 1 )2 ( 2 ) 0 1 8.28 2(n 1) n 1 2 ; n 1 (n 2)(n 1) 2 i2 8.32 i n 2 j 1 j 8.42 (a) s q p nqp 8.30 2 8.34 1 e 1 ;k 8.36 Marca A 1 6 pq 1 1 , (b) s ; k , (c) s 0; k 1.2 , npq (e) s 2; k 6 8.44 (a) M (t ) 8.50 f ( x) 2 t 2 2 , t 8.46 Pr (X = 1) = 1 2 = Pr (X = 1) 1 2 (e 2 x e 1x ) para x 0 1 2 (a) f k (n) k p k , (b) f k k!q k 1 p k , (c) f k k 8.56 (n 1) j 1 j 1 8.58 12 Capítulo 9 9.2 (a) Pr ( X p 0.1) 100 pq , (b) n 500 n 8.62 2 2 2 2 APÉNDICES 433 9.16 0.996 9.18 (a) Pr ( X p 0.1) 21 - 0.1 n , (b) n 96 pq 9.20 0.774 9.22 lim Pr (Z n z) 1 e z para z 0 n Capítulo 10 1 y 10.4 Pr ( X x Y y) , x y 1, , 2 y 1 10.6 g ( x y) 2 10.8 g ( x y) 1 y2 1 x 2 y2 3 , x ( ) x 1 (1 x y ) 1 , para 0 x 1 y 1 ( )( ) (1 y ) 1 10.10 (a) normal con media (½)z y varianza ½, (b) normal con media x y varianza 1. 10.12 h( y ) ( )( y 1) para y 1, 2, ( )( y ) 10.14 h( y ) ( y) para y 0,1, 2, y!( )(1 ) y 10.16 h( y ) 1 para 0 y 2 max (1, y ) 2 10.18 g ( x y) 2 max (1, y) 2 / x 3 para x max (1, y) 10.20 Sea arcsen 0.5 ; la distribución condicional de X es uniforme sobre el conjunto 4 finito {, (1/4) , (½ ) + , (3/4) }. 10.22 10.28 1 x2 (1 x) (1 x) 2 ; ( ) 2 ( 1) 10.26 (y + 1)2- y y2 y 1 10.30 10.32 2 1 ( 1) 2 ( 2) 10.38 (N x1 xm)s y (N x1 xm)s(1 s), ; mz mn 10.36 a r D(Y ) ; b E (Y ) aE( X ) D( X ) 434 APÉNDICE E. RESPUESTAS A PROBLEMAS SELECCIONADOS donde s q1 q1 q n r 1 10.40 rk k´p y k pq , donde r = r1 + + rn, p 10.42 h( y1 , y 3 y 2 ) 10.46 ( y) 10.48 ( y ) 10.50 1 para 0 y1 y 2 y 3 1 y 2 (1 y 2 ) y ; t ( t) 2 y2 ( y) 2 ny 2 n r1 r2 yq=1p r 13 ÍNDICE ÍNDICE Análisis combinatorio .........................3–10 Aprendizaje teoría matemática de ...........................97 Arrow, K. ......................................277, 425 Asimetría ...............................................282 Biometrika ...............................................34 Blackwell, D. ................................347, 425 Bridge7, 10, 39, 42, 71, 78, 95, 99, 103, 106, 127 Caminatas aleatorias .......................353–54 Centro de gravedad ...............................281 Cochran, W. G. .....................................425 Cociente señal-a-ruido ..........................281 Cocientes de variables aleatorias240, 246, 224–25 Coeficiente de correlación ..............268–74 de valor absoluto uno271, 273, 308, 322, 328 e independencia ................ 186, 270, 271 Coeficientes binomiales ..... 8, 9, 16, 32, 33 generalizados ...................................... 33 Coeficientes multinomiales .................... 10 Combinaciones ................. 4, 6, 10, 38, 282 Combinaciones de Eventos .............. 59–62 Conjuntos de Borel ........................... 49, 52 Control de calidadVéase Muestreo de aceptación Convergencia con probabilidad uno308, 363, 364, 365, 367, 368, 373, 374, 375, 376, 377, 384, 385, 404 en probabilidad ......................... 289, 367 Convergencia con probabilidad uno ... 365– 68 Convergencia en probabilidad ........ 367–68 Convoluciones ...................... 214, 216, 217 436 ÍNDICE Convoluciones de densidades ......... 215–16 Convoluciones de funciones de masa . 214– 17 Covarianza ............ 268, 269, 270, 274, 284 Craig, A. ....................................... 236, 426 Curtosis ................................................. 282 David, F. N. .................................... 34, 425 De Finetti, B. .................................. 66, 425 Degroot, M. H. ........................ 66, 347, 425 Densidades bivariadas .......... 177, 178, 181, 184, 185 condicionales .................... 314, 334, 335 convoluciones de .............................. 215 e independencia .......................... 185–87 marginales184, 186, 191, 198, 199, 200, 222, 223, 225, 231, 241, 313, 314, 315, 316, 320, 322, 323, 324, 325, 333, 335, 336, 339, 181–83, 190–91 multivariadas, conjunta ..................... 189 Sucesiones consistentes de ......... 393–94 univariadas .................. 178, 382, 143–45 Dependencia Markoviana ..................... 347 Descomposición radioactiva112, 280, 195–96, 232–36 vida media................................. 163, 233 Descomposición radioactiva: ............ Véase Distribución exponencial; Distribución gama; Distribución Poisson Desigualdad de Chebyshev285, 286, 290, 292, 293, 296, 308, 310, 368, 285–87 Desigualdad de Kolmogorov368, 374, 406, 368–69 Desigualdad de Levy ...... 369, 378, 369–72 Desigualdad de Markov285, 286, 287, 308, 405 Desigualdad de Minkowski .................. 279 Desigualdad de Schwarz270, 279, 280, 293, 400 Desviación estándar254, 257, 281, 296, 297 Diferencias de eventos: .... Véase Eventos, álgebra de de variables aleatorias ................ 224–26 Distribución beta densidad ...................................... 149–51 media y varianza .............................. 258 moda ................................................. 164 momentos ......................................... 259 relación a la distribución binomial ... 213 relación a la distribución gama .. 222–23 y estadísticos de orden ..................... 213 Distribución beta-binomial320, 332, 340– 41 Distribución binomial aproximación normal ................... 22–23 aproximación Poisson .................. 101–3 derivación ..................... 116–26, 110–13 función generatriz de momentos ...... 265 función masa .................................... 141 media y varianza .............................. 265 miscelánea ............................ 171, 103–4 moda ................................................. 173 relación a la distribución hipergeométrica ................ 26, 42, 328 tablas para ........................................... 25 Distribución binomial negativa derivación ..................................... 107–9 función generatriz de momentos ...... 260 media y varianza .............................. 261 relación a la distribución gama ........ 131 Distribución Cauchy bivariada ........................... 198, 350, 431 densidad .... 146, 158, 198, 200, 238, 348 función de distribución ..................... 157 no existencia de la media ................. 245 Distribución Dirichlet densidad ............................................ 200 densidades condicionales ................. 349 densidades marginales ...................... 200 media y varianza condicional ........... 350 ÍNDICE relación a la distribución gama .........241 Distribución doble exponencial ............174 como distribución de valor extremo .307 Distribución exponencial como una distribución gama .............149 densidad ............................................146 función de distribución .....................157 función generatriz de momentos .......262 media y varianza ...............256, 258, 262 relación a la distribución Poisson .....159 y descomposición radioactiva ...........159 Distribución exponencial bilateral densidad ....................................171, 226 función generatriz de momentos .......282 media y varianza .......................278, 280 relación a la distribución exponencial .......................................................225 Distribución exponencial: ................. Véase Distribución gama Distribución gama media y varianza .......................256, 262 Distribución geométrica derivación ............................................23 función de distribución .....................155 función masa .............................142, 146 Distribución geométrica:................... Véase Distribución binomial negativa Distribución hipergeométrica media y varianza ...............................274 multivariada condicional ....................................335 relación a la distribución binomial....313 tablas ...................................................16 Distribución ji-cuadrada densidad ............................................149 relación a la distribución normal .....210, 242 Distribución ji-cuadrada: .................. Véase Distribución gama Distribución log normal ........................237 437 Distribución logística ................... 173, 174 Distribución multinomial derivación ......................................... 284 distribuciones condicionales............. 334 distribuciones marginales ................. 201 función masa ............................. 190, 193 Distribución normal bivariada coeficiente de correlación ............. 272 funciones de distribución condicional .................................................. 322 univariada función generatriz de momentos .. 300 media y varianza ................... 252, 256 relación a la distribución Cauchy . 240 tablas ..................... 114, 119, 161, 424 y transformaciones ortogonales .... 230 Distribución Pareto ....................... 173, 280 Distribución Poisson aproximación normal ........................ 131 función masa ..................................... 159 relación a la distribución binomial ... 348 tablas ......................................... 111, 423 y descomposición radioactiva .......... 143 Distribución t ................................ 232, 424 Distribución uniforme absolutamente continua densidad ........................................ 146 función de distribución ................. 156 media y varianza ................... 245, 256 relación a la distribución exponencial .................................................. 209 sobre un círculo .... 179, 184, 314, 322 sobre una esfera ............................ 241 discreta ...................................... 141, 155 Distribución Zipf .................................. 170 Distribuciones absolutamente continuas................... 147 conjuntas177, 178, 179, 180, 181, 183, 186, 188, 189, 199, 201, 210, 221, 438 ÍNDICE 222, 241, 320, 339, 351, 353, 381, 399 de un vector aleatorio ............... 187, 189 Ecuación de renovación ........................ 383 Encuestas de opinión .................. 11, 21, 26 y muestreo estratificado .................... 274 Ensayos repetidos ................................... 91 y la distribución binomial ................. 101 y la distribución binomial negativa .. 107 Esperanza ...................... 243, 249, 311, 327 como una integral ............................. 279 infinita ............................................... 246 linealidad .................................. 251, 329 monotonicidad .......................... 251, 329 Esquema de la urna de Polya como una martingala ........................ 394 Estadística de Bose-Einstein ..... 29, 41, 279 Estadística Maxwell-Boltzman ....... 29, 279 Estadísticos de orden de una distribución exponencial ....... 234 Estes, W. K. .................................... 97, 426 Eventos combinaciones de ............................. 284 independencia de ...................... 362, 383 Eventos: ........... Véase Teoría de conjuntos Expansión decimal .................... 69, 85, 384 Feller, William34, 35, 236, 277, 291, 301, 302, 303, 307, 310, 347, 380, 384 Fermi-Dirac estadística ..................... 29, 41 Fórmula de Stirling33, 34, 42, 122, 131, 152, 362 Función de pérdida ............................... 338 Función inversa valuada en un conjunto ..................... 137 valuada en un punto .......................... 204 Funciones de distribución condicionales ............ 318, 322, 328, 333 de un par aleatorio: ....... Véase conjuntas de una variable aleatoria ................... 154 discretas139, 140, 141, 154, 155, 174, 194, 205, 317, 322, 328 ni discretas ni absolutamente continuas .............................. 154, 162, 168, 246 simétricas .......................................... 371 Funciones indicadoras134, 169, 201, 285, 296, 398 Funciones lineales de variables aleatorias distribución de .................................. 157 esperanza de ..................... 254, 269, 341 función generatriz de momentos de 262, 300 mediana y moda ............................... 173 Funciones masa bivariadas ......................... 177, 179, 181 condicionales311, 318, 320, 321, 322, 327, 334, 343, 348, 352 conjuntas177, 179, 181, 182, 183, 184, 185, 188, 190, 192, 198, 251, 253, 327, 330 marginales ........................................ 190 multivariadas .................................... 188 Hogg, R. ....................................... 236, 426 Independencia condicional ....... 335, 336, 343, 344, 352 de eventos84, 85, 86, 87, 88, 99, 101, 107, 117, 192, 200, 201, 362, 363, 378 de variables aleatorias185, 200, 353, 362, 383, 393, 396 por pares ....................... 86, 87, 192, 201 Integral Riemann-Stieltjes Véase Integrales Interpretación frecuentista de esperanza ..................................... 290 Interpretación subjetiva consistencia ........................................ 47 de probabilidad condicional ............... 74 Juegos, limpio, favorable, desfavorable299 Karlin, Samuel.............. 277, 347, 425, 426 k-etas ordenadas ..................... 4, 5, 7, 8, 11 Kyburg, H. E. ................................. 66, 426 ÍNDICE Máximo y mínimo convergencia en probabilidad de ......289 Máximo y mínimo:Véase Estadísticos de orden; Rango Mecánica estadística ...............................29 Media condicional ........................................332 y la desigualdad de Chebyshev .........286 Media: ..............................Véase Esperanza Mediana.................................................281 Mínimo ............... Véase Máximo y mínimo Momento de inercia ..............................281 Momentos .............................................258 central ................................................282 factorial .............................................283 Muestreo con y sin reemplazo ............................12 estratificado .........................................87 ordenado y desordenado11, 12, 13, 14, 22, 23, 24, 25, 38, 40, 42, 57, 58, 75, 77, 84, 87, 94, 102, 198, 274, 407 Muestreo de aceptación ....................11, 18 Neveu, Jacques66, 160, 347, 381, 401, 426 Parámetros.............................................141 localidad y escala ..............................158 Parzen, Emanuel ...................277, 307, 426 Permutaciones .......................................4, 7 Póquer3, 7, 11, 17, 18, 20, 38, 39, 70, 71, 95 Predicción .............................127, 254, 268 Probabilidad clásica ....................................................2 condicional ........................................333 continuidad de .....................................64 medida .................................................50 Problema de la fosforera de Banach .....128 Problema del colector de cupones ..........11 Problema del día de nacimiento ........15, 31 Problemas de apareamiento ....................71 Producto 439 cartesiano ...... 91, 92, 177, 324, 338, 413 Promedio móvil .................................... 295 Rango, el ............................................... 226 Regresos al origen ................................ 383 como tiempos de interrupción .......... 397 Riorden, J. ....................................... 35, 426 Scarf, H. ........................................ 277, 425 Si X tiene la distribución binomial con parámetros n y p, Distribución binomial función de distribución1, 4, 7, 11, 12, 13, 14, 15, 17, 19, 20, 21, 22, 29, 32, 36, 37, 38, 39, 40, 41, 44, 46, 47, 48, 58, 67, 68, 70, 77, 80, 83, 84, 85, 91, 95, 97, 103, 119, 125, 129, 130, 134, 143, 144, 155, 156, 157, 158, 169, 171, 178, 180, 181, 185, 186, 187, 192, 198, 199, 200, 201, 208, 216, 223, 241, 244, 245, 252, 256, 258, 265, 274, 276, 277, 281, 282, 283, 288, 295, 301, 305, 310, 328, 333, 334, 340, 342, 349, 356, 357, 358, 359, 377, 378, 379, 382, 383, 392, 397, 400, 402, 403, 408, 409, 410, 412, 413, 415, 418, 427, 431, 432 Sigmas álgebras .............................. 69, 170 Smokler, H. E. ................................ 66, 426 Submartingalas390, 391, 394, 395, 398, 405, 406 desigualdad para ............................... 405 Suma de variables aleatorias independientes media y varianza de .......................... 257 Suma de variables aleatorias independientes:Véase Teorema del límite central; Leyes del logaritmo iterado; Leyes de los grandes números Sumas de potencias de enteros ................. 8 Teorema binomial ............................... 8, 38 generalizado ........................................ 33 Teorema de consistencia de Kolmogorov 440 ÍNDICE .......................................................... 381 Teorema de renovación ........................ 409 Teorema del límite centralVéase Teoremas de DeMoivre-Laplace; Teorema de Lindeberg-Feller Teorema multinomial ............................. 10 Thorp, H. O. ......................................... 407 Todhunter, I. ................................... 34, 426 Transformada de Laplace ..................... 277 Tucker, H. ....................................... 66, 426 ÍNDICE 441 442 ÍNDICE