Jesús As´ın Lafuente Mar´ıa Dolores Berrade Ursúa C

Probabilidad y Procesos Ingenierı́a de Telecomunicación Profesores: Jesús Ası́n Lafuente Marı́a Dolores Berrade Ursúa Centro Politécnico Superior Departamento de Métodos Estadı́sticos Curso 2009-2010 ÍNDICE Tema 1. Conceptos Básicos: Experimentos aleatorios versus experimentos deterministas. Espacio muestral y eventos. Algebra de eventos. Interpretaciones de la probabilidad. Axiomas de la probabilidad. Probabilidad condicional.Regla de Bayes. Independencia de eventos. (Pags 4-16) Tema 2. Variable aleatoria: Concepto de variable aleatoria. Función de distribución. Funciones de variables aleatorias. (Pags 17-28) Tema 3. Caracterı́sticas de una variable aleatoria: Valor esperado de una variable aleatoria. Momentos. Varianza y coeficientes de forma. Desigualdad de Chebishev. (Pags 29-34) Tema 4. Modelos de probabilidad: Modelos discretos (ensayos de Bernouilli, distribuciones binomial, geométrica, binomial negativa, hipergeométrica y Poisson). Modelos continuos (distribuciones uniforme, exponencial, Weibull, normal y gamma). El proceso de Poisson. (Pags 35-53) Tema 5. Variable aleatoria multidimensional: Distribuciones conjuntas. Independencia de variables aleatorias. Teoremas lı́mite. (Pags 54-71) 1 Bibliografı́a • Ası́n, J. et al. Probabilidad y Estadı́stica en Ingenierı́a: ejercicios resueltos. Prensas Universitarias de Zaragoza. • Canavos, G.C. Probabilidad y Estadı́stica. Aplicaciones y Métodos. McGraw Hill. • León Garcı́a. A. Probability and Random Processes for Electrical Engineering. Addison-Wesley. • Levine, D.M., Ramsey, P.P y Smidt, R.K. (2001). Applied Statistics for Engineers and Scientist. Using Microsoft EXCEL and MINITAB. Prentice Hall. • Terrien, C.W. y Tummala, M. (2004). Probability for Electrical and Computer Engineers. CRC Press • Papoulis, A. Probabilidad, Variables Aleatorias y Procesos Estocásticos. UNIBAR. 2 • Papoulis, A. Probability, Random Variables and Stochastic Processes. • Peña, D. Estadı́stica Modelos y Métodos, Vol 1. Alianza Universidad • Ross, S.M. (2003). Introduction to Probability Models (8th edition). Academic Press. • Ross, S.M. (2002). A First Course in Probability (6th edition). Prentice Hall. • Walpole, Myers, Myers, Ye (2002). Probability and Statistics for Engineers and Scientists (7th edition). Prentice Hall. • Yates, R.D. y Goodman, D.J. (2005). Probability and Stochastic Processes. A Friendly Introduction for Electrical and Computer Engineers. 2nd edition. Wiley 3 §TEMA 1: ELEMENTOS BÁSICOS DE PROBABILIDAD Relación de eclipses totales de sol hasta el año 2020: 11 de julio de 2010, 13 de noviembre de 2013 y 20 de marzo de 2015� , 9 de marzo de 2016, 21 de agosto de 2017, 2 de julio de 2019, 14 de diciembre de 2020. Los fenómenos que observamos se pueden clasificar en • deterministas • aleatorios Un fenómeno determinista es aquel cuya ocurrencia y resultado se conoce con antelación. En contraposición, son aleatorios aquéllos cuyo resultado no se conoce con total seguridad hasta después de que han tenido lugar. Ejemplos de fenómenos aleatorios: número de llamadas recibidas en una central telefónica en un dı́a, volumen de lluvia caida en una ciudad en un año, valor de una señal distorsionada por un ruido, la cotización que tendrá mañana un activo financiero . . . En todos los ejemplos anteriores no se dispone de una fórmula matemática explı́cita que nos proporcione por adelantado su valor. La evaluación de fenómenos aleatorios se realiza mediante probabilidades. 4 En la práctica, incluso en los experimentos controlados, es frecuente encontrar una componente aleatoria asociada a cualquier experimento debido al efecto de variables que no controlamos (ruido). Un objetivo de interés la construcción de modelos que incluyan tal variabilidad para que las conclusiones de nuestros análisis no queden invalidadas. Al igual que en otras áreas de la Ingenierı́a, los modelos aleatorios van a constituir aproximaciones a sistemas fı́sicos reales, si bien se contempla la posibilidad de variaciones en las salidas del sistema aunque no se haya producido cambio de las variables bajo control. Ejemplo: si en el diseño de un sistema de telefonı́a no se tiene en cuenta que las llamadas se reciben de forma aleatoria ası́ como la variabilidad de su duración, el sistema resultará inadecuado para su uso práctico. Un experimento que proporciona diferentes resultados aún cuando se realiza en idénticas condiciones, se llama experimento aleatorio. Por ejemplo, si medimos la corriente en un cable de cobre, según la ley de Ohm se tiene voltaje resistencia Sin embargo, un modelo más realista podrı́a ser corriente = corriente = voltaje + error resistencia 5 Espacio muestral y sucesos El conjunto de todos los posibles resultados del experimento aleatorio se llama espacio muestral y lo denotaremos por Ω. Algunos ejemplos son: i) Lanzamiento de un dado. Ω = {1, 2, 3, 4, 5, 6} ii) Si se controla el número de defectos en las piezas procedentes de una producción industrial, por ejemplo ruedas para vehı́culos, los posibles resultados son todos los números naturales incluido el cero. iii) Radiación emitida por una antena de telefonı́a móvil Ω = (0, ∞) Los espacios muestrales pueden ser finitos o no, ası́ como discretos o continuos. Cualquier subconjunto del espacio muestral, E, se denomina suceso. En el ejemplo i), ‘sale par’ se corresponde con E = {2, 4, 6} mientras que en el ejemplo iii), el suceso ‘la radiación es superior a 450 microvatios por cm2 ’ equivale a F = (450, ∞). 6 Operaciones y álgebra de sucesos Sean E y F dos sucesos cualesquiera en Ω. Se definen las siguientes operaciones: - Unión de E y F , denotada E ∪ F , es el conjunto formado por los elementos que están en E en F o en ambos a la vez. - Intersección de E y F , E ∩ F , es el conjunto formado por los resultados del experimento que están en E y en F . De la unión de dos sucesos se puede obtener la totalidad del espacio muestral, también llamado suceso seguro. Por ejemplo, E = ‘sale par’y F = ‘sale impar’. Por el contrario, la intersección de los sucesos anteriores no tiene elementos comunes dando lugar al conjunto vacio o suceso imposible. En este último caso E y F se dicen excluyentes o incompatibles. Para cualquier suceso E se define el complementario de E, denotado E c , el cual está formado por todos los posibles resultados del experimento aleatorio que no están en E. Por tanto se tiene que E c ocurre si y sólo si E no tiene lugar, es decir, ambos son excluyentes. 7 Las operaciones anteriores se pueden extender a n sucesos: A1, A2, . . . , An • A1 ∪ A2 ∪ . . . ∪ An • A1 ∩ A2 ∩ . . . ∩ An A1, A2, . . . , An se dicen mutuamente excluyentes si Ai ∩ Aj = ∅ i �= j Sean A, B y C tres sucesos de Ω. siguientes propiedades Se verifican las A ∪ ∅ = A, A ∩ ∅ = ∅, A∪A=A∩A=A A ∪ Ω = Ω, A ∩ Ω = A, A ∪ Ac = Ω • ∅c = Ω, A ∩ Ac = ∅ Ωc = ∅ • (A ∪ B) ∪ C = A ∪ (B ∪ C), (A ∩ B) ∩ C = A ∩ (B ∩ C) • A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) • A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) • (A ∪ B)c = Ac ∩ B c , (A ∩ B)c = Ac ∪ B c 8 Ejemplo: Lanzamiento de un dado Ω = {1, 2, 3, 4, 5, 6} E1 = Salir múltiplo de 3 = {3, 6} E2 = Salir par = {2, 4, 6} E3 = Salir 6 = {6} E4 = Salir impar = {1, 3, 5} E1 ∩ E2 = {6}, E1 ∪ E2 = {2, 3, 4, 6}, E1c = {1, 2, 4, 5} E3 ⊂ E2 , E3 ⊂ E1 , E 4 ∩ E2 = ∅ Interpretaciones de la probabilidad 1.- En experimentos que pueden ser repetidos en las mismas condiciones, la probabilidad se interpreta como el lı́mite de la frecuencia relativa a medida que crece el número de experimentos. Por ejemplo, el número de caras en infinitos lanzamientos de moneda se aproxima a 12 o la estimación del número de piezas defectuosas en una producción es del 1%. 2.- En experimentos que no son susceptibles de ser repetidos una y otra vez, la probabilidad viene a significar una medida de certidumbre. Ası́ por ejemplo puedo apostar 10 a 1 a que el caballo A ganará al B en una carrera, significando que veo 10 veces más posible el éxito del caballo A. 9 Representación gráfica de la interpretación frecuentista de la probabilidad Simulación de 235 lanzamientos de una moneda legal. El valor 1 está asociado a la ocurrencia de cara. 01011011111010100100110100101000101001110110000 00010010001001001110010001000000000101000010111 11010101010111111100010111011010101000100011001 01001001111010000001101011110101011101101011011 01010101011001110101100111110001111010110001000 0,8 Frecuencia relativa 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0 100 200 Número de intento Se constata cómo limn→∞ número nde caras → 1 2 10 Espacio muestral con resultados igualmente verosı́miles Si el espacio muestral consta de N resultados posibles, un modelo razonable es asignar a cada uno de ellos una probabilidad N1 . Un espacio muestral como este está ligado a situaciones de elección ‘al azar’ , sin sesgos. Si el suceso que se analiza está constituido por varios resultados de Ω, la probabilidad vendrá dada por la suma de las probabilidades de cada uno de ellos. Axiomas de la probabilidad Para modelar un experimento aleatorio, se construye una función P que a cada suceso, A, le asigna un valor numérico P (A). Los siguientes axiomas aseguran que tal función puede ser interpretada en términos de frecuencias relativas y de modo que sea consistente con las relaciones que estas verifican. La probabilidad es un número asociado a cada suceso E del espacio muestral Ω que verifica las siguientes propiedades: 1.- 0 ≤ P (E) ≤ 1 2.- P (Ω) = 1 3.- Si {Ei }∞ � j entonces i=1 verifican Ei ∩ Ej = ∅, i = �∞ � ∞ � � P Ei = P (Ei ) i=1 i=1 11 Las principales consecuencias de los axiomas de probabilidad son • P ( ∅) = 0 • P (E c ) = 1 − P (E) • Si E1 ⊆ E2 , entonces P (E1 ) ≤ P (E2) • Sean E1, E2�, . . . , En� tales que Ei ∩ Ej = ∅ i �= j, � entonces P ∪ni=1Ei = ni=1 P (Ei) • P (Ei ∪ Ej ) = P (Ei) + P (Ej ) − P (Ei ∩ Ej ) Asimismo se tiene la siguiente fórmula que generaliza la unión de n sucesos: P (∪ni=1 Ei) = − + n � i=1 � i<j P (Ei) − P (Ei ∩ Ej ) + � i<j<k P (Ei ∩ Ej ∩ Ek ) + . . . + + . . . + (−1) n � i1 <i2 <...<in−1 P (Ei1 ∩ . . . ∩ Ein−1 ) + (−1)n+1 P (E1 ∩ E2 ∩ . . . ∩ En) 12 Probabilidad Condicional En ocasiones la probabilidad asignada a un suceso en unas condiciones experimentales dadas, debe ser revisada al conocerse cierta información adicional que puede afectar al resultado de aquél. La probabilidad de un suceso, cuando se conoce que otro ha tenido lugar, se denomina probabilidad condicional. Ejemplo En sistema de comunicación la tasa de error es de un bit por cada mil transmitidos. Los errores se producen raramente pero cuando ocurren tienden a hacerlo de modo que afectan a varios bits consecutivos. Si se transmite sólo un bit, será erróneo con probabilidad 1/1000; sin embargo, si el bit anterior era erróneo, podrı́amos pensar en que el siguiente lo será también con probabilidad mayor que 1/1000. Ejemplo Supongamos que en un lote de 100 unidades de un determinado producto hay 2 que no cumplen las especificaciones, resultando, por consiguiente, defectuosas. Si se eligen dos unidades al azar, ¿cuál es la probabilidad de que la segunda sea defectuosa, siendo que la primera no lo era?, ¿cómo se modifica la probabilidad anterior si la primera resultó ser defectuosa? Definición 1 La probabilidad condicional de un suceso B dada la ocurrencia de otro, A, tal que P (A) > 0, se denota P (B|A) y viene dada del siguiente modo P (B|A) = P (A ∩ B) P (A) 13 Regla del producto La definición de probabilidad condicional se puede reescribir del siguiente modo. Sean dos sucesos A y B tales que P (A) > 0 y P (B) > 0, entonces se verifica P (A ∩ B) = P (A|B)P (B) = P (B|A)P (A) De manera más general, se tiene   n �  P Aj  = j=1 = P (A1 )P (A2 |A1)P (A3 |A1 ∩ A2 ) . . . P (An|A1 ∩ . . . ∩ An−1 ) Regla de la probabilidad total �∞ Sean {Ai}∞ tales que A ∩ A = ∅ , i = � j, i j i=1 i=1 Ai = Ω (sistema completo de sucesos) y P (Ai ) > 0, para todo i. Sea B otro suceso, entonces P (B) = ∞ � P (B|Ai)P (Ai) i=1 La regla de la probabilidad total constituye un método de cálculo de probabilidades de un suceso que depende de otros. 14 Regla de Bayes En ocasiones, conocemos cuál es la probabilidad de un suceso condicionado a la ocurrencia de otro, sin embargo desearı́amos saber la probabilidad condicionada a la inversa. Ası́ ocurre, por ejemplo, en las pruebas que se realizan en el diagnóstico de algunas enfermedades. En general, se suele conocer cuál es la probabilidad de error en el sentido de que la prueba de un resultado positivo siendo que la persona está sana; esta situación se denomina falso positivo. En este caso nos interesa conocer la probabilidad de que la persona padezca la enfermedad cuando la prueba da un resultado positivo. �∞ Sean {Ai}∞ tales que A ∩ A = ∅ , i = � j, i j i=1 i=1 Ai = Ω (sistema completo de sucesos) y P (Ai ) > 0, para todo i. Sea B otro suceso, entonces P (B|Ai)P (Ai) P (Ai|B) = �∞ j=1 P (B|Aj )P (Aj ) Independencia de sucesos En algunos casos, la probabilidad de un suceso B no depende de la ocurrencia, o no, de otro A. En estas situaciones, el conocimiento de que A ha tenido lugar, no afecta a la probabilidad de que el experimento aleatorio de B como resultado. 15 Dos sucesos A y B son independientes si y sólo si se verifica cualquiera de las siguientes condiciones • P (A ∩ B) = P (A)P (B) • P (B|A) = P (B) si P (A) > 0 • P (A|B) = P (A) si P (B) > 0 Teorema 1 Si A y B son dos sucesos independientes, entonces se tiene: • A y B c son independientes • Ac y B son independientes • Ac y B c son independientes Sucesos mutuamente independientes La anterior definición de independencia se refiere a parejas de sucesos. Si tenemos la independencia entre A y B, B y C ası́ como la de A y C, no se infiere que P (A ∩ B ∩ C) = P (A)P (B)P (C). Los sucesos (Ai)ni=1 se dicen mutuamente independientes cuando para cualquier subconjunto se verifica P �� Aij �k j=1 = k � j=1 P (Aij ), ∀1 ≤ i1 < i2 . . . ik ≤ n, 2 ≤ k ≤ n 16 §TEMA 2: VARIABLE ALEATORIA Ejemplo: Transmisión de un mensaje con n dı́gitos con posibilidad de error. Se emite un mensaje al azar, nos interesa saber: • número de dı́gitos enviados correctamente • tiempo empleado en la transmisión del mensaje Supongamos ahora la siguiente codificación: Anotamos un 1 por cada dı́gito bien emitido y 0 en caso contrario. Cada mensaje emitido es el resultado de un experimento aleatorio al cual se le asignan dos valores numéricos que responden a las preguntas anteriores: el número de unos y el tiempo que haya durado su emisión. Puesto que el resultado particular del experimento, el mensaje, no se conoce por adelantado, ocurre lo mismo con los resultados numéricos asociados, pudiéndose obtener resultados distintos cada vez que emitamos un nuevo mensaje. Definición 2 Una variable aleatoria, X, es una función medible que asigna un número real a cada posible resultado del espacio muestral en un experimento aleatorio X : Ω −→ RX 17 RX , denominado rango, recorrido o soporte es el conjunto de todos los posibles valores de X, siendo RX un subconjunto de los reales. Importante: a cada ω en Ω, X le asigna un único valor. Ejemplo: Se lanza una pareja de dados, obteniéndose premio si la suma de las puntuaciones de sus caras es 3. Ω = {(x1 , x2 ); x1 = 1, 2, . . . , 6; x2 = 1, 2, . . . , 6} RX = {2, 3, . . . , 12} La probabilidad de obtener premio es P (X = 3) = P ((1, 2) ∪ (2, 1)) = 1 1 1 = P ((1, 2)) + P ((2, 1)) = + = 36 36 18 En general, para cualquier B ⊂ RX , se tiene P (B) = P ({s ∈ Ω|X(s) ∈ B}) Para evaluar probabilidades podemos utilizar la función de distribución Definición 3 La función de distribución, FX (x), de una variable aleatoria X se define: FX (x) = P (X ≤ x), −∞ < x < ∞ Dado que FX (x) es una probabilidad, para cualquier x se debe tener 0 ≤ FX (x) ≤ 1. Además, FX (x) es no decreciente en x. 18 Dependiendo de su rango las variables aleatorias se clasifican en • discretas: si RX es finito o infinito numerable • continuas: si RX es un intervalo finito o infinito Ejemplos de variables discretas: número de bits recibidos con error en una transmisión, número de arañazos en una superficie, número de unidades defectuosas en un lote, . . . Ejemplos de variables continuas: corriente eléctrica que atraviesa un cable, radiación emitida por una antena de telefonı́a móvil, valor de una señal que se ve afectada por la presencia de un ruido, . . . Variable discreta Sea X : Ω −→ RX una variable discreta, RX = {x1 , x2, . . .} La función de probabilidad es una descripción de las probabilidades asociadas a los posibles valores de X: � p(xi) = P (X = xi) = P (s), i = 1, 2 . . . {s∈Ω:X(s)=xi } 19 Definición 4 Una función de probabilidad debe satisfacer las siguientes propiedades a) p(xi) ≥ 0, para todo i � b) xi ∈RX p(xi ) = 1 Si X toma sólo un número finito de valores, por ejemplo, x1 , x2 , . . . , xN , entonces p(xi ) = 0 para i > N , convirtiéndose el sumatorio anterior en una suma finita. Conocida la función de probabilidad de masa, se pueden calcular probabilidades de sucesos definidos mediante la variable X. Sea A ∈ RX , entonces � P (X ∈ A) = p(xi ) i:xi ∈A∩RX Para una variable aleatoria discreta el valor de la función de distribución en x se obtiene sumando las probabilidades de todos aquellos xi ∈ RX tales que xi ≤ x, es decir, � FX (x) = p(xi) xi ≤x Ejemplo: Supongamos que X es una variable aleatoria discreta con la siguiente función de probabilidad   1, P (X = 1) = 0.2 X = 2, P (X = 2) = 0.4  4, P (X = 4) = 0.4 20 La función de distribución asociada es   0, si x < 1    0.2, si 1 ≤ x < 2 FX (x) =  0.6, si 2 ≤ x < 4   1, si x ≥ 4 FX (x) es discontinua en los puntos x = 1, 2, 4, en los cuales da ‘saltos’ cuyas magnitudes respectivas son P (X = 1) = 0.2, P (X = 2) = 0.4, P (X = 4) = 0.4 La función de distribución de cualquier variable aleatoria discreta, X, verifica las siguientes propiedades: i) FX (x) es no-decreciente, es decir, FX (x) ≤ FX (y) para todo x ≤ y ii) limx→−∞ FX (x) = 0, limx→∞ FX (x) = 1 iii) FX (x) es continua por la derecha, es decir, lim FX (x + h) = FX (x), para todo x h→0 � � −� Denotaremos por FX y FX x los lı́mites de FX (h) cuando h converge a x por la derecha y por la izquierda repectivamente. En el ejemplo anterior se advierte que x+ � P (X = 1) = FX (1) − FX (1− ) = 0.2 P (X = 2) = FX (2) − FX (2− ) = 0.4 P (X = 4) = FX (4) − FX (4− ) = 0.4 21 Para una variable aleatoria discreta, X, las probabilidades de cualquier valor x se obtienen P (X = x) = FX (x) − FX (x− ) Asimismo, se tiene que para cualesquiera a y b reales tales que a < b se verifica P (a < X ≤ b) = FX (b) − FX (a) Variable continua Las variables continuas se caracterizan por tomar un número infinito no numerable de valores. Supongamos una rueda de la fortuna a la que se hace girar hasta que se para en un punto señalado por la punta de la flecha. Si la rueda no está trucada todos los puntos tienen la misma probabilidad de ser elegidos, en consecuencia, esta probabilidad no puede ser diferente de cero. En este caso no podemos hablar del i-ésimo valor de la variable y por tanto la función de probabilidad pierde su significado. En el caso de variables continuas, sustituimos p(x) por una función, f (x), definida para todo x de acuerdo a la siguiente definición: Definición 5 Se dice que X es una variable aleatoria continua si existe una función f (x), denominada función de densidad, que verifica las siguientes condiciones: i) f (x) ≥ 0, para todo x ii) �∞ −∞ f (x)dx = 1 22 f(x) C D La definición anterior significa que X es una variable continua si puede tomar todos los valores dentro de un intervalo (c, d), donde c y d pueden ser −∞ e ∞, respectivamente. La existencia de una función de densidad es un artificio para simplificar los cálculos que involucran a una variable aleatoria continua. �d P (c < X < d) = c f (x)dx y por tanto P (c < X < d) representa el área bajo la curva f (x) entre c y d. 23 Notas: Si X sólo toma valores en un intervalo finito [a, b], se establece que f (x) = 0 para todo x que no pertenezca a [a, b]. f (x) no es una probabilidad. Sólo cuando la función se integra entre dos lı́mites genera una probabilidad. Sin embargo, se puede dar la siguiente interpretación: � x+∆x P (x ≤ X ≤ x + ∆x) = f (s)ds = ∆xf (ξ) x siendo x ≤ ξ ≤ x + ∆x Por tanto, si ∆x es suficientemente pequeño f (x)∆x � P (x ≤ X ≤ x + ∆x) Definición 6 La función de distribución de una variable aleatoria continua con función de densidad f se define como � x FX (x) = f (u)du −∞ La función de distribución de una variable aleatoria continua es continua para todo x. Por tanto: P (X = x) = FX (x) − FX (x− ) = 0 y en consecuencia P (X ≤ x) = P (X < x) 24 Además se tiene el siguiente resultado: Sea FX (x) la función de distribución de una variable aleatoria con función de densidad f (x), entonces se tiene dFX (x) dx para todo x en el cual F es diferenciable f (x) = En cuanto al cálculo de probabilidades: P (X < a) = P (X ≤ a) = F (a) = � a f (x)dx −∞ � ∞ P (X > b) = P (X ≥ b) = 1 − F (b) = f (x)dx b � b P (a < X < b) = P (a ≤ X ≤ b) = f (x)dx a Distribución de la función de una variable aleatoria Supongamos que X es una señal aleatoria cuya función de densidad es f (x) y sea la función Y = h(X) = aX. Si a > 1, Y representa una versión amplificada de X, o atenuada en el caso a < 1. Y es, a su vez, una variable aleatoria y para cualquier suceso asociado con el recorrido de Y se tiene P (Y ∈ C) = P (h(X) ∈ C) = P (X ∈ h−1(C)) Si X es una variable discreta, Y es también discreta. 25 Ejemplo   −1, P (X = −1) = X = 0, P (X = 0) = 12  1, P (X = 1) = 1 6 1 3 Sea Y = X 2 � 1, P (Y = 1) = P (X = −1) + P (X = 1) = Y = 0, P (Y = 0) = P (X = 0) = 12 1 2 Si X es una variable continua, Y puede ser discreta o continua. Ejemplo Supongamos que X es una variable aleatoria continua cuyo recorrido es toda la recta real. La variable Y = X 2 es también continua. Sin embargo, en el caso � 1, X > 0 Y = −1, X < 0 se tiene que Y es una variable aleatoria discreta. La situación de mayor interés y que se encuentra con más frecuencia, aparece cuando X es una variable aleatoria continua con función de densidad f (x) e Y =h(X) es asimismo una variable aleatoria con función de densidad g. Si tal es el caso, se distinguen las dos situaciones siguientes: 26 • h(x) es una función inyectiva: x1 �= x2 ⇒ h(x1 ) �= h(x2) • h(x) no es inyectiva: existen x1 , . . . , xk tales que h(x1) = . . . = h(xk ) = y Resultado 1: Sea X una variable aleatoria continua cuya función de densidad es f (x) con f (x) > 0 para a < x < b. Supóngase que la función y = h(x) es inyectiva y derivable para todo x. La variable aleatoria Y = h(X) tiene una función de densidad g(y) dada por � −1 � � � dh (y) −1 � � g(y) = f (h (y)) � dy � Si h es creciente el soporte de Y está dado por los valores h(a) < y < h(b). Por el contrario, si h es decreciente, el soporte de Y viene dado por h(b) < y < h(a). Resultado 2: Sea X una variable aleatoria continua cuya función de densidad es f (x) con f (x) > 0 para a < x < b. Supóngase que la función y = h(x) es derivable para todo x y tal que existen x1 , . . . , xk tales que h(x1 ) = . . . = h(xk ) = y. La variable aleatoria Y = h(X) tiene una función de densidad g(y) dada por � � k � � dxi(y) � � g(y) = f (xi(y)) �� dy i=1 27 §TEMA 3: CARACTERÍSTICAS DE LAS V. ALEATORIAS Valor esperado de una variable aleatoria Uno de los conceptos más importantes en teorı́a de la probabilidad es el de valor esperado o esperanza matemática de una variable aleatoria X, denotado E(X). Si X es una v. a. discreta con valores posibles x1, . . . , xn . . . cuyas probabilidades son p(xi) = P (X = xi), se tiene E(X) = definida siempre que �∞ ∞ � xip(xi) i=1 i=1 |xi |p(xi ) <∞ es decir, la esperanza representa una media ponderada de todos los posibles valores que X puede tomar, ponderando cada valor por la probabilidad de su ocurrencia. Supongamos que X es una variable aleatoria continua con función de densidad f (x). Cuando dx es pequeño, se verifica f (x)dx ≈ P (x < X < x + dx) de donde se sigue que una media ponderada de todos los posibles valores de X, siendo el peso la probabilidad de que X esté cerca de x, es justamente la integral de xf (x)dx a lo largo de todos los posibles valores x. Ası́, se define � ∞ E(X) = xf (x)dx −∞ 28 E(X) existe siempre que Notas: �∞ −∞ |x|f (x)dx < ∞ • El concepto de esperanza es análogo al concepto fı́sico de centro de gravedad de una distribución de masas. • E(X) y X vienen dadas en las mismas unidades. Propiedades de la esperanza • Esperanza de la función de una v.a Y = h(X) Si X es discreta con función de masa p(x) � E(Y ) = h(x)p(x) x Si X es continua con función de densidad f (x) � ∞ E(Y ) = h(x)f (x)dx −∞ • Esperanza de una transformación lineal Y = aX + b E(aX + b) = aE[X] + b 29 La información que E(X) proporciona acerca de X es muy limitada. Por ejemplo si E(X) = 0 puede ser que X = 0 o bien que X tome con igual probabilidad valores de signo opuesto. La variación de X en torno a su media la proporciona la varianza. Varianza de una variable aleatoria Sea X una variable aleatoria con media E(X) = µ, la varianza de X denotada V ar(X) se define como σ 2 = V ar(X) = E(X − µ)2 = E(X 2 ) − (µ)2 Propiedades de la varianza Sea c una constante, entonces se tiene • V ar(c) = 0 • V ar(X + c) = V ar(X) • V ar(cX) = c2 V ar(X) | La varianza y su raı́z cuadrada σ = (V ar(X)) 2 , denominada desviación tı́pica, constituyen medidas de dispersión de X. La desviación tı́pica viene expresada en las mismas unidades de X, mientras que la varianza está en las unidades de X al cuadrado. 30 Una medida que compara la dispersión relativa de dos distribuciones de probabilidad es el coeficiente de variación σ CV = µ Momentos de una v.a. Los momentos de una v.a. son una colección de medidas descriptivas que pueden emplearse para caracterizar su distribución. Su uso particularmente útil en el caso de que no se conozca la distribución de probabilidad. Definición 7 Sea X una variable aleatoria. El momento de orden r respecto del origen se define como E(X r ) y viene dado por � r E(X ) = xr p(x), si X es discreta E(X r ) = �x ∞ xr f (x)dx, si X es continua −∞ Definición 8 Sea X una variable aleatoria. El momento de orden r respecto de la media se define como E((X − µ)r ) y viene dado por � r E(X − µ) = (x − µ)r p(x), si X es discreta E(X − µ)r = �x ∞ −∞ (x − µ)r f (x)dx, si X es continua Todas las definiciones anteriores están sujetas a la existencia de las correspondientes sumas o integrales. 31 La esperanza es el momento de orden uno respecto del origen, mientras que la varianza es el momento de orden dos respecto de la media. Para la descripción de una v.a. son útiles asimismo los coeficientes de asimetrı́a (CAs) y de apuntamiento o curtosis (CAp) E(X − µ)3 E(X − µ)4 CAs = CAp = σ3 σ4 CAs mide el grado de asimetrı́a respecto de la media, mientras que CAp es una medida de cuán puntiaguda es la distribución de probabilidad. Otras medidas de centralización Otras medidas de interés en la caracterización de una v.a. son los percentiles, xp , que dividen a la distribución de X en 100 partes iguales. Si X es una variable aleatoria continua, se tiene P (X ≤ xp ) = p Por ejemplo x0.1 verifica que P (X ≤ x0.1 ) = 0.1. Caso particular, los cuartiles: x0.25 , x0.5 , x0.75 . El percentil del 50%, x0.5 o segundo cuartil, también se denomina mediana y divide a la distribución en dos partes iguales. Definición 9 Para cualquier variable aleatoria X se define la moda como el valor que maximiza la función de probabilidad si X es discreta, o la función de densidad, si X es continua. 32 Si conocemos la función de probabilidad o la de densidad de una variable aleatoria X, podemos calcular E(X) y V ar(X). Sin embargo, a partir de la media y la varianza no podemos reconstruir la distribución de probabilidad de X. Si bien no se pueden evaluar probabilidades de manera exacta, sı́ que es posible dar una cota superior o inferior para tales probabilidades mediante la llamada desigualdad de Chebyshev: Si X es una v.a. cuya media y varianza son, respectivamente µ y σ 2, para cualquier valor k > 0 se verifica: P (|X − µ| < kσ) ≥ 1 − P (|X − µ| ≥ kσ) ≤ 1 k2 1 k2 De la desigualdad de Chebyshev se infiere que cuanto mayores son las desviaciones respecto de la media, son tanto más improbables. Por otra parte, cuanto menor sea la varianza, más concentrados tienden a estar sus valores en torno a la media. Lo más notable del resultado anterior, es que no hacemos ninguna suposición respecto a la distribución de probabilidades de la v.a., basta sólo que su media y su varianza sean conocidas. 33 Expresiones aproximadas de la media y de la varianza Según se ha indicado, para evaluar E(Y ) y V ar(Y ) donde Y = h(X), no necesitamos conocer la distribución de probabilidades de Y , sino que podemos trabajar directamente con la distribución de probabilidades de X. Si la función h(X) es muy complicada, el cálculo de de la media y varianza de Y puede involucrar integraciones o sumas muy complejas. Por este motivo, las siguientes aproximaciones puede ser de utilidad. Resultado: Sea X una v.a. con E(X) = µ y V ar(X) = σ 2 . Supongamos que Y = h(X), en tal caso se tiene: h�� (µ) 2 E(Y ) � h(µ) + σ 2 � �2 V ar(Y ) � h� (µ) σ 2 A fin de hacer útiles las aproximaciones anteriores, necesitamos que h sea diferenciable dos veces para H = µ. 34 §TEMA 4: MODELOS DE PROBABILIDAD Modelos de probabilidad discretos: Distribución uniforme sobre n puntos Una variable aleatoria X cuyo soporte está dado por {x1, x2 , . . . , xn }, se dice con distribución uniforme si su función de probabilidad está dada por: �1 , X = xi p(X = xi) = n 0, en otro caso Su función de distribución:   0, x < min{x1, x2, . . . , xn} = x(1) FX (x) = ni , x(i) ≤ x < x(i+1)  1, x ≥ max{x , x , . . . , x } = x n 1 2 (n) Su valor medio: E(X) = n � i=i 1 xi = n �n i=i xi n =X 35 Ensayos de Bernoulli Estan asociados con cualquier fenómeno aleatorio que se manifieste como una dicotomı́a: ‘éxito’o ‘fracaso’de un experimento, pieza defectuosa o no defectuosa, nivel de renta ≤ 10.000 ó > 10.000 euros , nivel de radiación de antenas de telefonı́a móvil ≥ 450 microvatios o inferior. X es una variable de Bernoulli si � X = 1, P (X = 1) = p X = 0, P (X = 0) = 1 − p = q E(X) = p, V ar(X) = p(1 − p) La distribución binomial está asociada a una repetición de varios ensayos de Bernoulli independientes y donde la probabilidad p permanece constante en todos ellos. Por ejemplo, denotemos por p a la probabilidad de producir una pieza defectuosa y supongamos que se producen n piezas de manera independiente. El estado de la pieza i se describe mediante Xi: � Xi = 1, si la pieza i es defectuosa Xi = 0, si es no defectuosa El número de piezas defectuosas �n en una muestra de n piezas viene dado por X = i=1 Xi , X se dice con distribución binomial con parámetros n y p. 36 La función de probabilidad de X con distribución B(n, p), está dada por � � n P (X = k) = pk (1 − p)n−k , X = 0, 1, 2, . . . , n k E(X) = np, V ar(X) = np(1 − p). E(X) representa la frecuencia esperada de ‘éxitos’en n repeticiones independientes de un experimento. Está asociada a • Muestreo con reposición en poblaciones finitas • Muestreo con o sin reposición en poblaciones infinitas Propiedad: Sean Xi, i = 1, . . . , n tales que Xi ∼ B(ni, p) independientes, en tal caso se tiene � n � n � � Y = Xi ∼ B ni, p i=1 i=1 37 Distribución geométrica Está asociada también a ensayos de Bernoulli para representar situaciones de espera. Por ejemplo, sea A el suceso tener seis aciertos en la primitiva una semana cualquiera cuya probabilidad es p. Sea X el número de semanas que debemos esperar hasta que ocurre A, X se dice con distribución geométrica con parámetro p, (G(p)), y su función de probabilidad está dada por E(X) = P (X = k) = (1 − p)k−1 p, 1 p y V ar(X) = k = 1, 2, . . . 1−p p2 Supongamos que llevamos un tiempo jugando sin haber obtenido premio, la probabilidad de que tengamos que esperar, por ejemplo, 5 semanas más para obtener el premio es independiente del tiempo que llevemos jugando. Esta propiedad se denomina ausencia de memoria y su expresión formal viene dada por P (X ≥ s + t|X > s) = P (X ≥ t) para cualesquiera s y t enteros positivos. 38 Distribución binomial negativa Se considera de nuevo un experimento dicotómico, por ejemplo, (éxito/fracaso) y la repetición de ensayos de Bernoulli hasta conseguir r ‘éxitos’. Sea X la v.a. que contabiliza el número de pruebas realizadas hasta lograr los r éxitos. La v.a. X sigue una distribución binomial negativa BN (r, p) y su función de probabilidad viene dada por � � k−1 P (X = k) = pr (1−p)k−r , k = r, r+1, r+2, . . . r−1 r(1−p) p2 E(X) = pr , V ar(X) = La distribución binomial negativa modela fenómenos de espera hasta que un determinado suceso ocurre r veces. En el caso r = 1 se tiene la distribución geométrica. Propiedad: Sean Xi , i = 1, . . . , n tales que Xi ∼ Ge(p) independientes, entonces Y = n � i=1 Xi ∼ BN (n, p) En el caso de que Xi ∼ BN (ni, p) independientes, entonces � n � n � � Y = Xi ∼ BN ni , p i=1 i=1 39 Distribución hipergeométrica Se utiliza para modelar extracciones sin reemplazamiento. Supongamos un almacén conteniendo N piezas de las que r son defectuosas. Si se extrae una muestra de n piezas del almacén, el número de defectuosas en la muestra es una v.a. X hipergeométrica (H(N, n, r)) cuya función de probabilidad es � �� r N −r k n−k � � P (X = k) = N n E(X) = n Nr Si n N < 0.1, H(N, n, r) → B(n, p), siendo p = r N 40 Distribución de Poisson Con frecuencia existen situaciones en las que la probabilidad de ocurrencia de un suceso es muy pequeña, por ejemplo, el fallo de un componente electrónico, mientras que es muy grande el número de unidades a verificar. El cálculo de probabilidades con la binomial resulta muy costoso, sin embargo con p → 0 y n → ∞, la binomial se puede aproximar a X con distribución de Poisson con parámetro λ = np. Un criterio razonable para la aproximación es p < 0.1 y np > 1. La función de probabilidad de la poisson está dada por k −λ λ P (X = k) = e k! , k = 0, 1, 2, . . . E(X) = V ar(X) = λ Esta distribución se suele denominar como ley de los sucesos raros ya que se utiliza para contar el número de veces que ocurre un suceso cuya probabilidad de ocurrencia es baja. Ası́ ocurre, por ejemplo, con los accidentes de avión, escapes radioactivos, defectos en una superficie, . . . Propiedad: Sean Xi, i = 1, . . . , n tales que Xi ∼ ℘(λi) independientes, entonces � n � n � � Y = Xi ∼ ℘ λi i=1 i=1 41 Modelos de probabilidad continuos: Distribución uniforme continua La distribución uniforme en el intervalo [a, b] corresponde a la variable aleatoria que resulta de elegir un número completamente al azar en tal intervalo. Está asociada a la idea de elección al azar, sin preferencias. � 1 , a≤x≤b f (x) = b−a 0, en otro caso F (x) = E(X) = a+b , 2   0, � x<a = x>b x 1 du a b−a  1, V ar(X) = x−a , b−a a≤x≤b (b−a)2 12 Distribución exponencial Con frecuencia, la distribución exponencial se utiliza para modelar tiempos hasta el fallo de sistemas. Su función de densidad viene dada por � −λx λe , x≥0 f (x) = 0 x<0 � 1 − e−λx , F (x) = 0 x<0 E(X) = 1λ , V ar(X) = x≥0 1 λ2 42 La distribución exponencial sirve para modelar tiempos de espera y es la única distribución continua que presenta la propiedad de ausencia de memoria, esto significa que el tiempo de espera que nos resta no depende del que llevemos esperando. Es decir, para cualesquiera s, t > 0 se verifica P (X > s + t|X > t) = P (X > s) Propiedad: Sean Xi, i = 1, . . . , n tales que Xi ∼ Exp(λ) independientes, entonces Y = n � i=1 Distribución gamma Xi ∼ γ(n, λ) X se dice con distribución gamma, γ(p, a), p > 0 y a > 0, si su función de densidad está dada por � p a −ax xp−1 , e x≥0 f (x) = Γ(p) 0, x < 0 Γ(p) es la función gamma de Euler: � ∞ Γ(p) = e−xxp−1dx, p > 0 0 43 Γ(p) verifica � Γ(p + 1) = pΓ(p) � Γ(n + 1) = n! con n entero positivo � Γ �1� 2 = √ π E(X) = ap , V ar(X) = p a2 Propiedad: Xi ∼ γ(ni, λ) independientes, entonces � n � n � � Y = Xi ∼ γ ni, λ i=1 i=1 44 Distribución normal Constituye la distribución de mayor relevancia en la teorı́a y práctica estadı́sticas, apareciendo asociada a los errores de medida. Está caracterizada por su valor medio, µ, y su desviación tı́pica, σ. Su función de densidad es de la forma � � 1 (x − µ)2 f (x) = √ exp − , −∞ < x < ∞ 2σ 2 2πσ Esta distribución se indica, abreviadamente, N (µ, σ) y es simétrica respecto µ. Por consiguiente, el coeficiente de asimetrı́a es nulo. La función de distribución asociada a la normal estándar, Z = N (0, 1), está tabulada: � s 1 2 φ(s) = √ e−x /2 dx 2π −∞ por lo que el cálculo de probabilidades relativo a una normal no estándar, X = N (µ, σ), se realiza tras hacer el siguiente cambio de escala X −µ σ Por ejemplo: � � � � X −µ a−µ a−µ P (X ≤ a) = P ≤ =P Z≤ σ σ σ La distribución Z = N (0, 1) es simétrica respecto 0 y por tanto P (Z < −a) = P (Z > a) 45 Propiedad: Xi ∼ N (µi , σi), independientes, entonces �   � n n n � � �� Y = Xi ∼ N  µi , � σi2  i=1 i=1 i=1 La convergencia en distribución significa que la función de distribución correspondiente a (X1 + X2 + . . . + Xn) converge a la de N (µ, σ), a medida que n → ∞. Aproximación de otras variables aleatorias a la normal • Aproximación binomial-normal Si X es B(n, p) con np(1 − p) > 5, entonces � � � X ≈ N µ = np, σ = np(1 − p) • Aproximación Poisson-normal Si X es ℘(λ) y λ es suficientemente grande, entonces � √ � X ≈ N µ = λ, σ = λ 46 Al aproximar una distribución discreta por una continua, es preciso salvar la discrepancia entre ambas debida a el hecho de que los puntos pueden tener probabilidad positiva para la variable discreta y, sin embargo, ésta es nula para las variables continuas. Este inconveniente se resuelve mediante la denominada corrección por continuidad o corrección del medio punto. Si X es una v.a cuya distribución es B(n, p) tal que np(1 − p) > 5: � � a − 0.5 − np b + 0.5 − np P (a ≤ X ≤ b) = P � ≤ N (0, 1) ≤ � np(1 − p) np(1 − p) Si X es una v.a cuya distribución es ℘(λ) con λ > 5: � � a − 0.5 − λ b + 0.5 − λ √ √ P (a ≤ X ≤ b) = P ≤ N (0, 1) ≤ λ λ 47 La función caracterı́stica El cálculo de los momentos de variables aleatorias suele implicar cálculos costosos. La función caracterı́stica simplifica notablemente esas operaciones. Definición 10 Sea X una v.a. continua. La función caracterı́stica, denotada ϕX (ω) se define como � ∞ � jωX � ϕX (ω) = E e = ejωx fX (x)dx con j = √ −∞ −1 Es decir, la función caracterı́stica puede verse como el valor esperado de una función de X, ejωX . ejωX es una variable aleatoria con valores complejos: ejωX = cosωX + jsenωX � � E ejωX = E (cosωX) + jE (senωX) Ejemplo: Sea X v.a. exp(λ). � ∞ jωx −λx � ∞ −(λ−jω)x ϕX (ω) = −∞ e λe dx = λ −∞ e = λ λ−jω Si X es una v.a. discreta, la función caracterı́stica se define como � ϕX (ω) = p(X = x)ejωx x 48 Ejemplo: Sea X v.a. Ge(p). ϕX (ω) = ∞ � e k=1 = jωk (1 − p) pejω 1 − (1 − p)ejω k−1 p = pe jω n � � k=1 (1 − p)ejω �k−1 Propiedades de la función caracterı́stica • La función caracterı́stica siempre está definida. • |ϕX (ω)| ≤ 1 • E(X n) = 1 dn ϕX (ω) |ω=0 j n dω n Ası́, en el ejemplo de la exponencial, se tiene E(X) = 1 dϕX (ω) 1 jλ 1 |ω=0 = | = ω=0 j dω j (λ − jω)2 λ y en el de la geométrica: 1 dϕX (ω) 1 pieiω 1 E(X) = |ω=0 = | = ω=0 j dω j (1 − (1 − p)ejω )2 p 49 = Resumen propiedades reproductivas de variables aleatorias Sean� Xi, i = 1, . . . , n tales que Xi independientes y sea Y = ni=1 Xi • Xi ∼ B(ni , p), entonces, Y ∼ B ��n i=1 ni , p • Xi ∼ Ge(p), entonces, Y ∼ BN (n, p) • Xi ∼ BN (ni, p), entonces Y ∼ BN • Xi ∼ ℘(λi ), entonces Y ∼ ℘ ��n ��n i=1 ni , p i=1 λi • Xi ∼ Exp(λ), entonces Y ∼ γ(n, λ) • Xi ∼ γ(ni, λ), entonces Y ∼ γ( �n • Xi ∼ N (µi, σi), entonces Y ∼ N � � � i=1 ni , λ) �� n i=1 µi , ��n 2 i=1 σi 50 � El proceso de Poisson Se considera una situación en la que los eventos asociados a un experimento aleatorio ocurren con tasa constante λ en el espacio o en el tiempo. Por ejemplo, la ruptura de un componente en un sistema, las llamadas a una centralita telefónica, llegadas de clientes a un servicio . . . ξ(0, t)=‘número de ocurrencias en [0, t] ’ = Nt 1.- ξ(0) = 0. 2.- Si t1 < t2 < t3 < t4 , ξ(t1 , t2 ) y ξ(t3 , t4) son independientes. 3.- ξ(t1 , t2 ) y ξ(t1 +h, t2 +h) tienen idéntica distribución 4.- limh→0 P (ξ(t,t+h)=1) =λ>0 h 5.- limh→0 P (ξ(t,t+h)≥2) =0 h Si se verifican los postulados anteriores, entonces −λt (λt) k P (ξ(0, t) = k) = e , k = 0, 1, 2, . . . k! Es decir, Nt = ξ(0, t) es v.a. de Poisson de parámetro λt. Una colección de variables aleatorias {Nt, t ≥ 0} que satisface las anteriores propiedades, es un proceso de Poisson de tasa λ 51 Las propiedades que caracterizan al proceso de Poisson se resumen considerando un intervalo [0, t] dividido en subintervalos de corta duración δ = nt y los siguientes supuestos 1.- La probabilidad de que tenga lugar más de una ocurrencia en un subintervalo es nula. 2.- El hecho de que en un subintervalo tenga lugar o no un evento es independiente de lo que ocurra en los restantes subintervalos. Relación entre la exponencial y el proceso de Poisson Sea {Nt, t ≥ 0} un proceso de Poisson de tasa λ y denotemos por Xn al tiempo aleatorio entre las ocurrencias n − 1 y n. Xi se denominan tiempos entre llegadas del proceso. Propiedad: X1 , X2 , . . . son v.a. independientes con distribución exponencial de tasa λ. X1 representa el tiempo hasta la primera ocurrencia P (X1 > t) = P (ξ(0, t) = 0) = e−λt y por tanto X1 es exponencial de parámetro λ. 52 Asimismo se tiene que para s, t > 0 P (X2 > t|X1 = s) = P (ξ(s, s+t) = 0) = e−λt = P (X2 > t) se advierte que X2 es independiente de X1 y que tiene tambien distribución exponencial de parámetro λ. Reiterando el argumento, se tiene el resultado. Consecuencia: Las propiedades reproductivas de la exponencial implican que el tiempo que transcurre hasta que se producen n ocurrencias, Tn = X1 + . . . + Xn, tiene distribución γ(n, λ). Dada la relación entre la v.a. gamma y el proceso de Poisson se concluye que, si el tiempo transcurrido hasta que se producen n eventos es inferior a t unidades de tiempo, de modo equivalente en esas t unidades de tiempo se habrán producido, como mı́nimo, n eventos, es decir: ∞ � i (λt) P (T ≤ t) = P (γ(n, λ) ≤ t) = P (℘(λt) ≥ n) = e−λt i! i=n Propiedad: Si los tiempos entre ocurrencias de un proceso, X1 , X2, . . ., son v.a. independientes y con distribución exponencial de parámetro λ, entonces se verifica que las ocurrencias tienen lugar de acuerdo a un proceso de Poisson. 53 §TEMA 5: VARIABLES ALEATORIAS N-DIMENSIONALES Con frecuencia, un experimento aleatorio involucra a varias variables aleatorias. Se puede medir, por ejemplo, el voltaje en n puntos diferentes de un circuito, o bien hacer medidas repetidas de una determinada cantidad. Ejemplo: En la recepción de información digital cada bit se clasifica, dependiendo de la calidad de la señal recibida, en aceptable, medio o inaceptable. Las probabilidades de que un bit sea asignado a cada una de las clases son 0.9, 0.08 y 0.02 respectivamente. Supongamos que se emiten 4 bits. Sean X e Y las v.a. que cuentan el número de bits aceptables y medios. X ∼ B(4, 0.9) e Y ∼ B(4, 0.08). Por tanto, X = 0, 1, 2, 3, 4 e Y = 0, 1, 2, 3, 4. Sin embargo, si y = 3, se tiene x = 0 ó x=1 En este tema analizaremos el comportamiento conjunto de dos o más variables aleatorias. En particular nos interesará determinar si un conjunto de variables aleatorias son independientes, ası́ como establecer al grado de relación entre ellas cuando no lo son. Consideremos un sistema de tres componentes en serie cuyos respectivos tiempos son v.a X1 , X2 y X3 . El tiempo hasta el fallo del sistema en su totalidad está dado por min(X1 , X2 , X3 ) P (min(X1 , X2 , X3 ) ≤ a) 54 La función de distribución conjunta de dos variables aleatorias X e Y se define como: FXY (x, y) = P ((X ≤ x) ∩ (Y ≤ y)) = P (X ≤ x, Y ≤ y) 55 Propiedades de la función de distribución conjunta 1.- 0 ≤ FXY (x, y) ≤ 1 2.- FXY (x1 , y1 ) ≤ FXY (x2 , y2 ), x 1 ≤ x2 , y 1 ≤ y 2 3.- P (x1 < X ≤ x2 , y1 < Y ≤ y2 ) = FXY (x2 , y2 )+FXY (x1, y1 )− FXY (x1, y2 ) − FXY (x2, y1 ) 4.- FXY (−∞, y) = FXY (x, −∞) = FXY (−∞, −∞) = 0 5.- FXY (∞, ∞) = 1 6.FX (x) = P (X ≤ x) = P (X ≤ x, Y ≤ ∞) = FXY (x, ∞) FY (y) = P (Y ≤ y) = P (X ≤ ∞, Y ≤ y) = FXY (∞, y) Un vector aleatorio (X, Y ) puede ser • discreto si solo toma valores en un conjunto discreto • continuo si presenta un rango continuo de valores • mixto si no es discreto ni continuo 56 Variable aleatoria bidimensional discreta El vector de v.a. (X, Y ) es una variable aleatoria bidimensional dicreta si los posibles valores de (X, Y ) se pueden representar como (xi, yj ), i = 1, 2, . . . , n, . . . ; j = 1, 2, . . . , n, . . . La función de probabilidad conjunta, p(xi, yj ) especi� fica las probabilidades de (X = xi) (Y = yj ) Definición 11 La función de probabilidad conjunta de (X, Y ) satisface las siguientes propiedades 1.- p(xi, yj ) ≥ 0 para todo (xi, yj ) 2.- �∞ �∞ i=1 j=1 p(xi , yj ) =1 La probabilidad de un evento A viene dada por la suma de las probabilidades de todos los pares (xi , yj ) que estén en A: �� P (A) = p(xi, yj ), (xi, yj ) ∈ A i j En el ejemplo de los bits, denotemos por A, M e I los sucesos bit aceptable, medio e inaceptable P (X ≤ 1, Y ≤ 1) = = P (IIII) + P (AIII) + + P (IIIM ) + P (AIIM ) 57 Distribuciones de probabilidad marginales Cuando se tienen definidos vectores aleatorios es importante distinguir entre el comportamiento conjunto de las variables y el que presenta cada una de ellas aisladamente. Las distribuciones individuales de cada variable lo proporcionan las funciones de probabilidad marginales: pX (xi) = P (X = xi) = ∞ � p(xi , yj ) j=1 y similarmente pY (yj ) = P (Y = yj ) = ∞ � p(xi, yj ) i=1 Las distribuciones marginales son v.a. unidimensionales. En general, no es posible deducir la distribución conjunta de X e Y a partir de sus marginales. Funciones de distribución marginales FX (x) = FY (y) = ∞ �� xi ≤x j=1 ∞ �� yj ≤y i=1 p(xi, yj ) = � pX (xi) xi ≤x p(xi , yj ) = � pY (yj ) yj ≤y 58 Variable aleatoria bidimensional continua Un vector aleatorio (X, Y ) es continuo si existe una función fXY (x, y) no negativa denominada función de densidad conjunta tal que � x � y P (X ≤ x, Y ≤ y) = fXY (u, v)dudv −∞ −∞ La función de densidad conjunta se define como ∂2 ∂2 fXY (x, y) = FXY (x, y) = FXY (x, y) ∂x∂y ∂y∂x Propiedades de la función de densidad conjunta 1.- fXY (x, y) ≥ 0 para todo x, y 2.- �∞ �∞ f (u, v)dudv −∞ −∞ XY 3.- FXY (x, y) = 4.- =1 �x �y f (u, v)dudv −∞ −∞ XY FX (x) = FXY (x, ∞) = FY (y) = FXY (∞, y) = � x � ∞ −∞ � −∞ ∞ � y −∞ fXY (u, v)dudv fXY (u, v)dudv −∞ 59 5.- fX (x) = 6.- �∞ f (x, y)dy, −∞ XY fY (y) = P (x1 < X ≤ x2 , y1 < Y ≤ y2) = � x2 x1 �∞ f (x, y)dx −∞ XY � y2 f (x, y)dxdy y1 De la condición 5 se infiere que si (X, Y ) es un vector aleatorio continuo, las marginales X e Y también lo son. Distribuciones condicionadas Con frecuencia, muchos problemas prácticos consisten en analizar cómo es el comportamiento de una v.a. Y condicionada por el hecho de que una segunda variable X toma un valor especı́fico x. Ası́, por ejemplo, supongamos que Y representa el tiempo hasta el fallo de una máquina mientras que X es ritmo de trabajo que realiza. En otro caso, Y puede ser la señal a la salida de un canal de comunicación mientras que X representa la señal a la entrada. En estos casos nos interesa computar probabilidades de sucesos concernientes a la v.a. Y , dado que X = x. Asimismo es relevante la denominada esperanza condicional o valor esperado de Y siendo que X = x, es decir E (Y |X = x). 60 Si (X, Y ) constituyen un vector aleatorio discreto, la función de probabilidad condicionada de Y cuando X = xk está dada por pY |X (y = yj |xk ) = P (Y = yj , X = xk ) P (X = xk ) dado que P (X = xk ) > 0. La función de distribución condicional se define como � FY |X (y|xk ) = pY |X (y = yj |xk ) yj ≤y Si (X, Y ) constituyen un vector aleatorio continuo, la función de densidad condicionada de Y cuando X = x está dada por fY |X (y|x) = fXY (x, y) fX (x) dado que fX (x) > 0. La función de distribución condicional se define como � y FY |X (y|x) = fY |X (v|x)dv verificándose además −∞ fY |X (y|x) = dFY |X (y|x) dy 61 Del mismo modo se definen las funciones de probabilidad o densidad condicionadas de X respecto a Y , siempre que P (Y = yk ) > 0 o fY (y) > 0, dependiendo de que el vector aleatorio sea discreto o continuo. Independencia de variables aleatorias Dos v.a. (X, Y ) son independientes si y sólo sı́ para todo x e y se verifica FXY (x, y) = FX (x)FY (y) Si el vector (X, Y ) es discreto con X e Y independientes, las siguientes afirmaciones son equivalentes pXY (X = xj , Y = yk ) = pX (X = xj )pY (Y = yk ), ∀xj , yk pY |X (Y = yk |X = xj ) = pY (Y = yk ), ∀xj , yk , con P (X = xj ) > 0 pX|Y (X = xj |Y = yk ) = pX (X = xj ), ∀xj , yk , con P (Y = yk ) > 0 Si el vector (X, Y ) es continuo con X e Y independientes, las siguientes afirmaciones son equivalentes fXY (x, y) = fX (x)fY (y), ∀x, y fY |X (y|x) = fY (y), ∀x, y, con fX (x) > 0 fX|Y (x|y) = fX (x), ∀x, y, con fY (y) > 0 62 Funciones de variables aleatorias n dimensionales Consideremos la variable aleatoria bidimensional (X, Y ). (X, Y ) pueden representar, por ejemplo, los tiempos hasta el fallo de las componentes de un sistema. Si las componentes están dispuestas en serie o en paralelo, el tiempo hasta el fallo del sistema vendrá dado, respectivamente por las funciones min(X, Y ) y max(X, Y ). Otras variables que nos pueden interesar son X + Y , X/Y , etc. El problema que nos ocupa ahora es el de encontrar las distribución de funciones de variables aleatorias n dimensionales. Teorema 2 Sea (X, Y ) es una variable aleatoria bidimensional continua cuya función de densidad conjunta es f (x, y). Supongamos que las funciones U = h1 (X, Y ) y V = h2 (X, Y ) satisfacen las siguientes propiedades: a) Las ecuaciones u = h1 (x, y) y v = h2 (x, y) tienen una única solución (x(u, v), y(u, v)). b) Existen las derivadas parciales tinuas. ∂x ∂x ∂y ∂y , , , ∂u ∂v ∂u ∂v Entonces, la función de densidad de (U, V ) por � ∂x ∂x � ∂v g(u, v) = f (x(u, v), y(u, v)) �� ∂u ∂y ∂y ∂u ∂v y son conviene dada � � � � 63 Esperanza y momentos Al igual que en el caso de la v.a. unidimensional, la esperanza y los momentos de las v.a multidimensionales no constituyen una descripción completa de las v.a, sin embargo contienen información relevante respecto aquellas. El valor esperado o esperanza de una función g(x, y) de dos variables aleatorias X e Y , E(g(X, Y )), se define como �� g(x , y )P (X = xi, Y = yk ), (X, Y ) discreto � ∞i � k∞ i k g(x, y)fXY (x, y)dxdy, (X, Y ) continuo −∞ −∞ En particular se definen E(X p Y q ), E((X −µX )p (Y −µY )q ). El cálculo de esperanzas de funciones de las v.a. marginales se puede realizar por dos vı́as: En el caso discreto �� g(xi)P (X = xi ) E(g(X)) = �i � i k g(xi )P (X = xi , Y = yk ) En el caso continuo �� ∞ g(x)fX (x)dx E(g(X)) = �−∞ ∞ �∞ g(x)fXY (x, y)dxdy −∞ −∞ Para E(g(Y )) se tienen fórmulas simétricas. 64 Esperanza condicional Dado un vector aleatorio (X, Y ) la esperanza condicional de Y dado X = x se define como � ∞ E(Y |x) = yfY |X (y|x)dy, si Y es continua −∞ � E(Y |x) = yj P (Y = yj |X = x), si Y es discreta yj La esperanza condicional E(Y |x) se puede interpretar como una función de x: g(x) = E(Y |x). Se trata, por consiguiente, de una función de una variable aleatoria que es a su vez otra v.a., E(Y |X), y por tanto podemos calcular su esperanza: E(E(Y |X)), verificándose que E(Y ) = E(E(Y |X)) El resultado anterior se puede extender para la esperanza de cualquier función de Y : E(g(Y )) = E(E(g(Y )|X)) 65 Relación entre dos variables aleatorias En el caso de que dos variables aleatorias no sean independientes, nos interesa cuantificar el grado de relación existente entre ellas. La covarianza de dos variables aleatorias X e Y se define como Cov(XY ) = E((X − µX )(Y − µY )) = E(XY ) − E(X)E(Y ) La covarianza depende de las unidades de medida, lo que nos lleva a definir: El coeficiente de correlación ρ= Cov(XY ) σX σY Propiedades del coeficiente de correlación: • ρ mide el grado de relación lineal entre X e Y . • −1 ≤ ρ ≤ 1 • ρ = 1 ó ρ = −1 ⇔ Y = aX + b • ρ es grande (pequeño) indica una fuerte (débil) relación lineal entre X e Y . 66 • Si ρ = 0, X e Y se dicen incorreladas • Si X e Y son independientes, entonces ρ = 0 • Incorrelación no implica independencia • Aunque ρ = 0, X e Y pueden estar vinculadas por una relación de tipo no lineal. 67 Propiedades de la esperanza y de la varianza La media de una suma ponderada de n variables aleatorias, es igual a la suma ponderada de las medias de cada una de ellas: � n � n � � E a i Xi = aiE(Xi) i=1 i=1 En general, la esperanza del producto de variables aleatorias no coincide con el producto de sus esperanzas. Sin embargo, si X1 , X2 , . . . , Xn son variables aleatorias independientes, entonces E (g1 (X1 )g2 (X2 ) . . . g(Xn)) = n � E (g(Xi)) i=1 La varianza de una combinación lineal de dos variables aleatorias V ar (aX + bY ) = a2 V ar(X) + b2 V ar(Y ) + 2abCov(XY ) Si X e Y son dos variables aleatorias incorreladas se tiene: V ar (aX + bY ) = a2 V ar(X) + b2 V ar(Y ) La expresión anterior se puede extender a n variables aleatorias. Sean Xi, i = 1, 2 . . . , n tales que Xi y Xj son incorreladas para cada i �= j, entonces � n � n � � V ar a i Xi = a2i V ar(Xi) i=1 i=1 68 Distribución normal multivariante Dos v.a. X e Y tienen distribución normal bivariante si su función de densidad conjunta está dada por: � � �� 2 2 (X−µX ) (Y −µY ) 2ρ(X−µX )(Y −µY ) 1 − 2(1−ρ2 ) + σ2 − 1 σX σY σ2 X Y � fXY (x, y) = e 2πσX σY 1 − ρ2 con −∞ < x < ∞, −∞ < y < ∞ 2 , σ 2 , ρ son las medias, varianLos parámetros µX , µY , σX Y zas y coeficiente de correlación de X e Y . La distribución normal bivariante verifica las siguientes propiedades: • X e Y son normales N (µX , σX ) y N (µY , σY ) • E(X|Y = y) = µX|Y = µX +ρ σσXY (y − µY ), V ar(X|Y ) = 2 2 (1 − ρ2 ) σX|Y = σX • E(Y |X = x) = µY |X = µY +ρ σσXY (x − µX ), V ar(Y |X) = σY2 |X = σY2 (1 − ρ2 ) • Las distribuciones condicionadas son normales � � � � X|Y ∼ N µX|Y , σX|Y , Y |X ∼ N µY |X , σY |X • X e Y independientes ⇔ X e Y incorreladas 69 Teorema Central del Lı́mite Este es el resultado más importante asociado a la distribución normal ya que explica el motivo por el que muchas variables aleatorias siguen una distribución normal. Por ejemplo, el consumo diario de gas en una ciudad resulta ser la suma de los consumos de todos los usuarios y su distribución es aproximadamente normal. En general, si se tienen X1, X2, . . . , Xn variables aleatorias independientes cuyas medias y varianzas son µi y σi2 se tiene E (X1 + X2 + . . . + Xn) = V ar (X1 + X2 + . . . + Xn) = n � i=1 n � µi σi2 i=1 Si n es suficientemente grande (n > 30), se tiene que �n + X + . . . + X − (X1 n) 2 i=1 µi ��n → N (0, 1) 2 i=1 σi 70 Si X1 , X2 , . . . , Xn son variables aleatorias independientes e idénticamente distribuidas con media µ y varianza σ 2 se tiene ��n � n � � X 1� i=1 i E X = E = µ=µ n n i=1 ��n � n � � X 1 � 2 σ2 i=1 i V ar X = V ar = 2 σ = n n i=1 n Si n es suficientemente grande (n > 30), se tiene que X −µ √ → N (0, 1) σ/ n La convergencias anteriores lo son en distribución. 71

Jesús As´ın Lafuente Mar´ıa Dolores Berrade Ursúa C

Documentos relacionados

Productos

Apoyo

Jesús As´ın Lafuente Mar´ıa Dolores Berrade Ursúa C

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib