1 Tema 1. Probabilidad y modelos probabilı́sticos En este tema: • Probabilidad • Variables aleatorias • Modelos de variables aleatorias más comunes • Vectores aleatorios Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 2 Tema 1. Probabilidad y modelos probabilı́sticos • Probabilidad: • • • • • • • Experimentos aleatorios, espacio muestral, sucesos. Interpretaciones de la probabilidad. Propiedades de la probabilidad. Probabilidad condicionada. Sucesos Independientes. Teoremas fundamentales del cálculo de probabilidades: regla de la multiplicación, th. de la probabilidad total y th. de Bayes. Variables aleatorias: • • • • Concepto de variable aleatoria. Variables aleatorias discretas: función de probabilidad, función de distribución, momentos. Variables aleatorias continuas: función de densidad, función de distribución, momentos. Algunas propiedades de la esperanza y la varianza. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 3 Tema 1. Probabilidad y modelos probabilı́sticos • Modelos de variables aleatorias más comunes: • • • • • • • • • Distribución Bernoulli Distribución Binomial Distribución de Poisson Distribución uniforme continua Distribución exponencial Distribución normal Teorema Central del Lı́mite Distribuciones asociadas a la normal (Tema 4. Introducción a la Inferencia Estadı́stica) Vectores aleatorios: • • • • • Concepto de vector aleatorio. Vectores aleatorios discretos: distribución conjunta, distribuciones marginales, distribuciones condicionadas, independencia. Vectores aleatorios continuos: distribución conjunta, distribuciones marginales, distribuciones condicionadas, independencia. Covarianza, correlación y esperanza condicionada. Algunas propiedades de la esperanza y la varianza Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 4 Conceptos básicos • Experimento aleatorio: proceso de observar un fenómeno del que se conocen de antemano todos sus posibles resultados, pero a partir de las condiciones iniciales no puede predecirse exactamente cuál de estos resultados se producirá. • Espacio muestral: es el conjunto de todos los posibles resultados de un experimento aleatorio. Se denota por Ω = {e1 , e2 , . . . , en , . . .} y cada uno de sus elementos se denomina suceso elemental o punto muestral. • Un espacio muestral (correspondiente a un determinado experimento aleatorio) tiene asociada una colección F no vacı́a de subconjuntos de Ω. Los elementos de F se denominan sucesos y se denotan por las letras A, B, C , . . .. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 5 Conceptos básicos: ejemplos • Experimento aleatorio: lanzamiento de un dado • • • • Exp. aleatorio: número de accesos a la página web de la universidad el próximo lunes • • • • Espacio muestral finito: Ω = {1, 2, 3, 4, 5, 6} Sucesos elementales (o puntos muestrales): 1, 2,3,4, 5 y 6 Sucesos aleatorios: A =“obtener una puntuación par”= {2, 4, 6}, B =“obtener una puntuación superior a 3”= {4, 5, 6}. Espacio muestral infinito numerable: Ω = {0, 1, 2, . . . , n, . . .} = N ∪ {0} Sucesos elementales: 0, 1, 2, 3, . . . Sucesos aleatorios: A =“se reciben al menos 100 accesos”= {100, 101, . . .} y B =“se reciben menos de 500 accesos”= {0, 1, . . . , 499}. Exp. aleatorio: precio de una cierta acción al cierre de sesión del próximo lunes • • • Espacio muestral infinito no numerable: Ω = (0, +∞), o siendo realistas, Ω = (0, M) Sucesos elementales: x ∈ (0, M) Sucesos aleatorios: A =“el precio de cierre es superior a 5 euros”= (5, M) y B =“precio de cierre entre 3 y 8 euros”= (3, 8). Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 6 Sucesos: conceptos básicos Sucesos triviales • Suceso seguro: siempre se verifica después del experimento aleatorio. El propio espacio muestral Ω • Suceso imposible: nunca se verifica como resultado del experimento aleatorio. El conjunto vacı́o ∅ ⊆ Ω Suceso complementario o contrario a un suceso A: suceso que se verifica cuando no se verifica A. Es el conjunto de todos los sucesos elementales de Ω que no están en A. Se suele denotar por Ac ó A Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 7 Operaciones básicas con sucesos aleatorios Intersección de sucesos: Si A y B son dos sucesos del espacio muestral Ω, entonces el suceso intersección, A ∩ B, es el conjunto de todos los elementos de Ω que están en A y en B a la vez. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 8 Operaciones básicas con sucesos aleatorios A y B son sucesos incompatibles si no tienen ningún suceso elemental en común, i.e., el suceso intersección es el suceso imposible, A ∩ B = ∅ Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 9 Operaciones básicas con sucesos aleatorios Unión de sucesos: Si A y B son dos sucesos de un espacio muestral Ω, entonces el suceso unión, A ∪ B, es el conjunto de todos los sucesos elementales de Ω que pertenecen a cualquiera de los dos, A ó B. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 10 Operaciones básicas con sucesos aleatorios Diferencia de sucesos: Si A y B son dos sucesos de un espacio muestral Ω, entonces el suceso diferencia, A \ B, es el conjunto de todos los sucesos elementales de Ω que pertenecen a A pero no a B. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 11 Operaciones básicas con sucesos aleatorios Leyes de Morgan Relación entre la unión, intersección y suceso complementario A∪B =A∩B A∩B =A∪B Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 12 Ejemplo: lanzamiento de un dado Consideremos el experimento aleatorio “resultado observado al lanzar un dado”: • suceso elemental: el 1, el 2, el 3, el 4, el 5, el 6 • espacio muestral: Ω = {1, 2, 3, 4, 5, 6} • suceso: A = {2, 4, 6} B = {4, 5, 6} El suceso A es “sale un número par”. El suceso B es “sale un número mayor que tres”. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 13 Ejemplo: lanzamiento de un dado Ω = {1, 2, 3, 4, 5, 6} • A = {2, 4, 6} Complementario: Ā = {1, 3, 5} • B̄ = {1, 2, 3} Intersección: A ∩ B = {4, 6} • B = {4, 5, 6} Ā ∩ B̄ = {1, 3} Unión: A ∪ B = {2, 4, 5, 6} Ā ∪ B̄ = {1, 2, 3, 5} A ∪ Ā = {1, 2, 3, 4, 5, 6} = Ω • Sucesos incompatibles: A ∩ Ā = ∅ Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 14 Probabilidad. Intuición La probabilidad es una medida subjetiva sobre la incertidumbre de que suceda cierto suceso. Al tirar un dado: • • la probabilidad de que salga un 1 es más pequeña que la probabilidad de que salga un número mayor que uno la probabilidad de que salga un 4 es igual que la probabilidad de que salga un 6. • la probabilidad de que salga un 7 es mı́nima, igual a la probabilidad del suceso imposible • la probabilidad de que salga un número positivo es máxima, igual a la probabilidad del suceso seguro Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 15 Tres enfoques/interpretaciones Probabilidad clásica (regla de Laplace): Considera un experimento para el que todos los sucesos elementales son equiprobables. Si A es un suceso formado por n(A) puntos muestrales, entonces se define la probabilidad de A como número de casos favorables a A n(A) P(A) = = . número de casos posibles n(Ω) Enfoque frecuentista: Si repetiéramos el experimento muchas veces, la frecuencia con que ocurre el suceso serı́a una aproximación de la probabilidad. Probabilidad – el valor lı́mite de la frecuencia Probabilidad subjetiva: Depende de la información que tengamos en ese momento. Probabilidad – creencia o certeza de que ocurra Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 16 Propiedades de la probabilidad Definición Sea F la colección no vacı́a de todos los sucesos de Ω. La probabilidad es una aplicación P : F → [0, 1], que asigna a cada suceso A ∈ F un valor numérico P(A), verificando: • P(A) ≥ 0, para todo suceso A ∈ F • P(Ω) = 1 • Probabilidad de la unión de sucesos disjuntos: si A y B son incompatibles, entonces P(A ∪ B) = P(A) + P(B). Propiedades • Probabilidad del complementario: P(Ā) = 1 − P(A). • P(∅) = 0. • Si A ⊆ B ⇒ P(A) ≤ P(B) • Si A = {e1 , . . . , en } finito (o infinito numerable) ⇒ P(A) = • Probabilidad de la unión: P(A ∪ B) = P(A) + P(B) − P(A ∩ B). Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Pn i=1 P(ei ) Tema 1 17 Ejemplo: lanzamiento de un dado • • Probabilidad de un suceso elemental: P(ei ) = 16 Probabilidad de que salga par: A = {2, 4, 6}, luego P(A) = P(”2”) + P(”4”) + P(”6”) = • Probabilidad de que salga mayor que 3: B = {4, 5, 6}, luego P(B) = P(”4”) + P(”5”) + P(”6”) = • 1 1 1 1 n(A) + + = = 6 6 6 2 n(Ω) 1 1 1 1 n(B) + + = = 6 6 6 2 n(Ω) Probabilidad de que salga impar P(Ā) = 1 − P(A) = 1 − Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 1 1 = 2 2 Tema 1 18 Ejemplo: lanzamiento de un dado • Probabilidad de que salga par o mayor que tres P(A ∪ B) = P(A) + P(B) − P(A ∩ B) Como A ∩ B = {4, 6}, entonces P(A ∩ B) = P(A ∪ B) = • 2 6 = 1 3 = n(A∩B) n(Ω) 1 1 1 4 2 n(A ∪ B) + − = = = 2 2 3 6 3 n(Ω) Probabilidad de que salga par o igual a uno. Los sucesos A = {2, 4, 6} y C = {1} son incompatibles (A ∩ C = ∅) por tanto P(A ∪ C ) = P(A) + P(C ) = 1 1 4 2 n(A ∪ C ) + = = = 2 6 6 3 n(Ω) Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 19 Probabilidad condicionada: ejemplo Se clasifica un grupo de 100 ejecutivos de acuerdo a su peso y a si sufren o no de hipertensión. La tabla muestra el número de ejecutivos en cada categorı́a. Hipertenso Normal Total Insuficiente 2 20 22 Normal 8 45 53 Sobrepeso 10 15 25 Total 20 80 100 • Experimento aleatorio: seleccionar al azar a uno de esos 100 ejecutivos para medir su tensión y su peso. • Espacio muestral: Ω = {(H, I ), (H, N), (H, S), (N, I ), (N, N), (N, S)} • Si se elige un ejecutivo al azar, ¿cuál es la probabilidad de que tenga hipertensión? n(H) 20 = 0, 2 6= P(H) = 100 n(Ω) • Si se elige a una persona al azar, y se descubre que tiene sobrepeso, ¿cuál es la probabilidad de que tenga hipertensión? ¿Es la misma que antes? Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 20 Probabilidad condicionada: ejemplo Probabilidad de que sea hipertenso, sabiendo que tiene sobrepeso: P(H|S) Para calcularla, nos fijamos sólo en los ejecutivos con sobrepeso: P(H|S) = 10 = 0, 4 > 0, 2 = P(H) 25 La probabilidad de un suceso depende de la mayor o menor información que tengamos La probabilidad condicionada, (o probabilidad condicional) es la probabilidad de que ocurra un suceso, dado que sabemos que ha ocurrido otro suceso. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 21 Probabilidad condicionada. Sucesos Independientes Probabilidad condicionada Sean dos sucesos A y B, la probabilidad de A condicionada por el suceso B es: P(A|B) = P(A ∩ B) P(B) Para que tenga sentido: P(B) > 0. Sucesos Independientes • Intuitivamente: la ocurrencia de uno de ellos no nos dice nada nuevo sobre la ocurrencia del otro • Definición: se dice que dos sucesos A y B son independientes si P(A ∩ B) = P(A)P(B). • Propiedad: dos sucesos A y B son independientes si, y sólo si, P(A|B) = P(A) y P(B|A) = P(B). Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 22 Teoremas fundamentales del cálculo de probabilidades Regla de la multiplicación ó fórmula de las probabilidades compuestas Es útil para calcular la probabilidad de la ocurrencia simultánea de varios sucesos cuando las probabilidades condicionadas son fáciles de calcular. • P(A ∩ B) = P(A|B) P(B), siempre que P(B > 0). • P(A ∩ B ∩ C ) = P(A) P(B|A) P(C |A ∩ B), siempre que P(A ∩ B) > 0. • Se generaliza al cálculo de la probabilidad de la intersección de n sucesos A1 , . . . , An . Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 23 Regla de la multiplicación: ejemplo Se extraen dos cartas de una baraja española. Probabilidad de que: 12 48 . • la primera carta sea copa: P(A) = • la segunda sea copa, sabiendo que la primera lo fue: P(B|A) = • las dos cartas sean copas: P(A ∩ B) = P(B|A) P(A) = 11 47 . 11 12 47 48 . Se lanzan dos dados. Probabilidad de que: • en el primer dado salga un 1: P(C ) = 61 . • en el segundo dado salga un 1, sabiendo que en el primero salió 1: P(D|C ) = P(D) = 61 . • en el primer dado salga un uno, si en el segundo salió uno: P(C |D) = P(C ) = 61 . • en los dos dados salga uno: P(C ∩ D) = P(D|C ) P(C ) = P(D) P(C ) = 1 1 6 6 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 (sucesos independientes) Tema 1 24 Teoremas fundamentales: teorema de la probabilidad total Un conjunto de sucesos B1 , B2 , . . . , Bk son mutuamente excluyentes si Bi ∩ Bj = ∅, ∀i 6= j. Si además de eso cumplen Ω = B1 ∪ B2 ∪ . . . ∪ Bk , se dice que forman una partición del espacio muestral. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 25 Teoremas fundamentales: teorema de la probabilidad total Si B1 , B2 , . . . , Bk es una partición del espacio muestral tal que P(Bi ) 6= 0, i = 1, . . . , k, y A es un suceso cualquiera, entonces P(A) = P(A ∩ B1 ) + P(A ∩ B2 ) + . . . + P(A ∩ Bk ) = = P(A|B1 )P(B1 ) + P(A|B2 )P(B2 ) + . . . + P(A|Bk )P(Bk ). Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 26 Teorema de la probabilidad total: ejemplo En una fábrica se embalan galletas en cuatro cadenas de montaje: A1, A2, A3, y A4. El 35% de la producción total se embala en la cadena A1, el 20%, 24% y 21% en las cadenas A2, A3 y A4 respectivamente. Los datos indican que no se embalan correctamente un porcentaje pequeño de las cajas: el 1% en la cadena de montaje A1, el 3% en A2, el 2.5% en A3 y el 2% en A4. ¿Cuál es la probabilidad de que una caja elegida al azar de la producción total sea defectuosa (suceso D)? P(D) = P(D ∩ A1 ) + P(D ∩ A2 ) + P(D ∩ A3 ) + P(D ∩ A4 ) = P(D|A1 )P(A1 ) + P(D|A2 )P(A2 ) + P(D|A3 )P(A3 ) + P(D|A4 )P(A4 ) = 00 01 × 00 35 + 00 03 × 00 20 + 00 025 × 00 24 + 00 02 × 00 21 = 00 0197. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 27 Teoremas fundamentales: teorema de Bayes Para dos sucesos A y B se tiene que P(A|B) = P(B|A)P(A) P(B) Ejemplo: (continuación del anterior) Supongamos que descubrimos una caja defectuosa, ¿cuál es la probabilidad de que la caja haya sido embalada en la cadena de montaje A1? P(D|A1 )P(A1 ) = P(D) 0.01 × 0.35 = = 0.17766 0.0197 P(A1 |D) = donde la probabilidad de que una caja elegida al azar sea defectuosa P(D) se ha calculado aplicando el teorema de la probabilidad total. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 28 Teoremas fundamentales: teorema de Bayes Dada una partición del espacio muestral, B1 , B2 , . . . , Bk , tal que P(Bi ) 6= 0, i = 1, . . . , k, y dado un suceso A, se tiene que P(Bj |A) = P(A|Bj )P(Bj ) P(A|B1 )P(B1 ) + P(A|B2 )P(B2 ) + . . . + P(A|Bk )P(Bk ) para todo j = 1 . . . , k • Probabilidades a priori: p(B1 ), . . . , p(Bk ) • Probabilidades a posteriori: p(B1 |A), . . . , p(Bk |A) • Verosimilitudes: p(A|B1 ), . . . , p(A|Bk ) Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 29 Teoremas fundamentales: utilidad La aplicación del teorema de la probabilidad total y del teorema de Bayes es especialmente útil cuando: • El experimento aleatorio se puede separar en 2 etapas • Es sencillo dar una partición de todo el espacio muestral Ω mediante sucesos B1 , . . . , Bk correspondientes a resultados en la primera etapa. • Son conocidas, o fácilmente calculables, las probabilidades a priori, p(B1 ), . . . , p(Bk ). • Son conocidas, o fácilmente calculables, las verosimilitudes: p(A|B1 ), . . . , p(A|Bk ), donde A es un suceso correspondiente a resultados de la segunda etapa. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 30 Variables aleatorias • Variable aleatoria: definición • Variables aleatorias discretas: • • • Función de probabilidad • Función de distribución • Momentos Variables aleatorias continuas: • Función de densidad • Función de distribución • Momentos Algunas propiedades de la esperanza y la varianza Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 31 Variables aleatoria: definición Sea Ω el espacio muestral asociado a cierto experimento aleatorio y F el correspondiente conjunto de sucesos. Se denomina variable aletoria (v.a.) a una función X : Ω → R, que a cada elemento ei ∈ Ω le asigna un valor numérico X (ei ) = xi ∈ R. Intuitivamente, una variable aleatoria es una medida o cantidad que varı́a en función del resultado concreto ei que se observa al realizar el experimento aleatorio. La v.a. se denota con letras mayúsculas, mientras que las letras minúsculas indican el valor concreto que toma la v.a. cuando se evalúa en un punto muestral. Ejemplo: Lanzar un dado una vez. Considerar la v.a. X =“resultado de la tirada”. ¿Cuántos sucesos elementales hay? ¿Qué valores puede tomar X ? Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 32 Variables aleatoria: ejemplo • Experimento aleatorio: lanzamiento de 3 dados • Espacio muestral: Ω = {111, 112, . . . , 665, 666}, de cardinal n(Ω) = 63 = 216 • Variable aleatoria X = número de unos X :Ω→R X (abc) = 0, ∀a, b, c = 2, 3, . . . , 6 X (1ab) = X (a1b) = X (ab1) = 1, ∀a, b = 2, 3, . . . , 6 X (a11) = X (1a1) = X (11a) = 2, ∀a = 2, 3, . . . , 6 X (111) = 3 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 33 Variables aleatorias: tipos V.a. discreta Si X toma valores sobre un conjunto S ⊆ R finito o infinito numerable, se dice que X es una variable aleatoria discreta. V.a. continua Si X toma valores sobre un conjunto S ⊆ R infinito no numerable (por ejemplo, en intervalo o una unión de intervalos), se dice que X es una variable aleatoria continua. El conjunto S ⊆ R se denomina soporte de la variable aleatoria X . Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 34 Variables aleatorias: ejemplos Variables aleatorias discretas • “resultado al tirar un dado”, con soporte S = {1, 2, 3, 4, 5, 6} finito • “número de 1’s obtenidos al lanzar 3 dados”, con soporte S = {0, 1, 2, 3} finito • “número de coches que pasan por cierto peaje en una semana”, con soporte S = {0, 1, 2, . . .} = N ∪ {0} infinito numerable. Variables aleatorias continuas • “altura de una persona”, puede considerarse S = [0, +∞). • “el tiempo de reacción a cierto medicamento”, puede considerarse S = [0, +∞). Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 35 Variables aleatorias discretas Función de probabilidad Sea X una variable aleatoria discreta que toma valores en el conjunto S = {x1 , x2 , . . .}, finito o infinito numerable, con probabilidades p1 = P(X = x1 ), p2 = P(X = x2 ), . . . . Se define la función de probabilidad de X o función de masa de X como pi , si x = xi ∈ S, P(X = x) = 0, si x ∈ / S. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 36 Variables aleatorias discretas Ejemplo X =“número de 1’s obtenidos al lanzar 3 dados”. ¿Cómo calculamos probabilidades de X ? La probabilidad P : F → R definida sobre los elementos de Ω se transmite a X P(X = 0) = P({abc / a, b, c = 2, . . . , 6}) = 5 5 5 · · = 0.5787 6 6 6 P(X = 1) = P({{1ab} ∪ {a1b} ∪ {ab1}, a, b = 2, . . . , 6}) = 3 · P(X = 2) = P({{a11} ∪ {1a1} ∪ {11a}, a = 2, . . . , 6}) = 3 · P(X = 3) = P(111) = 1 5 5 · · = 0.3472 6 6 6 1 1 5 · · = 0.0695 6 6 6 1 1 1 · · = 0.0046 6 6 6 x P(X = x) 0 0.5787 1 0.3472 2 0.0695 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 3 0.0046 Tema 1 37 Variables aleatorias discretas Función de probabilidad. Propiedades X variable aleatoria discreta que toma valores en el conjunto S = {x1 , x2 , . . .} con probabilidades p1 = P(X = x1 ), p2 = P(X = x2 ), . . . . • 0 ≤ P(X = x) ≤ 1, para todo x ∈ R. • X P(X = x) = P(X ∈ A) = P(X = xi ) = i x∈S • X X X pi = 1. i P(X = x). x∈A • P(X ≤ x) = P(X ∈ (−∞, x]) = X P(X = xi ) = i,xi ≤x • X pi . i,xi ≤x P(X > x) = 1 − P(X ≤ x). Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 38 Variables aleatorias discretas Función de probabilidad. Representación gráfica La función de probabilidad se representa mediante un diagrama de barras Ejemplo X =“número de 1’s obtenidos al lanzar 3 dados” Función de probabilidad X 0 1 2 3 P(x) 0,5787037 0,3472222 0,0694444 0,0046296 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0 1 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 2 3 Tema 1 39 Variables aleatorias discretas Función de distribución La función de distribución o función de probabilidad acumulada de una variable aleatoria X es una aplicación F : R → [0, 1], que a cada valor x ∈ R le asigna la probabilidad F (x) = P(X ≤ x) = P(X ∈ (−∞, x]). Atención! F (x) está definida para todo x ∈ R y no sólo para los x ∈ S. Propiedades • 0 ≤ F (x) ≤ 1 para todo x ∈ R. • F (y ) = 0 para todo y < min S. Por tanto, F (−∞) = limx→infty = 0. • F (y ) = 1 para todo y ≥ max S. Por tanto, F (∞) = limx→infty = 1. • Si x1 ≤ x2 , entonces F (x1 ) ≤ F (x2 ), es decir, F (x) es monótona no decreciente. • Para todo a, b ∈ R, P(a < X ≤ b) = P(X ∈ (a, b]) = P((X ∈ (−∞, b]) \ (X ∈ (−∞, a])) = P(X ∈ (−∞, b]) − P(X ∈ (−∞, a]) = F (b) − F (a). Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 40 Variables aleatorias discretas Función de distribución: ejemplo X =“número de 1’s al lanzar 3 dados”. 0, 0.5787, 0.5787 + 0.3472 = 0.9259, F (x) = 0.5787 + 0.3472 + 0.0695 = 0.9954, 0.5787 + 0.3472 + 0.0695 + 0.0046 = 1, si x < 0, si 0 ≤ x < 1, si 1 ≤ x < 2, si 2 ≤ x < 3, si x ≥ 3. OJO! valores x ∈ / S pueden tomar valores F (x) > 0. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 0,4 41 0,3 p(X=x) Variables aleatorias discretas 0,2 0,1 0 0 1 2 3 Función de distribución: representación gráfica 1,2 X x<0 0≤x<1 1≤x<2 2≤x<3 3≤x 1 F(x) 0 0,5787037 0,92592593 0,99537037 1 0,8 0,6 0,4 0,2 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Si X es una v.a. discreta, su función de distribución es de tipo escalón (discontinuidades de salto). Cada escalón corresponde a un xi ∈ S y el salto correspondiente es la probabilidad P(X = xi ) = pi . Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 42 Momentos de una variable aleatoria discreta Los momentos sirven para resumir alguna información sobre la variable aleatoria Sea X una v.a. discreta con soporte S = {x1 , x2 , . . . }, y función de probabilidad p1 = P(X = x1 ), p2 = P(X = x2 ), . . . . Esperanza de X : momento de primer orden X X X E (X ) = µ = xP(X = x) = xi P(X = xi ) = xi p i i x∈S i Es una medida de localización En general, se define el momento de orden k como X X X xik P(X = xi ) = xik pi E (X k ) = x k P(X = x) = x∈S i Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 i Tema 1 43 Momentos de una variable aleatoria discreta X =“número de 1’s al lanzar 3 dados”, con soporte S = {0, 1, 2, 3} El número esperado de 1’s al lanzar 3 dados equilibrados es: E (X ) = 0P(X = 0) + 1P(X = 1) + 2P(X = 2) + 3P(X = 3) = = 0.3472 + 0.139 + 0.0138 = 0.5 X =“resultado de lanzar un dado”, con soporte S = {1, 2, 3, 4, 5, 6}, y función de probabilidad x P(X = x) 1 2 3 4 5 6 1 6 1 6 1 6 1 6 1 6 1 6 Su valor esperado es: X 1 1 1 1 1 1 E (X ) = x P(X = x) = 1 · + 2 · + 3 · + 4 · + 5 · + 6 · = 6 6 6 6 6 6 x∈S = 1+2+3+4+5+6 21 = = 3.5 6 6 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 44 Momentos de una variable aleatoria discreta Sea X una v.a. discreta con soporte S = {x1 , x2 , . . . }, y función de probabilidad p1 = P(X = x1 ), p2 = P(X = x2 ), . . . . Varianza: momento centrado de segundo orden X X (xi − µ)2 P(X = xi ) = V (X ) = σ 2 = E [(X − E (X ))2 ] = (x − µ)2 P(X = x) = i x∈S X X (xi − µ)2 pi = xi2 pi − µ2 = E (X 2 ) − E (X )2 = i i √ p Desviación tı́pica: σ = σ 2 = E [(X − µ)2 ] Son medidas de dispersión (alrededor del valor esperado) En general, se define el momento centrado de orden k como X X X E ((X −µ)k ) = (x −µ)k P(X = x) = (xi −µ)k P(X = xi ) = (xi −µ)k pi x∈S i Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 i Tema 1 45 Momentos de una variable aleatoria discreta X =“número de 1’s al lanzar 3 dados”, con soporte S = {0, 1, 2, 3}. Su varianza es: V (X ) = E ((X − µ)2 ) = (0 − 0.5)2 · P(X = 0) + (1 − 0.5)2 · P(X = 1)+ + (2 − 0.5)2 · P(X = 2) + (3 − 0.5)2 · P(X = 3) = = 0.25 · 0.5787 + 0.25 · 0.3472 + 2.25 · 0.0695 + 6.25 · 0.0046 = 0.4167 X =“resultado de lanzar un dado”, con soporte S = {1, 2, 3, 4, 5, 6}. Su varianza es: V (X ) = E ((X − µ)2 ) = E (X 2 ) − µ2 = X x 2 P(X = x) − µ2 = x∈S = 1 91 1 + 22 + 32 + 42 + 52 + 62 − 3.52 = − 12.25 = 2.9167 6 6 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 46 Esperanza y varianza de una variable aleatoria discreta Ejemplo X =“número de caras al tirar una moneda dos veces”. El espacio muestral asociado al experimento aleatorio “lanzamiento de dos monedas” es Ω = {(cara, cara), (cara, cruz), (cruz, cara), (cruz, cruz)}. La variable X toma valores en S = {0, 1, 2} con probabilidades P(X = 0) = 1/4, P(X = 1) = 1/4 + 1/4 = 1/2, P(X = 2) = 1/4. Por tanto, la función de probabilidad de X es x 0 1 P(X = x) 14 12 2 1 4 Calculamos su esperanza y varianza: X 1 1 1 E (X ) = x P(X = x) = 0 + 1 + 2 = 1, 4 2 4 x∈S X 1 1 1 1 2 V (X ) = (x − E (X )) P(X = x) = (0−1)2 +(1−1)2 +(2−1)2 = . 4 2 4 2 x∈S Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 47 Variables aleatorias continuas Función de densidad Las probabilidades de una variable aleatoria continua se calculan a partir de una función f : R → [0, +∞) denominada función de densidad. Propiedades • • • f (x) ≥ 0 para todo x ∈ R. R∞ f (x) dx = 1, es decir, el área total de la función de densidad es 1. −∞ Rb Para todo a, b ∈ R, P(a ≤ X ≤ b) = P(X ∈ [a, b]) = a f (x) dx es el área que determina la función de densidad de X sobre el intervalo [a, b]. • Los intervalos [a, b], (a, b), (a, b] y [a, b) tienen la misma probabilidad. • Soporte de X : S = {x ∈ R / f (x) > 0} Atención! La función de densidad juega el mismo papel que la función de probabilidad para v.a. discretas. Solo tiene sentido calcular probabilidades de intervalos: P(X = x) = 0 para todo x ∈ R. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 48 Variables aleatorias continuas Función de distribución Para una v.a. continua X , la función de distribución se define como la función Rx F (x) = P(X ≤ x) = P(X ∈ (−∞, x]) = −∞ f (t) dt, para todo x ∈ R. Igual que en el caso discreto, la función F (x) da las probabilidades acumuladas hasta el punto x ∈ R, pero ahora se trata de una función continua y no de tipo escalón. Dos ejemplos son: Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 49 Variables aleatorias continuas Propiedades • 0 ≤ F (x) ≤ 1, para todo x ∈ R. • F (−∞) = 0. • F (∞) = 1. • Si x1 ≤ x2 , entonces F (x1 ) ≤ F (x2 ), es decir, F (x) es no decreciente. • Para todo a, b ∈ R, P(a ≤ X ≤ b) = F (b) − F (a). • La función de densidad de X se obtiene derivando la función de distribución, es decir, f (x) = F 0 (x). Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 50 Variables aleatorias continuas Ejemplo Una variable aleatoria X tiene función de densidad 3 x 2 , si x ∈ (0, 1), f (x) = 0, si x ∈ / (0, 1) ¿Cómo es la gráfica de la función de densidad de X ? Indicar cuál es el área asociada a la probabilidad P(X > 1/2). Calcular la probabilidad P(X > 1/2). Obtener la función de distribución de X . Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 51 Variables aleatorias continuas Ejemplo Una variable aleatoria X tiene función de densidad 12x 2 (1 − x), si 0 < x < 1, f (x) = 0, en otro caso. Z 0.5 P(X ≤ 0.5) = Z 0.5 12u 2 (1 − u)du = 0.3125 f (u)du = −∞ Z 0 0.5 P(0.2 ≤ X ≤ 0.5) = Z 0.5 f (u)du = 0.2 12u 2 (1 − u)du = 0.2853 0.2 0, 3 F (x) = P(X ≤ x) = f (u)du = 12 x3 − −∞ 1, Z x Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 si x ≤ 0, x4 4 , si 0 < x ≤ 1, si x > 1. Tema 1 52 Momentos de una variable aleatoria continua Sea X una v.a. continua con soporte S ⊆ R, y función de densidad f . Esperanza de X : momento de primer orden Z E (X ) = µ = xf (x)dx S Es una medida de localización En general, se define el momento de orden k como Z E (X k ) = x k f (x)dx S Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 53 Momentos de una variable aleatoria continua Ejemplo Una variable aleatoria X tiene función de densidad 12x 2 (1 − x), si 0 < x < 1, f (x) = 0, en otro caso. Calculamos su esperanza: Z Z x · f (x)dx = E (X ) = R Z 1 = 0 1 x · 12x 2 (1 − x)dx 0 x4 x 5 1 1 1 3 12(x 3 − x 4 )dx = 12 − − = = 12 4 5 0 4 5 5 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 54 Momentos de una variable aleatoria continua Sea X una v.a. continua con soporte S ⊆ R, y función de densidad f . Varianza: momento centrado de segundo orden Z 2 2 V (X ) = σ = E [(X − E (X )) ] = (x − µ)2 f (x)dx = S Z 2 2 2 = E (X ) − E (X ) = x f (x)dx − µ2 S √ p Desviación tı́pica: σ = σ 2 = E [(X − µ)2 ] Son medidas de dispersión (alrededor del valor esperado) En general, se define el momento centrado de orden k como Z E ((X − µ)k ) = (x − µ)k f (x)dx S Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 55 Momentos de una variable aleatoria continua Ejemplo f (x) = 12x 2 (1 − x), 0, si 0 < x < 1, en otro caso. Calculamos su varianza: 2 var (X ) = E [(X − E (X )) ] R 2 = R (x − E (X )) · f (x)dx 2 R1 = 0 x − 53 · 12x 2 (1 − x)dx R1 39 3 4 = 0 12 −x 5 + 11 5 x − 25 x + 11 1 5 5 5x = 12 − 61 x 6 + = 12 − 61 11 1 5 5 + − − 39 1 25 4 39 1 4 25 4 x 9 2 25 x dx 1 9 1 3 25 3 x + 9 1 + 25 3 = 0.04 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 0 Tema 1 56 Ejemplo de repaso: distribución uniforme en (3,5) Algunas probabilidades Una variable aleatoria X que sigue una distribución uniforme en el intervalo (3, 5) tiene función de densidad 1 1 si x ∈ (3, 5) 5−3 = 2 , f (x) = 0, si x ∈ / (3, 5). dist. uniforme Calculamos algunas probabilidades: R 0.5 P(X ≤ 0.5) = −∞ f (u)du = 0 R4 R4 P(X ≤ 4) = −∞ f (u)du = 3 12 du = 21 u|43 = 12 R 4.5 R 4.5 P(3.5 ≤ X ≤ 4.5) = 3.5 f (u)du = 3.5 12 du = 12 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 57 Ejemplo de repaso: distribución uniforme en (3,5) Función de distribución Z x F (x) = P(X ≤ x) = f (u)du = . . . −∞ • • • Si x ≤ 3 entonces F (x) = P(X ≤ x) = 0. Rx Si 3 ≤ x < 5 entonces F (x) = P(X ≤ x) = 3 12 du = u2 |x3 = x−3 2 . R5 1 Si x ≥ 5 entonces F (x) = P(X ≤ x) = 3 2 du = u4 53 = 5−3 2 = 1. F (x) = 0, x−3 2 , 1, si x ≤ 3, si 3 < x < 5, si x ≥ 5. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 58 Ejemplo de repaso: distribución uniforme en (3,5) Esperanza E (X ) = R x · f (x)dx = R R5 3 x · 12 dx = 5 x2 4 = 3 52 −32 4 =4 Varianza x 2 · f (x)dx − E 2 [X ] R5 2 3 5 = 3 x2 dx − 42 = x6 − 16 = 0.33 var (X ) = R R 3 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 59 Esperanza de una transformación Sea X una variable aleatoria y sea g (X ) una transformación de X . Entonces: X g (x)P(X = x), si X v.a. discreta x∈S Z E (g (X )) = g (x)f (x)dx, si X v.a. continua S Ejemplo: si tomamos g (X ) = kX , con k ∈ R constante, entonces X kxP(X = x) = kE (X ), si X v.a. discreta x∈S Z E (kX ) = kxf (x)dx = kE (X ), si X v.a. continua S Para la varianza tenemos, X (kx − kµ)2 P(X = x) = k 2 V (X ), x∈S Z V (kX ) = (kx − kµ)2 f (x)dx = k 2 V (X ), si X v.a. discreta si X v.a. continua S Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 60 Algunos modelos probabilı́sticos Variables aleatorias discretas más comunes • Ensayos de Bernoulli • Distribución Binomial • Distribución de Poisson Variables aleatorias continuas más comunes • Distribución uniforme continua • Distribución exponencial • Distribución normal • Teorema Central del Lı́mite • Distribuciones asociadas a la normal (Tema 4. Introducción a la Inferencia Estadı́stica) Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 61 Ensayos de Bernoulli Descripción / Definición Es una forma de modelar estadı́sticamente cualquier experimento aleatorio que tenga solamente dos resultados posibles, mútuamente excluyentes, que suelen llamarse éxito y fracaso, con la condición de que la probabilidad de estos dos resultados se mantenga constante en cada realización del experimento (experimentos o ensayos de Bernoulli). Si la probabilidad de éxito es p (por tanto, la de fracaso es 1 − p), se define la variable aleatoria de Bernoulli como 1, si se observa un éxito, X = 0, si se observa un fracaso. Soporte de X : S = {0, 1}, con probabilidades P(X = 0) = 1 − p = q, P(X = 1) = p. Para denotar que X sigue una distribución Bernoulli de parámetro p escribiremos X ∼ Ber (p). Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 62 Ensayos de Bernoulli Ejemplo Resultado de lanzar una moneda al aire 1, sale cara, X = 0, si sale cruz. Es un ensayo Bernoulli, donde se ha considerado como éxito el observar una cara. X sigue una distribución Bernoulli de parámetro 1/2 (si la moneda no está trucada). Ejemplo Una lı́nea aérea estima que los pasajeros que compran un billete no se presentan al embarque con una probabilidad de 0.05. Definimos 1, si el pasajero se presenta, Y = 0, si el pasajero no se presenta. Y sigue una distribución Bernoulli con parámetro 0.95. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 63 Ensayos de Bernoulli Función de Probabilidad: P(X = 0) = 1 − p P(X = 1) = p Función de distribución: 0, 1 − p, F (x) = 1, si x < 0 si 0 ≤ x < 1 si x ≥ 1 Propiedades • E (X ) = 0 P(X = 0) + 1 P(X = 1) = 0 (1 − p) + 1 p = p • E (X 2 ) = 02 P(X = 0) + 12 P(X = 1) = 02 (1 − p) + 12 p = p • V (X ) = E (X 2 ) − E (X )2 = p − p 2 = p(1 − p) = pq Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 64 Distribución Binomial Descripción / Definición Se realizan n ensayos de Bernoulli independientes con la misma probabilidad de éxito p. La v.a. X que cuenta el número de éxitos observados en estos n ensayos se dice que sigue una distribución Binomial de parámetros n y p y se escribe X ∼ B(n, p). La v.a. X toma valores en S = {0, 1, 2, . . . , n} y su función de probabilidad viene dada por la fórmula n P(X = x) = p x (1 − p)n−x , x = 0, 1, . . . , n, 0 ≤ p ≤ 1, x n! donde xn = x!(n−x)! , para 0 ≤ x ≤ n. Recordad que, por convenio, 0! = 1. Propiedades E (X ) = np, V (X ) = np(1 − p) = npq. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 65 Distribución Binomial Ejemplo La lı́nea aérea del ejemplo anterior ha vendido 80 billetes para un vuelo. La probabilidad de que un pasajero no se presente al embarque es de 0.05. Definimos X = número de pasajeros que se presentan al embarque. Entonces (suponiendo independencia) X ∼ B(80, 0.95) • La probabilidad de que los 80 pasajeros se presenten es 80 P(X = 80) = 0.9580 × (1 − 0.95)80−80 = 0.0165 80 • La probabilidad de que al menos un pasajero no se presente es P(X < 80) = 1 − P(X = 80) = 1 − 0.0165 = 0.9835 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 66 Distribución Binomial: función de probabilidad La función de probabilidad de X ∼ B(80, 0.95) es 0.10 0.00 0.05 Probability Mass 0.15 0.20 Binomial Distribution: Trials = 80, Probability of success = 0.95 68 70 72 74 76 78 80 Number of Successes Cambiando la probabilidad de éxito: Binomial Distribution: Trials = 80, Probability of success = 0.5 Probability Mass 0.05 0.04 0.00 0.00 0.02 Probability Mass 0.06 0.10 0.08 0.15 Binomial Distribution: Trials = 80, Probability of success = 0.1 25 30 35 40 45 50 55 Number of Successes Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 5 10 15 Number of Successes Tema 1 67 Distribución de Poisson: sucesos raros Descripción / Definición Cuenta el número de sucesos raros que ocurren en una determinada unidad de tiempo o de espacio. Por ejemplo, llamadas de teléfono en una hora, erratas en una página, accidentes de tráfico a la semana, . . . Una v.a. X sigue una distribución de Poisson de parámetro λ, y se denotará por X ∼ Pois(λ), si su función de probabilidad es P(X = x) = e −λ λx , x! para x = 0, 1, 2, . . . Observad que X toma valores en S = {0, 1, 2, . . .} = N ∪ {0}. Propiedades E (X ) = λ, V (X ) = λ. λ representa el número medio de sucesos que se producen por unidad de tiempo o de espacio. Exponencial Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 68 Distribución de Poisson: sucesos raros Propiedad de la Poisson Si X ∼ Pois(λ) y representa el número de sucesos raros en una unidad de tiempo o de espacio, e Y es una variable aleatoria que representa el número de dichos sucesos raros en s unidades, se tiene que: Y ∼ Pois(sλ) Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 69 Distribución de Poisson: sucesos raros Ejemplo El número medio de erratas por transparencias es de 0.2. Sea X es la v.a. que cuenta el número de erratas por transparencia, entonces X ∼ Pois(0.2) ¿Cuál es la probabilidad de que en una transparencia no haya erratas? P(X = 0) = e −0.2 0.20 = e −0.2 = 0.8187. 0! ¿Cuál es la probabilidad de que en 4 transparencias haya exactamente una errata? Sea Y la v.a. que cuenta el número de erratas en 4 transparencias. Entonces: Y ∼ Pois(0.2 · 4) = Pois(0.8) 0.81 P(Y = 1) = e −0.8 = e −0.8 0.8 = 0.3595. 1! Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 70 Distribución uniforme Descripción / Definición Se dice que una variable X sigue una distribución uniforme en el intervalo (a, b), y se denota por X ∼ U(a, b), si su función de densidad es 1 si x ∈ (a, b), b−a , f (x) = 0, si x ∈ / (a, b). Esta v.a. queda definida por los extremos del intervalo, es decir, a y b son sus parámetros. Propiedades E (X ) = a+b 2 , V (X ) = (b−a)2 12 . Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 71 Distribución uniforme Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 72 Distribución exponencial Descripción / Definición La distribución exponencial es aquella que modela el tiempo transcurrido entre dos sucesos que se producen de forma independiente, separada y uniforme en el tiempo. Se dice que una v.a. X sigue una distribución exponencial de parámetro λ, y se denota por X ∼ exp(λ), si su función de densidad es f (x) = λ e −λx , para x ≥ 0. Observad que X toma valores en el conjunto S = [0, +∞). Ejemplos • Tiempo entre llegadas de camiones al punto de descarga. • Tiempo entre llamadas de emergencia. • Tiempo de vida de una bombilla. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 73 Distribución exponencial Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 74 Distribución exponencial Propiedades 1 λ 1 λ2 • E (X ) = • V (X ) = • Función de distribución: F (x) = 1 − e −λx , 0, si x ≥ 0, si x < 0. • Está relacionada con la distribución de Poisson. • λ es el número medio de ocurrencias del suceso por unidad de tiempo. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Poisson Tema 1 75 Distribución exponencial Ejemplo Hemos observado que en cierta provincia se producen, en promedio, 50 incendios serios cada año. Suponemos que estos incendios se producen de forma independiente y decidimos modelar el número de incendios por año mediante una distribución Poisson. • ¿Cuál es el tiempo medio que transcurre entre dos incendios consecutivos? • Si acaba de ocurrir un incendio ¿cuál es la probabilidad de que el próximo se produzca al cabo de dos semanas? Sabemos que: • El número de incendios por año N ∼ Pois(λ) con λ = 50. • El tiempo entre dos incendios X ∼ exp(λ) con λ = 50. • El tiempo medio entre dos incendios E (X ) = 2·7 365 1 λ = 1/50 años, 7.3 dı́as. • Dos semanas, en años son: • P[X > 0.03836] = 1 − P[X ≤ 0.03836] = 1 − (1 − e −50·0.03836 ) = 0.147. = 0.03836, Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 76 Distribución normal Descripción / Definición La distribución normal describe una variable aleatoria “ideal”. Se trata de un modelo teórico que aproxima bien muchas situaciones reales. La inferencia estadı́stica se fundamenta básicamente en la distribución normal y en distribuciones que se derivan de ella. Se dice que una v.a. X sigue una distribución normal o gausiana con parámetros µ y σ, y se denota por X ∼ N (µ, σ), si su función de densidad es 1 1 exp − 2 (x − µ)2 f (x) = √ 2σ σ 2π Propiedades E (X ) = µ, V (X ) = σ 2 . Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 77 Distribución normal Función de densidad para 3 valores distintos de µ y σ 0,45 0,4 0,35 0,3 0,25 N(0,1) 0,2 N(5,1) 0,15 N(0,9) 0,1 0,05 0 -15 -10 -5 -0,05 0 5 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 10 15 Tema 1 78 Distribución normal Propiedad Si X ∼ N (µ, σ), entonces: • P(µ − σ < X < µ + σ) ≈ 0.683 • P(µ − 2σ < X < µ + 2σ) ≈ 0.955 • P(µ − 3σ < X < µ + 3σ) ≈ 0.997 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 79 Distribución normal Transformación lineal Y = a + b X ∼ N (a + bµ, |b|σ) Estandarización o Tipificación Si X ∼ N (µ, σ), considero Z= X −µ ∼ N (0, 1) σ Se llama distribución normal estándar. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 80 Distribución normal: Ejemplo Sea Z ∼ N(0, 1). Calculemos algunas probabilidades: P(Z < 1.5) = 0.9332 = DISTR.NORM(1.5;0;1;VERDADERO) Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 81 Distribución normal: Ejemplo (cont.) P(Z > −1.5) = P(Z < 1.5) = 0.9332 ¿por qué? P(Z < −1.5) = P(Z > 1.5) = 1 − P(Z < 1.5) = = 1 − 0.9332 = 0.0668 ¿por qué no ≤ ? P(−1.5 < Z < 1.5) = P(Z < 1.5) − P(Z < −1.5) = = DISTR.NORM(1.5;0;1;VERDADERO) − DISTR.NORM(-1.5;0;1;VERDADERO) = 0.9332 − 0.0668 = 0.8664 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 82 Distribución normal: Ejemplo Sea X ∼ N(µ = 2, σ = 3). Para calcular P(X < 4), si no tenemos ordenador, hay que recurrir a las tablas de la distribución normal estándar. Para ello, tipificamos la variable original: 4−2 X −2 < = P Z < 0.666̇ ≈ 0.7454 P(X < 4) = P 3 3 donde Z ∼ N(0, 1) ¿Cuál es P(−1 < X < 3.5)? P(−1 < X < 3.5) = P(−1 − 2 < X − 2 < 3.5 − 2) = −1 − 2 X −2 3.5 − 2 P < < = P(−1 < Z < 0.5) = 3 3 3 P(Z < 0.5) − P(Z < −1) = 0.6915 − 0.1587 = 0.5328 donde Z ∼ N(0, 1) Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 83 Distribución normal: Ejemplo (cont.) Sea X ∼ N(µ = 2, σ = 3). Si usamos Excel no hace falta tipificar X . Directamente calculamos P(X < 4) = DISTR.NORM(4;2;3;VERDADERO) = 0.7475 P(−1 < X < 3.5) = P(X < 3.5) − P(X < −1) = = DISTR.NORM(3.5;2;3;VERDADERO) − DISTR.NORM(-1;2;3;VERDADERO) = = 0.6915 − 0.1587 = 0.5328 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 84 Distribución normal: otro ejemplo Es difı́cil etiquetar la carne empaquetada con su peso correcto debido a los efectos de pérdida de lı́quido (definido como porcentaje del peso original de la carne). Supongamos que la pérdida de lı́quido en un paquete de pechuga de pollo puede modelarse mediante una distribución normal con media 4% y desviación tı́pica 1%. Sea X la pérdida de lı́quido de un paquete de pechuga de pollo elegido al azar. • ¿Cuál es la probabilidad de que 3% < X < 5%? • ¿Cuál es el valor de x para que un 90% de paquetes tengan pérdidas de lı́quido menores que x? • En una muestra de 4 paquetes, hallar la probabilidad de que todos tengan pérdidas de peso de entre 3% y 5%. Sexauer, B. (1980) Drained-Weight Labelling for Meat and Poultry: An Economic Analysis of a Regulatory Proposal, Journal of Consumer Affairs, 14, 307-325. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 85 Distribución normal: otro ejemplo (cont.) La variable aleatoria X sigue una distribución N(4, 1). Entonces: P(3 < X < 5) = P(X < 5) − P(X < 3) = = DISTR.NORM(5;4;1;VERDADERO) − DISTR.NORM(3;4;1;VERDADERO) = = 0.8413 − 0.1587 = 0.6827 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 86 Distribución normal: otro ejemplo (cont.) Queremos encontrar el valor de x0 para el que P(X < x0 ) = 0.9. Tenemos que calcular la función inversa de la función de distribución de X . En Excel x0 = DISTR.NORM.INV(0,9;4;1) = 5.2816 Conclusión: un 90% de los paquetes tienen pérdidas de menos del 5.28%. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 87 Distribución normal: otro ejemplo (cont.) Todas las probabilidades normales anteriores se pueden obtener a partir de la normal estándar como sigue. X −4 5−4 3−4 < < = P(−1 < Z < 1) P(3 < X < 5) = P 1 1 1 = P(Z < 1) − P(Z < −1) = 0.8413 − 0.1587 = 0.6827 Queremos P(X < x) = 0.9. Entonces X −4 x −4 P < = P(Z < x − 4) = 0.9 1 1 Mirando las tablas, tenemos x − 4 ≈ 1.28 que implica que un 90% de las paquetes tienen pérdidas de menos de x = 5.28%. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 88 Distribución normal: otro ejemplo (cont.) binomial Y = número de paquetes en la muestra que tienen pérdidas de entre 3% y 5%. Y ∼ B(4, p), siendo p = P(éxito) = P(pérdida de peso entre 3% y 5%) = P(3 < X < 5) = 0.6827 Entonces, P(Y = 4) = 4 4 0.68274 (1 − 0.6827)4 = 0.2172 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 89 Teorema Central del Lı́mite (TCL) El siguiente teorema nos habla de la distribución de la media de un conjunto de v.a. independientes e idénticamente distribuidas (i.i.d.), es decir, todas con la misma ley de probabilidad, X̄ = n 1X Xi n i=1 y nos dice que, para n grande, la media de v.a. independientes e igualmente distribuidas es normal, sea cual sea la distribución de las v.a. De aquı́ el papel “central” que juega la distribución normal o de Gauss. Teorema Sean X1 , X2 , . . . , Xn v.a. i.i.d. con media µ y desviación tı́pica σ (ambas finitas). Si n es suficientemente grande, se tiene que X̄ − µ √ ∼ N (0, 1) σ/ n Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 90 Aproximaciones Binomial (Teorema de De Moivre-Laplace) Si X ∼ B(n, p) con n suficientemente grande X − np p ∼ N (0, 1) np(1 − p) Poisson Si X ∼ Pois(λ) con λ suficientemente grande X −λ √ ∼ N (0, 1) λ Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 91 TCL y aproximaciones: Ejemplo Sea X ∼ B(100, 1/3). Estimar P(X < 40). binomial propiedades Calculamos primero la media y varianza de X . 1 = 33.3̇ 3 1 2 var (X ) = 100 × × = 22.2̇ p3 3 D.T .(X ) = 22.2̇ = 4.714 E (X ) = 100 × Usamos la aproximación normal X − 33.3̇ 40 − 33.3̇ P(X < 40) = P < 4.714 4.714 ≈ P (Z < 1.414) ≈ 0.921, donde Z ∼ N(0, 1). Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 92 Vectores aleatorios • • Concepto de vector aleatorio. Vectores aleatorios discretos: distribución conjunta, distribuciones marginales, distribuciones condicionadas, independencia. • Vectores aleatorios continuos: distribución conjunta, distribuciones marginales, distribuciones condicionadas, independencia. • Covarianza, correlación y esperanza condicionada. • Algunas propiedades de la esperanza y la varianza Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 93 Concepto de vector aleatorio ¿Qué relación hay entre el precio de las acciones y los tipos de interés? ¿Qué relación hay entre los años de escolarización y el salario medio por hora? ¿Cómo influye en los hábitos de consumo la cantidad de tarjetas de crédito de las que se dispone? Para contestar a estas preguntas necesitamos estudiar conjuntamente estas caracterı́sticas, ¿cómo? Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 94 Concepto de vector aleatorio Se denomina vector aleatorio (o v.a. multidimensional) a una función (X1 , . . . , Xn ) : Ω → Rn , que a cada elemento ei ∈ Ω le asigna un vector numérico (X1 , . . . , Xn )(ei ) = (X1 (e1 ), . . . , Xn (ei )) ∈ Rn . X1 (e1 ), . . . , Xn (ei ) representan las n caracterı́sticas que queremos analizar conjuntamente. Para ganar claridad nos restringiremos al caso n = 2, Denotaremos los vectores aleatorios por las letras mayúsculas (X , Y ). Las letras minúsculas (x, y ) indican el valor concreto que toma el vector aleatorio cuando se evalúa en un punto muestral. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 95 Vectores aleatorios: tipos Vector aleatorio discreto Un vector aleatorio (X , Y ) es discreto cuando solo puede tomar un número finito o numerable de valores. Vector aleatorio continuo Un vector aleatorio (X , Y ) es continuo cuando los posibles valores que puede tomar son todos los puntos de R2 , o del cuadrante [0, +∞) × [0, +∞), o de un cuadrado, o de un triángulo etc. El conjunto de valores S ⊆ R2 que puede tomar se denomina soporte del vector aleatorio (X , Y ). Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 96 Vectores aleatorios: ejemplos Vectores aleatorios discretos • “número de 1’s y 2’s obtenidos al lanzar 3 dados”, con soporte S ⊆ {0, 1, 2, 3} × S = {0, 1, 2, 3} finito • “número de coches que pasan por cierto peaje en un dı́a y dı́a de la semana de que se trata”, con soporte S = {0, 1, 2, . . .} × {1, . . . , 7}, donde 1 = lunes, . . . , 7 =domingo. • “número de tarjetas de crédito y número de compras que se realizan a la semana”, con soporte S = {0, 1, 2, . . . , M1 } × {0, 1, . . . , M2 } Vectores aleatorios continuos • “altura y peso de una persona” • “años de escolarización y salario medio por hora de una persona” • “ı́ndice compuesto S&P 500 (1941-1943=10) y tipo (%) de las Letras del Tesoro estadounidense a tres años en un año” Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 97 Vectores aleatorios discretos: distribución conjunta Función de probabilidad (o de masa) conjunta de (X , Y ) Determina el modelo de probabilidad conjunta de un vector aleatorio discreto. Nos da la probabilidad de cada uno de los posibles valores que puede tomar: p(xi , yj ) = P(X = xi , Y = yj ), (xi , yj ) ∈ S = {x1 , . . . , xm } × {y1 , . . . , yn } Representación x1 .. . xi .. . xm y1 ··· ··· ··· yj .. . .. . P(X = xi , Y = yj ) .. . .. . ··· yn ··· ··· Propiedades • 0 ≤ p(xi , yj ) ≤ 1 para todo i = 1, . . . , m, j = 1, . . . , n. Pm Pn • i=1 j=1 p(xi , yj ) = 1. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 98 Vectores aleatorios discretos: distribución conjunta Se clasifica un grupo de 100 ejecutivos de acuerdo a su peso y a si sufren o no de hipertensión. La tabla muestra el número de ejecutivos en cada categorı́a. Hipertenso Normal Total • • Insuficiente 2 20 22 Normal 8 45 53 Sobrepeso 10 15 25 Total 20 80 100 Experimento aleatorio: seleccionar al azar a uno de esos 100 ejecutivos para medir su tensión y su peso. (X , Y ) : Ω → {0, 1} × {0, 1, 2}, siendo Ω el conjunto de los 100 ejecutivos, definido por (X , Y )(ei ) = (0, 0), si el individuo ei es Hipertenso y de peso Insuf. (X , Y )(ei ) = (0, 1), si ei es Hipertenso y de peso Normal (X , Y )(ei ) = (0, 0), si ei es Hipertenso y tiene Sobrepeso (X , Y )(ei ) = (1, 0), si ei tiene la tensión Normal y es de peso Insuf. (X , Y )(ei ) = (1, 1), si ei tiene la tensión Normal y es de peso Normal (X , Y )(ei ) = (1, 0), si ei tiene la tensión Normal y tiene Sobrepeso Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 99 Vectores aleatorios discretos: distribución conjunta La función de de probabilidad (o de masa) conjunta es: X \Y 0 1 0 0.02 0.2 1 0.08 0.45 2 0.1 0.15 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 100 Vectores aleatorios discretos: distribuciones marginales Las distribuciones marginales de un vector aleatorio (X , Y ) son las que se obtienen al considerar cada caracterı́stica por separado (como si la otra no existiera). En el caso discreto tenemos: • Distribución marginal de X : v.a. discreta con función de probabilidad pX (xi ) = P(X = xi ) = n X P(xi , yj ), i = 1, . . . m j=1 • Distribución marginal de Y : v.a. discreta con función de probabilidad pY (yj ) = P(Y = yj ) = m X P(xi , yj ), j = 1, . . . n i=1 Las distribuciones marginales de X e Y son simplemente v.a. unidimensionales discretas. Podemos obtener su media, su varianza, etc. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 101 Vectores aleatorios discretos: distribuciones marginales En el ejemplo anterior las distribuciones marginales de X e Y son: X \Y 0 1 pY 0 0.02 0.2 0.22 1 0.08 0.45 0.53 2 0.1 0.15 0.25 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 pX 0.2 0.8 Tema 1 102 Vectores aleatorios discretos: distribuciones condicionadas La distribución de la v.a. X , condicionada por un valor fijo yj de la v.a. Y tal que P(Y = yj ) > 0, viene dada por la función de probabilidad P(X = xi | Y = yj ) = p(xi , yj ) P(X = xi , Y = yj ) = , P(Y = yj ) pY (yj ) i = 1, . . . , m La distribución de Y condicionada por X = xi (con PX (xi ) > 0) se define de forma análoga Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 103 Vectores aleatorios discretos: distribuciones condicionadas Volviendo al ejemplo: X \Y 0 1 pY • 0 0.02 0.2 0.22 2 0.1 0.15 0.25 pX 0.2 0.8 Distribución de X condicionada a que el individuo tiene sobrepeso: X p(X = xi | Y = 2) • 1 0.08 0.45 0.53 0.1 0.25 0 = 0.4 0.15 0.25 1 = 0.6 Distribución de Y condicionada a que el individuo tiene hipertensión: Y p(Y = xj | X = 0) 0.02 0.2 0 = 0.1 0.08 0.2 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 1 = 0.4 0.1 0.2 2 = 0.5 Tema 1 104 Vectores aleatorios discretos: independencia Intuitivamente: no hay relación entre X e Y Definición: dos variables aleatorias discretas, X e Y , son independientes cuando p(xi , yj ) = P(X = xi , Y = yj ) = P(X = xi )P(Y = yj ) = pX (xi )pY (yj ), ∀i, ∀j Propiedades: Si X e Y son independientes, las distribuciones condicionadas coinciden con las marginales correspondientes P(X = xi | Y = yj ) = p(xi , yj ) pX (xi )pY (yj ) P(X = xi , Y = yj ) = = = pX (xi ) P(Y = yj ) pY (yj ) pY (yj ) para todo i = 1, . . . , m, y para todo valor yj con P(Yj = yj ) > 0. En el ejemplo, X e Y no son independientes. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 105 Vectores aleatorios discretos: ejemplo Lanzamos 3 veces una moneda equilibrada y consideramos el vector aleatorio (X , Y ) que se obtiene definiendo: X =”número de caras” Y =”diferencia, en valor absoluto, entre número de caras y de cruces • Determina el espacio muestral del experimento y define la aplicación correspondiente al vector aleatorio (X , Y ) • Calcula la función de probabilidad conjunta de (X , Y ) • Obtén las distribuciones marginales a partir de la distribución conjunta • Si estamos interesados en conocer la probabilidad de obtener un número determinado de caras cuando la diferencia entre caras y cruces es 1, ¿qué distribución tenemos que obtener? obténla. • ¿Son independientes X e Y ? Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 106 Vectores aleatorios continuos: distribución conjunta Función de densidad conjunta de (X , Y ) Determina el modelo de probabilidad conjunta de un vector aleatorio continuo. Se trata de una función f : R2 → R2 verificando: • f (x, y ) ≥ 0 para todo (x, y ) ∈ R2 . • El volumen total bajo la función de densidad es 1: Z Z ∞Z ∞ f (x, y ) dx dy = f (x, y ) dx dy = 1 R2 −∞ −∞ La probabilidad de cualquier suceso A ⊆ R2 se obtiene resolviendo la integral correspondiente: Z P(A) = f (x, y ) dx dy A Nota. No se exigirá que se sepan resolver integrales dobles. No se pedirá calcular probabilidades de sucesos A en R2 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 107 Vectores aleatorios continuos: distribuciones marginales Las distribuciones marginales de un vector aleatorio (X , Y ) son las que se obtienen al considerar cada caracterı́stica por separado (como si la otra no existiera). En el caso continuo tenemos: • Distribución marginal de X : v.a. continua con función de densidad Z fX (x) = f (x, y )dy , ∀ x ∈ R R • Distribución marginal de Y : v.a. continua con función de densidad Z fY (y ) = f (x, y )dx, ∀ y ∈ R R Las distribuciones marginales de X e Y son simplemente v.a. unidimensionales continuas. Podemos obtener su media, su varianza, etc. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 108 Vectores aleatorios discretos: distribuciones marginales Nota. Al integrar con respecto a una de las dos variables, la otra actúa como una constante. Sea (X , Y ) el vector aleatorio con soporte S = [0, 1] × [0, 1] y función de densidad conjunta ( x + y , si 0 ≤ x ≤ 1, 0 ≤ y ≤ 1, f (x, y ) = 0, en otro caso. • La densidad marginal de X es: " #y =1 Z 1 1 y2 fX (x) = (x + y )dy = xy + =x+ , 0≤x ≤1 2 2 0 y =0 • En la integral anterior x actúa como una constante. La densidad marginal de Y es: #x=1 " Z 1 1 x2 + xy = + y, 0 ≤ y ≤ 1 fY (y ) = (x + y )dx = 2 2 0 x=0 En la integral anterior y actúa como una constante. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 109 Vectores aleatorios continuos: distribuciones condicionadas La distribución de la v.a. X , condicionada por un valor fijo y0 de la v.a. Y tal que fY (y0 ) > 0, viene dada por la función de densidad f (x | Y = y0 ) = f (x, y0 ) , fY (y0 ) ∀x ∈ R La distribución de Y condicionada por X = x0 (con fX (x0 ) > 0) se define de forma análoga Volviendo al ejemplo: f (x | Y = 0.2) = x + 0.2 f (x, 0.2) = , 0≤x ≤1 fY (0.2) 0.7 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 110 Vectores aleatorios discretos: independencia Intuitivamente: no hay relación entre X e Y Definición: dos variables aleatorias continuas, X e Y , son independientes cuando f (x, y ) = fX (x)fY (y ), ∀ x ∈ R, y ∈ R Propiedades: Si X e Y son independientes, las distribuciones condicionadas coinciden con las marginales correspondientes f (x | Y = y0 ) = f (x, y0 ) = fX (x), fY (y0 ) ∀x ∈ R En el ejemplo, X e Y no son independientes: 1 1 f (x, y ) = x + y 6= (x + )( + y ) 2 2 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 111 Covarianza, correlación y esperanza condicionada Se define la covarianza entre X e Y como Cov (X , Y ) = σXY = E [(X − E [X ])(Y − E [Y ])] = E [XY ] − E [X ]E [Y ] • Si X e Y son v.a. discretas, entonces m X n X Cov (X , Y ) = (xi − E [X ])(yj − E [Y ])p(xi , yj ) = i=1 j=1 = m X n X xi yj p(xi , yj ) − E [X ]E [Y ] i=1 j=1 • Si X e Y son v.a. continuas, entonces Z Cov (X , Y ) = (x − E [X ])(y − E [Y ])f (x, y ) dx dy = R2 Z xyf (x, y ) dx dy − E [X ]E [Y ] = R2 En este caso, no se pedirá que se calculen covarianzas, dado que implican la integración en R 2 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 112 Covarianza, correlación y esperanza condicionada La covarianza es una medida de asociación lineal Cuando Cov (X , Y ) = 0 se dice que X e Y están incorreladas Sean X e Y variables aleatorias, la correlación entre X e Y es Cor (X , Y ) = rxy = Cov (X , Y ) σx σy p p donde σX = V (X ) y σY = V (Y ) denotan, respectivamente, las desviaciones tı́picas de las distribuciones marginales X e Y . Propiedades • Si X e Y son independientes, entonces X e Y estn incorreladas • En general, Cov (X , Y ) = 0 no implica independencia. • Si X e Y son normales y Cov (X , Y ) = 0, entonces son independientes • −1 ≤ Cor (X , Y ) ≤ 1 • Cor (X , Y ) > 0 ⇒ las variables son dependientes positivamente • Cor (X , Y ) < 0 ⇒ las variables son dependientes negativamente Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 113 Covarianza, correlación y esperanza condicionada Dado le vector aleatorio (X , Y ), las variables aleatorias: • X , condicionada por un valor fijo y0 de la v.a. Y potencialmente observable • Y , condicionada por un valor fijo x0 de la v.a. X potencialmente observable son variables aleatorias unidimensionales continuas o discretas dependiendo de la naturaleza de X e Y . Podemos calcular sus medias y varianzas. Se define la esperanza condicionada de X a un valor de Y como (P m xi P(X = xi | Y = y0 ), si (X , Y ) es discreto, E (X | Y = y0 ) = R i=1 xf (x | Y = y0 ) dx, si (X , Y ) es continuo R Para cada valor fijo y0 de Y , la esperanza condicionada es un número Se puede definir la función esperanza condicionada: E (X | Y ) : Sop(Y ) → y0 → R E (X | Y = y0 ) Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 114 Algunas propiedades de la esperanza y la varianza Como ya vimos en el caso unidimensional, la esperanza de cualquier función g (X , Y ) se obtiene como E [g (X , Y )] = n m X X g (xi , yj )p(xi , yj ) si (X , Y ) es discreto i=1 j=1 Z g (x, y ) · f (x, y )dxdy E [g (X , Y )] = si (X , Y ) es continuo R2 Ejemplo Esperanza del producto (P P m n xi yj p(xi , yj ), si (X , Y ) es discreto, E [XY ] = R i=1 j=1 xyf (x, y ) dx dy , si (X , Y ) es continuo. R2 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1 115 Algunas propiedades de la esperanza y la varianza Esperanza y varianza de funciones lineales • E [X + Y ] = E [X ] + E [Y ] • E [X − Y ] = E [X ] − E [Y ] • V [X ± Y ] = V [X ] + V [Y ] ± 2 · Cov (X , Y ) Si Cov (X , Y ) = 0 V [X ± Y ] = V [X ] + V [Y ] • E [X1 + X2 + . . . + Xn ] = E [X1 ] + E [X2 ] + . . . + E [Xn ] • V [X1 + X2 + . . . + Xn ] = V [X1 ] + V [X2 ] + . . . + V [Xn ] si la covarianza entre cada par de variables es 0 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 1