Estadı́stica y sus aplicaciones en Ciencias Sociales 2. Modelos de probabilidad Facultad de Ciencias Sociales Universidad de la República Curso 2016 Índice 2.1. Variables aleatorias: funciones de distribución, cuantı́a, y densidad. Modelos de probabilidad. Media y varianza de una variable aleatoria. 2.2. Modelos de probabilidad. Modelos discretos: Bernoulli, Binomial, Hipergeométrica, Poisson. 2.3. Modelos continuos: Uniforme, Normal, Chi-cuadrado y t-student. La Distribución Normal Estándar. 2.1. Funciones de distribución, cuantı́a y densidad Para describir las probabilidades con que una variable aleatoria toma valores en distintos intervalos de la recta, de la forma (−∞, x] usamos una función definida en los números reales, la función de distribución. Def. Sea X una variable aleatoria definida en el espacio de probabilidad (Ω, =, P(·)). La función F : R → [0, 1] definida por: FX (x) = P(X ≤ x) = P(X (ω) ≤ x) = P[{ω : X (ω) ≤ x}] se denomina función de distribución de la v. a. X. Propiedades de la función de distribución: 1.- 0 ≤ FX (x) ≤ 1 ∀x 2.- FX (−∞) = 0 3.- FX (+∞) = 1 4.- Monótona creciente: para x 0 < x 00 , FX (x 0 ) ≤ FX (x 00 ) 5.- F(x) es “continua por la derecha”: lı́m FX (x + h) = FX (x) h→0 Función de Distribución La función de distribución (acumulativa) muestra qué manera se acumula la probabilidad a medida que se avanza ordenadamente por el recorrido de la variable (gráficamente de izquierda a derecha según los valores de X (abscisas)). Se denota con FX (x). Nos indica en cada punto x cuál es la probabilidad acumulada hasta ese punto por los valores de X menores que ese x particular. Variables aleatorias discretas y continuas -Variables aleatorias discretas: el número de resultados del experimento asociado no es necesariamente finito, pero es contable: los resultados pueden ser puestos en correspondencia con los números naturales (enteros positivos). Se puede enumerar cada resultado del espacio muestral y la probabilidad a éste asociada (función de cuantı́a). -Variables aleatorias continuas: asociadas a un experimento aleatorio cuyo resultado puede ser descrito por cualquier número real. El espacio de posibles resultados es infinito e incontable. La atribución de probabilidades a eventos y a los valores reales que los describen no se realiza a puntos en particular sino a intervalos de los números reales, utilizando la función de densidad. Variables aleatorias discretas: función de cuantı́a Def. La función de cuantı́a pX (xi ) de una variable aleatoria discreta se define como pX (xi ) = P(X = xi ) para cada xi perteneciente al espacio muestral. Propiedades: 1. 0 ≤ pX (xi ) ≤ 1 ∀x P 2. i pX (xi ) = 1 La función de distribución FX (x) de una variable aleatoria discreta se define como: FX (x0 ) = X x≤x0 PX (x) = P(X ≤ x0 ) Funciones de cuantı́a y distribución, variable discreta: Función de cuantía Función de distribución pX(x) FX(x) 1 1 1 2 3 4 x 1 2 3 4 x Variables aleatorias continuas y densidades Una variable aleatoria X se define continua si existe una función fX (x) tal que Z x FX (x) = fX (x)dx −∞ para cada número real x. La función f (x) recibe el nombre de función de densidad de la variable aleatoria X . Propiedades: 1. fRX (x) ≥ 0 +∞ 2. −∞ fX (x)dx = 1 La función de densidad distribuye masa de probabilidad sobre los distintos intervalos de la recta real. La probabilidad de un punto en particular es ahora irrelevante (para una variable aleatoria continua es igual a cero): interesan las probabilidades de intervalos. El área bajo la curva en toda la recta es igual a 1 (la integral es la medida del área bajo una función). La probabilidad de observar a la variable X en el intervalo [a, b] está dada por el área bajo la densidad entre a y b. El área bajo la densidad en el intervalo (−∞, x] recupera la función de distribución en el punto x. En la práctica no es necesario calcular estas integrales pues sus valores se encuentran en tablas. Probabilidad de observar una variable aleatoria continua en un intervalo: área bajo la función de densidad f(x) x1 x2 x Z x2 P(x2 < X ≤ x1 ) = FX (x2 ) − FX (x1 ) = fX (x)dx x1 Media o valor esperado de una variable aleatoria Para una variable aleatoria discreta el valor esperado o media se define como: µX = E (X ) = X xi pX (xi ) i se suma los valores de la variable, ponderando por la probabilidad de cada uno de ellos. E (X ) es una constante. Para una variable aleatoria continua, el valor esperado se define como Z +∞ µX = E (X ) = xfX (x)dx −∞ en este caso la media es una integral, donde ponderamos a todos los valores reales de x por la densidad. Varianza de una variable aleatoria La varianza de una variable aleatoria es el valor esperado de la desviación de la media al cuadrado. Para una variable discreta: X σX2 = V (X ) = (xi − µX )2 pX (xi ) i (suma ponderada de los desvı́os de la media al cuadrado). Para una variable continua: σX2 = V (X ) = Z +∞ (x − µX )2 fX (x)dx −∞ en este caso la varianza es una integral, donde se pondera los desvı́os al cuadrado por la densidad. Modelos de probabilidad La variable aleatoria nos permite simplificar el manejo de la incertidumbre asociada a los resultados de cierto experimento aleatorio. La incertidumbre original respecto al resultado de un experimento, se transforma en incertidumbre respecto a los valores que toma una variable aleatoria, descrita por sus funciones de densidad, cuantı́a y distribución. Estudiaremos formas funcionales “tipo” de distribución, densidad o cuantı́a, para definir modelos de probabilidad, también conocidos como distribuciones de probabilidad. Modelos de probabilidad Son una descripción ideal del proceso aleatorio que genera los datos: cuando se elige determinada familia paramétrica de densidades como modelo de determinado fenómeno, se supone que los datos observados son generados por el mecanismo aleatorio descrito por dichas densidades (o cuantı́as). Las densidades de una determinada familia comparten una forma funcional común, pero difieren en valores que las definen en forma completa, que reciben el nombre de parámetros. Si estamos convencidos acerca del modelo adecuado para describir los datos, nuestra incertidumbre se desplazará hacia determinar los valores de dichos parámetros (estimación). Parámetros. Espacio paramétrico Definir un modelo implica especificar la forma funcional de la función de distribución o densidad. Además de x, dependerá de los parámetros, cantidades que usualmente designamos con la letra griega θ. Escribiremos el modelo de probabilidad como: Φ = {f (x, θ), θ ∈ Θ} Comprende un conjunto de funciones de densidad. 1. Tienen en común una forma funcional dada f (x, θ). 2. Dependen de un vector de parámetros desconocidos θ. Los parámetros pertenecen a un conjunto de valores posibles Θ, denominado espacio paramétrico. La elección de un valor para θ determina en forma única una densidad particular. 2.2. Modelos de probabilidad discretos Modelo de Bernoulli Describe experimentos (por ejemplo, el lanzamiento de una moneda) en los que sólo pueden ocurrir dos resultados: uno de ellos con probabilidad p (“éxito”) y el otro con probabilidad 1 − p (“fracaso”): Ω = {E , F }. Asociamos X (E ) = 1; X (F ) = 0. DEFINICIÓN: Una variable aleatoria X sigue una distribución Bernoulli(p) si su cuantı́a es la siguiente: pX (x) = p X =1 1−p X =0 0 en otro caso con 0 ≤ p ≤ 1. El único parámetro de la distribución de Bernoulli es p (los parámetros permiten describir completamente el comportamiento de una variable aleatoria). Se escribe X ∼ Bernoulli(p), ”X se distribuye o sigue una distribución Bernoulli de parámetro p”. Conocido p, se puede definir la función de cuantı́a y la de distribución. La media o valor esperado de la distribución de Bernoulli es: E (X ) = X xi pX (xi ) = 1 · p + 0 · (1 − p) = p i La varianza es igual a: V (X ) = X (xi − µX )2 pX (xi ) = (1 − p)2 · p + (0 − p)2 · (1 − p) = i (1 − p) (1 − p) · p + p 2 = p(1 − p) Ejemplo: En el mercado de trabajo, la probabilidad de encontrar un trabajador desocupado es 0,07. Sea X la variable aleatoria que indica “el trabajador se encuentra desocupado” con el valor 1 y “no se encuentra desocupado” con el valor 0. Función de Cuantı́a x =0 0, 93 0, 07 x =1 pX (x i ) = 0 otro caso Función de Distribución x <0 0 0, 93 0 ≤ x < 1 F X (x i ) = 1 x ≥1 Distribución binomial Si se repite n veces de forma independiente una prueba de Bernoulli se obtiene un nuevo experimento. En éste se obtiene x éxitos y n − x fracasos. La variable aleatoria X que cuenta el número de éxitos en n realizaciones independientes de un experimento de Bernoulli con probabilidad p de “éxito” sigue una distribución binomial (con parámetros n y p). Esta distribución se representa con la expresión X ∼ B(x, n, p). La distribución de Bernoulli que vimos antes es un caso particular de la Binomial, dónde n = 1. Binomial(x, 1, p) = Bernoulli(p). Ejemplo: Un examen de múltiple opción contiene 5 preguntas con seis alternativas cada una. Sólo una es correcta en cada caso. Un estudiante contesta al azar. Sea la variable aleatoria X = “número de preguntas respondidas correctamente”. ¿Cuál es la función de cuantı́a de X? (La de distribución queda como ejercicio). Contestación al azar: lanzar un dado balanceado. Probabilidad de acertar la respuesta en cada pregunta = 1/6. Repite el procedimiento 5 veces. Se responde a las preguntas en forma independiente, con probabilidad de “éxito” constante. Espacio de resultados: conjunto de vectores de cinco elementos que contienen fracasos y éxitos: Ω = {(EEEEE ), (EEEEF ), (EEEFE ), (EEEFF ), . . . , (FFFFF )} En total hay 25 = 32 resultados posibles (no son equiprobables). Rec(X ) = {0, 1, 2, 3, 4, 5}. Encontrar la cuantı́a pX (x) implica contar cuántos de estos resultados dan exactamente x éxitos (y n − x fracasos). En el caso de 0 éxitos, un solo resultado produce este valor de X : (FFFFF). Hay 5 resultados que dan X = 1: (FFFFE), (FFFEF), (FFEFF), (FEFFF), (EFFFF) y ası́ sucesivamente. Consideremos la probabilidad de un resultado particular, supongamos (EFFFF). La probabilidad de este resultado es la probabilidad conjunta del evento “éxito en la primera, fracaso en la segunda. . . etc.” Se trata de la intersección de eventos independientes, por lo que las probabilidades del resultado en cada prueba se multiplican. 1 4 5 5 5 5 5 1 1 · · · · · = P(EFFFF ) = 6 6 6 6 6 6 6 Para obtener la probabilidad de obtener x éxitos y n − x fracasos en un orden dado se multiplica la probabilidad de éxito en una prueba x veces por la probabilidad de fracaso n − x veces x 5−x 1 5 · 6 6 Pero cada par x, 5 − x de éxitos y fracasos puedo obtenerlo de muchas maneras. ¿De cuántas maneras se puede obtener x éxitos y n-x fracasos? Para contarlas es preciso considerar las pruebas (1, 2, 3, . . . , n), y encontrar de cuantas maneras puedo ubicar en ellas los x éxitos. El problema es equivalente a encontrar las maneras de seleccionar -de un conjunto de nlas x pruebas donde van a estar los éxitos. Deseo “extraer” –definir como éxito- a x de las n pruebas. Supongamos x = 2. Tengo n maneras de definir el primer éxito, y n − 1 de definir el segundo. Esta manera de contar ordenamientos considera que “12” es diferente de “21”. Los considera distintos, “el orden importa”. El número de conjuntos de x éxitos tomados entre n pruebas en un orden dado es n · (n − 1) · ... · (n − x + 1) = n! (n − x)! Pero en nuestro caso no importa el orden. “12” es igual a “21”. Si los cuento con la fórmula, cada ordenamiento estará repetido x! veces. Por tanto para contar los posibles casos eliminando las repeticiones debemos dividir por x!. La cuenta de los ordenamientos de x de las n pruebas sin importar el orden está dada por n! n · (n − 1) · ... · (n − x + 1) = x! (n − x)!x! o çombinaciones de n tomadas de a x”. Esto permite volver a la cuantı́a de X . La probabilidad de obtener x éxitos y n − x fracasos se obtiene multiplicando la probabilidad de x éxitos y n − x fracasos en un orden dado por la cantidad de resultados que dan x éxitos y n − x fracasos: pX (x) = Cxn p x (1 − p)n−x En nuestro ejemplo: pX (x) = C05 (0, 167)0 (0, 833)5 = C15 (0, 167)1 (0, 833)4 = C25 (0, 167)2 (0, 833)3 = 5! 5!0! · 0, 401 = 0, 401 x =0 · 0, 08 = 0, 402 x =1 · 0, 016 = 0, 160 x =2 5! · 0, 003 = 0, 032 C35 (0, 167)3 (0, 833)2 = 3!2! 5! C45 (0, 167)4 (0, 833)1 = 4!1! · 0, 0006 =, 003 5 C5 (0, 167)5 (0, 833)0 = 1 · 0, 0001 = 0, 0001 x =3 5! 1!4! 5! 2!3! x =4 x =5 Media de una variable Binomial Si llamamos X1 , X2 , . . . , Xn a las variables de Bernoulli que representan el resultado en cada uno de los ensayos, se cumple que: X = X1 + X2 + . . . + Xn Una suma de variables aleatorias es una variable aleatoria, que tiene su media. La media de la suma es la suma de las medias de los sumandos (no lo demostraremos). En este caso: E (X ) = E (X1 ) + E (X2 ) + . . . + E (Xn ) = np Varianza de una variable Binomial En el caso de variables aleatorias independientes, se cumple además que la varianza de la suma es igual a la suma de las varianzas. En este caso, como las variables X1 , X2 , . . . , Xn son independientes, la varianza de X es igual a: V (X ) = V (X1 ) + V (X2 ) + . . . + V (Xn ) = np(1 − p) Muestreo con reposición El modelo binomial se asocia con la extracción de una muestra con reposición de una población dada (la selección de cada individuo para la muestra, verificando si posee cierto atributo, es una prueba). Si el muestreo se realiza con reposición (luego de seleccionado un elemento éste es vuelto a considerar en la población a muestrear) entonces la probabilidad p se mantiene incambiada y los resultados de las pruebas (tiene o no tiene el atributo) son independientes entre sı́. Distribución Hipergeométrica Seguimos considerando una variable X = no. de éxitos en n pruebas con dos resultados posibles: Ω = {E , F }. Cuando el muestreo se realiza sin reposición, cada extracción modifica la proporción de éxitos en la población. La probabilidad de éxito (condicional a los resultados de otras extracciones) no permanece igual de una extracción a otra y las pruebas no son independientes (por tanto X no sigue una distribución binomial). En estos casos, debe aplicarse la distribución hipergeométrica para determinar la probabilidad de un número especı́fico de “éxitos” o “fracasos”. El espacio de resultados es el conjunto de subconjuntos posibles de tamaño n. Está dado por CnN Entre los A ”éxitos”, hay CxA formas de extraer x éxitos. Entre los N−A restantes N − A ”fracasos“, pueden extraerse n − x de Cn−x formas posibles. El número de muestras conteniendo exactamente x éxitos y n − x fracasos es el producto de dichos números. Para contar los éxitos y fracasos sólo importa si un elemento está incluida en la extracción y no el orden en que salió. Los resultados son equiprobables, ya que cada subconjunto de n elementos tiene la misma probabilidad de ser extraı́do que cualquier otro. Función de cuantı́a hipergeométrica: pX (x) = N−A CxA Cn−x CnN - N : tamaño de la población. - A: cantidad de elementos que poseen la caracterı́stica “éxito”. - n : cantidad de elementos que se seleccionan sin reposición. Los parámetros de la Hipergeométrica son N, A y n. Ejemplo: En una fábrica trabajan tres hombres y tres mujeres. El capataz desea elegir dos trabajadores para una labor, al azar. X = número de mujeres en la selección. ¿Cuál es la función de cuantı́a de X? La selección de dos personas para formar un grupo es del tipo “extracción sin reposición”. La probabilidad de selección de la segunda persona cambia: los ensayos no son independientes. La cantidad de maneras distintas de seleccionar dos personas entre los seis trabajadores es: 6·5 6! = = 15 2!4! 2·1 Cada uno de estos grupos tiene la misma probabilidad de constituirse. En estos grupos puede haber 0, 1, o 2 mujeres. C26 = Si en la selección hay 0 mujeres, de los tres hombres dos son elegidos. ¿Cuántas formas existen de esta particular combinación?: 3! =3 2!1! el primer número corresponde a la selección de las mujeres y el segundo a la de los hombres. Los grupos en que hay una mujer (y un hombre) y dos mujeres y ningún hombre se calculan: C03 · C23 = 1 · C13 · C13 = 3 · 3 = 9; C23 · C03 = 3 · 1 = 3 La cuantı́a es por lo tanto: 3 3 6 C0 · C2 /C2 = 3/15 C13 · C13 /C26 = 9/15 pX (x) = C03 · C23 /C26 = 3/15 0 x =0 x =1 x =2 otro caso Distribución Poisson Estamos interesados en contar la ocurrencia de sucesos “raros” (un número entero, no negativo y en general pequeño), que ocurren en un intervalo en un continuo como el espacio o tiempo. La variable aleatoria X expresa el número de eventos en un intervalo dado. La intensidad con que aparecen dichos sucesos se representa mediante el parámetro positivo λ. Algunos ejemplos de experimentos aleatorios para los que se utiliza como modelo la distribución de Poisson: -La cantidad de fallas por intervalo en un flujo continuo de producción -El número de conexiones a una red en un perı́odo de tiempo. -El número de accidentes de tráfico en una ciudad durante un dı́a. La notación es X ∼ Poisson(λ). La cuantı́a de una variable que se distribuye Poisson está dada por: pX (x) = e −λ λx x! x = 0, 1, 2, ... 0 otro caso λ > 0 es el número medio de eventos que ocurren en un intervalo unitario. En este sentido x debe estar referida al mismo largo de intervalo que λ. Es un ejemplo de una distribución con un número infinito, aunque contable, de puntos en el espacio muestral. Las probabilidades tienden a cero a medida que el número de sucesos considerado se incrementa, ya que la suma de todas las probabilidades es igual a 1. Poisson es una generalización de la distribución binomial, en las condiciones particulares en que n es muy grande mientras que p se hace muy pequeño. Consideremos los vuelos de avión, que son centenares de miles en un intervalo de tiempo dado. La probabilidad de un accidente aéreo es muy, muy baja, pero dado el alto número de vuelos se puede esperar un número pequeño de accidentes en dicho intervalo. El modelo es aplicable a eventos que ocurren en un continuo (tiempo, espacio). En un intervalo finito hay infinidad de puntos, de los cuales sólo muy pocos contienen eventos (de ahı́ ”sucesos raros”). El modelo binomial se vuelve complicado debido a los números extremadamente grandes y pequeños que se manejarı́an. La distribución Poisson puede verse como el caso lı́mite de la binomial cuando n → +∞ pero np → λ (fijo) con lo cual p → 0. La media o valor esperado de una variable aleatoria con distribución de Poisson coincide con el parámetro de intensidad, es decir: E (X ) = λ En esta distribución, la varianza toma el mismo valor que la media: V (X ) = λ 2.3. Modelos Continuos Distribución Uniforme Definición: La distribución uniforme en un intervalo dado [a, b], (con la notación X ∼ U[a, b]), queda definida por la función de densidad: 1 a≤x ≤b (b−a) pX (x) = 0 otro caso fX(x) 1/(b a) a b x Una variable aleatoria que expresa un número elegido al azar entre a y b sigue una distribución uniforme. Como la probabilidad de que el número k esté en cualquier intervalo de una amplitud dada es la misma, la función de densidad tiene la misma altura en todos los puntos. Media: La media de una variable aleatoria X con distribución uniforme entre a y b es el punto medio entre estos dos valores, o sea: E (X ) = a+b 2 Varianza: (b − a)2 V (X ) = 12 Observar que crece a medida que aumenta la distancia entre a y b. Distribución Normal La distribución normal (o gaussiana) describe a una variable con distribución simétrica con respecto a un valor central alrededor del cual se concentra gran parte de la masa de probabilidad y en la que los valores extremos son poco frecuentes. Es usual utilizarla como modelo para variables como peso, altura o calificación obtenida en un examen. Densidad: fX (x) = √ 1 x−µ 2 1 e− 2 ( σ ) 2πσ Depende de dos parámetros: media E (X ) = µX , y desviación estándar p V (X ) = σx . Cuanto menor la desviación estándar, mayor la concentración alrededor de la media. Cada variable normal queda especificada por sus valores particulares de media y desvı́o estándar. Simetrı́a: es simétrica con respecto a la media, punto en que la función de densidad alcanza su valor máximo. f (µ − a) = f (µ + a) También las ”probabilidades de las colas”son iguales: P {x < (µ − a)} = P {x > (µ + a)} lo que puede ponerse en términos de la función de distribución como: FX (µ − a) = 1 − FX (µ + a) Áreas bajo la curva normal f(x) µ 3 µ 2 µ µ µ+ µ+2 µ+3 El 68.3 % del área bajo la curva normal está comprendida en un intervalo una desviación estándar de amplitud centrado en la media. El 95.5 % del área bajo la curva normal se encuentra a menos de dos desviaciones estándar y el 99.7 % (casi la totalidad) a menos de tres desviaciones estándar de la media. x Transformaciones Una propiedad de las variables aleatorias normales es que sus transformaciones lineales también siguen una distribución normal. Si X ∼ N(µx , σx2 ), entonces la variable Y = aX + b tiene una distribución normal con media aµx + b y desviación estándar |a|σx . Ejemplo: La variable X ∼ N(1,5, 0,01) representa el tiempo en horas de cierto proceso. Si Y expresa el mismo tiempo en minutos (Y = 60X ), entonces la distribución de Y es normal con media µy = 60(1,5) = 90 y desviación estándar σy = 60(0,1) = 6. Normal estándar Si a una variable normal X ∼ N(µx , σx2 ) le restamos su media y la dividimos por su desviación estándar (.estandarización”), la variable normal estándar Z resultante se distribuye N(0, 1) : X − µx = Z ∼ N(0, 1) σx Los valores obtenidos z representan la distancia a la media de las x medida en unidades de la desviación estándar. Las tablas de la Normal(0, 1) muestran las probabilidades P{Z ≤ b} – áreas correspondiente a valores menores que b bajo la curva de la función de densidad N(0, 1). Probabilidades de intervalos Se puede calcular las probabilidades para cualquier variable normal utilizando las tablas disponibles para la distribución normal estándar. Si X es una variable normal con media µX y desviación σX y queremos hallar P(X < b), recordamos que si Z = (X − µX ) /σX , entonces X = σX Z + µx , y por lo tanto: b − µx P(X ≤ b) = P (σX Z + µX ≤ b) = P Z ≤ σX La probabilidad se obtiene utilizando la tabla normal estándar. Tabla Normal: La fila y columna en conjunto determinan el valor c. En la celda se encuentra las áreas 1 − α para los valores c = z1−α , donde P(Z ≤ c) = 1 − α, y donde Z tiene una distribución N(0, 1). Z 0.0 0.1 0.2 0.3 0.4 .00 .5000 .5398 .5793 .6179 .6554 .01 .5040 .5438 .5832 .6217 .6591 .02 .5080 .5478 .5871 .6255 .6628 .03 .5120 .5517 .5910 .6293 .6664 .04 .5160 .5557 .5948 .6331 .6700 .05 .5199 .5596 .5987 .6368 .6736 .06 .5239 .5636 .6026 .6406 .6772 .07 .5279 .5675 .6064 .6443 .6808 ... ... ... ... ... ... ... ... ... 1 1 ... ... ... ... ... ... ... ... ... ... ... ... ... ... Para probabilidades de intervalos abiertos por la derecha se puede usar P(Z > a) = 1 − P(Z ≤ a) La tabla solamente incluye las probabilidades acumuladas hasta valores de Z mayores que 0. Para obtenerlas para valores menores que 0 se debe usar P(Z < −c) = P(Z > c) = 1 − P(Z ≤ c). La probabilidad P(a < Z ≤ b), puede obtenerse a partir de : P(a < Z ≤ b) = P(Z ≤ b) − P(Z ≤ a) Ejemplo: El peso medio de los estudiantes varones de la FCS es de 69 kg y la desviación estándar de 10 kg. Suponiendo que los pesos están distribuidos normalmente, hallar la proporción de estudiantes que pesan entre 48 y 72 kg. Estandarizando los valores se tiene: P(48 < X ≤ 72) = P( X − 69 72 − 69 48 − 69 < ≤ )= 10 10 10 P(−2,1 < Z ≤ 0,3) = P(Z ≤ 0,3) − P(Z ≤ −2,1) = Φ(0,3) − Φ(−2,1) Usando tablas se obtiene 0,6179 − 0,0179 = 0,6. Propiedad: La suma de variables aleatorias normales e independientes también se distribuye normal. Si X ∼ N(µx , σx2 ), Y ∼ N(µy , σy2 ) y X e Y son independientes, entonces la suma X + Y se distribuye: X + Y ∼ N(µx + µx , σx2 + σy2 ) Distribuciones t-student y chi-cuadrado Las distribuciones son Chi cuadrado y T de Student son familias de distribuciones asociadas a sucesiones de variables aleatorias normales. Distribución χ2 Se considera Z1 , Z2 , . . . , Zn , una sucesión de variables aleatorias independientes que siguenPtodas ellas una distribución N(0, 1). La variable X construida como X = ni=1 Zi2 se dice que sigue una distribución χ2 (n) siendo n los “grados de libertad”, que en este caso indican la cantidad de variables N(0, 1) en la suma. La función de densidad chi-cuadrado depende de los grados de libertad. La variable siempre toma valores positivos. 0.2 n= 4 n=8 n = 20 n = 30 n = 50 0.15 0.1 0.05 0 10 20 30 40 50 60 70 80 Distribución t de Student Está caracterizada también por el parámetro n, ”grados de libertad”, y usamos la notación X ∼ t(n). Las probabilidades para distintos valores de n se encuentran en tablas. Una variable X con esta distribución tiene E (X ) = 0 y V (X ) = n/(n − 2). Sea X1 ∼ N(0, 1) y X2 ∼ χ2 (n) dos variables aleatorias independientes, entonces la expresión X1 ∼ t(n) t=p X2 /n El cociente entre una variable Normal (0, 1) y la raı́z de una chi-cuadrado dividida por sus grados de libertad sigue una distribución t con n grados de libertad. La densidad de la distribución t se asemeja a la N(0, 1) a medida que aumentan los grados de libertad. t(4) t(8) t(20) N(0,1) -5 0 5 x