MODELOS PROBABILISTICOS Modelos probabilísticos Un modelo probabilístico, es la forma que pueden tomar un conjunto de datos obtenidos de muestreos de datos con comportamiento que se supone aleatorio. Los modelos probabilísticos más típicos son: Distribución Binomial. Distribución Poisson. Distribución T de Student. Distribución Normal: usada ampliamente en muestras mayores a 30 datos. Distribución Chi Cuadrado: usada en muestras pequeñas. Distribución F-Snedecor: usada para controlar la varianza de 2 distribuciones. Variables Discretas. Una distribución de probabilidades para una variable aleatoria discreta es un listado mutuamente excluyente de todos los resultados numéricos posibles para esa variable aleatoria tal que una probabilidad específica de ocurrencia se asocia con cada resultado. El valor esperado de una variable aleatoria discreta es un promedio ponderado de todos los posibles resultados, donde las ponderaciones son las probabilidades asociadas con cada uno de los resultados. Donde: Xi = i-ésimo resultado de X, la variable discreta de interés. P (Xi) = probabilidad de ocurrencia del i-ésimo resultado de X Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 1 MODELOS PROBABILISTICOS La varianza de una variable aleatoria discreta (s 2) se define como el promedio ponderado de los cuadros de las diferencias entre cada resultado posible y su media (los pesos son las probabilidades de los resultados posibles). Donde: Xi = i-ésimo resultado de X, la variable discreta de interés. P (Xi) = probabilidad de ocurrencia del i-ésimo resultado de X Las distribuciones de probabilidades discretas más importantes son: Distribución Binomial. Distribución de Poisson. DISTRIBUCION BINOMIAL La distribución binomial es una distribución de probabilidades que surge al cumplirse cinco condiciones: 1. Existe una serie de N ensayos, 2. En cada ensayo hay sólo dos posibles resultados, 3. En cada ensayo, los dos resultados posibles son mutuamente excluyentes, 4. Los resultados de cada ensayo son independientes entre si, y 5. La probabilidad de cada resultado posible en cualquier ensayo es la misma de un ensayo a otro. Cuando se cumple estas condiciones, la distribución binomial proporciona cada resultado posible de los N ensayos y la probabilidad de obtener cada uno de estos resultados. Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 2 MODELOS PROBABILISTICOS Para este tipo de distribución de probabilidad, la función matemática es la siguiente: Donde: P(X) = probabilidad de X éxitos dados los parámetros n y p n = tamaño de la muestra p = probabilidad de éxito 1 – p = probabilidad de fracaso X = numero de éxitos en la muestra (X = 0, 1, 2,…….. n) El término indica la probabilidad de obtener X éxitos de n observaciones en una secuencia específica. En término indica cuantas combinaciones de los X éxitos entre n observaciones son posibles. Entonces dado el número de observaciones n y la probabilidad de éxito p, la probabilidad de X éxitos es: P(X) = (numero de de secuencia posibles) X (probabilidad de una secuencia específica) Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 3 MODELOS PROBABILISTICOS Ejercicios: 1. En el año 2005-06 en una granja de las proximidades de Zaragoza, el 80% de las cerdas en celo fueron inseminadas con éxito. ¿Cuál es la probabilidad de que inseminemos con éxito al menos a 3, si cogemos un grupo de 10 cerdas al azar? - Como nos dan la probabilidad de éxito, y el número de cerdas que vamos a inseminar, sabemos que se trata de una Distribución Binomial. B (10, 0'8) - Por tanto sólo hemos de aplicar la fórmula, teniendo en cuenta que nos piden la probabilidad de éxito en al menos 3 cerdas inseminadas, es decir, la probabilidad de que tengamos éxito en más de tres cerdas. Aplicamos la fórmula de la Distribución Binomial en P(X>3). P (X>3) = 1- P (X<3) = 1- [P (X=0) + P (X=1) + P (X=2) + P (X=3)] = 0.99 - Tenemos un 99% de probabilidad de que queden inseminadas más de 3 cerdas. Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 4 MODELOS PROBABILISTICOS 2. Una máquina fabrica una determinada pieza y se sabe que produce un 7 por 1000 de piezas defectuosas. Hallar la probabilidad de que al examinar 50 piezas sólo haya una defectuosa. Solución: Se trata de una distribución binomial de parámetros B (50, 0'007) y debemos calcular la probabilidad p(X=1). 3. La probabilidad de éxito de una determinada vacuna es 0,72. Calcula la probabilidad de a que una vez administrada a 15 pacientes: a) Ninguno sufra la enfermedad b) Todos sufran la enfermedad c) Dos de ellos contraigan la enfermedad Solución: Se trata de una distribución binomial de parámetros B (15, 0'72) Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 5 MODELOS PROBABILISTICOS 4. La probabilidad de que el carburador de un coche salga de fábrica defectuoso es del 4 por 100. Hallar: a) El número de carburadores defectuosos esperados en un lote de 1000 b) La varianza y la desviación típica. Solución: DISTRIBUCIÓN DE POISSON. Características: En este tipo de experimentos los éxitos buscados son expresados por unidad de área, tiempo, pieza, etc., etc., - # de defectos de una tela por m2 - # de aviones que aterrizan en un aeropuerto por día, hora, minuto, etc., etc. - # de bacterias por cm2 de cultivo - # de llamadas telefónicas a un conmutador por hora, minuto, etc., etc. - # de llegadas de embarcaciones a un puerto por día, mes, etc., etc. Para determinar la probabilidad de que ocurran x éxitos por unidad de tiempo, área, o producto, la fórmula a utilizar sería: p( x , ) x x! Donde: p(x,) = probabilidad de que ocurran x éxitos, cuando el número promedio de ocurrencia de ellos es = media o promedio de éxitos por unidad de tiempo, área o producto = 2.718 Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 6 MODELOS PROBABILISTICOS x = variable que nos denota el número de éxitos que se desea que ocurra Hay que hacer notar que en esta distribución el número de éxitos que ocurren por unidad de tiempo, área o producto es totalmente al azar y que cada intervalo de tiempo es independiente de otro intervalo dado, así como cada área es independiente de otra área dada y cada producto es independiente de otro producto dado. Ejercicios: 1. Si un banco recibe en promedio 6 cheques sin fondo por día, ¿cuáles son las probabilidades de que reciba, a) cuatro cheques sin fondo en un día dado, b) 10 cheques sin fondos en cualquiera de dos días consecutivos? Solución: a) a) x = variable que nos define el número de cheques sin fondo que llegan al banco en un día cualquiera = 0, 1, 2, 3,....., etc., etc. = 6 cheques sin fondo por día = 2.718 ( 6 )4 ( 2.718)6 ( 1296)( 0.00248) p( x 4, 6 ) 0.13392 4! 24 b) x= variable que nos define el número de cheques sin fondo que llegan al banco en dos días consecutivos = 0, 1, 2, 3,......, etc., etc. = 6 x 2 = 12 cheques sin fondo en promedio que llegan al banco en dos días consecutivos Nota: siempre debe de estar en función de x siempre o dicho de otra forma, debe “hablar” de lo mismo que x. ( 12 )10 ( 2.718)12 ( 6.191736410 )( 0.000006151) p( x 10, 12 ) 0.104953 10! 3628800 Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 7 MODELOS PROBABILISTICOS 2. En la inspección de hojalata producida por un proceso electrolítico continuo, se identifican 0.2 imperfecciones en promedio por minuto. Determine las probabilidades de identificar a) una imperfección en 3 minutos, b) al menos dos imperfecciones en 5 minutos, c) cuando más una imperfección en 15 minutos. Solución: a) a) x = variable que nos define el número de imperfecciones en la hojalata por cada 3 minutos = 0, 1, 2, 3,...., etc., etc. = 0.2 x 3 =0.6 imperfecciones en promedio por cada 3 minutos en la hojalata p( x 1, 0.6 ) ( 0.6 )1( 2.718)0.6 ( 0.6 )( 0.548845) 0.329307 1! 1 b) X = variable que nos define el número de imperfecciones en la hojalata por cada 5 minutos = 0, 1, 2, 3,...., etc., etc. = 0.2 x 5 =1 imperfección en promedio por cada 5 minutos en la hojalata ( 1 )0 ( 2.718)1 ( 1 )( 2.718)1 p( x 2,3,4,etc.... 1 ) 1 p( x 0,1, 1 ) 1 0! 1! =1-(0.367918+0.367918) = 0.26416 c) X = variable que nos define el número de imperfecciones en la hojalata por cada 15 minutos = 0, 1, 2, 3,....., etc., etc. = 0.2 x 15 = 3 imperfecciones en promedio por cada 15 minutos en la hojalata ( 3 )0 ( 2.718)3 ( 3 )1( 2.718)3 p( x 0,1, 3 ) p( x 0, 3 ) p( x 1, 3 ) 0! 1! = 0.0498026 + 0.149408 = 0.1992106. Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 8 MODELOS PROBABILISTICOS Distribuciones Continuas. Una va continua X es aquella que puede tomar cualquiera de los infinitos valores existentes dentro de un intervalo, tiene un conjunto infinito de valores no numerables; esto es, si para algún a < b, cualquier número x entre a y b es posible. Al considerar las variables continuas es probable que los datos recabados no sean completamente exactos, o dos o más de ellos no coincidan, por lo que se tiene que trabajar en intervalos. Distribución T de Student. Distribución Normal: usada ampliamente en muestras mayores a 30 datos. Distribución Chi Cuadrado: usada en muestras pequeñas. Distribución F-Snedecor: usada para controlar la varianza de 2 distribuciones. T de Student. En probabilidad y estadística, la distribución t (de Student) es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño. Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias entre dos medias muéstrales y para la construcción del intervalo de confianza para la diferencia entre las medias de dos poblaciones cuando se desconoce la desviación típica de una población y ésta debe ser estimada a partir de los datos de una muestra. La distribución t de Student es la distribución de probabilidad del cociente: Donde Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 9 MODELOS PROBABILISTICOS Z tiene una distribución normal de media nula y varianza 1 V tiene una distribución chi-cuadrado con ν grados de libertad Z y V son independientes Si μ es una constante no nula, el cociente es una variable aleatoria que sigue la distribución t de Student no central con parámetro de no-centralidad μ. Ejercicios: 1. Los valores de las matriculas de estudiantes de una universidad privada tienen un comportamiento aproximadamente normal, donde el promedio es de 2.100.000. Se seleccionan 8 liquidaciones, siendo los valores siguientes: 1.950.000, 2.100.000, 2.250.000, 1.890.000, 2.250.000, 1.950.000, 2.050.000, 2.350.000. Determine la probabilidad que: a) El promedio sea menor de 2.000.000 b) El promedio se encuentre entre 2.000.000 y 2.200.000 c) El promedio sea mayor o igual a 2.500.000 Solución: σ μ Sea x = Liquidación de matriculas μ = 2.100.000; σ=? = 2.098.750; s= 168.644.8085; n= 8 t X s n Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 10 MODELOS PROBABILISTICOS a) P( <2.000.000)= P(t<(2.000.000-2.100.000)/(168644.8085/2.8284)=P(t<-1.677) La probabilidad se encuentre entra 0.9 y 0.95, según la tabla T, no obstante, al T ser negativo, la probabilidad está entre 0.1 y 0.05, es decir, los valores complementarios. b) P(2.000.000< < 2.200.000)=P( 2.200.000)-P( <= 2.000.000) Tipificamos: P (t<3.35)-P (t<-1.677)=0.995-0.075=0.92 Existe una alta probabilidad que el promedio de las matriculas se encuentre entre 2.000.000 y 2.200.000 c) P( >2.500.000)=P(t>6.70)=1-P(t<6.70)=1-1=0 Dado que el valor de 6.70 es mucho mayor que el ubicado en la tabla de 3.49 y corresponde a 0.995, es claro, entonces, que para valores mayores de 3.49, la probabilidad será de 1. Por lo tanto, la probabilidad que el promedio de matricula sea superior a 2.500.00 es cero. 2. Los puntajes de un grupo de estudiantes se comportan normal, con promedio de 50, sin embargo, no se conoce la desviación. Se tomó una muestra aleatoria de 9 estudiantes encontrando una varianza de 36 y un promedio de 52. Cual es la probabilidad que el promedio: a) Sea mayor de 54? b) Sea menor de 54? c) Esté comprendido entre 48 y 52 puntos? Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 11 MODELOS PROBABILISTICOS Solución: Sea x = Puntaje estudiantes Μ = 50 puntos; σ=? =52; S2=36; s=6; n=9 a) P ( >54)=1-P (t< (54-50)/ (6/3))= 1-P (t<2)= 1-0.9625= 0.0375 La probabilidad que el promedio del puntaje de los estudiantes sea mayor de 54 es muy baja, 0.0375. b) P ( <54)=P(t<(54-50)/(6/3))=P(<2)=0.9625. Por el contrario de lo anterior, es muy probable que el promedio del puntaje de los estudiantes sea menor de 54, esta probabilidad equivale al 0.9625. c)P(48< <52)= P( <52)-P( 48)=P(t<(52-50)/(6/3))-P(t<(4850)/(6/3))= P(t<1)-P(t<-1)=0.825-(1-0.825)=0.65 La probabilidad es de 0.65, se aprecia que al ser simétrica la distribución t, se calcula la probabilidad utilizando el inverso. Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 12 MODELOS PROBABILISTICOS Distribución Normal Esta distribución es frecuentemente utilizada en las aplicaciones estadísticas. Su propio nombre indica su extendida utilización, justificada por la frecuencia o normalidad con la que ciertos fenómenos tienden a parecerse en su comportamiento a esta distribución. Muchas variables aleatorias continuas presentan una función de densidad cuya gráfica tiene forma de campana. En otras ocasiones, al considerar distribuciones binomiales, tipo B(n,p), para un mismo valor de p y valores de n cada vez mayores, se ve que sus polígonos de frecuencias se aproximan a una curva en "forma de campana". En resumen, la importancia de la distribución normal se debe principalmente a que hay muchas variables asociadas a fenómenos naturales que siguen el modelo de la normal Caracteres morfológicos de individuos (personas, animales, plantas,...) de una especie, p.ejm. tallas, pesos, envergaduras, diámetros, perímetros,... Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un fármaco, o de una misma cantidad de abono. Caracteres sociológicos, por ejemplo: consumo de cierto producto por un mismo grupo de individuos, puntuaciones de examen. Caracteres psicológicos, por ejemplo: cociente intelectual, grado de adaptación a un medio,... Errores cometidos al medir ciertas magnitudes. Valores estadísticos muestrales, por ejemplo: la media. Otras distribuciones como la binomial o la de Poisson son aproximaciones normales, ... Y en general cualquier característica que se obtenga como suma de muchos factores. Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 13 MODELOS PROBABILISTICOS FUNCIÓN DE DENSIDAD Empleando cálculos bastante laboriosos, puede demostrarse que el modelo de la función de densidad que corresponde a tales distribuciones viene dado por la fórmula Representación gráfica de esta función de densidad. Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 14 MODELOS PROBABILISTICOS La distribución normal queda definida por dos parámetros, su media y su desviación típica y la representamos así FUNCIÓN DE DISTRIBUCIÓN Puede tomar cualquier valor (- ¥, + ¥) Son más probables los valores cercanos a uno central que llamamos media m Conforme nos separamos de ese valor m , la probabilidad va decreciendo de igual forma a derecha e izquierda (es simétrica). Conforme nos separamos de ese valor m, la probabilidad va decreciendo de forma más o menos rápida dependiendo de un parámetro s, que es la desviación típica. Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 15 MODELOS PROBABILISTICOS F(x) es el área sombreada de esta gráfica TIPIFICACIÓN Por tanto su función de densidad es Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 16 MODELOS PROBABILISTICOS y su función de distribución es Siendo la representación gráfica de esta función a la variable Z se la denomina variable tipificada de X, y a la curva de su función de densidad curva normal tipificada. Característica de la distribución normal tipificada (reducida, estándar) No depende de ningún parámetro Su media es 0, su varianza es 1 y su desviación típica es 1. La curva f(x) es simétrica respecto del eje OY Tiene un máximo en este eje Tiene dos puntos de inflexión en z =1 y z = -1 Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 17 MODELOS PROBABILISTICOS Aproximación de la Binomial por la Normal (Teorema de De Moivre): Demostró que bajo determinadas condiciones (para n grande y tanto p como q no estén próximos a cero) la distribución Binomial B(n, p) se puede aproximar mediante una distribución normal Debemos tener en cuenta que cuanto mayor sea el valor de n, y cuanto más próximo sea p a 0.5, tanto mejor será la aproximación realizada. Es decir, basta con que se verifique Gracias a esta aproximación es fácil hallar probabilidades binomiales, que para valores grandes de n resulten muy laboriosos de calcular. Hay que tener en cuenta que para realizar correctamente esta transformación de una variable discreta (binomial) en una variable continua (normal) es necesario hacer una corrección de continuidad. Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 18 MODELOS PROBABILISTICOS Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 19 MODELOS PROBABILISTICOS Ejercicios: 1. En una ciudad se estima que la temperatura máxima en el mes de junio sigue una distribución normal, con media 23° y desviación típica 5°. Calcular el número de días del mes en los que se espera alcanzar máximas entre 21° y 27° 2. La media de los pesos de 500 estudiantes de un colegio es 70 kg y la desviación típica 3 kg. Suponiendo que los pesos se distribuyen normalmente, hallar cuántos estudiantes pesan: a) Entre 60 kg y 65 kg. b) Más de 90 kg. c) Menos de 64 kg. d) 64 kg. e) 64 kg o menos. Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 20 MODELOS PROBABILISTICOS Solución: a) Entre 60 kg y 65 kg. b) Más de 90 kg. C) Menos de 64 kg. d) 64 kg. e) 64 kg o menos. Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 21 MODELOS PROBABILISTICOS 3. Tras un test de cultura general se observa que las puntuaciones obtenidas siguen una distribución una distribución N (65, 18). Se desea clasificar a los examinados en tres grupos (de baja cultura general, de cultura general aceptable, de excelente cultura general) de modo que hay en el primero un 20% la población, un 65% el segundo y un 15% en el tercero. ¿Cuáles han de ser las puntuaciones que marcan el paso de un grupo al otro? Solución: Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 22 MODELOS PROBABILISTICOS Baja cultura hasta 49 puntos. Cultura aceptable entre 50 y 83. Excelente cultura a partir de 84 puntos. Distribución Chi Cuadrado En estadística, la distribución χ² (de Pearson) es una distribución de probabilidad continua con un parámetro k que representa los grados de libertad de la variable aleatoria: Donde Zi son variables de distribución normal, de media cero y varianza uno. El que la variable aleatoria X tenga esta distribución Se representa habitualmente así: . Es conveniente tener en cuenta que la letra griega χ se transcribe al latín como chi1 y se pronuncia en castellano como ji.2 3 La distribución χ² tiene muchas aplicaciones en inferencia estadística, por ejemplo en la denominada prueba χ² utilizada como prueba de independencia y como prueba de bondad de ajuste y en la estimación de varianzas. También está involucrada en el problema de estimar la media de una población normalmente distribuida y en el problema de estimar la pendiente de una recta de regresión lineal, a través de su papel en la distribución t de Student, y participa en todos los problemas de análisis de varianza, por su papel en la distribución F de Snedecor, que es la distribución del Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 23 MODELOS PROBABILISTICOS cociente de dos variables aleatorias independientes con distribución χ². Ejercicios: Encuentre la probabilidad de que una muestra aleatoria de 5 2 observaciones, de una población normal con varianza = 1, tenga una S2 .265. Solución Establecer datos Con los cinco datos muéstrales que nos dan calcular la varianza muestral: n=5 S2 = 0.2650 2= 1 Determinar la variable aleatoria relacionada 2 S2 (n 1 ) 2 Elaborar gráfica del problema Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 24 MODELOS PROBABILISTICOS P (S2 0.2650) = ? 2 Encontrar el valor de 2 S 2 ( n 1) 2 = .2650 (5 1) 1.06 1 Encontrar la probabilidad 2 P ( 1.06) = 0.90 Se tiene una probabilidad de 0.90 que el valor de la varianza muestral sea mayor o igual a 0.265. Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 25 MODELOS PROBABILISTICOS Distribución F-Snedecor Es una distribución de probabilidad de gran aplicación en la inferencia estadística , fundamentalmente en la contrastación de la igualdad de varianzas de dos poblaciones normales, y , fundamentalmente en el análisis de la varianza , técnica que permite detectar la existencia o inexistencia de diferencias significativas entre muestras diferentes y que es, por tanto esencial , en todos aquellos casos en los que se quiere investigar la relevancia de un factor en el desarrollo y naturaleza de una característica. La distribución se plantea partiendo de dos variables X e Y tales que: es decir una chi2 con m grados de libertad es decir una chi2 con n grados de libertad; de manera que si establecemos el cociente , es decir el cociente entre ambas chi2 divididas a su vez, por sus correspondientes grados de libertad tendremos que la función F corresponde a una distribución F de Snedecor con m y n grados de libertad ; es decir una Queda claro por tanto que la distribución F de Snedecor tiene dos parámetros, que son m y n; grados de libertad del numerador, grados de libertad del denominador. Dado que se trata de un cociente entre dos chi2 su forma (gráfica de la función de densidad)será parecida a la de ésta distribución , por lo que estará sólo definida para el campo positivo de la variable y su apariencia variará según los grados de libertad ; estando más próxima la densidad de probabilidad a los valores próximos a cero de la variable , cuando los grados de libertad ( sus parámetros) sean bajos. Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 26 MODELOS PROBABILISTICOS La función de densidad de la F de Snedecor viene dada por Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 27 MODELOS PROBABILISTICOS Siendo m y n los parámetros de la función (distribución) y función gamma de Euler la media de la distribución es varianza cuando n> 4 la si n > 2 siendo la Lógicamente si su inversa lo que ayuda al cálculo de probabilidades para distintos valores de la variable mediante la utilización de tablas , caso que no es el nuestro pues estos los realizamos mediante un programa que incluimos , no obstante ,a modo de ejemplo , plantemos: Si X resultado es 0,13 Luego y nos interesa el cálculo de dicho luego Como curiosidad tenemos que una F con un grado de libertad en el numerador y n en el denominador, no es más que el cuadrado de una t de student con n grados de libertadad dado que: Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 28 MODELOS PROBABILISTICOS Dado que: Una luego una: Siendo una una Ejercicio: 1. Si y representan las varianzas de muestras aleatorias independientes poblaciones de tamaño normales con y varianzas , tomadas de y respectivamente, encuentre Solución: Fabio Pérez Oliveros GESIS UdeA 2009-2 Página 29