modelos probabilisticos • DISTRIBUCIÓN GEOMÉTRICA En el marco de repeticiones independientes de Pruebas de Bernoulli con parámetro P se define otro tipo de experimento como el número de pruebas necesarias hasta conseguir que ocurra el evento A por primera vez. Este experimento se denomina experimento Geométrico y define una variable aleatoria Geométrica. El modelo Geométrico es una variable aleatoria que se define como el número de repeticiones independientes de una Prueba de Bernoulli hasta que ocurre el evento A. Notas: − La variable aleatoria tomará cualquier valor entero mayor o igual a uno. − El modelo Geométrico se denotará como G(p), donde p es la probabilidad de que ocurra el evento A en cada Prueba de Bernoulli. − La asignación de probabilidades de cada valor de la variable esta dada por la ecuación 1 Ecuación 1 Como consecuencia de la Ecuación 1, la función de distribución acumulativa de probabilidades, la función de densidad de probabilidades y la función de probabilidad vienen dadas por las ecuaciones 2, 3 y 4, respectivamente. 1 La Tabla 1 muestra los valores esperados más importantes correspondientes al modelo Geométrico. Tabla 1: Valores Esperados más Importantes para el Modelo Geométrico. Para darse una idea se plantean los siguientes ejemplos: Ejemplo 1:La probabilidad de que ocurra el evento A en una Prueba de Bernoulli es 0.6. ¿Cuál es la probabilidad de que se necesiten exactamente 5 pruebas para conseguir el resultado A por primera vez?. La variable aleatoria así definida se corresponde con el modelo Geométrico con parámetro p = 0.6. La probabilidad que se solicita viene dada por Ejemplo 2:Considere una caja con R pelotas rojas y A pelotas amarillas. Se va a realizar un muestreo con reposición hasta obtener una pelota amarilla. ¿Cuál es la 2 probabilidad de que realicen exactamente 3 extracciones para conseguir la primera pelota amarilla?. La variable aleatoria así definida se corresponde con el modelo Geométrico con parámetro p =A/A+R . La probabilidad que se solicita viene dada por Ejemplo 3:Un estudiante tiene probabilidad de 0.8 de aprobar el curso de probabilidades. De no aprobar el curso en este término lo inscribe de nuevo hasta que lo apruebe. ¿Cuál es la probabilidad de que necesite inscribirse más de tres veces para aprobar el curso?. La variable aleatoria definida como el número de veces que se toma el curso de probabilidades hasta aprobarlo se corresponde con el modelo Geométrico con parámetro p = 0.8 (se supone aquí que el valor de p permanece constante de un término a otro). La probabilidad que se solicita viene dada por Nota: La Texas Instrument (TI−89), con su aplicación flash del programa de Probabilidad y Estadística, en el caso de la distribución Geomertrica, se da por la opcion F5, seccion F. • DISTRIBUCIÓN exponencial La Definición de un Modelo Poisson implica el número de veces que ocurre un cierto resultado en un intervalo de tiempo dado. Asociado a este modelo se puede estudiar el tiempo entre la ocurrencia de dos resultados consecutivos el cual, en consecuencia, será un valor aleatorio. Uno de los modelos más sencillos que permite 3 estudiar esta variable es el Modelo Exponencial que debe su nombre a la forma de su función de densidad de probabilidades. Definición 6.3: El modelo Exponencial es una variable aleatoria donde la función de densidad de probabilidades viene dada por la Ecuación 1. Notas: − La variable aleatoria se define para valores reales mayores que cero. − El modelo Exponencial se denotará como EXPON(), donde es un parámetro que representa el inverso del tiempo promedio entre la ocurrencia de dos eventos consecutivos. Ejemplo 1: Para una variable aleatoria exponencial con parámetro calcule la función de distribución acumulativa de probabilidades. Aplicando la Propiedad 3.5.2.2 se tiene 4 5 Ejemplo 2: Para una variable aleatoria exponencial con parámetro = 2, calcule la probabilidad de que la variable tome valores mayores a su valor esperado. Según la Tabla 6.3, el valor esperado será E{X} = 1/ = 0.5. Entonces, la probabilidad solicitada será Ejemplo 3: El tiempo de atención al cliente en la taquilla de un banco sigue una variable aleatoria exponencial con un promedio de 5 minutos, calcule la probabilidad de que ese tiempo sea mayor a su valor esperado. Según la Tabla anterior, el parámetro será igual a 1/E{X} = 1/5 = 0.2. Entonces, la probabilidad solicitada será • Distribución Hipergeometrica El modelo Hipergeométrico es una variable aleatoria que se define como el número de objetos del tipo A en un muestreo sin reposición de tamaño n en una población de N objetos donde k de ellos son del tipo A. Notas: − La variable aleatoria tomará cualquier valor entero entre cero y n pero debe cumplir con las restricciones de ser menor o igual a k y mayor o igual que (n + k − N). − El modelo Hipergeométrico se denotará como H(N, k, n), donde N es la cantidad de objetos en la población, k es el número de objetos tipo A en la población y n es el tamaño de muestra sin reposición. − La asignación de probabilidades de cada valor de la variable está dada por la ecuación 1. 6 Como consecuencia de la Ecuación 1, la función de distribución acumulativa de probabilidades, la función de densidad de probabilidades y la función de probabilidad vienen dadas por las ecuaciones 2, 3 y 4, respectivamente. 7 Ejemplo 1:Considere una caja con R pelotas rojas y A pelotas amarillas. Se va a realizar un muestreo sin reposición de tamaño 3. ¿Cuál es la probabilidad de que se extraigan exactamente 3 pelotas amarillas?. La variable aleatoria definida como el número de pelotas amarillas en el MSR de tamaño 3 de la caja mencionada se corresponde con el modelo Hipergeométrico con parámetros N = R + A, k = A y n = 3. La probabilidad que se solicita viene dada por 8 Ejemplo 2:Considere una caja con R pelotas rojas y A pelotas amarillas. Se va a realizar un muestreo sin reposición de tamaño 3. ¿Cuál es la probabilidad de que se extraigan más pelotas amarillas que rojas?. La variable aleatoria definida como el número de pelotas amarillas en el MSR de tamaño 3 de la caja mencionada se corresponde con el modelo Hipergeométrico con parámetros N = R + A, k = A y n = 3. La probabilidad que se solicita viene dada por Note que los cálculos que involucra el modelo Hipergeométrico se pueden volver muy engorrosos para valores grandes de sus parámetros. • Distribuciones Multinomial La distribución multinomial es similar a la distribución binomial, con la diferencia de que en lugar de dos posibles resultados en cada ensayo, puede haber múltiples resultados: Ejemplo de distribución binomial: a unas elecciones se presentaron 2 partidos políticos: el POPO obtuvo un 70% de los votos y el JEJE el 30% restante. ¿Cuál es la probabilidad de que al elegir 5 ciudadanos al azar, 4 de ellos hallan votado al JEJE? Ejemplo de distribución multinomial: a esas elecciones se presentaron 4 partidos políticos: el POPO obtuvo un 40% de los votos, el JEJE el 30%, el MUMU el 20% y el LALA el 10% restante. ¿Cuál es la probabilidad de que al elegir 5 ciudadanos al azar, 3 hayan votado al POPO, 1 al MUMU y 1 al LALA? La distribución multinomial sigue el siguiente modelo: 9 Donde: X1 = x1: indica que el suceso X1 aparezca x1 veces (en el ejemplo, que el partido POPO lo hayan votado 3 personas) n: indica el número de veces que se ha repetido el suceso (en el ejemplo, 5 veces) n!: es factorial de n (en el ejemplo: 5 * 4 * 3 * 2 * 1) p1: es la probabilidad del suceso X1 (en el ejemplo, el 40%) Veamos el ejemplo: Luego: P = 0,0256 10 Es decir, que la probabilidad de que las 5 personas elegidas hayan votado de esta manera es tan sólo del 2,56% Nota: 0 es igual a 1, y cualquier número elevado a 0 es también igual a 1 Veamos otro ejemplo: En una fiesta, el 20% de los asistentes son españoles, el 30% franceses, el 40% italiano y el 10% portugueses. En un pequeño grupo se han reunido 4 invitados: ¿cual es la probabilidad de que 2 sean españoles y 2 italianos? Aplicamos el modelo: Luego P = 0,0384 Por lo tanto, la probabilidad de que el grupo esté formado por personas de estos países es tan sólo del 3,84%. • MODELO GAMMA. En el modelo Normal se puede apreciar la relación existente entre los posibles valores que pueden tomar los parámetros µ y , y la forma que adquiere la curva de densidad de probabilidades al observar las Figuras 6.6 y 6.7. Una de las principales características que se desprenden de esas figuras es el carácter simétrico del fenómeno normal alrededor del valor esperado. En aquellos casos en los cuales es importante que los posibles valores de la variable sean asimétricos, el modelo Gamma explica satisfactoriamente el fenómeno. 11 Definición 1: El modelo Gamma es una variable aleatoria donde la función de densidad de probabilidades. Notas: − La variable aleatoria se define para los reales positivos. − El modelo Gamma se denotará como GA(, ), donde y son constantes positivas. − () es la función Gamma, definida por la ecuación 6.10. − Como propiedades de la función Gamma se pueden destacar las siguientes: Asignándole distintos valores a los parámetros a y b se obtienen distintos miembros de la familia Gamma que tienen sus nombres propios debido a la popularidad de los mismos. Las Definiciones 6.8, 6.9 y 6.10 destacan los tres miembros más comunes. Definición 2: El modelo Gamma Estándar es una variable aleatoria Gamma donde = 1 y es variable por lo que su función de densidad de probabilidades viene dada por la Ecuación 6.11. • Modelo Chi Cuadrado 12 Es una variable aleatoria Gamma donde = 2 y = v/2 (v entero positivo) por lo que su función de densidad de probabilidades viene dada por la Ecuación 1. Notas: − El modelo Chi Cuadrado se denotará como (v). − El parámetro v en la se denomina `grados de libertad'. Las Figuras muestran la función de densidad para el modelo Gamma general, Gamma Estándar y Chi−Cuadrado para distintos valores de y , en cada caso. 13 Ejemplo1: Digamos que 900 estudiantes expresan su voluntad por celebrar el aniversario de la institución organizando uno de dos eventos: una acto solemne en el templo universitario o una actividad deportiva en el estadio de fútbol. Una vez hecha la encuesta se tiene que 495 alumnos prefieren la actividad deportiva y 405 se inclinan por el acto solemne. ¿Existe una diferencia significativa entre los estudiantes en su preferencia por la actividad deportiva? La prueba estadística para determinar la significatividad de la diferencia en las frecuencias observadas es la prueba llamada Chi Cuadrada. Para el caso que nos ocupa, se supone que si no hay diferencia en la preferencia de los alumnos de una manera perfecta, tendríamos 450 alumnos eligiendo el acto solemne y otros 450 eligiendo las actividades deportivas. Esa es la frecuencia de respuestas esperadas en el caso de una igualdad absoluta. Pero tenemos frecuencias observadas un poco diferentes en un caso son 495 y en el otro 405, lo que deseamos saber es si esa diferencia observada es significativa. Lo que se hace al aplicar la fórmula de chi cuadrada es restar al número de frecuencias observadas, el número de 14 frecuencias esperadas; elevar esta diferencia al cuadrado, lo que hace que todos los valores asuman un valor positivo, y luego se divide el cuadrado obtenido entre el las frecuencias esperadas. Esto se hace de manera independiente para cada una de las categorías. Una vez terminado este paso, se suman los resultados obtenidos en cada categoría y ese valor resultante de la suma es el valor Chi cuadrada observado, el cual deberá ser comparado con el valor Chi cuadrada crítico según el nivel alpha de significatividad escogido y los grados de libertad correspondientes. En el caso de nuestro ejemplo se trata de dos categorías, lo que conduce a un grado de libertad. A continuación el proceso para calcular el valor Chi cuadrada 1−A favor del acto solemne: Frecuencias observadas = 405 Frecuencias esperadas = 450 2. A favor del acto deportivo: Frecuencias observadas = 495 Frecuencias esperadas = 450 3. Se suman los valores obtenidos en cada grupo para obtener el valor de chi cuadrada. 4.5 + 4.5 = 9.00 4. Se compara este valor con el valor correspondiente a un grado de libertan en la tabla de Chi cuadrado y se encuentra que el valor crítico de ð2para un grado de libertad a un nivel alpha = .05 a dos colas es = 3.8941 15 Siendo que el valor Chi cuadrada (ð 2) obtenido es mayor que el valor crítico, se desacredita la hipótesis nula que afirma que no existe diferencia significativa entre las frecuencias observadas y se concluye que la diferencia es significativa. Esto quiere decir que en menos de 5 casos de cada cien, una diferencia como la del valor igual o mayor al observado de Chi cuadrado en este caso (ð 2 =9), puede ser atribuida a la selección de la muestra (azar). Ejemplo No. 2 Supongamos que en una escuela las estadísticas de años pasados muestran que, la comisión de admisión tiende a aceptar 4 alumnos por 1 que se rechaza. Y en el presente año una comisión constituida por un grupo diferentes de personas, aceptó 275 y rechazó 60. ¿Se puede decir que esta nueva comisión difiere de manera significativa con la razón de rechazo de la anterior comisión? Corresponde en este caso calcular ð 2 para esta razón de rechazo comparada con la tradicional. De manera que tratándose de 330 casos en total, si la comisión anterior hubiera actuado se esperaría que aceptaran 264 alumnos y rechazaran 66. Así pues tomamos estos números (razón 4:1) como las frecuencias esperadas en cada caso. Al comparar el valor ð 2 obtenido con el valor crítico de un grado de libertad y .05 de significatividad a dos colas vemos 16 que el valor crítico (3.841) es mayor que el observado por lo que no se puede desacreditar la hipótesis nula y se concluye que la nueva comisión no muestra una política diferente a la de la comisión anterior. Prueba ð 2 para determinar la independencia de variables. En los ejemplos anteriores se han limitado a tomar decisiones respecto a categorías en una variable a partir de un solo grupo. Pero esta prueba puede ser utilizada para probar la significatividad de la diferencia entre dos o más grupos respecto una o varias variables cuando el grupo o grupos están clasificados por categorías. Eso es lo que se denomina prueba de independencia. Nótese que se puede utilizar para determinar independencia entre los grupos o entre las variables. A manera de ejemplo se presenta a continuación datos obtenidos en una investigación realizada por Silvana Poblete de Araya entre estudiantes universitarios, quienes evaluaron el desempeño de alguno de sus maestros. Se trata de un total de 780 estudiantes y para servir como nuestro ejemplo, se busca determinar si el sexo del estudiante y el sexo del maestro al cual le tocó evaluar, son dependientes. Se puede calcular, a partir de los valores en las columnas y filas, que participaron un total de 328 varones y 452 mujeres los cuales evaluaron a 544 profesores y a 236 profesoras. Las cifras que aparecen el cada recuadro representa, la superior, el número de frecuencias observadas (f o) y la que aparece abajo es el número de frecuencias esperadas (f e). Si procedemos a determinar la diferencia entre las frecuencias observadas y las esperadas y luego las elevamos al cuadrado y dividimos el resultado entre las frecuencias esperadas en 17 cada recuadro estaremos listos para sumar estos valores resultantes y computar la chi cuadrada que en este caso es 40.37. En lo que respecta a los grados de libertad, estos se calculan restando 1 al número de filas y de columnas y multiplicando el resultado entre sí. GL = (columnas − 1) (filas − 1) = (2 − 1) (2 − 1) = (1) (1) = 1 Al buscar el valor ð 2 para 1 grado de libertad y .05 de significatividad a dos colas, encontramos el valor 3.841 que es menor que 40.37 por lo que se desacredita la hipótesis nula que afirma que el género del alumno y el género del maestro evaluado son independientes, conduciendo a la conclusión de que en este estudio, el género del estudiante que hizo la evaluación y el género del maestro evaluado, son variables dependientes (es decir que tiene cierto grado de asociación). Siendo que un valor ð 2 como el obtenido o mayor sólo puede ser atribuido a factores aleatorios en 5 o menos de cada 100 casos. Nótese que en este caso estamos probando una especie de relación entre la variable género del estudiante y género del maestro evaluado, pero no utilizamos la terminología de las correlación. En ese caso en lugar de decir que las variables están relacionadas, decimos que son dependientes. Esto se explica dado el "bajo" nivel de medición de las variables (nominal). También el investigador debe cuidarse de no confundir este concepto de dependencia con la terminología propia de estudios de causalidad donde hablamos de variables dependientes e independientes. Nota: La Texas Instrument (TI−89), con su aplicación flash del programa de Probabilidad y Estadística, en el caso de la distribución chi−square, se da por la opción F5, sección 8. Además en el modulo de Excel se puede desarrollar por medio de una tabla. Ejemplo del metodo para calcular Chi−Square: Intervalo Li 0 Marca Cl. Ls 1 0,5 Fobs. Oi Oi 11 F teorica ni 13,45849 (oi−ni)2/ni 0,449098 18 1 2 3 4 5 6 7 8 9 10 11 2 3 4 5 6 7 8 9 10 11 INFINITO 1,5 2,5 3,5 4,5 5,5 6,5 7,5 8,5 9,5 10,5 12,5 8 9 7 6 5 4 2 3 3 1 1 INTERVALOS SELLECCIONADOS Li Ls MARCA Oi 0 1 0,5 11 1 2 1,5 8 2 3 2,5 9 3 4 3,5 7 4 INFINITO 25 10,43964 8,097945 6,281509 4,872515 3,77957 2,931782 2,274159 1,764046 1,368356 1,061423 3,670561 0,57012 0,100483 0,082182 0,260896 0,394079 0,389214 0,033051 0,865953 1,94559 0,003554 1,942999 ni 13,45849 10,43964 8,097945 6,281509 21,71 (oi−ni)**2/ni 0,449098 0,57012 0,100483 0,082182 0,498577 ji**2 1,70046 Los O'is y Ni's para el intervalo 4−infinto se obtienen sumando las correspondientes columnas desde el LI=4 hasta el 11 19