Modelos probalísticos

Anuncio
modelos probabilisticos
• DISTRIBUCIÓN GEOMÉTRICA
En el marco de repeticiones independientes de Pruebas de Bernoulli con parámetro
P se define otro tipo de experimento como el número de pruebas necesarias hasta
conseguir que ocurra el evento A por primera vez. Este experimento se denomina
experimento Geométrico y define una variable aleatoria
Geométrica.
El modelo Geométrico es una variable aleatoria que se define
como el número de repeticiones independientes de una Prueba de Bernoulli hasta
que ocurre el evento A.
Notas: − La variable aleatoria tomará cualquier valor entero mayor o
igual a uno.
− El modelo Geométrico se denotará como G(p), donde p es la
probabilidad de que ocurra el evento A en cada Prueba de
Bernoulli.
− La asignación de probabilidades de cada valor de la variable esta dada por la ecuación 1
Ecuación 1
Como consecuencia de la Ecuación 1, la función de distribución acumulativa de
probabilidades, la función de densidad de probabilidades y la función de
probabilidad vienen dadas por las ecuaciones 2, 3 y 4, respectivamente.
1
La Tabla 1 muestra los valores esperados más importantes correspondientes al
modelo Geométrico.
Tabla 1: Valores Esperados más Importantes para el Modelo Geométrico.
Para darse una idea se plantean los siguientes ejemplos:
Ejemplo 1:La probabilidad de que ocurra el evento A en una Prueba de
Bernoulli es 0.6. ¿Cuál es la probabilidad de que se necesiten exactamente 5 pruebas
para conseguir el resultado A por primera vez?.
La variable aleatoria así definida se corresponde con el modelo Geométrico con
parámetro p = 0.6. La probabilidad que se solicita viene dada por
Ejemplo 2:Considere una caja con R pelotas rojas y A pelotas amarillas. Se va a
realizar un muestreo con reposición hasta obtener una pelota amarilla. ¿Cuál es la
2
probabilidad de que realicen exactamente 3 extracciones para conseguir la
primera pelota amarilla?.
La variable aleatoria así definida se corresponde con el modelo Geométrico con
parámetro p =A/A+R
. La probabilidad que se solicita viene dada por
Ejemplo 3:Un estudiante tiene probabilidad de 0.8 de aprobar el curso de
probabilidades. De no aprobar el curso en este término lo inscribe de nuevo hasta
que lo apruebe. ¿Cuál es la probabilidad de que necesite inscribirse más de tres
veces para aprobar el curso?.
La variable aleatoria definida como el número de veces que se toma el curso de
probabilidades hasta aprobarlo se corresponde con el modelo Geométrico con
parámetro p = 0.8 (se supone aquí que el valor de p permanece constante de un
término a otro). La probabilidad que se solicita viene dada por
Nota:
La Texas Instrument (TI−89), con su aplicación flash del programa de Probabilidad y Estadística, en el caso
de la distribución Geomertrica, se da por la opcion F5, seccion F.
• DISTRIBUCIÓN exponencial
La Definición de un Modelo Poisson implica el número de veces que ocurre un
cierto resultado en un intervalo de tiempo dado. Asociado a este modelo se puede
estudiar el tiempo entre la ocurrencia de dos resultados consecutivos el cual, en
consecuencia, será un valor aleatorio. Uno de los modelos más sencillos que permite
3
estudiar esta variable es el Modelo Exponencial que debe su nombre a la forma de
su función de densidad de probabilidades.
Definición 6.3: El modelo Exponencial es una variable aleatoria donde la función
de densidad de probabilidades viene dada por la Ecuación 1.
Notas: − La variable aleatoria se define para valores reales mayores que
cero.
− El modelo Exponencial se denotará como EXPON(), donde
es un parámetro que representa el inverso del tiempo promedio
entre la ocurrencia de dos eventos consecutivos.
Ejemplo 1: Para una variable aleatoria exponencial con parámetro calcule la
función de distribución acumulativa de probabilidades.
Aplicando la Propiedad 3.5.2.2 se tiene
4
5
Ejemplo 2: Para una variable aleatoria exponencial con parámetro = 2, calcule
la probabilidad de que la variable tome valores mayores a su valor esperado.
Según la Tabla 6.3, el valor esperado será E{X} = 1/ = 0.5. Entonces, la
probabilidad solicitada será
Ejemplo 3: El tiempo de atención al cliente en la taquilla de un banco sigue una
variable aleatoria exponencial con un promedio de 5 minutos, calcule la
probabilidad de que ese tiempo sea mayor a su valor esperado.
Según la Tabla anterior, el parámetro será igual a 1/E{X} = 1/5 = 0.2. Entonces, la
probabilidad solicitada será
• Distribución Hipergeometrica
El modelo Hipergeométrico es una variable aleatoria que se
define como el número de objetos del tipo A en un muestreo sin reposición de
tamaño n en una población de N objetos donde k de ellos son del tipo A.
Notas: − La variable aleatoria tomará cualquier valor entero entre cero y n
pero debe cumplir con las restricciones de ser menor o igual a k
y mayor o igual que (n + k − N).
− El modelo Hipergeométrico se denotará como H(N, k, n), donde
N es la cantidad de objetos en la población, k es el número de
objetos tipo A en la población y n es el tamaño de muestra sin
reposición.
− La asignación de probabilidades de cada valor de la variable está
dada por la ecuación 1.
6
Como consecuencia de la Ecuación 1, la función de distribución acumulativa de
probabilidades, la función de densidad de probabilidades y la función de
probabilidad vienen dadas por las ecuaciones 2, 3 y 4, respectivamente.
7
Ejemplo 1:Considere una caja con R pelotas rojas y A pelotas amarillas. Se va a
realizar un muestreo sin reposición de tamaño 3. ¿Cuál es la probabilidad de que se
extraigan exactamente 3 pelotas amarillas?.
La variable aleatoria definida como el número de pelotas amarillas en el MSR de
tamaño 3 de la caja mencionada se corresponde con el modelo Hipergeométrico con
parámetros N = R + A, k = A y n = 3. La probabilidad que se solicita viene dada por
8
Ejemplo 2:Considere una caja con R pelotas rojas y A pelotas amarillas. Se va a
realizar un muestreo sin reposición de tamaño 3. ¿Cuál es la probabilidad de que se
extraigan más pelotas amarillas que rojas?.
La variable aleatoria definida como el número de pelotas amarillas en el MSR de
tamaño 3 de la caja mencionada se corresponde con el modelo Hipergeométrico con
parámetros N = R + A, k = A y n = 3. La probabilidad que se solicita viene dada por
Note que los cálculos que involucra el modelo Hipergeométrico se pueden volver
muy engorrosos para valores grandes de sus parámetros.
• Distribuciones Multinomial
La distribución multinomial es similar a la distribución binomial, con la diferencia de que en lugar de dos
posibles resultados en cada ensayo, puede haber múltiples resultados:
Ejemplo de distribución binomial: a unas elecciones se presentaron 2 partidos políticos: el POPO obtuvo un
70% de los votos y el JEJE el 30% restante. ¿Cuál es la probabilidad de que al elegir 5 ciudadanos al azar, 4
de ellos hallan votado al JEJE?
Ejemplo de distribución multinomial: a esas elecciones se presentaron 4 partidos políticos: el POPO obtuvo
un 40% de los votos, el JEJE el 30%, el MUMU el 20% y el LALA el 10% restante. ¿Cuál es la probabilidad
de que al elegir 5 ciudadanos al azar, 3 hayan votado al POPO, 1 al MUMU y 1 al LALA?
La distribución multinomial sigue el siguiente modelo:
9
Donde:
X1 = x1: indica que el suceso X1 aparezca x1 veces (en el ejemplo, que el partido POPO lo hayan votado 3
personas)
n: indica el número de veces que se ha repetido el suceso (en el ejemplo, 5 veces)
n!: es factorial de n (en el ejemplo: 5 * 4 * 3 * 2 * 1)
p1: es la probabilidad del suceso X1 (en el ejemplo, el 40%)
Veamos el ejemplo:
Luego:
P = 0,0256
10
Es decir, que la probabilidad de que las 5 personas elegidas hayan votado de esta manera es tan sólo del
2,56%
Nota: 0 es igual a 1, y cualquier número elevado a 0 es también igual a 1
Veamos otro ejemplo:
En una fiesta, el 20% de los asistentes son españoles, el 30% franceses, el 40% italiano y el 10% portugueses.
En un pequeño grupo se han reunido 4 invitados: ¿cual es la probabilidad de que 2 sean españoles y 2
italianos?
Aplicamos el modelo:
Luego
P = 0,0384
Por lo tanto, la probabilidad de que el grupo esté formado por personas de estos países es tan sólo del 3,84%.
• MODELO GAMMA.
En el modelo Normal se puede apreciar la relación existente entre los posibles
valores que pueden tomar los parámetros µ y , y la forma que adquiere la curva de
densidad de probabilidades al observar las Figuras 6.6 y 6.7. Una de las principales
características que se desprenden de esas figuras es el carácter simétrico del
fenómeno normal alrededor del valor esperado. En aquellos casos en los cuales es
importante que los posibles valores de la variable sean asimétricos, el modelo
Gamma explica satisfactoriamente el fenómeno.
11
Definición 1: El modelo Gamma es una variable aleatoria donde la función de
densidad de probabilidades.
Notas: − La variable aleatoria se define para los reales positivos.
− El modelo Gamma se denotará como GA(, ), donde y son
constantes positivas.
− () es la función Gamma, definida por la ecuación 6.10.
− Como propiedades de la función Gamma se pueden destacar las
siguientes:
Asignándole distintos valores a los parámetros a y b se obtienen distintos miembros
de la familia Gamma que tienen sus nombres propios debido a la popularidad de los
mismos. Las Definiciones 6.8, 6.9 y 6.10 destacan los tres miembros más comunes.
Definición 2: El modelo Gamma Estándar es una variable aleatoria Gamma
donde = 1 y es variable por lo que su función de densidad de probabilidades
viene dada por la Ecuación 6.11.
• Modelo Chi Cuadrado
12
Es una variable aleatoria Gamma donde = 2 y = v/2 (v entero positivo) por lo que su función de densidad
de
probabilidades viene dada por la Ecuación 1.
Notas: − El modelo Chi Cuadrado se denotará como (v).
− El parámetro v en la se denomina `grados de libertad'.
Las Figuras muestran la función de densidad para el modelo
Gamma general, Gamma Estándar y Chi−Cuadrado para distintos valores de y ,
en cada caso.
13
Ejemplo1:
Digamos que 900 estudiantes expresan su voluntad por celebrar el aniversario de la institución organizando
uno de dos
eventos: una acto solemne en el templo universitario o una actividad deportiva en el estadio de fútbol. Una
vez hecha la
encuesta se tiene que 495 alumnos prefieren la actividad deportiva y 405 se inclinan por el acto solemne.
¿Existe una
diferencia significativa entre los estudiantes en su preferencia por la actividad deportiva?
La prueba estadística para determinar la significatividad de la diferencia en las frecuencias observadas es la
prueba
llamada Chi Cuadrada. Para el caso que nos ocupa, se supone que si no hay diferencia en la preferencia de los
alumnos de
una manera perfecta, tendríamos 450 alumnos eligiendo el acto solemne y otros 450 eligiendo las actividades
deportivas.
Esa es la frecuencia de respuestas esperadas en el caso de una igualdad absoluta. Pero tenemos frecuencias
observadas un
poco diferentes en un caso son 495 y en el otro 405, lo que deseamos saber es si esa diferencia observada es
significativa.
Lo que se hace al aplicar la fórmula de chi cuadrada es restar al número de frecuencias observadas, el número
de
14
frecuencias esperadas; elevar esta diferencia al cuadrado, lo que hace que todos los valores asuman un valor
positivo, y
luego se divide el cuadrado obtenido entre el las frecuencias esperadas. Esto se hace de manera independiente
para cada
una de las categorías. Una vez terminado este paso, se suman los resultados obtenidos en cada categoría y ese
valor
resultante de la suma es el valor Chi cuadrada observado, el cual deberá ser comparado con el valor Chi
cuadrada crítico
según el nivel alpha de significatividad escogido y los grados de libertad correspondientes.
En el caso de nuestro ejemplo se trata de dos categorías, lo que conduce a un grado de libertad. A
continuación el proceso
para calcular el valor Chi cuadrada
1−A favor del acto solemne:
Frecuencias observadas = 405
Frecuencias esperadas = 450
2. A favor del acto deportivo:
Frecuencias observadas = 495
Frecuencias esperadas = 450
3. Se suman los valores obtenidos en cada grupo para obtener el valor de chi cuadrada.
4.5 + 4.5 = 9.00
4. Se compara este valor con el valor correspondiente a un grado de libertan en la tabla de Chi cuadrado y se
encuentra que
el valor crítico de ð2para un grado de libertad a un nivel alpha = .05 a dos colas es = 3.8941
15
Siendo que el valor Chi cuadrada (ð 2) obtenido es mayor que el valor crítico, se desacredita la hipótesis nula
que afirma
que no existe diferencia significativa entre las frecuencias observadas y se concluye que la diferencia es
significativa. Esto
quiere decir que en menos de 5 casos de cada cien, una diferencia como la del valor igual o mayor al
observado de Chi
cuadrado en este caso (ð 2 =9), puede ser atribuida a la selección de la muestra (azar).
Ejemplo No. 2
Supongamos que en una escuela las estadísticas de años pasados muestran que, la comisión de admisión
tiende a aceptar 4
alumnos por 1 que se rechaza. Y en el presente año una comisión constituida por un grupo diferentes de
personas, aceptó
275 y rechazó 60. ¿Se puede decir que esta nueva comisión difiere de manera significativa con la razón de
rechazo de la
anterior comisión?
Corresponde en este caso calcular ð 2 para esta razón de rechazo comparada con la tradicional. De manera que
tratándose
de 330 casos en total, si la comisión anterior hubiera actuado se esperaría que aceptaran 264 alumnos y
rechazaran 66. Así
pues tomamos estos números (razón 4:1) como las frecuencias esperadas en cada caso.
Al comparar el valor ð 2 obtenido con el valor crítico de un grado de libertad y .05 de significatividad a dos
colas vemos
16
que el valor crítico (3.841) es mayor que el observado por lo que no se puede desacreditar la hipótesis nula y
se concluye
que la nueva comisión no muestra una política diferente a la de la comisión anterior.
Prueba ð 2 para determinar la independencia de variables.
En los ejemplos anteriores se han limitado a tomar decisiones respecto a categorías en una variable a partir de
un solo
grupo. Pero esta prueba puede ser utilizada para probar la significatividad de la diferencia entre dos o más
grupos respecto
una o varias variables cuando el grupo o grupos están clasificados por categorías. Eso es lo que se denomina
prueba de
independencia. Nótese que se puede utilizar para determinar independencia entre los grupos o entre las
variables.
A manera de ejemplo se presenta a continuación datos obtenidos en una investigación realizada por Silvana
Poblete de
Araya entre estudiantes universitarios, quienes evaluaron el desempeño de alguno de sus maestros. Se trata de
un total de
780 estudiantes y para servir como nuestro ejemplo, se busca determinar si el sexo del estudiante y el sexo del
maestro al
cual le tocó evaluar, son dependientes. Se puede calcular, a partir de los valores en las columnas y filas, que
participaron
un total de 328 varones y 452 mujeres los cuales evaluaron a 544 profesores y a 236 profesoras.
Las cifras que aparecen el cada recuadro representa, la superior, el número de frecuencias observadas (f o) y la
que aparece
abajo es el número de frecuencias esperadas (f e). Si procedemos a determinar la diferencia entre las
frecuencias
observadas y las esperadas y luego las elevamos al cuadrado y dividimos el resultado entre las frecuencias
esperadas en
17
cada recuadro estaremos listos para sumar estos valores resultantes y computar la chi cuadrada que en este
caso es 40.37.
En lo que respecta a los grados de libertad, estos se calculan restando 1 al número de filas y de columnas y
multiplicando
el resultado entre sí.
GL = (columnas − 1) (filas − 1) = (2 − 1) (2 − 1) = (1) (1) = 1
Al buscar el valor ð 2 para 1 grado de libertad y .05 de significatividad a dos colas, encontramos el valor
3.841 que es
menor que 40.37 por lo que se desacredita la hipótesis nula que afirma que el género del alumno y el género
del maestro
evaluado son independientes, conduciendo a la conclusión de que en este estudio, el género del estudiante que
hizo la
evaluación y el género del maestro evaluado, son variables dependientes (es decir que tiene cierto grado de
asociación).
Siendo que un valor ð 2 como el obtenido o mayor sólo puede ser atribuido a factores aleatorios en 5 o menos
de cada 100
casos.
Nótese que en este caso estamos probando una especie de relación entre la variable género del estudiante y
género del
maestro evaluado, pero no utilizamos la terminología de las correlación. En ese caso en lugar de decir que las
variables
están relacionadas, decimos que son dependientes. Esto se explica dado el "bajo" nivel de medición de las
variables
(nominal). También el investigador debe cuidarse de no confundir este concepto de dependencia con la
terminología
propia de estudios de causalidad donde hablamos de variables dependientes e independientes.
Nota:
La Texas Instrument (TI−89), con su aplicación flash del programa de Probabilidad y Estadística, en el caso
de la distribución chi−square, se da por la opción F5, sección 8. Además en el modulo de Excel se puede
desarrollar por medio de una tabla.
Ejemplo del metodo para calcular Chi−Square:
Intervalo
Li
0
Marca Cl.
Ls
1
0,5
Fobs. Oi
Oi
11
F teorica
ni
13,45849
(oi−ni)2/ni
0,449098
18
1
2
3
4
5
6
7
8
9
10
11
2
3
4
5
6
7
8
9
10
11
INFINITO
1,5
2,5
3,5
4,5
5,5
6,5
7,5
8,5
9,5
10,5
12,5
8
9
7
6
5
4
2
3
3
1
1
INTERVALOS SELLECCIONADOS
Li
Ls
MARCA Oi
0
1
0,5
11
1
2
1,5
8
2
3
2,5
9
3
4
3,5
7
4
INFINITO
25
10,43964
8,097945
6,281509
4,872515
3,77957
2,931782
2,274159
1,764046
1,368356
1,061423
3,670561
0,57012
0,100483
0,082182
0,260896
0,394079
0,389214
0,033051
0,865953
1,94559
0,003554
1,942999
ni
13,45849
10,43964
8,097945
6,281509
21,71
(oi−ni)**2/ni
0,449098
0,57012
0,100483
0,082182
0,498577
ji**2
1,70046
Los O'is y Ni's para el intervalo 4−infinto se obtienen sumando
las correspondientes columnas desde el LI=4 hasta el 11
19
Descargar