EXAMEN DE ESTADÍSTICA Junio 2012

EXAMEN DE ESTADÍSTICA Junio 2012 Apellidos: DNI: Nombre: GRUPO: 1. En una población se han realizado 120 observaciones sobre las variables X e Y , obteniéndose la siguiente tabla de frecuencias absolutas X \Y 1 2 3 4 5 4 3 2 0 0 4 5 6 7 8 0 0 10 18 0 6 12 19 0 6 16 7 5 4 Escribir, en forma de tabla, las siguientes distribuciones (en términos de frecuencias absolutas y relativas): a) La distribución marginal de la variable X. b) La distribución de Y condicionada a X ≤ 3. (1 punto) Respuesta: a) La distribución marginal de la variable X para las frecuencias absolutas (nxi ) y P relativas (fxi ) se calcula mediante nxi = lj=1 nij y fxi = nxi /N , donde N es el número total de elementos (en este caso N = 120). Podemos expresar estos valores añadiendo dos columnas a la tabla original: X \Y 1 2 3 4 5 Suma 4 5 3 8 2 10 0 6 0 0 4 7 6 7 0 0 18 0 12 19 6 16 5 4 nxi 11 30 37 22 20 120 f xi 0.0917 0.2500 0.3083 0.1833 0.1667 1.0000 b) La distribución de Y condicionada a X ≤ 3 se determina sumando las frecuencias correspondientes a las tres primeras filas de la tabla, que para las frecuencias absoluP tas viene dada por n(yj |X ≤ 3) = 3i=1 nij , mientras que para las frecuencias relativas es f (yj |X ≤ 3) = n(yj |X ≤ 3)/N (X ≤ 3), donde en este caso N (X ≤ 3) = 78. Expresamos estos números en forma de tabla, añadiendo dos filas adicionales a la tabla original: 1 X \Y 1 2 3 4 5 n(yj |X ≤ 3) f (yj |X ≤ 3) 4 5 6 7 3 8 0 0 2 10 18 0 0 6 12 19 0 0 6 16 4 7 5 4 5 24 30 19 0.0641 0.3077 0.3846 0.2436 2 suma 78 1.0000 2. Sea una caja que contiene 4 bolas rojas y 2 bolas negras. Se selecciona una bola al azar, se anota su color y se devuelve a la caja. Esta actividad se repite 100 veces. Encontrar la probabilidad de observar una bola roja 60 veces o más. (1 punto) Respuesta: La probabilidad de sacar bola roja en cada extracción será P (bola roja) = 2 4 = 6 3 El proceso sigue una distribución binomial. El problema es que el número de ensayos es muy alto (n = 100), por lo que las tablas de la distribución binomial no resultan útiles. Sin embargo, como se verifica np = 100 × 2 >5 3 y nq = 100 × 1 >5 3 podemos aproximar la binomial por una Normal N (µ, σ), donde µ = np = 66.67 y σ= √ npq = 4.71 Por tanto, la probabilidad que nos piden en el enunciado vendrá dada por P (X ≥ 60) = P (X 0 > 59.5) = P (Z > −1.52) = 1−P (Z > 1.52) = 1−0.0643 = 0.9357 donde hemos hecho uso de la corrección de continuidad para pasar de X a X 0 , y donde la variable X 0 ha sido tipificada a través de la transformación Z= 59.5 − 66.67 X0 − µ = = −1.52 σ 4.71 3 3. Un análisis para detectar la rabia en perros descarta la enfermedad en un 95 por 100 de los casos cuando el animal está sano y lo señala como enfermo en el 99 por 100 de las veces cuando realmente está enfermo. Sabemos que en la población en estudio el 0.1 por 100 de los perros padecen la enfermedad. Si en una clı́nica se presenta un animal para someterlo al análisis y el resultado lo clasifica como enfermo, ¿cuál es la probabilidad de que se haya cometido un error? Discutir el resultado. (1 punto) Respuesta: Definamos los siguientes sucesos: E={animal enfermo} NE={animal no enfermo} D={detección de la enfermedad} ND={no detección de la enfermedad} Las probabilidades que nos dan en el enunciado nos permiten escribir P (E) = 0.001 ⇒ P (NE) = 1 − P (E) = 0.999 P (D|E) = 0.99 ⇒ P (ND|E) = 1 − P (D|E) = 0.01 (falso negativo) P (ND|NE) = 0.95 ⇒ P (D|NE) = 1 − P (ND|NE) = 0.05 (falso positivo) La solución a la pregunta planteada puede calcularse de forma inmediata utilizando el Teorema de Bayes, que nos permite calcular la probabilidad de que el animal no esté enfermo pese a que el análisis lo clasifica como tal, es decir P (NE|D) = = P (D|NE) P (NE) P (D|NE) P (NE) + P (D|E) P (E) 0.05 × 0.999 = 0.98 0.05 × 0.999 + 0.99 × 0.001 Como se observa, dicha probabilidad es muy alta (98%). Este resultado se debe a que la probabilidad de falso positivo no es extremadamente pequeña (5%) y a que la enfermedad tiene una incidencia muy baja en la población (0.1%). Ambas efectos conducen a que en el denominador de la expresión anterior se verifique P (D|NE) P (NE) >> P (NE) + P (D|E) P (E) 4 4. Calcular: a) La mediana de una distribución N (5, 3). b) El parámetro λ de una distribución de Poisson, sabiendo que la observación de 4 eventos corresponde al primer decil de la distribución. c) El percentil 2 de una distribución binomial con n = 20 y p = 0.65. d) El recorrido intercuartı́lico de una distribución N (3, 2). (1 punto) Respuesta: a) En una distribución normal la media, la mediana y la moda coinciden. Por tano, la mediana es 5. b) Recorriendo la Tabla III, buscamos el valor de λ tal que la probabilidad acumulada se 0.10. Para x = 4 esto sucede cuando λ = 8.0. c) El percentil 2 corresponde a n X b(x; n, p) = 0.98, x=r que para n = 20 y p = 0.65 (Tabla II), se obtiene cuando r = 9. d) Usando la Tabla IV, vemos que α = 0.25 para z ' 0.67. Por tanto, el recorrido intercuartı́lico de una N (0, 1) será [−0.67, +0.67]. En la distribución que nos piden dicho intervalo se transforma mediante z= x−µ σ ⇒ x = µ + zσ, que para µ = 3 y σ = 2 se convierte en el intervalo [1.66, 4.34]. Por tanto RI = 4.34 − 1.66 = 2.68 5 5. Sea x1 , x2 ,. . . , xn una muestra aleatoria de una población que sigue una distribución de probabilidad de Rayleigh, con función de densidad: f (x, σ 2 ) = x − x22 e 2σ , σ2 x>0 Obtener el estimador de máxima verosimilitud para σ 2 . (1 punto) Respuesta: n Y n Y xi − x2i2 L= f (xi , σ ) = e 2σ 2 σ i=1 i=1 2 Tomando logaritmos (neperianos): log L = n X i=1 " n X x2 log xi − log σ − i2 = log xi − n log σ 2 − 2σ i=1 # 2 Pn 2 i=1 xi 2σ 2 Derivando con respecto a σ 2 e igualando a cero n d log L =− 2 + 2 d(σ ) σ Pn 2 i=1 xi 2σ 2 =0 ⇒ 2 σ = Pn i=1 x2i 2n (Nota: si en el paso anterior se deriva con respecto a σ en lugar de respecto a σ 2 , y se despeja σ 2 , sale lo mismo.) 6 6. En unas elecciones a Rector de la UCM, la distribución de votos en la Facultad de Fı́sicas fue la siguiente Candidato A Candidato B Estudiantes Profesores PAS 610 88 37 118 39 14 a) ¿Fue la distribución de votos para cada candidato significativamente diferente entre los tres tipos de votantes? Razónese la elección del nivel de significación entre α = 0.10 y α = 0.01. b) En toda la Universidad, de un total de 23818 votantes, el candidato A obtuvo el 56.14% de los votos, mientras que el candidato B obtuvo el 43.86%. ¿Puede afirmarse, con un nivel de significación de 0.001, que el candidato A obtuvo la mayorı́a absoluta? (Es decir, ¿es PA > 0.5 con ese nivel de significación?) (2.5 puntos) Respuesta: a) Contraste de hipótesis, con H0 : independencia de caracteres (test χ2 ). Contraste unilateral (a la izquierda), con estadı́stico χ2ν k X m o2ij (oij − eij )2 X = − n, = eij i=1 j=1 eij i=1 j=1 k X m X donde, suponiendo H0 cierta, se verifica eij = absolutas marginales. Candidato A Candidato B oyj con ν = (k − 1)(m − 1), oxi oyj n , siendo oxi y oyj las frecuencias Estudiantes Profesores PAS 610 (590.6) 88 (103.0) 37 (41.4) 118 (137.4) 39 (24.0) 14 (9.6) 728 127 51 o xi 735 171 906 Con los datos de la tabla χ2ν = 17.4202, con ν = 2. Tomando α = 0.01 (estricto para rechazar H0 ), la región de aceptación de H0 será [0, χ2α,ν ]. En nuestro caso χ2α,ν = χ20.01,2 = 9.2103. Como χ2ν > χ2α,ν , se rechaza H0 . Es decir, existe dependencia entre votar a un cierto candidato y el tipo de votantes. b) Contraste para una proporción con n = 23818, PA = 0.5614, y PB = 1 − PA = 0.4386. Las hipótesis nula y alternativa serán ( H0 : PA ≤ 0.50 H1 : PA > 0.50 p − p0 0.5614 − 0.50 = q = z=q p(1−p) n 0.5614×0.4386 23818 0.0614 = 19.096 3.21 × 10−3 H0 se acepta con α = 0.001 si z ≤ zα ' 3.09. Por tanto, se rechaza H0 con α = 0.001, es decir, puede afirmarse que el candidato A obtuvo mayorı́a absoluta con ese nivel de significación. 7 7. A partir de 10 simulaciones con un modelo de clima se obtiene un valor medio de temperatura invernal para un cierto lugar de 12.2◦ C y una desviación estándar de 2.5◦ C. Con el fin de evaluar el impacto de una supuesta deforestación en la zona, se realizan 6 simulaciones bajo estas condiciones iniciales obteniéndose un valor medio de temperatura invernal de 11.6◦ C, con una desviación estándar de 1.9◦ C. Calcúlese: a) Un intervalo de confianza del 90% para la diferencia de las medias de la temperatura invernal en el lugar. b) Dado el resultado, ¿se podrı́a afirmar que la deforestación supuesta en el modelo produce un efecto en la temperatura invernal del lugar? (2.5 puntos) Respuesta: n1 = 10 x1 = 12.2 s1 = 2.5 n2 = 6 x2 = 11.6 s2 = 1.9 a) Al tratarse de nuestras pequeñas y varianzas poblacionales desconocidas, es preciso determinar antes si éstas son iguales o no. ( Estadı́stico: s21 s22 H0 : σ12 = σ22 H1 : σ12 6= σ22 = Fn1 −1,n2 −1 si H0 es cierta Región de aceptación de H0 con α = 10%: [F1−α/2,n1 −1,n2 −1 , Fα/2,n1 −1,n2 −1 ] = −1 = [F0.95,9,5 , F0.05,9,5 ] = [F0.05,5,9 , F0.05,9,5 ] = = [3.4817−1 , 4.7725] = [0.2872, 4.7725] s21 = 1.7313 ∈ [0.2872, 4.7725] s22 ⇒ No podemos rechazar H0 , es decir, asumimos igualdad de varianzas. Por tanto: s " Iµ1 −µ2 = (X 1 − X 2 ) ± tα/2,n1 +n2 −2 sp con s2p 1 1 + n1 n2 # = [0.60 ± 2.10] = [−1.50, 2.70] (n1 − 1)s21 + (n2 − 1)s22 = ⇒ sp = 2.3037 n1 + n2 − 2 tα/2,n1 +n2 −2 = t0.05,14 = 1.761 b) Como 0 ∈ Iµ1 −µ2 , no podemos afirmar que la deforestación supuesta en el modelo produzca un efecto en la temperatura invernal del lugar con un nivel de confianza del 90 %. 8

EXAMEN DE ESTADÍSTICA Junio 2012

Documentos relacionados

Productos

Apoyo

EXAMEN DE ESTADÍSTICA Junio 2012

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib