EXAMEN DE ESTADÍSTICA Junio 2012

Anuncio
EXAMEN DE ESTADÍSTICA
Junio 2012
Apellidos:
DNI:
Nombre:
GRUPO:
1. En una población se han realizado 120 observaciones sobre las variables X e Y ,
obteniéndose la siguiente tabla de frecuencias absolutas
X \Y
1
2
3
4
5
4
3
2
0
0
4
5 6 7
8 0 0
10 18 0
6 12 19
0 6 16
7 5 4
Escribir, en forma de tabla, las siguientes distribuciones (en términos de frecuencias
absolutas y relativas):
a) La distribución marginal de la variable X.
b) La distribución de Y condicionada a X ≤ 3.
(1 punto)
Respuesta:
a) La distribución marginal de la variable X para las frecuencias absolutas (nxi ) y
P
relativas (fxi ) se calcula mediante nxi = lj=1 nij y fxi = nxi /N , donde N es el número
total de elementos (en este caso N = 120). Podemos expresar estos valores añadiendo
dos columnas a la tabla original:
X \Y
1
2
3
4
5
Suma
4 5
3 8
2 10
0 6
0 0
4 7
6 7
0 0
18 0
12 19
6 16
5 4
nxi
11
30
37
22
20
120
f xi
0.0917
0.2500
0.3083
0.1833
0.1667
1.0000
b) La distribución de Y condicionada a X ≤ 3 se determina sumando las frecuencias
correspondientes a las tres primeras filas de la tabla, que para las frecuencias absoluP
tas viene dada por n(yj |X ≤ 3) = 3i=1 nij , mientras que para las frecuencias relativas
es f (yj |X ≤ 3) = n(yj |X ≤ 3)/N (X ≤ 3), donde en este caso N (X ≤ 3) = 78. Expresamos estos números en forma de tabla, añadiendo dos filas adicionales a la tabla
original:
1
X \Y
1
2
3
4
5
n(yj |X ≤ 3)
f (yj |X ≤ 3)
4
5
6
7
3
8
0
0
2
10
18
0
0
6
12
19
0
0
6
16
4
7
5
4
5
24
30
19
0.0641 0.3077 0.3846 0.2436
2
suma
78
1.0000
2. Sea una caja que contiene 4 bolas rojas y 2 bolas negras. Se selecciona una bola al
azar, se anota su color y se devuelve a la caja. Esta actividad se repite 100 veces.
Encontrar la probabilidad de observar una bola roja 60 veces o más.
(1 punto)
Respuesta:
La probabilidad de sacar bola roja en cada extracción será
P (bola roja) =
2
4
=
6
3
El proceso sigue una distribución binomial. El problema es que el número de ensayos
es muy alto (n = 100), por lo que las tablas de la distribución binomial no resultan
útiles. Sin embargo, como se verifica
np = 100 ×
2
>5
3
y
nq = 100 ×
1
>5
3
podemos aproximar la binomial por una Normal N (µ, σ), donde
µ = np = 66.67
y
σ=
√
npq = 4.71
Por tanto, la probabilidad que nos piden en el enunciado vendrá dada por
P (X ≥ 60) = P (X 0 > 59.5) = P (Z > −1.52) = 1−P (Z > 1.52) = 1−0.0643 = 0.9357
donde hemos hecho uso de la corrección de continuidad para pasar de X a X 0 , y donde
la variable X 0 ha sido tipificada a través de la transformación
Z=
59.5 − 66.67
X0 − µ
=
= −1.52
σ
4.71
3
3. Un análisis para detectar la rabia en perros descarta la enfermedad en un 95 por 100
de los casos cuando el animal está sano y lo señala como enfermo en el 99 por 100
de las veces cuando realmente está enfermo. Sabemos que en la población en estudio
el 0.1 por 100 de los perros padecen la enfermedad. Si en una clı́nica se presenta un
animal para someterlo al análisis y el resultado lo clasifica como enfermo, ¿cuál es la
probabilidad de que se haya cometido un error? Discutir el resultado.
(1 punto)
Respuesta:
Definamos los siguientes sucesos:
E={animal enfermo}
NE={animal no enfermo}
D={detección de la enfermedad}
ND={no detección de la enfermedad}
Las probabilidades que nos dan en el enunciado nos permiten escribir
P (E) = 0.001
⇒ P (NE) = 1 − P (E) = 0.999
P (D|E) = 0.99
⇒ P (ND|E) = 1 − P (D|E) = 0.01 (falso negativo)
P (ND|NE) = 0.95 ⇒ P (D|NE) = 1 − P (ND|NE) = 0.05 (falso positivo)
La solución a la pregunta planteada puede calcularse de forma inmediata utilizando el
Teorema de Bayes, que nos permite calcular la probabilidad de que el animal no esté
enfermo pese a que el análisis lo clasifica como tal, es decir
P (NE|D) =
=
P (D|NE) P (NE)
P (D|NE) P (NE) + P (D|E) P (E)
0.05 × 0.999
= 0.98
0.05 × 0.999 + 0.99 × 0.001
Como se observa, dicha probabilidad es muy alta (98%). Este resultado se debe a
que la probabilidad de falso positivo no es extremadamente pequeña (5%) y a que
la enfermedad tiene una incidencia muy baja en la población (0.1%). Ambas efectos
conducen a que en el denominador de la expresión anterior se verifique
P (D|NE) P (NE) >> P (NE) + P (D|E) P (E)
4
4. Calcular:
a) La mediana de una distribución N (5, 3).
b) El parámetro λ de una distribución de Poisson, sabiendo que la observación de 4
eventos corresponde al primer decil de la distribución.
c) El percentil 2 de una distribución binomial con n = 20 y p = 0.65.
d) El recorrido intercuartı́lico de una distribución N (3, 2).
(1 punto)
Respuesta:
a) En una distribución normal la media, la mediana y la moda coinciden. Por tano, la
mediana es 5.
b) Recorriendo la Tabla III, buscamos el valor de λ tal que la probabilidad acumulada
se 0.10. Para x = 4 esto sucede cuando λ = 8.0.
c) El percentil 2 corresponde a
n
X
b(x; n, p) = 0.98,
x=r
que para n = 20 y p = 0.65 (Tabla II), se obtiene cuando r = 9.
d) Usando la Tabla IV, vemos que α = 0.25 para z ' 0.67. Por tanto, el recorrido
intercuartı́lico de una N (0, 1) será [−0.67, +0.67]. En la distribución que nos piden
dicho intervalo se transforma mediante
z=
x−µ
σ
⇒
x = µ + zσ,
que para µ = 3 y σ = 2 se convierte en el intervalo [1.66, 4.34]. Por tanto
RI = 4.34 − 1.66 = 2.68
5
5. Sea x1 , x2 ,. . . , xn una muestra aleatoria de una población que sigue una distribución
de probabilidad de Rayleigh, con función de densidad:
f (x, σ 2 ) =
x − x22
e 2σ ,
σ2
x>0
Obtener el estimador de máxima verosimilitud para σ 2 .
(1 punto)
Respuesta:
n
Y
n
Y
xi − x2i2
L=
f (xi , σ ) =
e 2σ
2
σ
i=1
i=1
2
Tomando logaritmos (neperianos):
log L =
n
X
i=1
"
n
X
x2
log xi − log σ − i2 =
log xi − n log σ 2 −
2σ
i=1
#
2
Pn
2
i=1 xi
2σ 2
Derivando con respecto a σ 2 e igualando a cero
n
d log L
=− 2 +
2
d(σ )
σ
Pn
2
i=1 xi
2σ 2
=0
⇒
2
σ =
Pn
i=1
x2i
2n
(Nota: si en el paso anterior se deriva con respecto a σ en lugar de respecto a σ 2 , y se
despeja σ 2 , sale lo mismo.)
6
6. En unas elecciones a Rector de la UCM, la distribución de votos en la Facultad de
Fı́sicas fue la siguiente
Candidato A
Candidato B
Estudiantes Profesores PAS
610
88
37
118
39
14
a) ¿Fue la distribución de votos para cada candidato significativamente diferente entre
los tres tipos de votantes? Razónese la elección del nivel de significación entre
α = 0.10 y α = 0.01.
b) En toda la Universidad, de un total de 23818 votantes, el candidato A obtuvo
el 56.14% de los votos, mientras que el candidato B obtuvo el 43.86%. ¿Puede
afirmarse, con un nivel de significación de 0.001, que el candidato A obtuvo la
mayorı́a absoluta? (Es decir, ¿es PA > 0.5 con ese nivel de significación?)
(2.5 puntos)
Respuesta:
a) Contraste de hipótesis, con H0 : independencia de caracteres (test χ2 ). Contraste
unilateral (a la izquierda), con estadı́stico
χ2ν
k X
m
o2ij
(oij − eij )2 X
=
− n,
=
eij
i=1 j=1 eij
i=1 j=1
k X
m
X
donde, suponiendo H0 cierta, se verifica eij =
absolutas marginales.
Candidato A
Candidato B
oyj
con ν = (k − 1)(m − 1),
oxi oyj
n
, siendo oxi y oyj las frecuencias
Estudiantes Profesores
PAS
610 (590.6) 88 (103.0) 37 (41.4)
118 (137.4) 39 (24.0)
14 (9.6)
728
127
51
o xi
735
171
906
Con los datos de la tabla
χ2ν = 17.4202,
con ν = 2.
Tomando α = 0.01 (estricto para rechazar H0 ), la región de aceptación de H0 será
[0, χ2α,ν ]. En nuestro caso χ2α,ν = χ20.01,2 = 9.2103. Como χ2ν > χ2α,ν , se rechaza H0 . Es
decir, existe dependencia entre votar a un cierto candidato y el tipo de votantes.
b) Contraste para una proporción con n = 23818, PA = 0.5614, y PB = 1 − PA = 0.4386.
Las hipótesis nula y alternativa serán
(
H0 : PA ≤ 0.50
H1 : PA > 0.50
p − p0
0.5614 − 0.50
= q
=
z=q
p(1−p)
n
0.5614×0.4386
23818
0.0614
= 19.096
3.21 × 10−3
H0 se acepta con α = 0.001 si z ≤ zα ' 3.09. Por tanto, se rechaza H0 con α = 0.001,
es decir, puede afirmarse que el candidato A obtuvo mayorı́a absoluta con ese nivel de
significación.
7
7. A partir de 10 simulaciones con un modelo de clima se obtiene un valor medio de
temperatura invernal para un cierto lugar de 12.2◦ C y una desviación estándar de
2.5◦ C. Con el fin de evaluar el impacto de una supuesta deforestación en la zona, se
realizan 6 simulaciones bajo estas condiciones iniciales obteniéndose un valor medio de
temperatura invernal de 11.6◦ C, con una desviación estándar de 1.9◦ C. Calcúlese:
a) Un intervalo de confianza del 90% para la diferencia de las medias de la temperatura invernal en el lugar.
b) Dado el resultado, ¿se podrı́a afirmar que la deforestación supuesta en el modelo
produce un efecto en la temperatura invernal del lugar?
(2.5 puntos)
Respuesta:
n1 = 10 x1 = 12.2 s1 = 2.5
n2 = 6 x2 = 11.6 s2 = 1.9
a) Al tratarse de nuestras pequeñas y varianzas poblacionales desconocidas, es preciso
determinar antes si éstas son iguales o no.
(
Estadı́stico:
s21
s22
H0 : σ12 = σ22
H1 : σ12 6= σ22
= Fn1 −1,n2 −1 si H0 es cierta
Región de aceptación de H0 con α = 10%:
[F1−α/2,n1 −1,n2 −1 , Fα/2,n1 −1,n2 −1 ] =
−1
= [F0.95,9,5 , F0.05,9,5 ] = [F0.05,5,9
, F0.05,9,5 ] =
= [3.4817−1 , 4.7725] = [0.2872, 4.7725]
s21
= 1.7313 ∈ [0.2872, 4.7725]
s22
⇒ No podemos rechazar H0 , es decir, asumimos igualdad de varianzas. Por tanto:
s
"
Iµ1 −µ2 = (X 1 − X 2 ) ± tα/2,n1 +n2 −2 sp
con
s2p
1
1
+
n1 n2
#
= [0.60 ± 2.10] = [−1.50, 2.70]
(n1 − 1)s21 + (n2 − 1)s22
=
⇒ sp = 2.3037
n1 + n2 − 2
tα/2,n1 +n2 −2 = t0.05,14 = 1.761
b) Como 0 ∈ Iµ1 −µ2 , no podemos afirmar que la deforestación supuesta en el modelo
produzca un efecto en la temperatura invernal del lugar con un nivel de confianza del
90 %.
8
Descargar