Ingeniería informática examen 2003

Anuncio
Estadı́stica Descriptiva
illa
Ingenierı́a Informática
Examen, Junio 2003
Departamento de Estadı́stica
e Investigación Operativa
Curso 2002-2003
Universidad de Sevilla
ev
Cuestión 1
(2pt) Defina la curva de Lorenz y el ı́ndice de Gini. Interpretación del ı́ndice de Gini en relación al reparto
de la variable bajo estudio.
Cuestión 2
(2pt) Definición de independencia de dos variables. Demuestre que bajo independencia la razón de correlación
es cero. ¿Se verifica el recı́proco?
Septiembre’00
Septiembre’01
Septiembre’02
de
S
Problema 1(3 pt)
La siguiente tabla resume las calificaciones obtenidas por los alumnos de un determinado colegio en los
exámenes de Selectividad de septiembre de los tres últimos años. En dicha tabla se han clasificado las notas
obtenidas en cada una de las convocatorias en cuatro intervalos.
entre 0 y 5 entre 5 y 6 entre 6 y 7 entre 7 y 8
2
5
2
1
1
8
2
0
2
3
20
22
(a) [0’5pt] Calcule el porcentaje de aprobados en cada convocatoria y el porcentaje promedio.
(b) [0’5pt] Calcule el intervalo que contiene las calificaciones del 40% de los alumnos con mejores resultados
en la convocatoria del 2002. Realice el mismo cálculo teniendo en cuenta el global de las tres convocatorias.
Compare los resultados.
id
ad
(c) [1’5pt] Calcule la razón de correlación de las calificaciones sobre la convocatoria. Relacione el resultado
obtenido con el apartado anterior.
(d) [0’5pt] Calcule los dos ı́ndices de cantidades de Laspeyres con base en la convocatoria de septiembre de
2000 y comente su evolución.
Problema 2(3 pt)
Para estudiar la eficacia del software manejado por una empresa, se midió la relación existente entre el costo
(X) de los programas de ordenador y el tiempo (en años) que transcurre sin que sea necesaria una actualización
del producto. La información obtenida aparece reflejada en la siguiente tabla:
Un
ive
rs
X/Y
entre
entre
entre
entre
0
1
2
5
y
y
y
y
1
2
5
10
1
10
a
3
2
2
3
10
c
25
3
b
5
7
d
100
La variable X viene dada en cientos de euros y la variable Y en años.
(a) [1pt] Reconstruir la tabla si nos dicen que:
• La frecuencia relativa de que X esté comprendida entre 1 y 2, condicionada a que Y = 1, es igual a
0’25.
• La media de Y condicionada a que X esté comprendida entre 0 y 1 es igual a 22
15 .
4
• La moda de X es igual a 3
(b) Tomando los valores de a = 5, b = 2, c = 20 y d = 8,
(i) [1pt] Calcular la recta de regresión de mı́nimos cuadrados de Y sobre X y el coeficiente de correlación
lineal. ¿Qué podemos decir de la relación entre las dos variables?
(ii) [1pt] Determinar el tiempo que se espera que pueda mantenerse sin actualizar un programa que ha
costado 1200 euros. ¿Es fiable la predicción?
Solución 1
(a) El porcentaje de aprobados en la convocatoria de 2000 es del 80%, en el 2001 fue del 90 91% y en el 2002
de 95 74. En promedio un 88 88%.
illa
(b) El intervalo que contiene al 40% de las mejores calificaciones de la convocatoria de septiembre de 2002 es
[Q0 60 , Q1 00 ] = [7 15, 8]. Este intervalo para el global de las tres convocatorias es [Q0 60 , Q1 00 ] = [6 83, 8],
como contiene estrictamente al intervalo obtenido en la convocatoria de 2002, esto significa que en dicha
convocatoria las notas más altas fueron mejores en comparación con el global de calificaciones obtenidas
en las tres convocatorias.
x
Sep’00
= 5 3,
x
Sep’01
= 5 41,
ev
(c) Para determinar la razón de correlación de calificaciones frente a convocatoria necesitamos calcular las
medias condicionadas que son
x
Sep’00
La varianza de las calificaciones es de 1’713, por tanto,
=
0 4056
= 0 237.
1 7130
de
S
η 2x
= 6 73.
Convocatoria
Este valor confirma el hecho de que los resultados obtenidos no son independientes de la convocatoria.
(d) Los ı́ndices de cantidades de Laspeyres son
50 5
316 5
= 1 12, L02
= 5 97
Q,00 =
53
53
Como se puede observar los ı́ndices de Laspeyres en los dos últimos periodos superan la unidad, esto no es
sólo debido a que las calificaciones obtenidas han ido mejorando (como lo demuestran los valores medios
calculados en el apartado (c)), además se debe a que el número de alumnos que han concurrido a estas
convocatorias ha ido aumentando.
Solución 2
id
ad
L01
Q,00 =
(a) Tenemos que como el número de observaciones es 100, la suma de todas las frecuencias será 100, luego
13 + b + 15 + a + 10 + c + 27 + d = 100 ⇒ 65 + a + b + c + d = 100 ⇒ a + b + c + d = 35
Pasamos ahora a ir aplicando las condiciones que nos dan en el enunciado:
rs
• Sabemos que la frecuencia de que X esté comprendida entre 1 y 2 condicionada a que Y = 1 es 0.25.
La tabla de la correspondiente distribución marginal es:
X|Y =1
0-1
1-2
2-5
5-10
ni·
10
a
3
2
15 + a
Un
ive
luego la condición que nos dan es
a
= 0.25 ⇒ a = 3.75 + 0.25a ⇒ a=5
15 + a
• La siguiente condición es que la media de Y condicionada a que X esté entre 0 y 1 es
construimos la correspondiente tabla,
Y |X entre 0 y 1
1
2
3
n·j
10
3
b
13 + b
luego
16 + 3b
22
Y |X entre 0 y 1 =
=
⇒ 240 + 45b = 286 + 22b ⇒ b=2
13 + b
15
22
15 .
De nuevo
X
0-1
1-2
2-5
5-10
ni·
15
20
10 + c
27 + d
hi
15
20
ai
1
1
3
5
10+c
3
27+d
5
illa
• La tercera indicación es que la moda de X es 43 . Construimos la tabla marginal de X añadiendo las
columnas correspondientes a las alturas del histograma y la amplitud del intervalo:
Sabemos que el intervalo modal es el que tiene como extremos a los valores 1 y 2. Aplicamos la
fórmula de la moda:
20 − 15
(20 − 15) + (20 −
5
=1+
10+c
3 )
65−c
3
=
Para hallar d utilizamos la primera ecuación que calculamos:
4
80 − c
4
⇒
= ⇒ c=20
3
65 − c
3
ev
Mo = 1 +
de
S
a + b + c + d = 35 ⇒ 27 + d = 35 ⇒ d=8
y finalmente la tabla queda
X/Y
(0,1]
(1,2]
(2,5]
(5,10]
1
10
5
3
2
2
3
10
20
25
3
2
5
7
8
100
(b)
(i) Calculamos la recta de regresión de Y sobre X, dada por la expresión
donde
id
ad
rY /X ≡ y = a + bx
S
xy
b =
2
Sx
a = y − bx
rs
Calculamos, pues las respectivas medias y varianzas marginales. Empezamos por la variable X
X
0-1
1-2
2-5
5-10
ni·
15
20
30
35
xi
0.5
1.5
3.5
7.5
Un
ive
Tenemos:
Sx2 =
x=
15 · 0.5 + 20 · 1.5 + 30 · 3.5 + 35 · 7.5
= 4.05
100
15 · 0.52 + 20 · 1.52 + 30 · 3.52 + 35 · 7.52
− 4.052 = 7.4475 ⇒ Sx = 2.729
100
Pasamos a calcular las de Y
Y
1
2
3
n·j
20
58
22
Tenemos
Sy2 =
illa
20 · 1 + 58 · 2 + 22 · 3
= 2.02
100
y=
20 · 12 + 58 · 22 + 22 · 32
− 2.022 = 0.4196 ⇒ Sy = 0.6477
100
Nos queda calcular la covarianza:
i
fij xi yj − xy = 8.65 − 8.181 = 0.469
j
Ahora podemos calcular a y b
b=
ev
Sxy =
0.469
Sxy
=
= 0.0629
2
Sx
7.4475
es decir, nuestra recta de regresión es
de
S
a = y − bx = 2.02 − 0.0629 · 4.05 = 1.765255
y = 1.765255 + 0.0629x
Calculamos el coeficiente de correlación:
rxy =
Sxy
0.469
=
= 0.2653
Sx Sy
2.729 · 0.6477
luego podemos decir que la relación lineal entre ambas variables es débil.
id
ad
(ii) Lo que tratamos de predecir es la variable Y (número de años sin actualizar el programa, a partir
de la un valor de la variable X. Para ello utilizamos la recta de regresión que hemos calculado en el
ejercicio anterior y obtenemos:
y ∗ = 1.765255 + 0.0629 · 12 = 2.52
luego esperamos no tener que actualizar nuestro programa en aproximadamente 2 años y medio.
Para decidir si la predicción es fiable calculamos el coeficiente de determinación R2 , que en nuestro
caso es:
R2 = r2 = 0.26532 = 0.07
Un
ive
rs
luego la predicción es muy poco fiable.
Descargar