PRACTICAS SEMESTRE II 2009

Anuncio
LIBRO DE PRÁCTICAS DEL SEGUNDO SEMESTRE
ESTADISTICA II
CURSO 2009
CONTENIDO
PRÁCTICA 9: PROPIEDADES DESEABLES DE LOS ESTIMADORES...... 1
PRÁCTICA 10: ESTIMACIÓN PUNTUAL .......................................................... 5
PRÁCTICA 11: ESTIMACIÓN POR INTERVALO ............................................ 9
PRÁCTICA 12: PRUEBA DE HIPÓTESIS DE SIGNIFICACIÓN DE
PARÁMETROS........................................................................... 15
PRÁCTICA 13: PRUEBA DE HIPOTESIS DE BONDAD DE AJUSTE E
INDEPENDENCIA ..................................................................... 26
PRÁCTICA 14: MUESTREO DE POBLACIONES FINITAS .......................... 32
PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE..................................... 37
PRÁCTICA 16: MODELO DE REGRESIÓN MÚLTIPLE............................... 50
SEGUNDA REVISIÓN 2005…………………………………………………….. 57
PRÁCTICA 9: PROPIEDADES DESEABLES DE LOS ESTIMADORES
PRÁCTICA 9: PROPIEDADES DESEABLES DE LOS ESTIMADORES
EJERCICIO 1
Sea X1, X2, X3 y X4 una MAS c/r de tamaño cuatro de X ~ FX ( x; μ ) con E( X ) = μ
desconocida y V ( X ) = σ 2 < ∞ .
1. De las siguientes estadísticas ¿cuáles son estimadores insesgados de μ?
1
(X 1 + X 2 ) + 1 (X 3 + X 4 )
6
3
1
T2 = ( X 1 + 2 X 2 + 3 X 3 + 4 X 4 )
5
1
T3 = ( X 1 + X 2 + X 3 + X 4 )
4
1
T4 = ( X 1 + X 4 )
2
T1 =
2. Entre los estimadores insesgados de μ hallados, ¿cuál es el que tiene la varianza
más pequeña? ¿Cuáles son las eficiencias relativas de los demás estimadores
insesgados con respecto al que tiene la varianza más pequeña?
EJERCICIO 2
Sea X1, X2,..., Xn una muestra aleatoria simple con reposición de una cierta población
con media μ y varianza σ2.
i =n
1. Demostrar que T = ∑ a i X i es un estimador insesgado de μ para cualquier
i =1
i =n
conjunto de constantes conocidas tales que
∑a
i =1
i =n
2. Si
∑a
i =1
i
i
= 1 (i=1,2,..., n).
= 1 , demostrar que V(T) se minimiza si ai =
i =n
Sugerencia: observar que
∑ ai =
i =1
2
i=n
2
1
n
1⎞
1
⎛
⎜ ai − ⎟ + , cuando
∑
n⎠
n
i =1 ⎝
∀i
i =n
∑a
i =1
i
=1
3. Dada X1, X2, X3, X4 MAS c/r de X ∼ Fx(x), se define el estadístico:
T = (0.2 X 1 + 0.1X 2 + 0.4 X 3 + 0.3 X 4 )
como estimador de μ. Analizar el ECM(T).
4. Se define otro estimador de μ, T* = 2, cualquiera sea la muestra. Sabiendo
además que E(X2) = 2 μ2, comparar el ECM(T) y el ECM(T*). ¿Cuál de los
dos estimadores elegiría Ud., T ó T*?
1
PRÁCTICA 9: PROPIEDADES DESEABLES DE LOS ESTIMADORES
EJERCICIO 3
Sea X1, X2,..., Xn MAS c/r de una variable aleatoria X con densidad dada por:
⎧ke θ− x
f ( x ,θ ) = ⎨
⎩0
x≥θ
x<θ
Se pide:
1. Determinar k de modo que sea efectivamente una densidad.
2. Para el k hallado, calcular E(X) y V(X)
3. Hallar la función de densidad de Z= mín {X1, X2, ...,Xn}
4. Determinar E(Z)
1
5. Demostrar que θ* = Z − es un estimador insesgado de θ.
n
__
1
6. Sabiendo que V(Z) = 2 , comparar θ* con θ** = X n − 1 como estimadores de θ.
n
EJERCICIO 4
Sea X ∼ U(0,b) con b > 0 y X1, X2,..., Xn una MAS c/r de una variable aleatoria X. Se
proponen como estimadores de b:
__
T1 = 2 X n
T2 = máx {X1, X2, ...,Xn}
Se pide:
1. Comparar el ECM de T1 y T2.
2. Encontrar la distribución exacta de T2.
3. Para n suficientemente grande encontrar la distribución aproximada de T1.
4. Comparar los resultados hallados en 2. y 3.
EJERCICIO 5 (Canavos 8.7)
Se muestrea una población cuya distribución es exponencial con una densidad dada
por:
x
⎧1
x>0
⎪ exp( − )
f(x,θ) = ⎨ θ
θ
⎪⎩0
x≤0
1. Mediante el uso de la cota de Cramer-Rao determinar la varianza del
estimador insesgado de varianza mínima de θ.
2. Deducir que el estimador eficiente de θ es la media muestral.
2
PRÁCTICA 9: PROPIEDADES DESEABLES DE LOS ESTIMADORES
EJERCICIO 6
Sea una MAS c/r de una variable aleatoria X discreta con función de cuantía dada
por:
⎧1
⎪ 2 (1 − θ ) si x = −1 ó x = 1
⎪
pX ( x ) = ⎨
⎪ θ
si
x=0
⎪
⎩
donde θ ∈ [0,1] es un parámetro desconocido.
Se considera
θ* =
⎧1
1 n
Yi con Yi = ⎨
∑
n i =1
⎩0
Xi = 0
Xi ≠ 0
Se pide:
1. Mostrar que θ* es un estimador insesgado para θ.
2. Mostrar que θ* es de mínima varianza.
3. Mostrar que θ* es asintóticamente eficiente, asintóticamente normal y hallar su
media y su varianza asintótica.
EJERCICIO 7 (Novales 9.8)
Demostrar que la media muestral es un estimador suficiente para el parámetro de la
densidad exponencial.
EJERCICIO 8 (Novales 9.9)
Demostrar que la media muestral es un estimador suficiente para el parámetro de la
distribución de Poisson.
EJERCICIO 9
Sean X ~ N μ, σ 2 y X1, X2,..., Xn MAS c/r de X
(
)
Se pide:
__
1. Investigar la eficiencia de X n como estimador de μ?
__
2. Si σ2 = 1 ¿Es X n suficiente como estimador de μ?
__
__
3. Probar que ( X n )3 es suficiente como estimador de μ, mientras que ( X n )2 no lo es.
4. Si μ = 0 ¿Es S2 suficiente como estimador de σ2?
3
PRÁCTICA 9: PROPIEDADES DESEABLES DE LOS ESTIMADORES
EJERCICIO 10 (Novales 9.31)
Utilice la desigualdad de Chebychev y la descomposición del ECM en suma de
varianza y sesgo al cuadrado para probar que si la varianza de un estimador
asintóticamente insesgado tiende a cero al aumentar el tamaño muestral, dicho
estimador es consistente.
EJERCICIO 11
__
Demostrar que X n calculado en base a X1, X2,..., Xn, MAS c/r de X es consistente
como estimador de E(X) si:
a) X ∼ Bernoulli (p).
b) X ∼ Fx(x) con μ y σ2 finitas
EJERCICIO 12
Dada X1, X2,..., Xn MAS c/r de X ∼ Fx(x) se define:
Fn* ( a ) =
1
n
n
∑
i =1
Ι { X i ≤ a}
con a constante.
Se pide:
*
1. ¿Qué se requiere para que Fn ( a ) sea un estadístico?
2. Calcular su esperanza y varianza en función de p = P(X≤ a)
4. Demostrar que dicho estadístico es consistente para estimar p = P(X≤ a)
4
PRÁCTICA 10: ESTIMACIÓN PUNTUAL
PRÁCTICA 10: ESTIMACIÓN PUNTUAL
EJERCICIO 1
Determinar los estimadores máximo verosímiles y los estimadores por el método de
los momentos de los siguientes parámetros:
1. p en una distribución B(x,n,p), con n conocido y tamaño de muestra m
2. λ en una distribución Poisson(λ)
3. λ en una distribución Exponencial de media 1/λ
4. a en una U(a,1)
5. μ y σ2 en una N μ, σ 2 .
(
)
EJERCICIO 2
Una variable discreta toma los valores 0,1 y 2 con función de cuantía:
pX(0,p) = p2
pX (2,p) = (1-p) 2
pX (1,p) = 2p (1-p)
siendo p, 0<p<1, un parámetro desconocido. Estimar p aplicando máxima
verosimilitud y el método de los momentos, a partir de una muestra de tamaño 100
en la que se ha presentado 22 veces el 0, 53 veces el 1 y 25 veces el 2.
EJERCICIO 3 (Segunda Revisión 1989)
Se desea estimar el parámetro θ en base a una MAS c/r de tamaño 3. El espacio
paramétrico es Θ = {0,1,2,3}. De la muestra se determinó que:
⎧1 / 5
⎪1 / 4
⎪
P (X1 = x 1 , X 2 = x 2 , X 3 = x 3 ) = ⎨
⎪1 / 3
⎪⎩1 / 2
si
si
si
si
θ=0
θ =1
θ=2
θ=3
Determinar la estimación máximo verosímil de θ. Fundamentar.
EJERCICIO 4
Sea X una variable aleatoria con densidad dada por:
⎧x
⎪⎪ θ 2
fX ( x) = ⎨
⎪2 − x
⎪⎩ θ θ 2
si
0< x<θ
con θ ∈ R +
si
θ ≤ x ≤ 2θ
Se pide:
∧
1. Hallar θ MV para X1 de X (MAS de tamaño 1).
∧
2. Hallar θ MM .
5
PRÁCTICA 10: ESTIMACIÓN PUNTUAL
EJERCICIO 5 (Examen de Marzo de 1995)
Sea X ~ U(θ-1/2 , θ+1/2) y sea X1, X2, ..., Xn una MAS c/r de tamaño n de la v.a. X.
Sea T = máx {X1, X2, ..., Xn}.
Se pide:
1. Hallar la distribución en el muestreo de T ∀ t ∈ Rec(T).
2. Probar que:
1
n
E( T ) = θ − +
2 n +1
3. Sea T* = T-1/2 un estimador de θ. Probar que T* es asintóticamente insesgado.
4. Sea T** el estimador de θ por el método de los momentos. Estudiar la eficiencia
asintótica de T**.
EJERCICIO 6
Sea X una variable aleatoria tal que:
⎧1 − θ
⎪
p X ( x, θ) = ⎨ 4
⎪⎩ θ
si
x = −2, x = −1, x = 1, x = 2
si
x=0
Una MAS c/r de X de tamaño n=50 arrojó estos resultados:
10 observaciones valieron -2
10 observaciones valieron -1
20 observaciones valieron 0
5 observaciones valieron 1
5 observaciones valieron 2
Se pide:
1. Hallar el campo de variación de θ, es decir el espacio paramétrico, Θ.
∧
2. Hallar θ MV .
3. Para calcular el estimador de θ por el método de los momentos se presenta un
problema con el momento de primer orden. ¿Cuál es ese problema y cómo
podríamos calcular una estimación de θ por el método de los momentos?.
4. Hallar con el procedimiento propuesto en el punto anterior y para la muestra
obtenida, la estimación por el método de los momentos.
6
PRÁCTICA 10: ESTIMACIÓN PUNTUAL
EJERCICIO 7
Sea X una variable aleatoria con función de densidad:
⎧ 3x 2
0≤ x≤a
⎪
f X ( x) = ⎨ a 3
⎪ 0
en otro caso
⎩
Se pide:
1. Hallar la función de verosimilitud L(a) para una MAS c/r de tamaño n de X y
mostrar que L(a) es decreciente.
∧
2. Probar que el estimador máximo verosímil de a es a MV = máx {X1, X2, ...,Xn}
∧
3. Determinar la función de densidad de a MV .
∧
4. Demostrar que a MV es sesgado. Hallar su sesgo y mostrar que su ECM es:
∧
2a 2
ECM ( a ) =
( 3n + 1 )( 3n + 2 )
∧
5. Hallar a MM y demostrar que es insesgado.
∧
∧
6. Determinar a partir de qué valor de n se cumple que: ECM ( a MV ) < ECM ( a MM )
7. Si estuviéramos trabajando con una MAS c/r de tamaño n =100 ¿qué estimador
de los anteriores elegiríamos? Justificar.
EJERCICIO 8 (Novales 9.28)
Utilizar el método de los momentos para obtener el estimador del parámetro θ en la
función de densidad:
⎧θx θ−1 si 0 < x < 1 con 0 < θ < ∞
f ( x / θ) = ⎨
en otro caso
⎩0
EJERCICIO 9 (Segunda Revisión 1998)
Sea X ~ N 0, σ 2 y X1, X2,..., Xn MAS c/r de X
(
)
Se pide:
1. Hallar el estimador de σ2 por el método de los momentos.
2. Demostrar que el estimador de σ2 por el método de máxima verosimilitud
coincide con el de los momentos.
3. Hallar el sesgo y varianza del estimador obtenido (sugerencia: recordar que si
X ~ χ12 se tiene que V(X) = 2).
__
1 n
4. Dado el estimador alternativo para σ2, M 2 = ∑ ( X i − X n ) 2 , obtener su error
n i =1
cuadrático medio y compararlo con el del estimador estudiado en las partes
anteriores.
7
PRÁCTICA 10: ESTIMACIÓN PUNTUAL
EJERCICIO 10 (Novales 9.9)
Sea Xi una variable aleatoria que puede tomar k valores numéricos: x1, x2, ..., xk con
k
probabilidades: p1, p2, ... pk, con
∑ pi = 1. Esta es la distribución multinomial. Si se
i =1
extrae una muestra de tamaño n, en la que se obtienen n1 valores de x1, n2 valores de
k
x2, ... nk valores de xk, con
∑n
i =1
i
= n , probar que el estimador de máxima
∧
n ⎞
⎛n n
verosimilitud del vector p = ( p1, p2, ... pk ) es p = ⎜ 1 , 2 , L , k ⎟ .
n ⎠
⎝n n
EJERCICIO 11
Sean X, Y variables aleatorias normales tales que X ~ N μ1 ,σ 2 y Y~ N μ 2 , σ 2 .
(
)
(
)
1. Probar que con muestras independientes con reposición de tamaño n1 y n2, el
n1 s12 + n2 s22
2
estimador máximo verosímil de la varianza común es: s =
donde
n1 + n2
s12 y s 22 son las varianzas muestrales de la primera y segunda muestra
respectivamente.
2. Probar que s2 es sesgado y que s * 2 =
n1 s12 + n2 s22
es insesgado para σ2.
n1 + n2 − 2
EJERCICIO 12 (Segunda Revision 2000)
El nivel de las ventas mensuales de un refresco (X) puede modelarse adecuadamente
por la función de densidad:
⎧ 2
(x −λ)
⎪
f X ( x ,λ ) = ⎨ 9λ2
⎪ 0
⎩
si x ∈ [λ ,4λ ]
λ ∈ ℜ+
en otro caso
donde λ es un parámetro que mide el gasto en publicidad del refresco (el cual se
supone constante mes a mes).
SE PIDE:
1. Hallar el estimador de λ por el método de los momentos para una MAS C/R de
tamaño n.
2. El estimador obtenido, ¿es insesgado? Fundamentar.
3. Calcular el error cuadrático medio del estimador.
8
PRÁCTICA 11: ESTIMACIÓN POR INTERVALO
PRÁCTICA 11: ESTIMACIÓN POR INTERVALO
EJERCICIO 1
Sea X ~ N (μ ,25) y X1, X2, ..., Xn una MAS c/r de tamaño 100 de X.
Se pide:
1. Construir un intervalo aleatorio que contenga a μ con un 0.95 de probabilidad.
__
2. Elegida una muestra, resultó x n = 20. Determinar un intervalo de confianza al
95% para μ.
3. Explicar el significado de este intervalo de confianza.
EJERCICIO 2
En una elección los votantes deben elegir entre dos candidatos A y B. Un estudio
reciente reveló que 1400 personas de un total de 2500 seleccionadas aleatoriamente,
tienen preferencia por el candidato A.
a) Obtener un intervalo de confianza al 99% para la verdadera proporción de
votantes a favor del candidato A. Con base en este resultado, ¿podría usted
afirmar que es probable que A gane la elección? ¿Por qué?
b) Supóngase que se selecciona aleatoriamente una muestra de 225 personas con la
misma proporción muestral a favor del candidato A. ¿Son los resultados
diferentes a los del literal a)?
c) En este caso, ¿son razonables las suposiciones para los intervalos de confianza
aproximados del 99%?
EJERCICIO 3
El precio del refresco mediano en restaurantes es una variable aleatoria normal con
desvío estándar igual a $2. Una muestra de precios en 20 restaurantes arrojó los
siguientes resultados: 30, 30, 30, 25, 35, 25, 35, 30, 40, 35, 40, 37, 28, 30, 30, 25, 28,
28, 30, 29.
a) Construir un intervalo para el parámetro precio promedio del refresco mediano
en restaurantes al 90% de confianza.
b) Si en realidad se desconoce el valor de σ, obtener nuevamente un intervalo al
90% para dicho parámetro. ¿Por qué este intervalo tiene mayor amplitud que el
que se obtuvo en el punto anterior?
9
PRÁCTICA 11: ESTIMACIÓN POR INTERVALO
EJERCICIO 4
En una investigación de mercado sobre un nuevo producto se quiere seleccionar una
MAS c/r de consumidores tal que si tomamos el porcentaje de consumidores que está
a favor del producto como estimación del verdadero porcentaje poblacional no
queremos "errar" por más de un 1% del valor verdadero con una "seguridad" del 95%
El enunciado anterior puede interpretarse de dos maneras:
•
•
Si el verdadero porcentaje poblacional es 100p queremos que el valor inferido
para p esté en el intervalo ( p-0.01, p+0.01) con una probabilidad mayor o igual a
0.95.
Si el verdadero porcentaje poblacional es 100p queremos que el valor inferido
para p esté en el intervalo ( p-0.01p, p+0.01p) con una probabilidad mayor o
igual a 0.95.
a) Utilizar la desigualdad de Tchebychev para determinar la relación entre el
tamaño de muestra (n) y el verdadero valor poblacional (p) para ambas
interpretaciones y comparar los resultados graficando n como función de p en
ambos casos.
b) Observar el comportamiento de n cuando p está cercano a 0 y a 1. ¿Cómo
cambian los resultados si se utiliza el TCL?
EJERCICIO 5 (Canavos 8.24)
Una tienda de donas se interesa en estimar su volumen de ventas diarias. Supóngase
que el valor de la desviación estándar es de $50.
a) Si el volumen de ventas se encuentra aproximado por una distribución normal,
¿cuál debe ser el tamaño de la muestra para que con una probabilidad de 0.95 la
media muestral se encuentre a no más de $20 del verdadero volumen de ventas
promedio?
b) Si no es posible suponer que la distribución es normal, obtener el tamaño
necesario de la muestra para la pregunta anterior.
EJERCICIO 6
Se desea estimar el parámetro proporción de fumadores entre los 10.000 estudiantes
de una universidad. A esos efectos se selecciona una MAS c/r de 400 alumnos. A la
pregunta “¿Es Ud. fumador?”, 80 estudiantes responden afirmativamente y 320 por
la negativa.
Se pide:
a) Construir un intervalo de confianza al 95% para el parámetro a investigar.
b) Construir un intervalo de confianza al 95% para el total de fumadores entre los
10.000 estudiantes de la universidad.
c) Sabiendo que la proporción de fumadores nunca podría superar el 30%, calcular
el tamaño de una MAS c/r para obtener una estimación de dicho parámetro si la
seguridad y la precisión deseadas son 95% y 3% respectivamente.
10
PRÁCTICA 11: ESTIMACIÓN POR INTERVALO
EJERCICIO 7
Sea X una variable aleatoria absolutamente continua y X1, X2, ...,Xn una MAS c/r de
X.
Sabiendo que (20 ≤ μ ≤ 30) es un intervalo de confianza al 99% para μ = E(X).
Se pide:
a) A partir del intervalo de confianza obtenido y sabiendo que X se distribuye
N(μ,σ2) y que n=25, deducir la estimación puntual de μ y el valor de σ2.
b) Indicar en cada una de las afirmaciones siguientes cuál es verdadera y cuál es
falsa. En este último caso explicar cuál es el error.
AFIRMACIÓN 1: Si se extraen 100 muestras al azar, habrá 99 medias muestrales
que pertenecerán a dicho intervalo.
AFIRMACIÓN 2: Si se extraen muchas muestras, en el 99% de los casos las
medias poblacionales pertenecerán al intervalo de confianza.
AFIRMACIÓN 3: De cada 100 intervalos correspondientes a otras tantas
muestras, promedialmente 99 de ellos contendrán a la media poblacional.
EJERCICIO 8 (Canavos 8.34)
Se espera tener una cierta variación aleatoria nominal en el espesor de las láminas de
plástico que una máquina produce. Para determinar cuándo la variación en el espesor
se encuentra dentro de ciertos límites, cada día se seleccionan en forma aleatoria 12
láminas de plástico y se mide en milímetros su espesor. Los datos que se obtuvieron
son los siguientes: 12.6, 11.9, 12.3, 12.8, 11.8, 11.7, 12.4, 12.1, 12.3, 12.3, 12.5,
12.9. Si se supone que el espesor es una variable aleatoria distribuida normal, obtener
los intervalos de confianza estimados del 90, 95 y 99% para la varianza desconocida
del espesor. Si no es aceptable una varianza mayor de 0.9 mm2 ¿existe alguna razón
para preocuparse con base en esta evidencia?
EJERCICIO 9 (Canavos 8.32)
Cierto metal se produce, por lo común, mediante un proceso estándar. Se desarrolla
un nuevo proceso en el que se añade una aleación a la producción del metal. Los
fabricantes se encuentran interesados en estimar la verdadera diferencia entre las
tensiones de ruptura de los metales producidos por los dos procesos. Para cada metal
se seleccionan 12 especímenes y cada uno de éstos se somete a una tensión hasta que
se rompe. La siguiente tabla muestra las tensiones de ruptura de los especímenes en
kilogramos por centímetro cuadrado:
Proceso estándar 428 419 458 439 441 456 463 429 438 445 441 463
Proceso nuevo
462 448 435 465 429 472 453 459 427 468 452 447
11
PRÁCTICA 11: ESTIMACIÓN POR INTERVALO
EJERCICIO 9 (continuación)
Si se supone que el muestreo se llevó a cabo sobre dos distribuciones normales e
independientes con varianzas iguales, obtener los intervalos de confianza estimados
del 90, 95 y 99% para μE - μN Con base en los resultados, ¿se estaría inclinado a
concluir que existe una diferencia real entre μE y μN?
EJERCICIO 10 (Canavos 8.38)
Una agencia estatal tiene la responsabilidad de vigilar la calidad del agua para la cría
de peces con fines comerciales. Esta agencia se encuentra interesada en comparar la
variación de cierta sustancia tóxica en dos estuarios cuyas aguas se encuentran
contaminadas por desperdicios industriales provenientes de una zona industrial
cercana. En el primer estuario se seleccionan 11 muestras y en el segundo 8, las
cuales se enviaron a un laboratorio para su análisis. Las mediciones en ppm (partes
por millón) que se observaron en cada muestra se exponen en la tabla. Si se supone
que el muestreo se hizo sobre dos poblaciones independientes distribuidas normales,
obtener un intervalo de confianza estimado del 90% para el cociente de las dos
varianzas no conocidas σ21/σ22. Con base en este resultado, ¿se podría concluir que
las dos varianzas son diferentes? ¿Por qué?
Niveles de una sustancia tóxica (ppm):
Estuario 1
10
10
12
13
9
8
12
12
10
14
8
Estuario 2
11
8
9
7
10
8
8
10
EJERCICIO 11 (Novales 10.9)
Sean X e Y los miligramos de nicotina por cigarrillo con filtro y sin filtro, de una
determinada marca. Suponga que ambas cantidades siguen una distribución Normal.
Se analizaron 9 cigarrillos con filtro y 11 sin filtro, con los resultados:
X: 1.1; 0.7; 0.9; 0.1; 0.8; 0.3; 0.9; 0.4; 1.0
Y: 0.9; 1.6; 1.5; 0.5; 1.0; 1.9; 1.4; 1.2; 1.3; 1.6; 2.1;
Estimar el cociente de varianzas, y construir un intervalo de confianza del 98% para
el mismo.
12
PRÁCTICA 11: ESTIMACIÓN POR INTERVALO
EJERCICIO 12 (Canavos 8.40)
Se desea estudiar el efecto de una nueva vacuna para la gripe. Una MAS con
reposición de 500 personas vacunadas revela que 150 de ellas se engriparon en el
último invierno, mientras que en una MAS con reposición de 1000 personas no
vacunadas se engriparon 400.
Suponiendo que las poblaciones son independientes, construir un intervalo de
confianza al 95% para la diferencia entre las proporciones de personas que se
engripan de las dos poblaciones. ¿Qué diría sobre la efectividad de la vacuna?
EJERCICIO 13 (Examen)
Una empresa de la industria manufacturera produce un tubo de imagen para PC, cuya
duración en el tiempo (X) tiene la siguiente distribución de probabilidad:
⎧α
⎪
f X ( x ) = ⎨x2
⎪⎩0
si x ≥ α
en otro caso
donde el parámetro α (α > 0) se mide en unidades de tiempo y se interpreta como la
duración mínima garantizada por el fabricante.
Se pide:
1. Demostrar que el estimador máximo verosímil de α es T = mín{X1, X2, ...,Xn}, a
partir de una MAS c/r de X de tamaño n.
2. Se observó una MAS c/r de 20 tubos de imagen de PC, vendidos hace 10 años, de
los cuales:
5 de ellos se rompieron a los 2 años
4 se rompieron a los 3 años
2 se rompieron a los 4 años
2 se rompieron a los 5 años
los restantes seguían funcionando luego de 5 años.
Hallar una estimación de α a partir de la muestra observada
3. Hallar la distribución en el muestreo de T (la función de densidad de T).
4. Determinar b (en función de α y n) tal que P(α < T < b) = 0.95
5. A partir del intervalo (α, b) hallado:
5.1. Hallar un intervalo aleatorio al 95% para α.
5.2. Hallar un intervalo de confianza al 95% para α.
5.3. ¿Cuál es la diferencia conceptual entre los intervalos hallados en 5.1 y 5.2?
6. Estudiar la consistencia de T como estimador de α.
13
PRÁCTICA 11: ESTIMACIÓN POR INTERVALO
EJERCICIO 14 (Segundo Control 2000)
Para conocer la proporción de mujeres adolescentes con hijos se realizó una encuesta
a 1.015 mujeres de 14 a 19 años, mediante muestreo sin reposición. La precisión en
la estimación del parámetro es muy relevante, porque el objetivo de la investigación
consiste en cuantificar el número total de madres adolescentes para proporcionarles
ayuda económica. Un estadístico analiza los resultados de la investigación y
proporciona los siguientes resultados:
Estimación puntual: 0,12
Intervalo de confianza: [0,10 – 0,14]
Un segundo investigador revisa los datos aportados por el estadístico y concluye que
los resultados están equivocados, por los siguientes motivos:
a) En primer lugar, las adolescentes con hijos en la muestra son 121, por lo que la
estimación correcta de “p” es 0,119.
b) En segundo lugar, el nivel de confianza utilizado por el primer estadístico parece
excesivo, y propone en su lugar un 92%.
c) En tercer lugar, al bajar el nivel de confianza se obtiene un intervalo de amplitud
más reducida, lo cual es coherente con el principio de la “mínima amplitud esperada”
para construir intervalos de confianza.
SE PIDE:
1. ¿Cuál es el nivel de confianza utilizado por el primer estadístico para
construir el intervalo [0,10 – 0,14]?
2. Calcular el intervalo de confianza que propone el segundo investigador
(aproximar con 3 decimales).
3. Indicar si la afirmación c) es correcta, fundamentando la respuesta.
14
PRÁCTICA 12 PRUEBA DE HIPÓTESIS DE SIGNIFICACIÓN DE PARÁMETROS
PRÁCTICA 12: PRUEBA DE HIPÓTESIS DE SIGNIFICACIÓN DE
PARÁMETROS
EJERCICIO 1
Para los siguientes problemas de decisión, definir el “Error de tipo I” y el “Error de
tipo II”, y en función de ello proponer las hipótesis nula y alternativa.
1. El gerente de una compañía de ómnibus debe decidir sobre la frecuencia diaria
entre dos localidades. Tradicionalmente la compañía viaja 4 veces por día y algunas
veces se llegan a agotar los boletos. El gerente está pensando en incrementar la
frecuencia a 6 viajes diarios para lograr un mayor número de boletos vendidos a
costa de las compañías competidoras, pero con el riesgo de viajar con muchos
asientos vacíos en alguna de las frecuencias con la consiguiente pérdida de imagen
frente a sus clientes habituales (principal preocupación de la compañía). Cada
ómnibus carga como máximo 40 pasajeros. El número medio de pasajeros
transportados hasta la fecha es 150 y se espera que con las nuevas frecuencias dicho
número ascenderá a 210.
2. Un fabricante de heladeras las pinta de color blanco o celeste en las proporciones
del 60% y del 40% respectivamente. Últimamente se ha notado un aumento en la
demanda del color celeste al punto que se han perdido algunas ventas por falta de
stock y a la inversa, se nota un incremento del stock de heladeras blancas. El gerente
de producción opina que rápidamente deberían alterarse las proporciones de
heladeras que se pintan de blanco y celeste (por ej. 50% y 50%). El gerente de
comercialización no está de acuerdo pues cree que la propensión a demandar el
celeste es una moda pasajera. Para tomar la decisión se consultará con una muestra
aleatoria de clientes antiguos sobre el color que habrán de elegir cuando decidan
cambiar de heladera. Elaborar la regla de decisión del punto de vista del gerente de
comercialización.
EJERCICIO 2
En una prueba se da un cuestionario con 15 preguntas de respuesta VERDADERO o
FALSO. Se quiere probar que un estudiante contesta al azar. Para ello se adopta la
siguiente regla de decisión:
- Si 12 o más respuestas son correctas el estudiante no está contestando al azar;
- Si menos de 12 son correctas el estudiante está contestando al azar.
Se pide:
1. Plantear las hipótesis a comprobar. (El peor error es decir que el estudiante
estudió, cuando realmente está adivinando).
2. Con la regla de decisión adoptada, ¿cuál es el nivel de significación de la
prueba?
15
PRÁCTICA 12 PRUEBA DE HIPÓTESIS DE SIGNIFICACIÓN DE PARÁMETROS
EJERCICIO 3
Para realizar la siguiente prueba:
H0) θ = θ 0
H1) θ = θ 1
Se sabe que considerando la región crítica RC1:
y que considerando la región crítica RC2:
P ( Error tipo I) = 0.10
P ( Error tipo II) = 0.30
P (Error tipo I) = 0.30
P ( Error tipo II) = 0.10
Se pide:
1. ¿Cuál de las regiones críticas utilizará para realizar la prueba? Fundamente.
2. Calcular la potencia de la prueba para la región crítica elegida.
EJERCICIO 4 (Novales 10.3)
Un profesor recrimina sistemáticamente a un colega suyo por el nivel de exigencia,
por lo que éste último le ofrece corregir por separado los mismos exámenes, que se
acaban de celebrar, y comparar los porcentajes de alumnos que aprueban. Tras la
corrección, el primer profesor aprueba a 248 de los 400 alumnos mientras que el
segundo aprueba a 214.
a) ¿Qué concluiría usted a un nivel de significación del 5% ?
b) ¿Y al 10%?
EJERCICIO 5
Sea X1, X2, ...., Xn una MAS c/r de una variable X∼Bernoulli (p) elegida para probar
H0) p=0,49 contra H1) p=0,51. Usando la aproximación normal, determinar n para
que la probabilidad de ambos tipos de error no supere 0,01.
EJERCICIO 6
En una población normal con una media desconocida y varianza igual a 25 se desea
someter a prueba H0) μ = 10 contra H1) μ = 12 a partir de una muestra de tamaño n y
con un nivel de significación α.
1. Hallar la forma de la RC óptima.
2. Determinar dicha RC y el valor de n para que las probabilidades de ambos
tipos de error no superen 0.01.
16
PRÁCTICA 12 PRUEBA DE HIPÓTESIS DE SIGNIFICACIÓN DE PARÁMETROS
EJERCICIO 7 (Canavos 9.1)
Suponga que usted desea probar la hipótesis H0) θ = 5 contra la alternativa H1) θ = 8
por medio de un solo valor que se observa en una variable aleatoria con densidad de
probabilidad dada por:
x
⎧1
⎪ exp( − )
θ
f ( x ,θ ) = ⎨ θ
⎪0
⎩
x>0
x≤0
Si el tamaño máximo del error de tipo I que puede tolerarse es de 0.15, ¿cuál de las
siguientes reglas de decisión es la mejor para escoger entre las dos hipótesis?
Rechazar H0 si X
Rechazar H0 si X
Rechazar H0 si X
≥9
≥ 10
≥ 11
EJERCICIO 8 (Canavos 9.4 y 9.5)
La cantidad promedio que se coloca en un recipiente en un proceso de llenado se
supone que es de 20 onzas. En forma periódica, se escogen al azar 25 recipientes y el
contenido de cada uno de éstos se pesa. Se juzga al proceso como fuera de control
__
cuando la media muestral X n es menor o igual a 19.8 o mayor o igual a 20.2 onzas.
Se supone que la cantidad que se vacía en cada recipiente se encuentra aproximada,
en forma adecuada, por una distribución normal con una desviación estándar de 0.5
onzas.
a) Enúnciense las hipótesis nula y alternativa que son propias para esta
situación.
b) Obtener la probabilidad del error de tipo I.
c) Obtener y graficar la función de potencia para los siguientes valores medios
de llenado: 19.5, 19.6, 19.7, 19.8, 19.9, 20.0, 20.1, 20.2, 20.3, 20.4 y 20.5.
d) Como una prueba alternativa, considérese el rechazo de H0 cuando
__
__
X n ≤ 19.5 o cuando X n ≥ 20.5 . Si el tamaño máximo del error de tipo I es
de 0.05, ¿cuál de las dos pruebas es la mejor?
e) Supóngase ahora que el tamaño de la muestra se aumenta a 36 recipientes.
Dados los mismos tamaños del error de tipo I para las pruebas propuestas,
obtener los nuevos valores críticos y comparar las funciones de potencia de
las dos pruebas.
EJERCICIO 9 (Novales 10.5)
Un analista cree que la cotización peseta/dólar USA puede representarse por una
distribución N (μ ,16) , pero no está seguro de que haya descendido en el último mes
por debajo de su nivel medio, que cree que ha permanecido estable en 82.5
ptas./dólar. Por tanto, se quiere constatar H0) µ = 82.5 frente a H1) µ < 82.5, y está
dispuesto a rechazar la hipótesis nula de estabilidad en el tipo de cambio, si obtiene
una media muestral inferior a 80.5 ptas./dólar. (Suponer que dispone de una muestra
con 25 observaciones).
17
PRÁCTICA 12 PRUEBA DE HIPÓTESIS DE SIGNIFICACIÓN DE PARÁMETROS
EJERCIO 9 (continuación)
Se pide:
a) ¿Cuál es el nivel de significación del contraste?
b) ¿Cuál es su función de potencia? Dibújela.
c) ¿Cuál debería ser la región crítica para tener un nivel de significación del 10%?
d) ¿Cuál sería la función de potencia en tal caso? Dibújela junto con la anterior.
EJERCICIO 10 (Canavos 9.8)
Sea X1, X2, ..., Xn, una muestra aleatoria de tamaño n de una distribución de Poisson
con parámetro λ desconocido. Obtener la mejor región crítica de tamaño α para
probar:
H0: λ = λ0
H1: λ = λ1< λ0
EJERCICIO 11 (Novales 10.12)
Hallar la forma de la región crítica óptima para el contraste de hipótesis nula
H0) p = p0, frente a H1) p = p1, en una población B(p).
EJERCICIO 12 (Canavos 9.12)
Un contratista ordena un gran número de vigas de acero con longitud promedio de 5
metros. Se sabe que la longitud de una viga se encuentra normalmente distribuida
con una desviación estándar de 0.02 metros. Después de recibir el embarque, el
contratista selecciona 16 vigas al azar y mide sus longitudes. Si la media muestral
tiene un valor más pequeño que el esperado, se tomará la decisión de enviar el
embarque al fabricante.
a) Si la probabilidad de rechazar un embarque bueno es de 0.04, ¿cuál debe ser
el valor de la media muestral para que el embarque sea regresado al
fabricante?
b) Si la longitud promedio real es de 4.98 metros, ¿cuál es la potencia de la
prueba en el inciso a)?
EJERCICIO 13 (Canavos 9.16)
En cierto condado de Iowa, la cosecha promedio de maíz por acre fue de 100
toneladas por acre. Para un año dado en el que el clima fue particularmente bueno, se
seleccionaron 12 parcelas en forma aleatoria y éstas arrojaron una cosecha promedio
de 106 toneladas por acre, para la misma variedad de maíz. Si la producción por acre
se modela en forma adecuada por una distribución normal con una desviación
estándar de 8 toneladas por acre, ¿existe alguna razón para creer que este año la
producción será mejor que la producción promedio normal?. Empléese α = 0.01.
Para este caso, ¿cuál es el valor-p?
EJERCICIO 14 (Múltiple Opción seleccionada de la Segunda Revisión de 2001)
1. Dada la prueba de hipótesis H0) μ = μ0 contra H1) μ ≠ μ0 con nivel α = 10% en la
que se obtiene un valor p de 0.08, entonces la decisión a tomar es:
a) No se rechaza H0) porque el valor p es mayor a α/2.
b) Se rechaza H0) porque el valor p es menor que α.
c) No tenemos elementos para decidir porque no conocemos el valor de μ0 .
d) Ninguna de las anteriores.
18
PRÁCTICA 12 PRUEBA DE HIPÓTESIS DE SIGNIFICACIÓN DE PARÁMETROS
EJERCICIO 14 (continuación)
2. Dada la prueba de hipótesis H0) μ ≤ μ0 contra H1) μ > μ0 donde la región crítica es
{todas las muestras / x ≥ k }
a) No se puede calcular el nivel de significación de la prueba porque la hipótesis nula
es compuesta.
b) El valor de la potencia no es único porque la hipótesis alternativa es compuesta.
c) Para calcular el valor p se necesita el valor de k.
d) Ninguna de las anteriores.
3. En una prueba de hipótesis en la cual H0) μ = 5 contra H1) μ ≠ 5, ¿cuál los
siguientes valores para el tamaño de muestra (n) y el nivel de significación (α) dará
una probabilidad de error II menor?
a) n = 100 y α = 0.01.
b) n = 200 y α = 0.02.
c) n = 200 y α = 0.03.
d) Ninguna de las anteriores.
EJERCICIO 15
Una empresa está estudiando comprar los derechos de distribución de las camisetas
de las "Tortillas Nunga". Las utilidades mensuales provenientes de esta concesión
están aproximadamente modeladas por una distribución normal con media y varianza
desconocidas. El problema que se presenta es la variabilidad mensual de las
utilidades, dado que dicha variabilidad es una medida del riesgo que se asume en el
negocio. La empresa, asesorada por un especialista en inversiones, decide no
comprar si la desviación típica de las utilidades es de U$S 800 o más.
Para decidir se toma una MAS c/r de 12 meses, en los cuales se investigan las
__
utilidades en cada uno de ellos y se obtiene que s x = 600 y x = 2.200.
Se pide: (Fundamentando sus respuestas)
1. Explicar sucintamente, por qué la desviación típica es una medida del riesgo
que se asume.
2. Definir el peor error que la empresa puede cometer y en base a éste realice
una prueba de hipótesis, con el fin de determinar si la empresa compra o no,
los derechos de distribución. Utilice un nivel de significación del 5%.
3. Con los resultados utilizados en 2, construir un intervalo de confianza para la
varianza de las utilidades de Tortillas Nunga.
Mark Eting, técnico en comercialización de productos, en un informe elevado a la
gerencia, indica que la marca "Tortillas Nunga” ya no es tan popular como antes y
sugiere como alternativa que se compren los derechos de distribución del fusil de
asalto AK 74 de Pambo, ya que el estreno de "Pambo XXXII - En busca de su
bisnieto” ha aumentado la popularidad del personaje. La distribución de las
utilidades mensuales se puede modelar adecuadamente.
19
PRÁCTICA 12 PRUEBA DE HIPÓTESIS DE SIGNIFICACIÓN DE PARÁMETROS
EJERCICIO 15 (continuación)
4. por una normal de media y varianza desconocida. Para tratar de resolver el
problema se toma una muestra al azar de 20 meses donde se encuentra que:
20
∑ xi = 42.000
i =1
20
∑x
i =1
2
i
= 97.200.000
Construir un intervalo de confianza para la varianza de las utilidades al 95%.
5. Obsérvese que la estimación del valor de la varianza del producto de Pambo
es mayor que la de las Tortillas Nungas; ¿por qué, para un 95% de confianza,
el riesgo que se asume, en la peor situación, es menor?
EJERCICIO 16 (Canavos 9.30)
Se cree que el promedio para el número de respuestas correctas para la prueba SAT
para las mujeres es mayor que el de los hombres por más de diez puntos. Las
muestras aleatorias para ambos sexos arrojaron los siguientes resultados:
__
Mujeres: n1 = 125; X n1 = 480 y S x1 = 60 .
__
Hombres: n2 = 100; X n 2 = 460 y S x 2 = 52 .
a) Si se muestrearon dos poblaciones independientes normales, ¿se encuentra la
creencia apoyada por la evidencia muestral con α = 0.05? ¿Cuál es el valorp?
b) Supóngase que la verdadera diferencia es de 15 puntos. ¿Cuál es la potencia
de la prueba anterior?
EJERCICIO 17 (Canavos 9.33)
Se espera que dos operadores produzcan, en promedio, el mismo número de unidades
terminadas en el mismo tiempo. Los siguientes datos son los números de unidades
terminadas para ambos trabajadores en una semana de trabajo:
Operador 1: 12; 11; 18; 16; 13
Operador 2: 14; 18; 18; 17; 16
Si se supone que el número de unidades terminadas diariamente por los dos
trabajadores son variables aleatorias independientes distribuidas normales con
varianzas iguales, ¿se puede discernir alguna diferencia entre las medias a un nivel
α= 0.1?
EJERCICIO 18 (Canavos 9.46)
Para el ejercicio 17 (Canavos 9.33), ¿puede apoyarse la opinión de que la variación
en el número de artículos terminados para el operador 2 es menor que para el
operador 1 a un nivel α = 0.05?
20
PRÁCTICA 12 PRUEBA DE HIPÓTESIS DE SIGNIFICACIÓN DE PARÁMETROS
EJERCICIO 19 (Examen Setiembre 1997)
El jefe de personal de una empresa sospecha que los empleados de más edad pierden
más días de trabajo al año por enfermedad que los trabajadores jóvenes. Decide
probar esta hipótesis y elige al azar los registros de 10 empleados de 40 años o más y
de 10 empleados de menos de 40 años. Se sabe que ambas poblaciones tienen una
distribución normal con la misma varianza. Los resultados son:
40 años o más
Menos de 40 años
37
24
19
42
21
18
35
15
16
0
4
9
0
10
12
20
63
22
25
13
Sean:
μ1 = ‘promedio anual de días perdidos por enfermedad de trabajadores de 40 años o
más’.
μ2 = ‘promedio anual de días perdidos por enfermedad de trabajadores de menos de
40 años’.
Se pide:
1. Establecer la hipótesis nula y la alternativa para este problema, sabiendo que
el peor error es afirmar que los empleados de 40 años o más pierden más días
de trabajo por enfermedad que los empleados menores de 40 años cuando en
realidad no es cierto.
2. Proponer un estadístico apropiado para la prueba.
3. Entre la curva normal y la distribución t, ¿cuál es la distribución en el
muestreo adecuada? Fundamente su respuesta.
4. Establecer la regla de decisión con un nivel de significación del 5%.
5. ¿Cuál debe ser la conclusión del jefe de personal?
6. Obtener el valor-p de esta prueba y explicar su significado.
EJERCICIO 20
Una empresa que se dedica a comercializar válvulas realiza sus ventas en lotes de
10.000 unidades. Los compradores consideran aceptables lotes que no contengan
más de un 10% de defectuosas.
Como norma, cada venta se realiza luego de analizar los lotes a través del porcentaje
de defectuosas existentes en una muestra de tamaño n.
Solamente en el 2.5% de los casos la empresa está dispuesta a no vender lotes
aceptables para los compradores. Al mismo tiempo se tratará de minimizar la
probabilidad de que el lote se venda cuando el porcentaje de válvulas defectuosas
supere el 10%.
Se pide:
1. Definir el riesgo del comprador y el del vendedor.
2. Plantear una prueba de hipótesis adecuada para decidir si la empresa vende el
lote.
3. Encontrar una región crítica óptima para dicha prueba en base a una muestra
de 600 válvulas con reposición.
21
PRÁCTICA 12 PRUEBA DE HIPÓTESIS DE SIGNIFICACIÓN DE PARÁMETROS
EJERCICIO 20 (continuación)
4. Si un lote contiene el 13% de válvulas defectuosas, ¿cuál sería el riesgo que
correría un determinado comprador? (n = 600).
5. Calcular cuál debiera ser el tamaño de la muestra para que la potencia de la
prueba sea k = 0,95 para el mismo nivel de significación.
EJERCICIO 21
Una empresa desea lanzar un nuevo producto al mercado pero no está segura qué
canal de distribución utilizar: almacenes mayoristas o minoristas. La empresa optará
por los minoristas si más de la mitad de los consumidores potenciales (600.000
personas) conocen la marca del producto.
Se pide:
1. ¿Qué método estadístico sugeriría utilizar? Fundamente su respuesta.
2. ¿Qué información necesitaría suministrarle la empresa para que Ud. pueda
trabajar?
3. Plantear la hipótesis nula y la hipótesis alternativa y la forma de la región
crítica.
4. Si α = 0.05 n = 600 X 600 =300/600. ¿Qué canal de distribución utilizaría la
empresa?
5. Identifique el peor error que se puede cometer y su probabilidad máxima.
6. Calcular la función de potencia para p = 0.7 e interpretar el resultado
obtenido.
EJERCICIO 22
Una empresa comercial recibe del fabricante lotes de 10.000 artículos iguales que
deben respetar determinadas normas:
a) Cada artículo del lote se clasifica como bueno o defectuoso según cumpla o no con
las normas preestablecidas.
b) Un lote es aceptable si tiene un porcentaje de artículos defectuosos que no supera
el 10%.
Para decidir acerca de la compra de un lote, el comprador elige una muestra (MAS
c/r) de 600 artículos del lote y cuenta el número de defectuosos. Si al seleccionar la
muestra encuentra 66 artículos defectuosos.
Se pide:
1. ¿Qué decisión tomaría la empresa comercial en base a una prueba de
significación para la proporción de artículos defectuosos con un nivel de
significación del 1%?
2. ¿Cuál sería el riesgo del fabricante?
3. Si el verdadero porcentaje de artículos defectuosos en el lote fuera del 15%:
3.1. ¿Cuál sería el riesgo de la empresa comercial al decidir en base a esta
prueba?
3.2. Calcular cuál debería ser el tamaño de la muestra para que el riesgo de la
empresa comercial fuera del 5%.
22
PRÁCTICA 12 PRUEBA DE HIPÓTESIS DE SIGNIFICACIÓN DE PARÁMETROS
EJERCICIO 23 (Novales 10.14)
Halle el contraste de razón de verosimilitudes para el contraste de la hipótesis nula:
H0) μ = μ0, frente a la alternativa compuesta H1) μ ≠ μ0 en una población N μ, σ 2 ,
con σ 2 desconocida. Pruebe que este contraste coincide con el contraste habitual
basado en el estadístico de la t de Student.
(
)
EJERCICIO 24 (Novales 10.15)
Halle el contraste de razón de verosimilitudes para el contraste de la hipótesis nula:
H0) σ 2 = σ 02 , frente a la alternativa compuesta H1) σ 2 ≠ σ 02 en una población, con μ
asimismo desconocida. Pruebe que este contraste coincide con el contraste habitual
basado en el estadístico de la chi-cuadrado.
EJERCICIO 25 (Examen 7/10/96)
Las diferentes partes de este ejercicio son independientes entre sí.
PARTE I
Es común que los vendedores cometan errores en las facturas, por ejemplo al escribir
los precios de los productos, las cantidades vendidas y en las sumas. En una empresa
se tiene la política de sancionar a un vendedor si este produce más del 10 % de
facturas con errores, porque pasado este límite se considera que el vendedor trabaja
"mal".
Una muestra aleatoria simple con reposici6n de 1000 facturas del vendedor Juan
contiene 150 facturas con errores y su supervisor decidió sancionarlo.
Plantear:
1. La hipótesis nula y la hipótesis alternativa considerando que el "peor error"
que se puede cometer es decidir que el vendedor trabaja "mal" cuando en
realidad trabaja “bien”.
2. Plantear el estadístico a utilizar y su distribución en el muestreo.
3. Hallar la región crítica si se utiliza un nivel de significación del 1%.
4. ¿La decisión del supervisor es consistente con el resultado de la muestra?
5. Si en realidad el vendedor confecciona el 12 % de las facturas con error,
¿cuál es la probabilidad de error de tipo II?
23
PRÁCTICA 12 PRUEBA DE HIPÓTESIS DE SIGNIFICACIÓN DE PARÁMETROS
EJERCICIO 25 (continuación)
PARTE II
Se desea estimar el consumo medio mensual de cerveza por persona en la población
montevideana. Para ello se tomó una muestra de tamaño 1000 personas (MAS c/r) en
1985 y se obtuvo el siguiente intervalo de confianza al 95%:
(1.58; 1.82) litros por persona por mes.
Se pide:
1. Probar la hipótesis nula de que el consumo promedio mensual per capita de
cerveza en la población de Montevideo es 1.8 litros contra la hipótesis de que
es diferente de 1.8 en 1995. Utilice un nivel de significación de 2%.
2. Probar la hipótesis nula de que el consumo promedio mensual per capita de
cerveza en la población de Montevideo es 1.8 litros contra la hipótesis
alternativa de que es menor que 1.8 en 1995 para un nivel de significación del
10%.
3. En su opinión, ¿a qué se debe que ambas pruebas conduzcan a decisiones
diferentes?
EJERCICIO 26 (Segunda Revisión 2000)
En una institución de salud la Dirección Técnica controla periódicamente la cantidad
de medicamentos que se consumen en la consulta en policlínicas. Se considera
razonable un consumo promedio de 1,5 medicamentos por consulta. Si en un período
el promedio excede de 1,5 entonces los médicos que más recetaron son sancionados
con suspensión.
En cada período la Dirección Técnica selecciona al azar por MAS C/R 400 pacientes
que consultaron en Policlínicas y analiza el número de medicamentos que les fueron
recetados en la última consulta.
La Dirección Técnica adopta la siguiente regla de decisión: si el promedio de
medicamentos por consulta en la muestra es mayor que 1,6 entonces se asumirá que
en la población de pacientes de Policlínicas el promedio supera 1,5 y se procederá a
sancionar con suspensión a los médicos más recetadores. Para la Dirección Técnica
el peor error consiste en sancionar a los médicos cuando en realidad no debería
hacerlo.
SE PIDE:
1. Plantear las hipótesis nula y alternativa apropiadas para este problema.
2. Se conoce que la varianza del número de medicamentos recetados por
consulta es 1,44. De acuerdo con la regla de decisión, ¿cuál es el nivel de
significación de la prueba?
3. ¿Cuál es la probabilidad que con la regla establecida no se sancione a los
médicos más recetadores si en realidad en el período analizado el promedio
de recetas por consulta alcanza a 1,7?
24
PRÁCTICA 12 PRUEBA DE HIPÓTESIS DE SIGNIFICACIÓN DE PARÁMETROS
EJERCICIO 26 (continuación)
4. Modificar la regla de decisión (con el mismo tamaño de muestra) para que la
probabilidad de error de tipo I no supere 2,5%.
5. Con esta prueba, ¿es posible realizar afirmaciones acerca de una posible
reducción en el consumo promedio de medicamentos por consulta?
Fundamentar la respuesta.
EJERCICIO 27 (Segunda Revisión 2001)
Una prueba de matemática de múltiple opción consta de 10 preguntas, con tres
opciones de respuesta cada una, una sola correcta. Por cada respuesta correcta se
obtienen 4 puntos y por cada respuesta equivocada –2. Es obligatorio responder las
10 preguntas. El puntaje mínimo para aprobar la prueba es 16 puntos.
Sean: X = ’puntaje de la prueba’ e Y = ‘número de respuestas correctas’.
1. Hallar la relación entre X e Y. Hallar el mínimo del Rec(X) e interpretar su
significado.
2. Plantear una prueba de hipótesis para el parámetro p = ‘probabilidad de contestar
bien’, sabiendo que el peor error es que el estudiante aprueba la prueba cuando en
realidad está adivinando. Se tiene que indicar: H0), H1), la región crítica y el nivel de
significación.
3. Plantear, sin calcular, la función de potencia de la prueba en función del parámetro
definido en el punto 2.
4. Un alumno estudioso tiene probabilidad constante e igual a 0.7 de responder
correctamente a cada pregunta. Calcular la probabilidad de que un alumno estudioso
apruebe la prueba (aproximar con 3 decimales).
5. Si 300 alumnos rinden la prueba y todos ellos son ‘estudiosos’ y no pueden
copiarse, ¿cuál es el número esperado de alumnos que aprobarán la prueba?
Fundamente la respuesta.
25
PRÁCTICA 13: PRUEBA DE HIPÓTESIS DE BONDAD DE AJUSTE E
INDEPENDENCIA
PRÁCTICA 13: PRUEBA DE HIPOTESIS DE BONDAD DE AJUSTE E
INDEPENDENCIA
EJERCICIO 1 (Canavos 10.2)
El número de nacimientos observados por mes en un hospital fue:
Ene Feb Mar Abr May Jun Jul Ago Set Oct Nov Dic
95
105 95 105 90
95 105 110 105 100 95
100
Si α = 0.01, ¿existe alguna razón para creer que el número de nacimientos no se
encuentra distribuido en forma uniforme durante todos los meses del año? ¿Cuál es
el valor-p?
EJERCICIO 2 (Segunda revisión de 1998)
La información que a continuación se presenta es una tabulación del número de goles
por partido (en los noventa minutos de juego) que se registraron en el mundial de
fútbol de Francia ' 98.
CANTIDAD DE
GOLES
0
1
2
3
4
5
6
7
Total
NUMERO DE
PARTIDOS
5
10
13
19
11
5
0
1
64
1. Con un nivel de significación del 5%. ¿el número de goles por partido podría
distribuirse Poisson con parámetro λ? (El parámetro λ se determinará
apropiadamente).
2. El valor-p de la prueba ¿es menor o mayor que 0.10? Fundamente su
respuesta.
EJERCICIO 3
Someter a prueba la hipótesis de que los puntajes de una prueba se distribuyen
aproximadamente normal, con un nivel de significación del 1% a partir de los datos
obtenidos de una muestra de 290 estudiantes
Puntaje
0 - 10
10 - 15
15 - 20
20 - 25
25 - 30
30 - 40
40 - 50
Total
26
Frecuencia
24
49
71
72
37
21
16
290
PRÁCTICA 13: PRUEBA DE HIPÓTESIS DE BONDAD DE AJUSTE E
INDEPENDENCIA
EJERCICIO 4 (Canavos 10.6)
Durante un período de 30 años se llevó a cabo un estudio médico para determinar,
entre otras cosas, si los hábitos de fumador pueden influenciar en el desarrollo de la
enfermedad cardíaca. Durante este período, 160 hombres desarrollaron alguna
enfermedad cardíaca. Estos hombres fueron clasificados como fumadores agudos
(más de dos cajas de cigarros al día), fumadores moderados (una a dos cajas al día),
fumadores ocasionales (menos de una caja al día) o no fumadores. El número de
hombres en cada categoría que desarrolló alguna enfermedad cardíaca es el siguiente:
Fumador Fumador Fumador
agudo
Moderado Ocasional
58
54
36
No
fumador
12
Total
160
a) Si se supone que al comienzo del estudio había una cantidad igual de
hombres en cada una de las cuatro categorías, ¿existe alguna razón a un
nivel de α = 0.01 para creer que las proporciones en estas categorías no son
las mismas?
b) ¿Cómo se podría prevenir al investigador médico del uso de la prueba de
bondad de ajuste chi-cuadrado en esta situación?
EJERCICIO 5 (Examen Febrero 1999)
Un odontólogo atiende sus pacientes de lunes a viernes en jornadas de 6 horas. El
odontólogo se queja, últimamente, de un creciente cansancio, debido a que los jueves
y viernes atiende más pacientes que de lunes a miércoles. La probabilidad de que un
paciente que asiste al dentista durante cierta semana, lo haga en cada uno de los días
es la siguiente:
Día de la semana Día Nº Probabilidad
Lunes
1
0.16
Martes
2
0.16
Miércoles
3
0.16
Jueves
4
0.26
Viernes
5
0.26
Por consejo de un estadístico, el odontólogo anuncia a sus pacientes que a partir del
mes siguiente aumentará el horario de atención a 7 horas de lunes a miércoles, y lo
reducirá a 5 horas los jueves y viernes. Transcurridos dos meses de los cambios, se
selecciona una semana al azar y se obtienen los siguientes resultados:
Día de la semana Día Nº Pacientes atendidos
Lunes
1
10
Martes
2
9
Miércoles
3
11
Jueves
4
14
Viernes
5
16
27
PRÁCTICA 13: PRUEBA DE HIPÓTESIS DE BONDAD DE AJUSTE E
INDEPENDENCIA
EJERCICIO 5 (continuación)
Se pide:
1. Plantear las hipótesis nula y alternativa de los dos problemas siguientes:
1.1. Se desea saber si la distribución nueva de pacientes es uniforme
(discreta).
1.2. Se desea saber si la distribución nueva de pacientes no cambió.
2. Indicar en el caso de la prueba 1.2 el estadístico de la prueba y su distribución
aproximada en el muestreo bajo H0.
3. Decidir en la prueba 1.2 para un nivel de significación del 5%. Trabajar con 3
dígitos.
4. Indicar qué significa el concepto de Error Tipo II de la prueba de hipótesis
desarrollada.
EJERCICIO 6 (Segunda Revisión 1996)
El gerente de producción de una empresa asegura que la demanda total semanal del
producto X se distribuye aleatoriamente con función de densidad:
⎧
x2
si x ∈ [0 ,1 )
⎪
2
⎪
⎪− 7x2
+ 10 x − 6 si x ∈ [1 ,2 ]
fX ( x ) = ⎨
⎪ 2
0
en otro caso
⎪
⎪
⎩
donde X se mide en Kg. de producto.
Para verificar la afirmación del Gerente de Producción, se tomó una MAS c/r de la
demanda en 400 semanas con el siguiente resultado:
Demanda
0.0 – 0.5
0.5 – 1.0
1.0 – 1.5
1.5 – 2.0
Número de
semanas
9
61
195
135
Se pide:
1. Para un nivel de significación del 10% ¿puede afirmarse que la demanda
total semanal se distribuye según la afirmación del gerente de producción?
(Realizar los cálculos con dos decimales).
2. Para un nivel de significación del 10% y para la misma muestra, se somete
a prueba la hipótesis H0) X ~ N ( μ0 , σ02 ) con μ0 y σ02 dadas, y resulta que,
de acuerdo con los resultados, no se rechaza dicha hipótesis. ¿Es este
resultado coherente con el resultado del punto anterior? Fundamentar la
respuesta.
28
PRÁCTICA 13: PRUEBA DE HIPÓTESIS DE BONDAD DE AJUSTE E
INDEPENDENCIA
EJERCICIO 7 (Canavos 10.14)
Se toma una muestra aleatoria de 25 hombres casados y se les pregunta la edad que
tenían cuando se casaron. Se obtienen los siguientes datos: 24, 19, 20, 22, 50, 23,
23, 21, 25, 27, 45, 27, 26, 26, 35, 29, 28, 30, 31, 32, 31, 33, 34, 38, 41. Úsese la
estadística de Kolmogorov-Smirnov para probar la hipótesis nula de que la
distribución de las edades de los hombres cuando contrajeron sus primeras nupcias es
una distribución gama con θ = 2 y α = 16. Úsese α = 0.05. (Sugerencia: para calcular
las probabilidades gama, véase una tabla de la función gama incompleta determinada
por 5.55).
EJERCICIO 8
Se desea investigar si existe asociación o independencia entre ciertas categorías de la
PEA y la edad de dicha población. A esos efectos se eligió una muestra aleatoria de
1000 personas activas obteniéndose los siguientes resultados:
EDAD
CATEGORÍA DE LA PEA
Menos de 25 Entre 25 - 60 Más de 60
Ocupados en industria manufacturera
50
220
40
Ocupados en el comercio
60
150
20
Ocupados en los servicios
50
250
30
Desocupados
40
80
10
Someter a prueba la hipótesis de independencia entre la edad y la categoría de la
PEA para un nivel de significación α = 3%.
EJERCICIO 9 (Segunda Revisión 1997)
Se efectuó una encuesta entre 483 amas de casa que compran habitualmente yogur
para determinar si existe alguna relación entre la marca que compran más
frecuentemente y la característica principal que debe tener un "buen yogur". Las
marcas de yogur que existen en el mercado son: A, B, C, D y E. Las características
de un "buen yogur" son: buen sabor, nutritivo, barato, sin aditivos y calidad.
Se quiere saber si existe dependencia entre la marca de yogur comprada más
frecuentemente y la característica principal que debe tener un "buen yogur".
Con la información obtenida en la encuesta se elaboraron los siguientes cuadros de
valores observados y esperados.
29
PRÁCTICA 13: PRUEBA DE HIPÓTESIS DE BONDAD DE AJUSTE E
INDEPENDENCIA
EJERCICIO 9 (continuación)
Cuadro de valores observados
Característica
principal
Marca A
Marca B
Marca C
Marca D
Marca E
Total
Sabor Nutritivo Barato
30
28
15
14
16
103
30
28
10
13
12
93
20
18
15
16
25
94
Sin
aditivos
15
16
23
27
24
105
Calidad Total
28
26
9
18
7
88
123
116
72
88
84
483
Cuadro de valores esperados
Característica
principal
Marca A
Marca B
Marca C
Marca D
Marca E
Sabor Nutritivo Barato
α
24.7
15.4
18.8
17.9
β
22.3
13.9
16.9
16.2
γ
22.6
14
17.1
16.3
Sin
aditivos
26.7
25.2
15.7
19.1
18.3
Calidad
22.4
21.1
13.1
16
15.3
Se pide:
1. Determinar los valores de α, β y γ de la tabla de valores esperados.
(Aproximar con un decimal).
2. Plantear las hipótesis nula y alternativa para esta prueba.
3. Sabiendo que el valor del estadístico Chi-cuadrado en la muestra es 40.45,
¿qué decisión adoptaría para un nivel de significación del 5%?
4. El valor-p ¿será mayor, igual o menor que el 5%? Fundamente la
respuesta.
30
PRÁCTICA 13: PRUEBA DE HIPÓTESIS DE BONDAD DE AJUSTE E
INDEPENDENCIA
EJERCICIO 10
Para estudiar la posible asociación o independencia entre la condición de fumador y
el fallecimiento por cáncer pulmonar, se seleccionó una muestra de 10.000 personas
fallecidas en el último año y se encontraron los siguientes resultados.
CAUSA DEL
FALLECIMIENTO
Cáncer de pulmón
Otras causas
TOTAL
CONDICIÓN DE FUMADOR
SI
NO
200
200
800
8.800
1.000
9.000
TOTAL
400
9.600
10.000
1. Probar si existe independencia entre los atributos condición de fumador y
causa de fallecimiento, para un nivel de significación del 1%. ¿Y al 5%?
2. Estimar, a partir de los resultados de la muestra, las probabilidades de morir
de cáncer de pulmón condicionadas por la condición de fumador.
EJERCICIO 11 (Canavos 10.22)
Se llevó a cabo una encuesta con respecto a la preferencia del consumidor para
determinar si existía alguna predilección para tres marcas competitivas (A, B y C)
dependiendo de la región geográfica en la que habita el consumidor. Con base en
una muestra aleatoria de consumidores, se obtuvo la siguiente información para tres
distintas regiones.
Región 1 Región 2 Región 3
Marca A
40
52
25
Marca B
52
70
35
Marca C
68
78
60
Con base en esta información, ¿la preferencia por una determinada marca depende de
la región geográfica a un nivel α = 0.05?
31
PRÁCTICA 14: MUESTREO DE POBLACIONES FINITAS
PRÁCTICA 14: MUESTREO DE POBLACIONES FINITAS
EJERCICIO 1
Sea Ω = {w1, w2, w3, w4, w5, w6, w7, w8}. Se elige una MAS S/R de tamaño 3.
Se pide:
1. ¿Cuántas muestras diferentes pueden formarse?
2. ¿Cuál es la probabilidad de una muestra cualquiera?
3. ¿Cuál es la probabilidad de que w8 pertenezca a la muestra?
4. ¿Cuál es la probabilidad de que w7 y w8 pertenezcan a la muestra?
5. Sea X la edad de cada individuo de la población: X(wi) = i ∀ i.
5.1. ¿Cuál es la media de las edades en la población?
5.2. ¿Cuál es la cuasi-varianza de las edades en la población?
6. Se eligió una muestra y resultó (w3, w5, w7).
6.1. ¿Cuál es un estimador insesgado de la media poblacional a partir de dicha
muestra? Calcular la estimación.
6.2. ¿Cuál es un estimador insesgado de la cuasi-varianza poblacional a partir de
dicha muestra? Calcular la correspondiente estimación.
7. Supongamos ahora otra variable Y tal que:
Y(w1) = 10; Y(w2) = Y(w3) = 11; Y(w4) = 14; Y(w5) = Y(w6) = Y(w7) = 20;
Y(w8) = 25
7.1. Calcular media y cuasi-varianza poblacionales.
7.2. Calcular P( |Y - μ | < ε) con ε = 1, ε = 3, ε = 5.
EJERCICIO 2
Considere una población Ω = {w1, w2, w3}.
Sean s1 = {w1, w2}, s2 = {w1, w3}, s3 = {w2, w3}, s4 = {w1, w2, w3} las muestras
posibles con probabilidades p1 = 0.4, p2 = 0.3, p3 = 0.2, p4 = 0.1.
Se pide:
1. Calcular la probabilidad de que el elemento wi salga en la muestra seleccionada ∀
wi ∈ Ω.
2. Calcular la probabilidad de que el par (wi , wj) con i ≠ j salga seleccionado en la
muestra ∀ (wi , wj) ∈ Ω.
EJERCICIO 3
Anualmente llegan al Balneario Las Cañas unos 10.000 turistas provenientes del
exterior y del interior del país. Para conocer el gasto promedio diario de los turistas
en 1996 se eligió una MAS S/R de 500 turistas. A cada uno de ellos se le preguntó
por el gasto diario y se obtuvieron los siguientes resultados:
Gasto diario
100 - 200
200 - 400
400 - 600
600 - 700
Total
32
Nº de turistas
100
250
130
20
500
PRÁCTICA 14: MUESTREO DE POBLACIONES FINITAS
EJERCICIO 3 (continuación)
Se pide:
1. Estimar el gasto promedio diario de los 10.000 turistas.
2. Sabiendo que la estadía de todos los turistas en "Las Cañas" es de 3 días,
estimar el gasto total de los turistas en dicho balneario.
3. Hallar un intervalo de confianza al 95% para el gasto promedio diario de
los turistas.
4. Hallar un intervalo de confianza al 90% para el gasto total de los turistas.
5. Utilizando los datos de la muestra para estimar la cuasi-varianza
poblacional, ¿cuál debió ser el tamaño de la muestra (MAS S/R) para
estimar el gasto promedio diario de los turistas con una precisión de $20 y
una seguridad del 95%?
EJERCICIO 4
Para estimar la proporción de hogares unipersonales en una ciudad de 20.000
hogares, se seleccionará una MAS S/R. Sabiendo que en el último Censo dicha
proporción era del 11%, y que de ninguna manera puede superar el 15%, determinar
el tamaño de la muestra para tener una precisión del 1% y una seguridad del 99%.
EJERCICIO 5
A los efectos de estimar el ingreso medio de los hogares de una región, se decide
seleccionar una MAS S/R de una población de 500.000 hogares.
Se pide:
1. Determinar el tamaño de la muestra necesario para una precisión de 50 unidades
monetarias y una confianza del 95% (se supone que la varianza del ingreso de los
hogares es de aproximadamente 1.0002).
2. Realizada la encuesta con el tamaño antes calculado, se obtuvo la siguiente
distribución de la muestra:
Ingreso
100 - 200
200 - 500
500 - 1000
1000 - 2000
Frecuencia relativa
0.3
0.4
0.2
0.1
2.1. Estimar el ingreso medio por hogar y el ingreso total de la región.
2.2. Construir intervalos de confianza para dichos parámetros al 95%.
33
PRÁCTICA 14: MUESTREO DE POBLACIONES FINITAS
EJERCICIO 6
Se desea estimar el ingreso medio de los hogares de una ciudad que tiene 4 barrios a
partir de una muestra de 1000 hogares. Se dispone además de la siguiente
información:
Estrato
Nº de hogares
1
2
3
4
10.000
20.000
30.000
40.000
Varianza de los ingresos
(de encuestas anteriores)
2.500
900
225
100
Se pide:
1. Asignar la muestra por estratos por MAEP y MAEO.
⎛∧ ⎞
2. Calcular V ⎜ t YMAE ⎟ en ambos casos y comparar la eficiencia relativa de ambos
⎝
⎠
métodos.
EJERCICIO 7
Se considera una población de 12:500.000 personas activas. Se desea estimar la
proporción de desocupados. La población se clasifica en dos estratos: N1 = 9:000.000
y N2 = 3:500.000 se utilizará MAE para seleccionar una muestra de 12.500 personas
activas.
Se pide:
1. Determinar el tamaño de muestra en cada estrato, usando asignación
proporcional.
2. Al realizar la encuesta se encontraron las siguientes tasas de desempleo en
la muestra: d1 = 5% y d2 = 6%.
3. Estimar el porcentaje de desocupados en la población.
4. Estimar el total de desocupados en cada estrato y en la población.
5. Estimar la varianza del estimador de la proporción de desocupados.
6. Hallar un intervalo de confianza al 95% para el total de desocupados en la
población.
7. Sabiendo que σ '12 = 0.06 y que σ ' 22 = 0.08 , ¿cuál debería ser el tamaño
total de una muestra MAEP para obtener una precisión de medio punto
porcentual y una seguridad del 95% en la estimación de la proporción de
desocupados en la población?
34
PRÁCTICA 14: MUESTREO DE POBLACIONES FINITAS
EJERCICIO 8
A fin de estimar la media μ de una cierta variable X, se decide muestrear una
población de N = 10.000 elementos, y tomar la media muestral obtenida como
estimador de μ . Para ello, se dispone de dos diseños:
DISEÑO 1: MAS S/R de n = 200 elementos.
DISEÑO 2: MAE de n = 200 elementos, con las siguientes características:
Se divide la población en dos estratos.
El estrato 1 tiene N1 = 5.000 elementos, y el estrato 2 tiene N2 = 5.000 elementos.
La muestra se distribuye así: n1 = 150 elementos en el estrato 1 y n2 = 50 elementos
en el estrato 2. Se sabe que, siendo σ 12 la varianza poblacional del estrato 1, σ 22 la
del estrato 2 y σ 2 la varianza total de la población, se cumple la siguiente relación:
σ 12 = 4σ 22 = 0.9σ 2
Se pide:
1. Estimar la varianza de la media muestral en ambos diseños y concluir cuál
de ellos es más eficiente. (Se supone que los costos no juegan).
2. Calcular la eficiencia relativa estimada del estimador de la media mediante
el MAE con respecto al MAS en este caso.
EJERCICIO 9 (Segunda Revisión 1995)
Una población de N = 1000 individuos se dividió en dos estratos de tamaño N1 = 200
y N2 = 800.
Se pide:
1. Mostrar que si las cuasi-varianzas poblacionales de dichos estratos están en
8
la relación, σ 1′ = σ ′2 , entonces, para una muestra total de tamaño n se
3
verifica que: el tamaño de la muestra del estrato 1 (n1) por asignación
óptima resulta el doble del n1 que se obtendría mediante la asignación
proporcional. Calcular ambos ni en función de n y verificar la proposición
anterior.
35
PRÁCTICA 14: MUESTREO DE POBLACIONES FINITAS
EJERCICIO 10 (Examen Febrero 1992)
Una población de 300.000 animales está a punto de entrar en epidemia de una cierta
enfermedad. Experiencias realizadas con anterioridad muestran que:
Sobre una muestra (MAS s/r) de 1.000 animales no vacunados en ocasión de la
epidemia anterior, murieron 250 y,
Sobre una muestra (MAS s/r) de 400 animales vacunados murieron sólo 40.
Se pide:
1. Construir un intervalo de confianza al 95% para el número de animales que
se espera que mueran:
1.1. Si no hay vacunación.
1.2. Si se vacuna a toda la población.
2. Plantear la forma del intervalo aleatorio utilizado para construir los
intervalos de confianza del punto anterior.
3. El costo de cada animal muerto es de $ 1.000 y el costo de cada vacuna es
de $ 100. Hallar el casto total esperado en caso de epidemia:
3.1. Si no hay vacunación.
3.2. Si se vacuna a toda la población.
4. Un estudio profundo por parte del Organismo de Control Sanitario ha
mostrado la existencia de dos zonas de riesgo en caso de epidemia:
Zona de alto riesgo:
Población: 100.000 animales
Una muestra (MAS s/r) de 500 animales vacunados en la última epidemia
estimó la probabilidad de muerte en 0.20.
Zona de menor riesgo:
Población: 200.000 animales
Una muestra (MAS s/r) de 500 animales no vacunados en la última
epidemia estimó la probabilidad de muerte en 0.15.
Si se sigue la estrategia de vacunar sólo a la población de animales de la
zona de alto riesgo:
4.1. Estimar el número esperado de animales que habrán de morir en caso de
epidemia (con la nueva estrategia).
4.2. Hallar el costo esperado de esta estrategia. ¿Es más conveniente que las
anteriores?
4.3. Hallar el error estándar del estimador de 4.1.
36
PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE
PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE
EJERCICIO 1
A continuación se realizan una serie de afirmaciones sobre modelos lineales; discutir
la validez de las mismas.
1. Las relaciones entre variables explicativas de un modelo pueden ser siempre
linealizadas y por lo tanto aplicar las técnicas de modelos lineales.
2. Los supuestos clásicos en los que se basa la estimación de modelos lineales son
únicamente una primera aproximación al tema, pues son simplificadores de la
realidad.
3. El diagrama de dispersión es una herramienta muy útil para ver qué clase de
relación mantienen dos variables.
4. Dado el modelo lineal simple: Yi = β 0 + β1 X i + ε i :
4.1. Los llamados supuestos clásicos son:
E( ε i ) = 0
E( ε i2 ) = σ 2
COV ( ε i , ε j ) = 0 ∀ i ≠ j
X i son valores fijos
4.2. Bajo los supuestos clásicos, los estimadores mínimo cuadráticos de β 0 y β 1
coinciden con los estimadores máximo verosímiles.
5. En el modelo lineal simple y bajo los supuestos clásicos, β 0 y β1 son los
parámetros del modelo, y:
n
^
β1 =
⎛
∑ ⎜⎝ Y
i =1
i
___
___
⎞
⎞⎛
− Y ⎟⎜ X i − X ⎟
⎠
⎠⎝
___
⎞
⎛
⎜Xi − X ⎟
∑
⎠
i =1 ⎝
n
___
^
y
2
^
___
β 0 = Y − β1 X
son los estimadores que se obtienen por el método de los mínimos cuadrados.
5.1. Los estimadores mínimo cuadráticos son insesgados.
5.2. Los estimadores mínimo cuadráticos son los que tienen menor varianza.
6. Como el modelo de regresión visto en el curso es solamente aplicable a relaciones
lineales:
6.1. El modelo Yi = β 0 + β1 X i + ε i no es estimable por mínimos cuadrados.
6.2. El modelo Yi = β 0 + β1 X i2 + ε i no es estimable por mínimos cuadrados.
6.3. El modelo Yi = (β 0 + β1 log( X i ))
( 1 / β0 )
+ ε i no es estimable por mín cuadrados.
β1
6.4. El modelo Yi = β 0 . X i .ε i no es estimable por mínimos cuadrados.
6.5. El modelo Yi = β 0 .β1X i .ε i no es estimable por mínimos cuadrados.
37
PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE
EJERCICIO 2
Se presentan a continuación los resultados de distintas especificaciones de modelos
lineales simples realizados para ver qué modelo se ajusta mejor para explicar la
cotización del dólar. Se contó para ello con la serie de cotizaciones al cierre de cada
mes del dólar billete, tipo vendedor, en el mercado interbancario desde marzo de
1985 a mayo de 1988.
Se pide:
Evalúe de acuerdo a los resultados presentados para cada función, cuál de ellas se
ajusta mejor.
Z t = β 0 + β1t + ε t donde Z t es la cotización del dólar y t el tiempo en meses (marzo
^
^
de 1985 = 1). Las estimaciones de los parámetros son β 0 = 61,50 , β1 = 6,22 y
R 2 = 0,9582 .
Z t = β 0 ( β1 )t ε t (Modelo exponencial)
Se linealizó: Ln( Z t ) = Ln( β 0 ) + Ln( β1 ). t + Ln( ε t )
∧
∧
Se estimó el modelo y se llegó a: Ln( β 0 ) = 4 ,46 , Ln( β1 ) = 0,034 y R 2 = 0,9973 .
Z t = β 0 t β1 ε t (Modelo potencial)
Se linealizó: Ln( Z t ) = Ln( β 0 ) + Ln( t ). β1 + Ln( ε t )
∧
∧
Se estimó el modelo y se llegó a: Ln( β 0 ) = 4 ,04 , β1 = 0 ,40 y R 2 = 0,8313 .
EJERCICIO 3 (Canavos 13.3)
Dado el modelo lineal Yi = βX i + ε i , i = 1, 2, … , n supóngase que E( ε i ) = 0 ,
V ( ε i ) = σ 2 ∀ i y COV ( ε i , ε j ) = 0 ∀ i ≠ j .
∧
a) Obtener el estimador β de mínimos cuadrados para β
∧
∧
b) Determinar si β es un estimador no sesgado de β, y demostrar que V ( β ) =
EJERCICIO 4
Dado el modelo lineal Yi = α + ε i , i = 1, 2, … , n
V ( ε i ) = σ ∀ i y COV ( ε i , ε j ) = 0 ∀ i ≠ j .
2
∧
a) Obtener el estimador α de mínimos cuadrados para α.
∧
b) Analizar las propiedades de α como estimador de α.
38
σ2
∑ X i2
supóngase E( ε i ) = 0 ,
PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE
EJERCICIO 5
En una muestra de 10 automotoras se registraron las ventas anuales de automóviles
que utilizan nafta (X) y de automóviles que utilizan gas oil (Y). La muestra arrojó
los siguientes resultados:
10
∑ X i = 2.500
i =1
10
∑Yi = 2.000
i =1
10
∑X
i =1
10
2
i
= 910.000
∑Yi 2 = 590.000
i =1
10
∑X Y
i =1
i i
= 312.500
Se supone que el vector (X,Y)' puede modelarse aproximadamente por:
⎛X⎞
⎜⎜ ⎟⎟ ~ N 2 ( μ ,Σ )
⎝Y ⎠
SE PIDE:
PARTE I: A partir de los resultados de la muestra:
1. Obtener estimaciones de los parámetros de la distribución de (X,Y)'.
2. ¿Son estas estimaciones consistentes? Fundamentar.
3. Estimar el coeficiente de correlación de (X,Y).
4. De acuerdo con los resultados obtenidos ¿es válida la afirmación de que las buenas
automotoras de gasoleros no son tan efectivas vendiendo autos a nafta?
Fundamentar.
PARTE II: Utilizando las estimaciones obtenidas en PARTE I, calcular:
1. La probabilidad que una automotora venda anualmente más de 300 automóviles a
gas oil.
2. La probabilidad que una automotora venda anualmente más de 300 automóviles a
gas oil sabiendo que en el año se vendieron 100 automóviles a nafta.
3. El número esperado de automóviles a gas oil a vender por una automotora
sabiendo que en el año vendió 250 automóviles a nafta.
PARTE III: Supóngase que los datos de la muestra corresponden a 10 automotoras
seleccionadas por el número de autos vendidos a nafta, siendo aleatorio el número de
autos vendidos a gas oil. Suponiendo un modelo de la forma: Yi = β 0 + β1 X i + ε i .
1. Establecer los supuestos necesarios (y sólo los necesarios) para estimar los
parámetros β 0 y β1 por mínimos cuadrados.
2. Establecer los supuestos adicionales para probar la significación del modelo a
través del análisis de la varianza, indicando el papel que desempeñan cada uno de los
supuestos en dicho análisis.
3. Estudiar la significación del modelo para un nivel del 5%.
39
PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE
EJERCICIO 6
Se desea estimar una relación lineal que vincule el consumo privado (CP) como una
función del Producto Bruto Interno (PBI) a lo largo del período 1970 - 1985. A esos
efectos se ha sacado la siguiente información del Banco Central del Uruguay:
AÑOS
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
Valores en N$ de 1978
CP
PBI
21.972
25.857
22.118
25.888
22.281
25.486
22.382
25.579
21.986
26.383
22.758
27.930
22.239
29.043
22.158
29.384
22.919
30.930
24.163
32.838
26.232
34.808
26.854
35.469
24.257
32.138
21.926
30.257
20.556
29.532
20.764
29.738
Fuente: BCU
Se pide:
1. Establecer los supuestos necesarios para estimar la relación deseada.
2. Realizar el diagrama de dispersión.
3. Estimar el modelo lineal simple: CPt = β 0 + β1 PBI t + ε t por mínimos cuadrados.
4. Estimar la varianza de los residuos ( σ ε2 ) y la varianza de los estimadores.
5. Calcular e interpretar el coeficiente de determinación (R2).
6. Observar la siguiente salida de la opción de regresión del Excel aplicada a este
problema particular. Identificar los elementos que se han estudiado en el curso.
40
PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE
EJERCICIO 6 (continuación)
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple
Coeficiente de determinación R^2
R^2 ajustado
Error típico
Observaciones
ANÁLISIS DE VARIANZA
Grados
de
Libertad
Regresión
1
Residuos
14
Total
15
Intercepción
Variable X 1
0.7413
0.5495
0.5174
12.047
16
Suma
de
Cuadrados
247.852
203.173
451.025
Promedio
de
cuadrados
247.852
14.512
F
Valor
crítico
170.787
de F
0.0010
Coeficien Error típico
tes
Estadístico t Probabilidad
Inferior
95%
Superior
95%
110.605
0.4002
38.564
41.326
49.090
0.1925
172.120
0.6079
28.681
0.0968
0.0017
0.0010
EJERCICIO 7
Se plantea un modelo simple Yi = β 0 + β1 X i + ε i y en base a las observaciones del
par ( X i ,Yi ) se obtuvieron los siguientes resultados:
10
∑ X i = 37,20
i =1
10
∑ X i2 = 139,42
i =1
10
∑Yi = 78,75
i =1
10
∑Yi2 = 622,64
i =1
10
∑ X Y = 294,05
i =1
i i
n = 10
Se pide:
1. Estimar los parámetros explicitando los supuestos utilizados:
1.1. Utilizando las fórmulas del modelo lineal simple.
1.2. Utilizando β = ( X' X ) X' Y .
2. Determinar las varianzas de los estimadores mínimo cuadráticos.
3. Calcular R2.
4. Construir un intervalo de confianza del 95% para β1 , suponiendo distribución
normal de los residuos ε i . Analizar la significación del modelo.
^
41
−1
PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE
EJERCICIO 8
Al gerente de Marketing de Fascination le interesa explicar el consumo de
cosméticos de la gama Fascination Plus con la importancia que las mujeres dan a su
imagen. Para conseguir este objetivo, se consulta por el consumo mensual de
cosméticos (en unidades) a una muestra de 4 mujeres cuya autoimagen es dada (en
una cierta escala ).
Se obtuvieron los siguientes datos:
Autoimagen
2
3
5
8
Consumo mensual de
Cosméticos
1
3
7
13
Se pide:
Determine la media de la variable explicada y la media de la variable explicativa.
Estime la recta de regresión lineal.
Determine los valores estimados del consumo mensual de cosméticos.
Determine los errores estimados.
Determine el coeficiente de correlación lineal.
Explique qué dificultad se presenta cuando se intenta probar la significación del
modelo.
7. Explicite para este caso los supuestos del modelo necesarios para probar la
significación del modelo.
1.
2.
3.
4.
5.
6.
EJERCICIO 9
El gerente de una cadena de heladerías desea usar la temperatura ambiental promedio
para predecir las ventas diarias de halados. Para ello recoge datos para una muestra
aleatoria de 10 días.
Día Temperatura promedio
(grados Fahrenheit) Xi
1
72
2
79
3
85
4
90
5
66
6
95
7
100
8
98
9
82
10
91
42
Ventas diarias
(en kg.) Yi
110
127
140
151
89
187
205
190
136
165
PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE
EJERCICIO 9 (continuación)
10
∑ X i = 858
i =1
10
∑ X i2 = 74.740
i =1
10
∑ Yi = 1.500
i =1
10
∑ Yi 2 = 237.366
i =1
10
∑X Y
i =1
i
i
= 132.369
Se pide:
1. Calcular la ecuación de regresión lineal.
2. Interpretar el valor obtenido de la pendiente de la recta.
3. Calcular el residuo para el primer día.
4. Calcular el error estándar de estimación.
5. En el caso de una prueba de hipótesis donde se dice H0) β1 ≤ 0 contra H1) β1 > 0
5.1. ¿Cuál es la región crítica apropiada?
5.2. ¿Cuál sería la conclusión para α = 2.5%?
5. 3. Interprete el resultado obtenido.
6. Calcular el R2 e interpretar su valor.
7. Sabiendo que la conversión de grados Fahrenheit a grados Celsius es
5
Grados Celsius = (Grados Fahrenheit - 32) x
9
calcular la temperatura media y la desviación estándar de la temperatura en los
diez días en grados Celsius.
EJERCICIO 10 (Examen Agosto 1999)
El Cr. Jota Erre tiene una teoría por la cual el tipo de cambio promedio mensual
interbancario vendedor (Yt) tiene incrementos fijos e iguales mes a mes, a partir de
un cierto valor inicial. En cambio, el Ec. Equis Zeta cree que la variable Yt crece, a
partir de un cierto valor inicial, a una tasa constante todos los meses.
Se pide:
1. Plantear un modelo lineal de acuerdo con la teoría del Cr. Jota Erre.
2. Plantear un modelo adecuado para el Ec. Equis Zeta y explicar cómo se debe
proceder para "linealizar" el modelo.
3. Para comprobar la teoría del Cr. Jota Erre se seleccionaron 10 meses consecutivos
y se observó el valor de la variable Yt. Para los datos que se presentan a
continuación, estimar el modelo.
T 1
2
3
4
5
6
7
8
9
10
Yt 10.4 10.6 10.6 10.7 10.8 10.9 10.9 10.9 11.0 11.2
4. Calcular los 10 residuos o errores de estimación para la muestra extraída.
5. A partir de los resultados de la parte anterior, estimar la varianza del modelo.
6. Explicar qué supuesto es necesario agregar a los supuestos clásicos para realizar
una prueba de significación del modelo, y explicar cómo interviene dicho supuesto
en el desarrollo de la prueba.
7. Probar la significación del modelo para un nivel del 5%.
8. Realizar una predicción puntual del valor esperado de Y15.
9. Construir un intervalo de confianza para E(Y/t=15) para una seguridad del 95%.
43
PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE
EJERCICIO 11 (Examen Febrero 1999)
Para explicar el ingreso promedio mensual de los hogares mediante un modelo de
regresión lineal simple un especialista propone como variable explicativa los "años
de educación formal del jefe del hogar".
Para realizar las estimaciones de los parámetros del modelo el especialista entiende
que deben cumplirse algunos de los siguientes supuestos:
* Hay que seleccionar previamente, y no al azar, los jefes de hogar según ciertos
valores prefijados del ingreso de los hogares.
* Hay que seleccionar previamente, y no al azar, los jefes de hogar según ciertos
valores prefijados de los años de educación formal.
* La selección de los hogares debe hacerse de tal forma de evitar que haya
correlación entre los residuos del modelo.
* La variabilidad de los ingresos, para cada valor prefijado de los años de educación,
debe ser constante.
* La variabilidad de los ingresos, para cada valor prefijado de los años de educación,
debe ser proporcional a los años de educación.
* Los residuos del modelo tienen distribución normal.
* Los residuos del modelo tienen distribución uniforme continua.
* El valor esperado de los errores, para cada valor prefijado de los años de
educación, es constante.
* El valor esperado de los errores, para cada valor prefijado de los años de
educación, es nulo.
Se pide:
1. Establecer cuáles de los supuestos anteriores son necesarios para estimar los
parámetros del modelo.
2. Se dispone de los siguientes datos de 15 hogares:
Y = "ingreso promedio mensual (en miles de $)”
X = "años de educación formal"
15
∑X
i =1
i
= 151
15
∑X
i =1
2
i
= 1.747
15
15
∑Y = 167 ∑Y
i =1
i
i =1
i
2
= 2.081
15
∑ X Y = 1.879
i =1
i i
Obtener la ecuación estimada de la recta de regresión (aproximar a 2 decimales).
3. ¿Qué interpretación tienen los coeficientes estimados en este problema?
4. Calcular las estimaciones de las varianzas de los coeficientes estimados.
5. Obtener un intervalo de confianza al 95% para β1. Explicitar los supuestos
necesarios.
6. ¿Es significativa la variable X para explicar la Y para un nivel del 5%?
Fundamente la respuesta sin realizar cálculos.
44
PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE
EJERCICIO 12 (Examen Marzo 2001)
Se considera el siguiente conjunto de datos a los efectos de estimar los parámetros
del modelo de regresión lineal simple Yi = β 0 + β1 xi + ε i para i = 1, K ,6.
x
1 .0 0
1 .0 0
3 .0 0
3 .0 0
5 .0 0
5 .0 0
Y
1 0 .2 0
7 .8 0
8 .2 0
5 .8 0
6 .2 0
3 .8 0
La representación gráfica de dichos datos y de la recta de regresión lineal aparece en
la gráfica siguiente (diagrama de dispersión).
r e g r e s ió n li n e a l
12
10
y
8
6
4
2
0
0
2
4
6
8
x
El siguiente cuadro presenta parte de la salida de la opción Regresión de Excel.
Resumen
Estadísticas de la regresión
Coeficiente de determinación R^2
Error típico
Observaciones
0.649
1.470
6
ANÁLISIS DE VARIANZA
Regresión
Residuos
Total
Grados
libertad
1
4
5
Intercepción
Variable X 1
Coeficientes Error típico
10.0000
1.2550
-1.0000
0.3674
45
de Suma
de Promedio de F
cuadrados
los cuadrados
16.0000
16.0000
7.4074
8.6400
2.1600
24.6400
Estadístico t valor-p
7.9682
0.0013
-2.7217
0.0529
PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE
EJERCICIO 12 (continuación)
Se pide (dar las respuestas con al menos 4 decimales):
1. Calcular el coeficiente de correlación r entre X y Y.
2. Calcular el valor-p asociado al estadístico F=7.4074, fundamentando su respuesta.
3. Qué porcentaje de la variación total de la variable Y es explicada por el modelo?
4. Someta a prueba la significación del modelo en su conjunto para un nivel
α = 7% (sí, siete por ciento).
5. Construya un intervalo de confianza al 95% para el parámetro σ ε2 , varianza de los
residuos del modelo.
EJERCICIO 13 (Canavos 13.4, 13.6 y 13.8)
Una compañía local de energía seleccionó una residencia típica para desarrollar un
modelo empírico para consumo de energía (en kilowatts por día) como una función
de la temperatura promedio diaria durante los meses de invierno. Se obtuvo la
siguiente información durante un período de 15 días.
Temperatura
(ºC)
Consumo
energético
0
8
7.5
13.5 14
8.5
4.5
-11
70
57
60
63
66
67
107 96
57
-7.5 -8.5 1.5
88
80
0.5
2
-6
-4
64
79
82
97
Se pide:
1. Graficar los datos. ¿Sugiere la gráfica una asociación lineal?
2. Para un modelo lineal simple, obténgase la ecuación estimada de regresión y
grafíquese sobre la gráfica de la parte a).
3. Interprétense los coeficientes de regresión estimados.
4. ¿Qué se recomendaría a la compañía para mejorar el modelo empírico?
5. Dada la ecuación de regresión estimada en la parte b) calcúlense los residuos.
6. Verifíquese que se cumplen las propiedades:
n
n
i =1
i =1
^
∑ Yi = ∑ Y i y
n
∑X e
i =1
i i
=0
7. Obténgase la varianza residual.
∧
∧
8. Calcúlense los estimadores de las desviaciones estándar de β 0 y β1 .
9. Obténgase un intervalo estimado de confianza del 95% para el valor real de la
pendiente.
10. Determínese si una relación lineal entre la temperatura atmosférica promedio y el
consumo de energía es estadísticamente discernible para un nivel α = 0.05.
11. Para cada temperatura atmosférica, calcúlense los intervalos de confianza del
95% estimados para el uso medio de energía y grafíquense éstos contra la recta
estimada de regresión.
12. Estímense los consumos individuales de energía para las siguientes temperaturas:
-10, -8, -5, -2, 1, 4, 7, 10, y 13. Obténganse intervalos de predicción del 95% para
las estimaciones.
46
PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE
EJERCICIO 14 (Segunda Revisión 2000)
En un comercio se cree que las ventas semanales son linealmente decrecientes con
cada semana del mes. Para comprobarlo, se seleccionaron 36 semanas y se
calcularon las ventas por semana. Los datos obtenidos se presentan en el siguiente
cuadro.
Dato (i) Semana(xi) Ventas (yi) Dato (i) Semana(xi) Ventasi
1
1
10000
19
2
12000
2
2
9000
20
3
10000
3
3
8000
21
4
10000
4
4
8000
22
5
10000
5
1
13000
23
1
13000
6
2
13000
24
2
11000
7
3
11000
25
3
10000
8
4
9000
26
4
9000
9
5
7000
27
1
14000
10
1
14000
28
2
12000
11
2
12000
29
3
11000
12
3
12000
30
4
8000
13
4
10000
31
5
9000
14
1
12000
32
1
12000
15
2
11000
33
2
12000
16
3
10000
34
3
12000
17
4
11000
35
4
11000
18
1
12000
36
5
8000
i = 36
i = 36
i = 36
i = 36
i = 36
i =1
i =1
i =1
i =1
i =1
∑ xi = 100; ∑ yi = 386.000; ∑ xi2 = 340; ∑ yi2 = 4.250 : 000.000; ∑ xi yi = 1.010.000.
SE PIDE:
1. Plantear el modelo explicativo de las ventas semanales en función de la semana
del mes.
2. Estimar β0 y β1.
3. Interpretar el valor estimado de β1 en este problema.
4. ¿Es el modelo significativo para un nivel del 5%?
EJERCICIO 15 (Examen Febrero 2000)
(Las distintas partes son independientes entre sí.)
PARTE A
Dada Yi / X i = xi ~ Poisson( βxi ) i = 1,2,...., n
Se pide:
1. Plantear la regresión de Y sobre X.
2. Hallar el estimador por mínimos cuadrados de β con los supuestos habituales.
47
PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE
EJERCICIO 15 (continuación)
PARTE B
Para un modelo lineal simple
Se pide:
^
^
1. Probar que S ^ = β1 S XY , siendo Y el valor estimado por el modelo para Y.
YY
^
2. Probar que β1 =
3. Recordando que
S^
Y
SX
.
2
S XY
R = 2 2
S X SY
2
S ^2
hallar la relación entre R
2
y
YY
S ^2 S 2
Y
.
Y
PARTE C
Se estiman por mínimos cuadrados y para n = 50 varios modelos:
( i ) Yi = β0 + β1Xi1 + εi para el que se obtiene R2 = 0,2527.
Se piensa en la especificación alternativa:
( ii ) Yi = β0 + β1Xi1 + β2Xi2 + εi
Para tener una idea de qué tan buena es la variable X2 para explicar Y se estiman los
modelos:
( iii ) Yi = α0 + α1Xi2 + εi para el que se obtiene R2 = 0,4709.
( iv) Xi1 = γ 0 + γ1Xi2 + εi para el que se obtiene R2 = 0,0067.
SE PIDE:
Analizar si son verdaderas o falsas las siguientes afirmaciones. Justificar.
1. Para el modelo ( i ) la variable X1 es significativa al 1%.
2. X1 y X2 son casi incorrelacionadas, mientras que Y y X2 tienen un coeficiente de
correlación muestral de 0,6862.
3. La especificación ( ii ) tendrá un R2 mayor que la ( i ) y la ( iii ).
EJERCICIO 16 (Examen)
En la automotora EL AUTO MEDIO, todos los meses se venden de 10 a 20 autos de
diferentes marcas y modelos. Todos los meses el dueño de la empresa - egresado de
C. Económicas- calcula el valor promedio de los autos vendidos para comparar con
meses anteriores. En los primeros 12 meses observa los valores de la tabla adjunta.
En el mes 13 se obtiene un promedio de U$S 10.300. Luego de pensarlo, el dueño
afirma que debe haberse cometido un error, porque de acuerdo con el Teorema
Central del Límite, la predicción más razonable para el mes 13 es un valor entre U$S
11.600 y U$S 12.400. La información recabada se presenta en la siguiente tabla:
MES (X)
VPM (Y)
48
1
2
3
4
5
6
7
8
9
10 11 12
11.3 11.2 11.5 11.6 11.8 11.5 11.4 11.6 11.8 11.6 12.0 11.9
PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE
EJERCICIO 16 (continuación)
VPM - Valor Promedio Mensual en miles
12
12
∑ X i2 = 650
∑Yi2 = 1.615: 360.000
i =1
i =1
12
∑ X Y = 912.200
i =1
i i
Se pide:
1. ¿Es cierta la afirmación del dueño de la empresa? Fundamentar la respuesta,
explicando el significado del Teorema Central del Límite.
2. Si se utiliza el mes como variable explicativa, formular un modelo lineal simple
para explicar el valor promedio de los autos vendidos y estimar los parámetros
del modelo (β 0 ,β1 , σ ε2 ) utilizando los datos de los primeros 12 meses.
3. Calcular R2 y comentar el resultado obtenido.
^
^
4. Calcular Y 13 según el modelo estimado. La diferencia entre Y 13 y Y13 se debe a
que a partir del mes 13 se eliminó un impuesto del 20% sobre el valor de venta de
los automóviles. Se quiere estimar un nuevo modelo para explicar el valor
promedio mensual de los autos vendidos sin el impuesto con los primeros 12
datos, utilizando otra vez el mes como variable explicativa. Encontrar la relación
^
^
^
entre las estimaciones de los parámetros del modelo original ( β 0 ,β 1 , σ ε2 ) y los
^
^
^
del nuevo modelo ( β ∗0 ,β1∗ ,σ ∗ε2 ) (sin calcular).
^
5. Calcular Y13* a partir del nuevo modelo y hallar un intervalo de confianza al 95%
^
para el parámetro E( Y13* ) .
49
PRÁCTICA 16: MODELO DE REGRESIÓN MULTIPLE
PRÁCTICA 16: MODELO DE REGRESIÓN MÚLTIPLE
EJERCICIO 1
A continuación se realizan una serie de afirmaciones sobre modelos lineales; discutir
la validez de las mismas.
1. El modelo lineal general, es decir, aquel que implica considerar más de una
variable explicativa, es más real en virtud de que pocos fenómenos se explican
solamente por una variable como supone el modelo simple.
2. En el modelo Yi = β 0 + β1 X i + ε i probar la significación del modelo en general
3.
4.
5.
6.
implica probar la hipótesis de β1 = 0.
En el modelo lineal general Y = X β + ε , explicar la forma que tienen los
vectores Y y ε y la matriz de observaciones X en el caso de tener más de dos
variables explicativas (además del término independiente). Asimismo, explicitar
la forma del vector de los coeficientes β .
El diagrama de dispersión es una herramienta muy útil para ver qué clase de
relación mantienen dos variables.
El análisis de la varianza constituye un instrumento para estudiar los efectos
parciales que pueden tener una o más de las variables en la explicación de la
varianza estimada.
El coeficiente de determinación R2 aumenta su valor con el número de variables
explicativas consideradas, lo que constituye un elemento negativo del indicador.
Indique como puede solucionarse este problema.
EJERCICIO 2
Una empresa que vende productos de venta masiva está estudiando el
comportamiento de sus ventas en los últimos 8 años. Como en el mercado existe
únicamente una empresa competidora, con niveles similares de precio y calidad, se
observa la relación entre las ventas anuales (Yi), los gastos en publicidad de la propia
empresa (Xi,1) y los gastos en propaganda de la competidora(Xi,2). Se observaron los
siguientes datos:
i
1
2
3
4
5
6
7
8
50
Yi
30
50
60
70
90
100
110
120
Xi,1
10
15
20
25
30
35
40
45
Xi,2
5
5
8
10
12
15
20
25
PRÁCTICA 16: MODELO DE REGRESIÓN MULTIPLE
EJERCICIO 2 (continuación)
Se pide:
1. Plantear un modelo lineal para explicar las ventas anuales de la empresa,
explicitar los supuestos y estimarlo por MCO usando la notación matricial
sabiendo que:
⎛1.302 − 0.110 0.148 ⎞
⎜
⎟
−1
(X ′X ) = ⎜
0.016 − 0.027 ⎟
⎜
0.048 ⎟⎠
⎝
2. En base a los resultados hallados someter a prueba la hipótesis de significación
del modelo en su conjunto a un nivel de significación del 5%.
3. Realizar el análisis de la varianza confeccionando el cuadro correspondiente.
EJERCICIO 3
Una empresa de ómnibus utiliza el siguiente modelo lineal para explicar los costos de
reparación y mantenimiento de sus unidades:
COSTOS i = β 0 + β1 KMVIAJ i + β 2 EDADi + ε i
COSTOS i = total de costos anuales de reparación y mantenimiento del i-ésimo
vehículo.
KMVIAJ i = miles de kilómetros viajados por el i-ésimo vehículo.
EDADi = antigüedad en años del i-ésimo vehículo.
Procesados los datos en Excel se obtiene la siguiente salida:
Resumen
Estadísticas de la regresión
Coeficiente de correlación 0.901241
múltiple
Coeficiente
de 0.812237
determinación R^2
R^2 ajustado
0.780943
Error típico
XXX
Observaciones
XXX
51
PRÁCTICA 16: MODELO DE REGRESIÓN MULTIPLE
EJERCICIO 3 (continuación)
ANÁLISIS DE VARIANZA
Grados
de libertad
Promedio
Suma de
de
F
Cuadrados
Cuadrados
XXX
XXX
25.95512
32785.31 XXX
XXX
Regresión
Residuos
Total
XXX
XXX
14
Intercepción
Variable X 1
Variable X 2
Coeficientes Error
típico
108.91501 73.270750
26.678791 3.7041353
71.130916 XXX
Valor
crítico de F
0.000
Estadístico t Probabilidad
XXX
XXX
3.7363434
0.030
0.00
0.003
Se pide:
1. Completar la salida calculando los datos faltantes.
∧
2. ¿Cómo interpreta el valor de los β i obtenidos?
3. Construir intervalos de confianza al 95% para β1 y β 2 .
4. Analizar la validez del modelo.
5. El gerente de la empresa afirma que los kilómetros viajados no influyen
significativamente en los costos. ¿Qué comentario le merece esta afirmación?
6. ¿Sería pertinente excluir alguna de las variables incluidas?
EJERCICIO 4
En una empresa se desea explicar el salario actual de sus funcionarios mediante el
siguiente modelo de regresión lineal:
SALi = β 0 + β1 EDUCi + β 2 EDADi + β 3 SALINIC + ε i
SALi = Salario actual
EDUCi = Nivel educativo
EDADi = Edad del funcionario
SALINIC = Salario con que ingresó en la empresa
Para los datos de todos los funcionarios se obtiene el siguiente resultado:
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple
Coeficiente de determinación R^2
R^2 ajustado
Error típico
Observaciones
52
0.89524
0.80146
0.80020
3053.09
474
PRÁCTICA 16: MODELO DE REGRESIÓN MULTIPLE
EJERCICIO 4 (continuación)
ANÁLISIS DE VARIANZA
Grados de
libertad
Suma de
Cuadrados
Promedio de
F
Cuadrados
Regresión
Residuos
Total
3
470
473
17685582341 5895194114 632.43
4381056929 9321397.72
22066639270 46652514.3
Intercepción
Variable X 1
Variable X 2
Variable X 3
Coeficientes
135.90
298.04
-58.95
1.73
Error típico
983.58
67.21
12.53
0.059
Estadístico t
0.138
4.434
4.629
29.331
Valor crítico
de F
0.000
Probabilidad
0.8902
0.000
0.000
0.000
Se pide:
1. Construir un intervalo de confianza al 95% para el coeficiente de la variable nivel
educativo e interpretar sus resultados.
2. Determinar si el modelo es significativo al 5%.
3. Plantear la prueba de hipótesis que permita contrastar si la variable edad influye
negativamente en el salario actual.
4. ¿Es correcta la siguiente interpretación de la salida? “En promedio, al aumentar
la edad disminuye el salario? Fundamentar la respuesta.
EJERCICIO 5
Se desea estimar el gasto de los hogares montevideanos en función de la edad del
jefe/a del hogar, la cantidad de integrantes del hogar y la situación ocupacional del
jefe/a.
Para ello se definieron las siguientes variables:
GASTO: Gasto del hogar.
EDAD: Edad del jefe/a.
CANTIDAD: Cantidad de integrantes del hogar.
OCUPADO: Variable binaria que vale 1 si el jefe/a esta ocupado y 0 en otro caso.
DESOCUPADO: Variable binaria que vale 1 si el jefe/a esta desocupado y 0 en otro
caso.
Se pide:
1. Indicar qué supuesto del modelo de regresión lineal no se cumple.
2. Indicar cómo debe interpretarse el coeficiente estimado para la variable
OCUPADO.
53
PRÁCTICA 16: MODELO DE REGRESIÓN MULTIPLE
EJERCICIO 6 (Segunda Revisión 2000)
A continuación se presentan los resultados de la estimación de dos modelos de
regresión lineal que buscan explicar a la variable dependiente, Y. El modelo 1
incorpora una constante y la variable explicativa X1, mientras que en el modelo 2 se
incorpora, además, otra variable explicativa, X2.
MODELO 1
Estadísticas de la regresión
Coeficiente
de
correlación
Coeficiente de determinación R^2
R^2 ajustado
Error típico
Observaciones
0.9525
xxxx
0.9029
32.194
xxxx
ANÁLISIS DE VARIANZA
Grados de Suma de Cuadrados F
libertad
cuadrados medios
Valor p
Regresión
Residuos
Total
1
38
39
0.0000
Intercepción
x1
MODELO 2
Estadísticas de la regresión
Coeficiente
de
correlación
Coeficiente de determinación R^2
R^2 ajustado
Error típico
Observaciones
3849.62
393.86
4243.48
Coeficient Error
tí i
72.568
xxxx
31.593
0.1639
3849.62
10.36
371.42
Estadístico Probabilida
t
d
142.556
0.0000
192.722
0.0000
Inferior 95%
Superior 95%
xxxx
2.83
xxxx
3.49
0.9528
0.9079
xxxx
32.504
40
ANÁLISIS DE VARIANZA
Grados de Suma de Cuadrados F
libertad
cuadrados medios
Valor p
Regresión
Residuos
Total
2
37
39
xxxx
390.92
xxxx
xxxx
xxxx
182.32
0.0000
Error
0.5142
0.1690
0.1649
Estadístico
141.290
185.908
0.5273
Probabilida
0.0000
0.0000
0.6011
Inferior 95%
Superior 95%
Intercepción
x1
x2
Coeficient
72.649
31.413
0.0870
6.22
2.80
-0.25
8.31
3.48
0.42
54
PRÁCTICA 16: MODELO DE REGRESIÓN MULTIPLE
EJERCICIO 6 (continuación)
SE PIDE:
1. Completar las celdas con xxxx.
2. Realizar la prueba de significación conjunta del MODELO 2. Interpretar el
significado de cada una de las hipótesis.
3. Interpretar el valor 3.1413 del coeficiente estimado para X1 en el MODELO
2.
4. Determinar si es significativa la variable X2 en el MODELO 2, para un
nivel del 5%.
5. Determinar el número de filas y columnas de la matriz P que permite
proyectar ortogonalmente el vector y sobre el S.E.V. que generan las
columnas de la matriz X.
EJERCICO 7 (Examen Marzo 2003)
El Gerente General de una empresa que comercializa diversos productos por catálogo
está interesado en encontrar la relación que existe entre las ventas semanales (en
U$S) y las siguientes variables:
X1 = Cantidad de catálogos que se imprimen por mes
X2 = Cantidad de páginas de los catálogos
X3 = Tamaño de las páginas de los catálogos (en cm2)
X4 = Número de líneas telefónicas disponibles para recibir los pedidos
X5 = Amplitud del horario de atención telefónica (en horas semanales).
Para estimar un modelo de regresión lineal múltiple, el Gerente General solicita a un
estadístico que seleccione una muestra apropiada de semanas que represente
adecuadamente las diferentes combinaciones de las variables Xi. Seleccionada la
muestra se realizaron diversos cálculos, algunos de los cuales se presentan en el
siguiente cuadro.
Modelo: Yi = β 0 + β 1 . X i1 + β 2 . X i 2 + β 3 . X i 3 + β 4 . X i 4 + β 5 . X i 5 + ε i
Variable
R2 = 0,750000
2
R corregido = 0,721591 Intercepto
n
X1
( y i − y ) 2 = 4.000.000 X
∑
2
i =1
X3
X4
X5
Coeficiente
+12.180,0
+1,5
+48,0
-0,8
+60,0
+20,0
p-valor
0,0027
0,0184
0,4132
0,0408
0,0087
0,6600
x1 = 10.000
x 2 = 50
x3 = 600
x4 = 6
x5 = 40
1. Plantear el modelo estimado.
2. ¿Cuál fue el tamaño de la muestra? Explicite sus cálculos.
3. Calcular la Variación Explicada (SCReg) y estudiar la significación del modelo
al 5%, explicitando las hipótesis, el estadístico y su distribución y la Región
Crítica.
4. ¿Qué variables son significativas al 5%? Justificar la respuesta.
55
PRÁCTICA 16: MODELO DE REGRESIÓN MULTIPLE
EJERCICIO 7 (continuación)
5. ¿Cuál es el resultado esperado estimado en las ventas semanales de una reducción
de 2 páginas en los catálogos a imprimir?, considerando que las otras variables no
cambian.
6. Para bajar los costos, el Gerente General se ve en la necesidad de reducir alguna
de las 5 variables Xi. ¿Qué recomendación le formularía Ud.? Fundamentar la
respuesta.
7. Suponga que se quiere elaborar un modelo más sencillo donde las ventas
semanales se expliquen exclusivamente con la cantidad de catálogos a imprimir por
mes: Yi = α 0 + α 1 . X 1i + ε i . Si se utilizan los mismos datos que permitieron estimar el
modelo anterior:
7.1) ¿Cómo es el nuevo R2 respecto al del modelo anterior? Fundamentar la
respuesta.
7.2) ¿Cómo es el nuevo R2 corregido respecto al del modelo anterior? Fundamentar.
7.3) Sabiendo que αˆ 0 = 11.260,0 , ¿cuál es la estimación de α1 ?
7.4) Sabiendo además que el estadístico-t para α1 es 9,798, deducir la parte de la
variación total explicada por el nuevo modelo.
7.5) Utilizando el nuevo modelo, realizar una predicción de las ventas de una semana
en que se imprimirán 12.000 catálogos, y construir un intervalo para la predicción al
95%.
56
SEGUNDA REVISIÓN 2005
SEGUNDA REVISIÓN 2005
EJERCICIO 1 (15 puntos)
⎧eα − x si x ≥ α
Sea la variable aleatoria X con función de densidad fX(x) = ⎨
si x < α
⎩0
Sea (X1, X2,…,Xn) una MAS C/R de X.
(Observe que Y = X – α tiene distribución Exponencial de parámetro λ = 1).
SE PIDE:
1. Hallar la distribución del estadístico T = Máx(Xi).
2. Hallar el estimador de α por el método de los momentos ( α~ ).
3. Calcular ECM( α~ ).
4. Probar que α~ converge en probabilidad al parámetro α.
EJERCICIO 2 (8 puntos)
Un camión cargado de 1.200 cajones de naranjas debe atravesar un puesto de control.
Las Autoridades sólo permiten continuar al camión si la carga no excede las 10
toneladas. La capacidad del camión es de 12 toneladas y las Autoridades entienden
que la carga podría exceder del límite permitido. Como la opción de pesar toda la
carga sería muy complicada, se decide seleccionar una MAS S/R de 100 cajones,
resultando un promedio de 8 kilos por cajón, con una cuasi-varianza en la muestra de
3 Kg2.
SE PIDE:
1. Construir un intervalo de confianza al 95% para el peso total de la carga.
2. ¿Cuál es la probabilidad aproximada que la carga supere las 10 toneladas?
EJERCICIO 3 (12 puntos)
El gerente de marketing realizó una investigación de mercado para decidir sobre la
conveniencia de lanzar un nuevo producto al mercado. La decisión sería afirmativa si
más del 20% de los consumidores consultados se muestra interesado por el nuevo
producto. Se seleccionó una MAS C/R de tamaño “n” en la que se encontró que el
24% estaba interesado en el producto. Como se definió Xi = 1 si el entrevistado i
está interesado en el producto y 0 en caso contrario y se eligió RC = {Muestras: x >
0,2329} con un α = 0.05, el gerente decidió rechazar H0) p ≤ 0,2.
a) Determinar el tamaño de muestra utilizado.
b) ¿Cuál sería la decisión (lanzar el nuevo producto / no lanzarlo) si fuera α =
0.04?
EJERCICIO 4 (15 puntos)
El Profesor Teo Primo opina que el puntaje de la Primera Revisión de Estadística II
se puede explicar mediante un modelo lineal exclusivamente con el nivel de
asistencia a clase de los alumnos. Para comprobar esta afirmación Teo seleccionó, de
la población que rindió la Primera Revisión de Estadística II, una muestra de 45
alumnos con la siguiente distribución.
Sean: Yi = Puntaje de la Primera Revisión de Estadística II del alumno i
xi = Nº de clases del primer semestre a las que asistió el alumno i
57
SEGUNDA REVISIÓN 2005
EJERCICIO 4 (continuación)
CANTIDAD DE
ALUMNOS
15
15
15
NÚMERO DE CLASES
A LAS QUE
ASISTIERON EN EL
PRIMER SEMESTRE
40
36
32
Resultados del Modelo de Teo Primo
Yˆi = 10 + 0,3. xi
R 2 = 0,72
SE PIDE:
1) Calcular
∑ (x
− x ) a partir de los datos de la muestra.
2
i
i
2) Deducir
∑ (y
− y) .
2
i
i
3) Construir un intervalo de confianza al 95% para β1.
4) Estudiar la significación del modelo.
58
Descargar