www .etsii.u pm.e s/ing o r/

Anuncio
www.etsii.upm.es/ingor/estadistica/
EJERCICIOS
1. Probabilidad
2. Inferencia
3. Diseño de
Experimentos
4. Regresión
Escuela Técnica Superior de
Ingenieros Industriales
Universidad Politécnica de Madrid
.
Capítulo 1. Descriptiva
1.1 En un departamento cuatro profesores imparten clases en grupos con 10, 18, 22 y 150 alumnos
respectivamente. Si se pregunta a los profesores por el tamaño de su clase ¿cuál sería el valor medio
y la desviación típica obtenida? ¿Y si se pregunta a todos los alumnos del departamento?
1.2 ¿Es posible que la varianza de una variable x sea 4, la de y sea 9 y la de z = x + y sea igual a 2?
Justificar la respuesta.
1.3 Demostrar que al multiplicar x por k1 e y por k2 , el coeficiente de correlación entre ambas no varía
(k1 y k2 deben tener el mismo signo).
1.4 Demostrar que si entre dos variables existe una relación exacta y = a + bx, con b > 0, el coeficiente
de correlación es uno.
1.5 Demostrar que el coeficiente de correlación es siempre en valor absoluto menor que uno.
1.6 En un proceso de fabricación se han medido tres variables y calculado la matriz de varianzas con el
resultado siguiente:


2 3 1
 3 4 2 
1 2 2
¿Podemos afirmar que hay un error en los cálculos? ¿Por qué?
1.7 A la variable x de media x = 100 se le ha aplicado una transformación con el logaritmo decimal
obteniéndose la nueva variable y = log10 (x). La media de la nueva variable es y = 2.5. ¿Es posible
este resultado?
1.8 En la figura se presenta el diagrama de tallos y hojas de los residuos obtenidos de un diseño factorial.
Representa el diagrama de caja (box plot) de los datos. (Nota.- La rama -6|91 representa los valores
-0.69 y -0.61).
2
2
4
10
18
29
(16)
36
27
20
14
6
-6
-5
-4
-3
-2
-1
-0
0
1
2
3
4
|
|
|
|
|
|
|
|
|
|
|
|
91
00
766320
98754310
98654321100
9977666554433211
015566677
2333478
134789
23455699
011355
1
Capítulo 2. Probabilidad
2.1 Sea X una variable aleatoria con distribución uniforme en (0, 1). Calcular la probabilidad de que
2
Y > 0.8 si Y = e−X .
2.2 Se elige un punto al azar interior a la circunferencia de ecuación x2 + y 2 = r2 . Llamando Z a la
variable aleatoria definida por la distancia entre el punto elegido y el centro de la circunferencia,
calcular las funciones de densidad y distribución de Z.
2.3 Si X es una variable aleatoria con media µ. Demostrar que cuando m = µ, E[(X − m)2 ] es mínima.
2.4 La función de densidad de la variable aleatoria X es
½
1/(kx), si 25 ≤ x ≤ 50
f (x) =
0,
en el resto.
Obtener k, la media y la varianza de X.
2.5 De acuerdo con la teoría cinética de los gases, la velocidad V de una molécula de masa m de un gas
a la temperatura (absoluta) T es una variable aleatoria con la siguiente función de densidad:
f (v) =
4
2
2
√ v 2 e−v /α , v ≥ 0
π
α3
p
√
donde α = 2kT /m, siendo k la constante de Boltzmann. Además, E(V ) = 2α/ π y Var(V ) =
(3/2 − 4/π)α2 . Calcular el valor medio de la energía cinética, mV 2 /2, de una molécula. ¿ A una
misma temperatura T , qué gas tiene mayor valor medio de energía cinética, uno ligero u otro más
pesado?
2.6 La función de distribución de la variable aleatoria X es FX (x). Obtener la función de densidad de
la variable aleatoria Y = FX (x).
2.7 Un modelo que habitualmente se utiliza en balística para comprobar la correcta calibración de las
armas es
·
¸
x2
x
f (x) = 2 exp − 2 ,
x ≥ 0, σ ≥ 0,
σ
2σ
donde la variable aleatoria X es la distancia del punto de impacto del proyectil al centro del blanco
al que iba dirigido y σ es el parámetro que mide la precisión. Si para una distancia determinada de
disparo la precisión del arma es σ = 10 cm, ¿cuál es la probabilidad de que al lanzar 10 proyectiles,
ninguno haya impactado a una distacia menor de 5 cm del centro del blanco?
2.8 Adaptar la demostración de la desigualdad de Chebychev y demostrar la desigualdad de Markov
P (X > a) ≤
1
E [X]
a
donde X es una variable aleatoria positiva (P (X > 0) = 1)
2.9 Dada la variable aleatoria X, cuya función de densidad es
½
k(1 − x2 ), si 0 < x < 1
f (x) =
0,
en el resto
1
Obtener k, así como la media y la varianza de la variable Y = 3X − 1.
2.10 Supóngase una diana circular con centro en el origen de coordenadas y radio r y X, Y las coordenadas de un punto elegido al azar (por ejemplo, el lanzamiento de un dardo). Supóngase que
cualquier otro punto de la diana tiene la misma probabilidad de ser elegido. Calcule fXY (x, y) y
fX (x).
2.11 Un gran almacén guarda cajas que contienen piezas de distinto tipo. La proporción p de piezas de
tipo A en una caja se puede considerar una variable aleatoria con función de densidad:
f (p) = kp(1 − p) con 0 ≤ p ≤ 1
(a) Calcular el valor de k, la media y la varianza de la variable aleatoria p.
(b) Si se toman 10 cajas al azar.¿Cuál es la probabilidad de que ninguna de ellas contenga una
proporción de piezas de tipo A igual o superior al 75% ?
2.12 X e Y son dos variables aleatorias independientes con la misma función de distribución F . Calcular
la función de densidad de
U = max(X, Y).
2.13 Obtén la distribución de probabilidad del máximo, del mínimo y de la media de los resultados
obtenidos al lanzar dos dados equilibrados. Se acepta que los resultados de los dados son variables
aleatorias independientes.
2.14 La función de densidad de una variable aleatoria bidemensional viene dada por la expresión:
½
xy + cex , cuando 0 < x < 1 y 0 < y < 1
fXY (x, y) =
0,
en el resto
¿Son independientes las variables aleatorias X e Y ?
2.15 Los billetes de banco son fabricados en pliegos. La impresión se realiza por dos máquinas iguales,
una de ellas imprime el anverso y la otra el reverso. Sea X e Y , respectivamente, el número de
defectos de impresión en el anverso y reverso de un pliego. Ambas variables son independientes con
distribución de Poisson de parámetros λ1 y λ2 .
(a) Demostrar que el número total de defectos en un pliego Z = X + Y tiene distribución de
Poisson. (Nota.- Utilizar que
Pr{Z = n} =
n
X
k=0
Pr{X = k}Pr{Y = n − k}
y el desarrollo del binomio de Newton para (λ1 + λ2 )n .)
(b) Si el número total de defectos en un pliego es Z = n, ¿ cuál es la probabilidad de que haya
exáctamente X = k defectos en el anverso? (Obtener la expresión en función de λ1 , λ2 , n
y k). ¿ De qué distribución de probabilidad se trata?
2.16 La cantidad en miligramos de dos componentes contenidos en un producto es una variable aleatoria
bidemensional, cuya función de densidad viene dada por la expresión
2
fXY (x, y) =
½
4xy, cuando 0 ≤ x ≤ 1 y 0 ≤ y ≤ 1
0,
en el resto
Calcular la probabilidad de que la cantidad del primer componentes sea menor que 0.3 miligramos
cuando la del segundo es 0.8 miligramos.
2.17 La llegada de los clientes a un banco se considera un proceso Poisson con parámetro λ. Sabiendo
que en la última hora han llegado 2 clientes, ¿cuál es la probabilidad de que los dos entraran en los
primeros 15 minutos?
2.18 La función de densidad de la variable aleatoria bidemendional (X, Y ), bien dada por la expresión:
½
kxy, cuando 0 < x < y < 1
fXY (x, y) =
0,
en el resto
(a) Calcular el valor de k.
(b) Calcular P (X < 0.5|Y = 0.5).
(c) ¿Son independientes las variables aleatorias X e Y ?
2.19 X e Y son variables aleatorias con coeficiente de correlación lineal ρ = −1. Si las varianzas son
iguales, calcular la varianza de Z = X + Y − 1.
2.20 Un equipo de radio tiene dos partes, el receptor y el amplificador. La duración del receptor es
una variable aleatoria exponencial de media 500 horas y la duración del amplificador una variable
exponencial de media 1000 horas. ¿Cuál es la probabilidad de que el fallo del equipo (cuando se
produzca) sea debido a un fallo del receptor? (Se supone que las variables son independientes)
2.21 Una máquina en funcionamiento es reemplazada por una nueva máquina bien cuando falla, bien
cuando alcanza la edad de T años. Si el tiempo de vida de las sucesivas máquinas son variables
aleatorias independientes con la misma función de distribución F y con función de densidad f,
demuestra que el número medio esperado de máquinas empleadas en un año es
·Z
0
T
¸−1
xf (x)dx + T (1 − F (T ))
.
2.22 Sea X1 una variable aleatoria N(10,1), X2 una variable aleatoria N(20,1), y X3 una variable aleatoria
N(30,4). Se define
Z1 = X1 + X2 − X3
Z2 = X1 + X2 + X3
Z3 = X1 − X2 − X3
Si X1 , X2 , X3 son independientes, calcular la matriz de varianzas de (Z1 , Z2 , Z3 ).
3
2.23 La distribución de probabilidad conjunta de las variables aleatorias Y1 e Y2 es la siguiente:
Y2
-1
0
1
-1
1/16
3/16
1/16
Y1
0
3/16
0
3/16
1
1/16
3/16
1/16
Calcular su coeficiente de correlación e indicar si son independientes.
2.24 La función de densidad conjunta de X e Y viene dada por
f (x, y) = xy,
0 < x < 1, 0 < y < 2
(a) Obtener las funciones de densidad marginales y decir si X e Y son independientes.
(b) Calcular P(X + Y < 1).
2.25 La función de distribución conjunta de dos variables aleatorias X e Y es
F (x, y) = (1 − e−ax )(1 − e−by ),
x ≥ 0, y ≥ 0, a > 0, b > 0
siendo a y b dos constantes conocidas. Calcula las funciones de distribución marginales de X e
Y.¿Son variables aleatorias independientes? Calcula P (X < 1, Y ≥ 2), P (X < 1) y P (Y ≥ 2).
2.26 Un ordenador tarda un total de T2 segundos en procesar un mensaje de correo electrónico, esta
cantidad incluye el tiempo T1 durante el cual el mensaje está en la cola esperando a ser procesado
(T2 ≥ T1 ). La función de densidad conjunta de las variables aleatorias T1 , T2 es
fT1 T2 (t1 , t2 ) = e−t2 ,
0 ≤ t1 ≤ t2 < ∞
Calcular la probabilidad de que un mensaje haya estado menos de un segundo en la cola si el tiempo
total que ha durado su procesamiento ha sido mayor que dos segundos.
2.27 Sea X un valor elegido al azar de la distribución uniforme en el intervalo [0,1]. A continuación
se toma al azar otro valor Y de la distribución uniforme [X, 1]. Calcular la función de densidad
marginal de Y.
2.28 Una oficina de correos tiene dos ventanillas de atención al público. Tres personas A,B y C llegan en
el mismo instante a la oficina de correos y encuentran las dos ventanillas desocupadas. Los tiempos
de servicio requeridos por las tres personas son variables aleatorias independientes con distribución
exponencial de parámetro λ. Los tiempos de servicio de A y B comienzan de inmediato, mientras
que C debe esperar a que termine el primero de los dos. ¿Cuál es la probabilidad de que C no sea
el último en salir de la oficina de correos?
2.29 Sean X, Y, U y V variables aleatorias, demostrar que si Y = U + V, entonces
Cov(X, Y ) = Cov(X, U ) + Cov(X, V ).
2.30 Un laboratorio de análisis realiza pruebas de sangre para detectar la presencia de un tipo de virus.
Se sabe que una de cada 100 personas es portadora del virus. Se va a realizar un estudio en un
colegio, para abaratar las pruebas se realiza un análisis combinado que consiste en: En lugar de
analizar la sangre de cada individuo, se toman las muestras de 50 y se analiza la mezcla. Si el
resultado del análisis es negativo, se concluye que los 50 individuos están sanos. Si el análisis es
positivo, se repite a cada persona de manera individual. El análisis es infalible.
4
(a) Determinar el número esperado de pruebas (análisis) que se tendrá que realizar si se sigue
este tipo de estrategia.
(b) ¿Cuál es la probabilidad de que un individuo determinado sea portador del virus, si el
resultado del análisis realizado a su grupo de 50 ha resultado positivo?
2.31 De un lote con una proporción de piezas defectuosas p, se extraen piexas con reposición hasta que
se observa la k−ésima defectuosa. Obtener la distribución de probabilidad de la variable aleatoria
X número total de piezas observadas.
2.32 La función de densidad de una variable aleatoria X viene dada por la expresión
½
x/8, si 0 ≤ x ≤ 4
f (x) =
0,
en el resto
Se generan secuencialmente valores de esta variable. ¿Cuántos valores de X habrá que generar
por término medio hasta obtener un valor mayor que 3?
2.33 Una pareja decide tener hijos hasta el nacimiento de la primera niña. Calcular la probabilidad de
que tengan más de 4 hijos. (Supóngase P (niño) = P (niña) = 0.5)
2.34 Si las llamadas telefónicas a una centralita siguen una distribución de Poisson de parámetro λ = 3
llamadas/cinco minutos, calcular la probabilidad de:
(a)
(b)
(c)
(d)
Seis llamadas en cinco minutos.
Tres llamadas en diez minutos.
Más de 15 en un cuarto de hora.
Dos en un minuto.
2.35 La variable aleatoria X tiene distribución exponencial con media 1. Obtener la función de distribución y la función de densidad de
W = aX 1/b ,
a > 0, b > 0
2.36 El número de averías diarias de una máquina sigue una distribución de Poisson de media 0.4 averías.
Calcular la probabilidad de que haya tres días sucesivos sin averías.
2.37 A un puesto de servicio llegan de manera independiente, por término medio, 10 clientes/hora.
Calcular la probabilidad de que lleguen 8 clientes en la próxima media hora sabiendo que en la
última hora llegaron 14 clientes, y que la variable aleatoria número de clientes que llegan en un
hora siguen una distribución de Poisson.
2.38 En una planta industrial dos bombas B1 y B2 en paralelo conducen agua desde un pozo a una
depuradora D, y posteriormente otras dos bombas B3 y B4 , también en paralelo, la trasladan a un
depósito como indica la figura.
Los tiempos de vida de la depuradora y de las bombas son variables aleatorias independientes con
distribución exponencial, siendo 20 mil horas la vida media de la depuradora y 30 mil horas
la de cada bomba.
5
- B1
Pozo
@
R
@
µ
¡
- B2 ¡
D
¡
µ
¡
B3
@
R B4
@
-
Depósito
-
(a) Calcular la probabilidad de que llegue agua al depósito después de 20 mil horas de funcionamiento.
(b) Calcular la probabilidad de que una depuradora que ha trabajado T horas falle antes de las mil
horas siguientes. ¿Es razonable que para evitar fallos de la depuradora se renueve ésta cada 20 mil
horas? ¿Por qué?
2.39 La distancia D entre dos vehículos consecutivos es una autopista sigue una distribución exponencial
con media 200 metros. ¿Cuál es la probabilidad de que en un tramo de 1 km haya exactamente 5
vehículos?
2.40 La función de densidad del tiempo T de funcionamiento de un componente hasta que falla es
f (t) = kβtβ−1 exp(−ktβ ),
t > 0, k > 0, β > 0.
Cuando un componente falla se puede reparar y queda igual que otro que no hubiera fallado nunca
y tuviera la misma edad. Además, el tiempo necesario para reparar el componente se considera
despreciable. Si un componente tiene su primer fallo en el instante t1 , calcular la probabilidad de
que el segundo fallo se produzca después de t2 con t2 > t1 .
2.41 Ricardo es un pescador experto que ha comprobado, después de una larga experiencia practicando
su deporte favorito, que el número de peces capturados por la mañana puede ser representado por
una variable aleatoria de Poisson de media 3 peces a la hora. Quiere ir a pescar el sábado próximo,
si empieza a las 7 de la mañana, ¿cuál es la probabilidad de que capture el primer pez antes de las
7 h. 15 min.? ¿Cuál es la probabilidad de que capture 5 peces durante dos horas de pesca?
2.42 La variable aleatoria T representa la duración de vida de un componente electrónico. En teoría de
la fiabilidad la probabilidad de que un componente falle en el instante t sabiendo que ha durado
hasta t se denomina tasa de fallo y se representa por λ(t), siendo su valor en función de t
λ(t) =
f (t)
,
1 − F (t)
donde f y F son, respectivamente, las funciones de densidad y de distribución de la variable
aleatoria T . Obtener la tasa de fallo en caso que T sea una variable aleatoria exponencial de
media 1000 horas e interpolar el resultado.
2.43 Un examen consiste en 25 cuestiones. En cada cuestión, el alumno debe elegir entre 5 soluciones
propuestas, de las que una (y sólo una) es cierta. El número mínimo de respuestas correctas que
debe tener un alumno para aprobar es a. El profesor decide fijar a con el siguiente criterio: que
la probabilidad de aprobar para un alumno que conteste todas las cuestiones al azar sea menor de
0.05. Obtener a. (Una cuestión es respondida al azar si cada uno de los cinco resultados propuestos
tiene la misma probabilidad de ser escogido).
6
2.44 Obtener la función de densidad de una variable aleatoria χ2 con un grado de libertad. (Si X ;
N (0, 1), Y = X 2 es una χ21 .)
2.45 Dada una variable aleatoria X, cuya distribución es N(0, σ 2 ), calcular la mediana de la variable
Y = |X|.
2.46 La longitud L en milímetros de las piezas fabricadas en un proceso es una variable aleatoria que
se distribuye según una N (32, 0.3), considerándose aceptables aquellas cuya medida se encuentra
dentro del intervalo (31.1, 32.6).
(a) Calcular la probabilidad de que una pieza elegida al azar sea aceptable.
(b) Si se toma al azar una muestra de tres piezas, ¿cuál es la probabilidad de que la primera
y la tercera sean aceptables y la segunda no lo sea?
(c) ¿Cuál es la probabilidad de que en una muestra de tamaño 3 al menos una sea aceptable?
(d) Las piezas se embalan en lotes de 500. Calcular la probabilidad de que un lote tenga más
de 15 defectuosas.
2.47 En cierta fabricación mecánica el 96% de las piezas resultan con longitudes admisibles (dentro
de tolerancias), un 3% son piezas defectuosas cortas y un 1% son defectuosas largas. Calcular la
probabilidad de:
(a) En un lote de 250 piezas sean admisibles 242 o más.
(b) En un lote de 500 sean cortas 10 o menos.
(c) En 1000 piezas haya entre 6 y 12 largas. Todas las aproximaciones se calculan la distribución normal.
2.48 Una máquina rellena sobres de azucar para café. La cantidad de azucar en cada sobre se distribuye
como una normal de media 8 gramos y desviación típica 0.5 gramos. Los sobres llenos se colocan
en cajas de cartón. Cada caja tiene 100 sobres de azucar. El peso conjunto de la caja y los 100
sobres vacíos es 30 gramos. Al final del proceso de empaquetado se pesa cada caja llena, si el peso
es menor de 820 gramos se retiran y no se comercializan. ¿Cuál es el porcentaje de cajas llenas
que pesan menos de 820 gramos? ¿Cuál es la probabilidad de que una caja con 99 sobres llenos de
azucar supere el control? (Se supone despreciable el peso de un sobre vacío)
2.49 En un juego de apuestas una persona paga un euro, elige un número del 1 al 6 y lanza tres dados.
La banca le paga tantos euros como número de veces haya salido el número elegido. Sea X los euros
ganados o perdidos por el jugador en una jugada, calcula E[X]. ¿A quién beneficia este juego, a la
banca o al jugador?
2.50 Una empresa y su proveedor han llegado a un acuerdo en cuanto al plan de muestreo en la compraventa de lotes de 100.000 unidades. Para comprobar la calidad se tomará una muestra de 400
unidades, aceptando el lote cuando haya como máximo c unidades defectuosas. Calcula c para que
la probabilidad de aceptar un lote con el 6% de piezas defectuosas sea 0.05.
7
Capítulo 3. Inferencia
3.1 La variable aleatoria X tiene distribución binomial con parámetros n y p, ambos desconocidos. Si
{16,18,22,25,27} es una muestra aleatoria simple de la distribución anterior, estimar por el método
de los momentos n y p.
3.2 Los taxis en servicio de una ciudad están numerados del 1 al N. Se observa una muestra de 10 taxis
y se apuntan sus números. Obtener un estimador de N por el método de los momentos.
3.3 Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de una variable aleatoria X con función de densidad,
fX (x) = 5x4 /θ5 ,
0 ≤ x ≤ θ.
Obtén el estimador por el método de los momentos de θ y determina su sesgo y su varianza.
3.4 Una variable aleatoria discreta puede tomar los valores 0, 1 y 2 con probabilidades 1.5/θ, 2.5/θ y
(θ − 4)/θ respectivamente. Se toma una muestra de tamaño 25 con los resultados siguientes (la
segunda fila corresponde a la fracción observada Oi para 0, 1 y 2).
x
Oi
0
17
1
5
2
3
Estimar θ por máxima verosimilitud.
3.5 Se ha tomado una muestra de tamaño 10 del tiempo, en minutos, entre el paso de dos autobuses T
en una parada con los siguientes resultados: 9,10,6,4,15,6,1,5,4,10.
Si la función de distribución del tiempo de paso es F (t) = 1 − exp(−αt), calcular la probabilidad
estimada de esperar al autobús más de 10 minutos.
3.6 La función de distribución de una variable aleatoria es

x < 0,
 0
α
F (x) =
(x/β) 0 ≤ x ≤ β,

1
x > β.
donde los parámetros α y β son positivos. Estimar los parámetros de la distribución por el método
de máxima verosimilitud.
3.7 El club de tiro de una determinada ciudad está estudiando la distancia X del punto de impacto del
proyectil al centro de la diana de sus 13 mejores tiradores.
Sabiendo que la función de densidad de la variable aleatoria presentada es
x2
2x
x ≥ 0, θ ≥ 0,
f (x) = 2 exp[− 2 ],
θ
θ
estimar θ si la distancia en cm al blanco de 10 tiradores fue
2,1
3,2
6,3
5,4
2,2
1
6,9
7,1
6,6
2,5
9,1
y la distancia de los otros tres fue mayor que la distancia máxima permitida en su categoría que
es de 11cm.
3.8 Una compañía, para determinar el número de consumidores de un determinado producto en Madrid,
ha encuestado a personas elegidas al azar hasta encontrar a 20 que utilicen el producto. Estimar por
máxima verosimilitud la proporción de consumidores en la ciudad si el número total de entrevistados
ha sido 115.
3.9 El tiempo de duración de ciertos componentes electrónicos es una variable aleatoria con distribución
exponencial. Se ha realizado un ensayo con 10 componentes cuyos tiempos de duración han sido:
37,45,92,104,109,200,295. Despues de 400 horas, tres componentes seguían funcionando. Con esta
información, estimar por máxima verosimilitud el parámetro de la distribución exponencial.
3.10 Sea X1 , X2 , ..., Xn una muestra aleatoria simple de la función de densidad
f (x) = 2(θ − x)/θ2 , 0 ≤ x ≤ θ.
Obtener por el método de los momentos un estimador insesgado de θ y calcular su varianza.
3.11 Sea X la media aritmética de una muestra aleatoria simple de una distribución N(µ, σ). Se define
X̂ = cX como nuevo estimador para µ. Determinar c (en función de µ y σ) para que el nuevo
estimador tenga Error Cuadrático Medio (ECM) mínimo. Calcular c si se sabe que el coeficiente
de variación σ/µ = 2.
3.12 X1 , X2 , ..., Xn es una muestra aleatoria simple de una distribución normal con parámetros desconocidos. Para estimar la varianza se propone el siguiente estimador
S2 = k
n−1
X
n
X
(Xi − Xj )2 .
i=1 j=i+1
Determinar k para que el estimador sea centrado.
s2 , siendo sb2
3.13 Para estimar la media σ 2 de una población normal se utiliza el estimador σ
b2 = kb
la varianza muestral corregida y k una constante. Calcular el valor de k que minimiza el error
cuadrático medio. (Utilizar Var[χ2g ] = 2g, siendo g el número de grados de libertad).
3.14 Los tiempos de funcionamiento de dos componentes electrónicos distintos siguen distribuciones
exponenciales con esperanzas µ y 2µ. Se han obtenido los tiempos de fallo de una muestra de cada
tipo de componente, en ambos casos de tamaño n. Obtener el estimador de máxima verosimilitud
de µ, calcular su media y su varianza.
3.15 Un sistema de lectura telemática de consumo de energía eléctrica emplea un mensaje de 128bit. Ocasionalmente las interferencias aleatorias provocan que un bit se invierta produciéndose un
error de transmisión. Se acepta que la probabilidad de que cada bit cambie en una transmisión
es constante e igual a p, y que los cambios son independientes. Estima el valor de p si se ha
comprobado que de las últimas 10000 lecturas efectuadas (todas de 128-bit) 340 eran erróneas.
3.16 Se han tomado 12 valores de una variable física X, que se supone normal, resultando
30.2, 30.8, 29.3, 29, 30.9, 30.8, 29.7, 28.9, 30.5, 31.2, 31.3, 28.5.
(a) Construir un intervalo de confianza para la media de la población al 95% de confianza.
2
(b) Construir un intervalo de confianza para la varianza de la población con el mismo nivel
de confianza del apartado anterior.
3.17 En la lista adjunta se indica la edad y el área científica en que trece importantes científicos de
diversas áreas descubrieron la teoría que les ha dado la fama. Construir con estos datos un intervalo
de confianza para la edad a la que los científicos realizan su contribución más importante: Galileo
(34, astronomía), Franklin (40, electricidad), Lavoisier (31, química), Lyell (33, geología), Darwin
(49, biología), Maxwell (33, ecuaciones de la luz), Curie (34, radiactividad), Plank (43, teoría
cuántica), Marx (30, socialismo científico), Freud (31, psicoanálisis), Bohr (26, modelo del átomo),
Einstein (26, relatividad), Keynes (36, macroeconomía).
3.18 Una muestra de 12 estaciones de servicio de una cadena de gasolineras proporciona un ingreso medio
por persona al mes de 2340 euros con una desviación típica de 815 euros. Calcular un intervalo de
confianza para el ingreso medio por trabajador en esta empresa. Calcular el número de estaciones
que debemos estudiar para que el intervalo tenga una amplitud máxima de 500 euros.
3.19 Se han escogido al azar 15 probetas de un determinado acero, cuya resistencia a la compresión se
supone que se distribuye normalmente, y se ha medido ésta en las unidades adecuadas, habiéndose
observado los resultados siguientes
40.15, 65.10, 49.5, 22.4, 38.2, 60.4, 43.4, 26.35, 31.2, 55.6, 47.25, 73.2, 35.9, 45.25, 52.4.
(a)
(b)
(c)
(d)
Estimar la resistencia media del acero y su varianza.
Hallar un intervalo de confianza del 99% para la resistencia media.
Hallar un intervalo de confianza del 99% para la varianza.
¿Cuántas probetas deberían haberse utilizado en el estudio si se quisiera estimar la resistencia media del acero con una precisión de ±6 unidades y una confianza del 95%?.
3.20 Una compañía de comida precocinada desea lanzar al mercado un nuevo producto. Para conocer la
aceptación del mismo realiza previamente una encuesta entre 200 personas elegidas al azar, de las
que 37 manifiestan su disposición a comprarlo. Obtener un intervalo de confianza (α = 0.05) para
la proporción p de compradores potenciales de este nuevo producto. ¿Cúal debería ser el tamaño
muestral si se quisiera reducir la longitud del intervalo a la mitad.
3.21 Se desea estimar la proporción de niños entre 0 y 14 años que se encuentran adecuadamente
vacunados contra la poliomielitis. Si se quiere que la diferencia en valor absoluto entre la estimación
final y el verdadero valor de la proporción sea menor que 0.05 con probabilidad 0.95, ¿ Cúal es el
tamaño muestral mínimo requerido?.
3.22 Una roca lunar es enviada a un laboratorio para determinar su nivel de radiactividad θ, nivel que se
mide por el número medio de partículas emitidas por hora. Después de 15 horas, el equipo Geiger
ha contabilizado un total de 3.547 partículas emitidas. Aceptando que el número de partículas
emitidas sigue una distribución de Poisson, dar un intervalo con 95% de confianza para el nivel
de radiactividad de la roca. (Nota.- Utilizar que si Z tiene distribución N(0,1), entonces P (Z ≤
1.96) = 0.975).
3.23 Teniendo en cuenta que si X1 , X2 , . . . , Xn es una muestra aleatoria simple de una variable aleatoria
exponencial con función de densidad, f (x) = λ1 e−x/λ , x ≥ 0, λ > 0; el estadístico U = 2nX/λ
tiene distribución χ22n , donde X = (X1 + X2 + · · · + Xn )/n; resolver la cuestión siguiente:
3
El tiempo de funcionamiento de un equipo electrónico es una variable aleatoria con distribución exponencial. Se han tomado los tiempos de funcionamiento hasta el fallo de 30 equipos elegidos al azar,
obteniéndose 6.2 × 103 horas de media. Calcular un intervalo con 95 % de confianza para la vida
media de un equipo.
3.24 La velocidad de una molécula según el modelo de Maxwell, es una variable aleatoria con función
de densidad

 √4 × 1 x2 exp −(x/α)2 , x ≥ 0
f (x) =
π α3
 0, x ≤ 0.
donde α > 0, es el parámetro de la distribución y se verifica que
2α
3 4
E(X) = √ y V ar(X) = − α2 .
2 π
π
(a) Calcular el estimador máximo verosímil de α y su varianza asintótica.
(b) Calcular el estimador por momentos de α y la varianza de dicho estimador.
100
100
P
P 2
xi =
(c) Para una muestra de tamaño n=100, para la que se verifica que xi = 342 y que
i=1
i=1
1339, hallar un intervalo de confianza de α con el 95% de confianza utilizando ambos
estimadores.
3.25 Los núcleos (radionucleidos) del elemento radiactivo Carbono 14 (C 14 ) se desintegran aleatoriamente. El tiempo que tarda en desintegrarse cada radionucleido es una variable aleatoria con
distribución exponencial de media 8, 27 × 103 años.
(a) Si inicialmente había 1012 radionucleidos, obtener el número esperado de los radionucleidos
sin desintegrar al cabo de los 20.000 años.
(b) Obtener, para la variable aleatoria número de radionucleidos sin desintegrar al cabo de
20.000 años, un intervalo que contenga al valor de esa variable con probabilidad 0, 95 e
interpretar el resultado.
(c) Una pieza arqueológica ha estado enterrada durante 20.000 años al cabo de los cuales
se han observado 1010 radionucleidos de C 14 . Estimar por el método de los momentos
el número inicial de radionucleidos N y calcular la media y la varianza del estimador
obtenido.
(d) Determinar el tiempo que debe transcurrir para que el número de radionucleidos iniciales
se reduzca a la mitad.
3.26 Un proceso industrial fabrica piezas cuya longitud en mm se distribuye según una N (190, 10). Una
muestra de 5 piezas proporciona los resultados siguientes:
187, 212, 195, 208, 192
(a) Contrastar la hipótesis de que la media del proceso µ es efectivamente 190.
(b) Contrastar la hipótesis de que la varianza del proceso σ 2 es 100. Tómese α = 0.05 en
todos los contrastes.
4
3.27 Para contrastar unilateralmente que la esperanza µ de una variable aleatoria normal es 10, se toma
una muestra de tamaño 16 y se rechaza la hipótesis en el caso en que la media muestral sea mayor
que 11, aceptándose en el caso contrario. Sabiendo que la desviación típica de la población es σ = 2,
¿cúal es la probabilidad de error de tipo I de este contraste?. ¿Cúal sería la probabilidad de error
de tipo II del contraste si el valor verdadero de la esperanza fuese 12?.
3.28 Una medicina estándar es efectiva en el 75% de los casos en los que se aplica. Se ha comprobado
un nuevo medicamento en 100 pacientes, observándose su efectividad en 85 de ellos. ¿ Es la nueva
medicina más efectiva que la estándar ? (Contrastar con α = 0.05).
3.29 Un empresario quiere comprar una empresa que fabrica cojinetes. Durante los 5 últimos años la
proporción de cojinetes defectuosos se ha mantenido en un 3%. Para verificar esto, se toma una
muestra de 200 cojinetes y obtiene que 9 son defectuosos. ¿Se puede concluir que la proporción de
cojinetes defectuosos ha aumentado? Calcular la potencia del contraste planteado anteriormente en
función de p. Calcular la probabilidad de error de tipo II cuando la hipótesis alternativa es p = 0.06,
siendo p la proporción de defectuosos.(Nota: Utilícese la aproximación normal y α = 0, 05.).
3.30 Teniendo en cuenta que si X1 , X2 , . . . , Xn es una muestra aleatoria simple de una variable aleatoria
exponencial con función de densidad, f (x) = λ1 e−x/λ , x ≥ 0, λ > 0; el estadístico U = 2nX/λ
tiene distribución χ22n , donde X = (X1 + X2 + · · · + Xn )/n; resolver las cuestiones siguientes:
(a) El tiempo de funcionamiento de un equipo electrónico es una variable aleatoria con distribución exponencial. Se han tomado los tiempos de funcionamiento hasta el fallo de
30 equipos elegidos al azar, obteniéndose 6.2 × 103 horas de media. Contrastar con nivel
de significación igual a 0.05, H0 : λ = 5 × 103 horas, frente a H1 : λ > 5 × 103 horas;
indicando: (a) el valor crítico, y (b) la probabilidad de error tipo II cuando λ = 7.5 × 103
horas. (Es suficiente con proporcionar el valor más proximo obtenido en las tablas del
libro de texto).
(b) Se va a realizar un ensayo con 15 equipos fabricados por una segunda empresa. Si el
tiempo de funcionamiento de estos tiene también distribución exponencial. ¿ Cuál es el
valor máximo de la media muestral de estos quince equipos que permitiría concluir con
α = 0.05 que son peores que los de la primera empresa? Después de 6000 horas de ensayo
han fallado 6 equipos, siendo el promedio de estos seis valores igual a 2350 horas. ¿Es
necesario seguir el ensayo para tomar una decisión ?
3.31 Cibeles Computer S.A. ha realizado un gran pedido de chips para su nueva linea de ordenadores
personales. En el contrato de suministro se especifica que al menos el 95% de los chips deben
ser aceptables. Como es imposible comprobarlo al 100%, el control se va a realizar mediante el
siguiente procedimiento: de cada lote (que se supone de gran tamaño) se toman al azar n chips, si
la proporción de chips en la muestra que supera el control es mayor que c se acepta el lote y en caso
contrario se rechaza. Llamando p a la proporción real de chips aceptables en un lote, determinar n
y c si se desea que
P(Aceptar un lote)=0.01 si p=0.85
P(Aceptar un lote)=0.99 si p=0.95.
(Utilizar la aproximación normal y considerar que si Z es una variable aleatoria normal estándar,
P (Z ≤ 2.33) = 0.99).
5
3.32 La estatura de 60 niños de una escuela infantil se resume en la siguiente tabla de frecuencias, dónde
la última columna muestra la frecuencia esperada bajo la hipótesis de normalidad.
Frecuencia Frecuencia
Intervalo Observada Esperada
41,5-43,5
4
4,08
43,5-45,5
7
5,58
45,5-47,5
12
9,06
47,5-49,5
8
11,27
49,5-51,5
6
11,27
51,5-53,5
11
9,08
53,5-55,5
9
5,58
55,5-57,5
3
4,08
Total
60
60
¿Se puede aceptar la hipótesis de normalidad de los datos (α = 0.05) ?
3.33 Se tira 120 veces un dado y se obtienen los resultados de la tabla
VALOR
FRECUENCIA
1
20
2
14
3
23
4
12
5
26
6
25
Contrastar la hipótesis de que el dado está equilibrado y que, por tanto, sus caras son equiprobables. (Tómese α = 0.05).
3.34 Un modelo sísmico indica que la distribución de los epicentros de sismos en una región debería seguir
una distribución de Poisson en el plano. Un grupo de expertos pretende contrastar si ese modelo
se cumple, para ello ha representado un mapa de la región dividido en cuadrículas de tamaño 100
km2 , y ha señalado con puntos las posiciones de los epicentros (véase figura adjunta). Realizar el
contraste χ2 de bondad de ajuste con nivel de significación α = 0, 05 proporcionando el nivel crítico
aproximado del contraste.
6
3.35 El Ministerio de defensa está considerando un nuevo sistema de apoyo para el lanzamineto de
misiles de corto alcance. El sistema existente tiene errores en el 7% de los lanzamientos y se desea
comprobar si el nuevo sistema tiene una probabilidad de fallo menor. El ensayo va a consistir
en realizar 20 lanzamientos y se concluirá que el nuevo sistema es mejor si no se produce ningún
fallo. Llamando p a la probabilidad de fallo del sistema nuevo y aceptando independencia entre los
resultados del lanzamiento, obtenga y represente gráficamente la probabilidad de error de tipo II
del contraste
½
H0 : p = 0.07
H1 : p < 0.07
Obtenga la probabilidad de error tipo I. Interprete el resultado y valore si el método de decisión
es adecuado.
3.36 El tiempo de duración T de un componente electrodinámico es una variable aleatoria con distribución exponencial de media µ. Veinte componentes han sido sometidos a un ensayo y el número de
horas que han durado ha sido:
10.99 15.79 24.14 34.43 43.72 51.72 56.12 60.27 77.20 88.47
91.07 117.58 130.40 133.12 152.90 159.00 193.62 208.71 308.82 316.07
Teniendo en cuenta que 2T /µ tiene distribución χ2 con dos grados de libertad, realiza el siguiente
contraste
H0 : µ = 200 horas,
H1 : µ < 200 horas,
con α = 0.05.
3.37 Para controlar la calidad de un proceso textil se cuenta el número de defectos que aparecen en la
tela fabricada. Según el fabricante, cuando el proceso funciona correctamente el número de defectos
en una bobina de 100 metros cuadrados es una variable aleatoria de Poisson con media 4. Se ha
instalado un equipo de visión artificial para realizar el recuento que permite inspeccionar 900 m2
de tela cada hora. ¿Cuál es la probabilidad de que aparezcan más de 50 defectos en una hora
si el proceso funciona bien? En una jornada de 16 horas de fabricación se han contabilizado 720
defectos, ¿se puede afirmar que ha habido un aumento del número medio de defectos en ese día?
(Nivel de significación 0.05).
7
Capítulo 4. Análisis de la varianza
4.1 Se estudian los Km recorridos antes del desgaste de dos tipos de neumáticos con los resultados
siguientes:
Tipo
A
B
ni
121
121
xi (Km)
27465
27572
sbi (Km)
2500
3000
(a) Calcular, con α = 0.05,un intervalo de confianza para
σ 21
.
σ 22
(b) Un intervalo de confianza para µ1 − µ2 .
4.2 Se dispone de rendimientos de dos máquinas. Los resultados de la máquina A son 137.5; 140.7;
106.9; 175.1; 177.3; 120.4; 77.9 y 104.2, mientras que los reultados para la B son: 103.3; 121.7; 98.4;
161.5; 167.8 y 67.3. ¿Son las máquinas iguales? (Suponer que los rendimientos de ambas máquinas
siguen distribuciones normales).
4.3 Un fabricante de automóviles debe elegir entre un determinado tipo de piezas de acero suministradas
por un proveedor A y otras suministradas por otro proveedor B. Para proceder a la elección se ha
analizado la resistencia a la tracción de las piezas suministradas por ambos proveedores, tomando
una muestra de tamaño 10 de las piezas del primero, y otra de tamaño 12 del segundo. La resistencia
media de la muestra de A es de 54000 unidades y la de la muestra de B es de 49000 unidades, siendo
las desviaciones típicas muestrales corregidas sbA = 2100 y sbB = 1900. Las resistencias de las piezas
de ambos proveedores se distribuyen normalmente. Las piezas del proveedor B son más baratas
que las del proveedor A, por lo que estas últimas sólo son rentables si tienen una resistencia media
al menos 2000 unidades mayor que las de B, y la misma variabilidad.
(a) ¿A qué proveedor habría que comprar las piezas a la vista de los resultados muestrales?
(b) Obtener un intervalo de confianza del 90\% para la diferencia de medias de la resistencia
de las piezas de los proveedores A y B.
4.4 En una fábrica de automóviles se utiliza una misma planta para el ensamblaje de tres modelos
distintos (A, B y C). Para determinar si los modelos reciben el mismo tratamiento, se ha realizado
un control de calidad a una muestra tomada para cada modelo. El número de defectos encontrados
para cinco vehículos del modelo A son 5, 4, 6, 6 y 7; para seis vehículos del modelo B son 7, 8, 6, 7, 6
y 5;y para ocho vehículos del modelo C: 9, 7, 8, 9, 10, 11, 10 y 10. Contrastar si existen diferencias
en el tratamiento que se da a los distintos modelos.
4.5 Cinco tipos (A, B, C, D y E) de material sintético se han sometido a un ensayo de desgaste. Para
cada tipo de material la prueba se repitio 6 veces. El desgaste medio y la desviación típica corregida
en cada caso es la siguiente:
media x̄i
d. típica ŝi
A
14.1
1.3
B
16.3
1.2
1
C
13.5
1.4
D
14.8
1.2
E
15.3
1.5
(a) Contrastar (α = 0.05) la hipótesis
H0 : µA = µB = µC = µD = µE
frente a la hipótesis alternativa,
H1 : Alguna media es distinta a las demás.
Indicar con nivel de confianza 0.95 el material con desgaste menor y qué materiales tienen
desgaste medio, distinto.
(b) Obtener un intervalo de confianza con α = 0.01 para la varianza del error experimental.
4.6 Se mide la temperatura de una mezcla con cuatro termómetros, obteniéndose los datos siguientes:
Termómetro
1
2
3
4
63
64
58
61
63
64
59
61
62
63
59
62
65
64
68
60
66
65
63
(a) ¿Son los cuatro termómetros análogos?
(b) Analizar si se verifican las hipótesis básicas del modelo ADEVA mediante los residuos.
(c) Elimine el tercer termómetro y calcule la tabla ADEVA para comparar los otros tres
termómetros. ¿Qué conclusiones pueden extraerse?
4.7 Se desea comprobar el efecto de un tratamiento térmico sobre la resistencia de un nuevo material.
Se han tomado 15 probetas y se han asignado al azar a los tres tratamientos T1 , T2 y T3 obteniendo
como medida de resistencia superficial los valores siguientes:
T1
2.65
2.67
2.46
1.90
2.62
T2
4.31
3.96
4.64
4.74
4.00
T3
4.81
5.32
4.93
5.49
4.45
(a) Contrastar mediante el test de análisis de la varianza si existen diferencias significativas
entre los tratamientos térmicos (α = 0.01).
(b) La temperatura del tratamiento 2 es la media de las temperaturas de los otros dos
tratamientos. Si la relación entre la resistencia y la temperatura es lineal, es de esperar
que la media del tratamiento 2 verifique : H0 : µ2 = 12 (µ1 + µ3 ). Hacer el contraste
bilateral de esta hipótesis con α = 0.05. (Nota.- Usar la distribución de y 2 − (y 1 + y 3 )/2,
donde yi es la media de los datos correspondientes al tratamiento Ti ).
4.8 En un modelo de análisis de la varianza se ha observado que la desviación típica (ŝi ) y la media
(y i ) de las observaciones de cada tratamiento están relacionadas linealmente, ŝi = kyi , donde k
es una constante. ¿ Cuál de las siguientes transformaciones es la más adecuada para corregir la
heterocedasticidad ? z = log y, z = y 2 o z = ky
2
Capítulo 5. Diseño de experimentos
5.1 Un laboratorio de Análisis Clínicos ha adquirido un nuevo equipo (B) para medir el colesterol en la
sangre de los enfermos. Para evaluar si el nuevo equipo está ajustado se decide analizar muestras
de 5 enfermos que previamente han sido analizadas con otro equipo (A), dando como resultado
Enfermo
Equipo A
Equipo B
1
215
224
2
305
312
3
247
251
4
221
232
5
286
295
Media
254.8
262.8
Contrastar con α = 0.05 existen diferencias entre los dos equipos.
5.2 El análisis de la varianza de un diseño en bloques aleatorizados proporciona los siguientes resultados:
V T = 232, V E(factor) = 156, V E(bloque) = 15 y V N E = 61. El número de niveles del factor es
5 y el número de bloques 8. Construir la tabla ADEVA. ¿ Cuál sería el resultado del análisis si no
se tiene en cuenta el efecto de los bloques ? Indicar en qué circunstancias es preferible cada uno de
los modelos.
5.3 Para determinar el consumo de energía eléctrica para usos domésticos se ha medido el consumo
medio por persona en las distintas estaciones del año en siete comunidades autónomas para 1989,
habiéndose obtenido los siguientes resultados:
COMUNIDAD
1
2
3
4
5
6
7
MEDIAS
INVIERNO
13.1
13.4
13.8
14.0
14.4
14.8
15.6
14.16
PRIMAVERA
11.4
12.1
12.1
12.8
12.6
13.4
14.2
12.66
VERANO
10.6
11.1
11.4
11.7
12.5
13.0
14.1
12.06
OTOÑO
11.5
12.0
12.9
12.6
13.4
14.0
14.4
12.97
MEDIAS
11.65
12.15
12.55
12.77
13.22
13.80
14.57
12.96
(a) Analizar si el factor estación del año es influyente, sabiendo que ŝ2y = 1.53.(No considerar
el factor Comunidad).
(b) Razonar estadísticamente cuál es la estación de mayor consumo y la de menor, utilizando
el análisis anterior. Calcular los intervalos de confianza para el consumo medio de cada
estación del año.
(c) Sabiendo que la variabilidad explicada por el factor comunidad es 23.62, construir una
nueva tabla de la varianza, con dos factores, y decidir qué factor es significativo.
(d) Utilizar los resultados del apartado anterior para realizar un contraste de igualdad de
medias del efecto estación y comparar los resultados con los del apartado 2, justificando
las diferencias encontradas.
( NOTA: Utilizar α = 0.05 en todos los contrastes )
5.4 Una instalación típica de almacenamiento de combustible en una Estación de Servicio (gasolinera)
está formada por un tanque enterrado de gran capacidad, al que se encuentran conectados distintos
1
surtidores. La cantidad total de gasolina suministrada en un día se puede determinar midiendo
directamente la variación que se ha producido en el tanque de almacenamiento (Y1j ) o por la suma
de los suministros de los distintos surtidores (Y2j ). La comparación de ambas medidas permite
determinar pérdidas en la instalación enterrada y otras anomalías. En el proceso de comparación
es necesario tener en cuenta que las medidas están afectadas por errores aleatorios. Durante 20 días
se han tomado los valores anteriores en un gasolinera:
Día→
Y1j
Y2j
1
4116,2
4143,6
2
5627,0
5632,0
3
2820,4
2868,1
4
2521,8
2477,7
5
2973,5
2955,4
6
2834,9
2851,9
7
2335,7
2312,7
8
2590,8
2630,6
9
2182,7
2208,9
10
2621,4
2635,9
Día→
Y1j
Y2j
11
4323,6
4305,4
12
1880,7
1877,9
13
2131,4
2159,2
14
3349,6
3366,7
15
2545,0
2566,1
16
2247,3
2281,4
17
1817,5
1854,6
18
1461,3
1461,5
19
1646,5
1607,3
20
1955,4
1956,4
(a) Llamando Dj = Y1j − Y2j a la diferencia en las medidas de un mismo día, contrastar con
α = 0.05
H0 :
H1 :
µD = 0
µD 6= 0
donde Dj tiene distribución N(µD , σ D ). Calcular el nivel crítico del contraste aproximando
la distribución t de Student por la normal.
(b) Los datos anteriores pueden ser analizados mediante un modelo de bloques aleatorizados
tomando el tipo de medida (tanque, surtidores) como un factor y los días como bloques.
Demostrar con caracter general que en el modelo de bloques aleatorizados si el factor tiene
dos niveles la varianza residual cumple:
1
sb2R = sb2D
2
donde sb2D es la estimación de σ 2D del apartado 1.
(c) Teniendo en cuenta lo anterior, demostrar que el contraste correspondiente al factor en el
modelo de bloques aleatorizados es equivalente al contraste del apartado 1.
5.5 Un investigador quiere estudiar el efecto de sexo (hombre, mujer) y tipo de formación (ciencias,
letras) en el dominio del inglés escrito en profesores universitarios. Para ello analiza el número de
incorrecciones gramaticales en artículos científicos enviados a publicación. Para cada combinación
de niveles de los factores se han elegido al azar tres profesores. En la tabla se proporciona el número
de fallos detectados en artículos de 15 páginas
Hombre
Mujer
Letras
8, 6, 13
5, 10, 6
Ciencias
22, 28, 33
12, 14, 9
Contrastar con nivel de significación 0.05 si los efectos principales y la interacción son significativos.
Tener en cuenta que P (F1,8 ≤ 5.32) = 0.95, siendo F1,8 la distribución F con grados de libertad
1 y 8. Interpretar los resultados.
2
5.6 Un alumno, como trabajo de la asignatura de estadística, ha comparado tres marcas distintas (A,B,C)
de palomitas de maíz precocinadas. Cada marca puede prepararse friendolas en una sartén (método
1) o en el horno microondas (método 2). El alumno ha realizado un diseño factorial completo 3×2
con cinco replicaciones en cada uno de los seis tratamientos. La variable respuesta medida es el
porcentaje de granos de maíz que no se han inflado adecuadamente. Los resultados del experimento
se muestran en la tabla, en cada tratamiento se proporciona la media y entre paréntesis la desviación
típica corregida para las cinco replicaciones. Contrastar si la interacción entre los dos factores es
significativa.
Sartén
Horno
A
5.5
(1,4)
3.8
(1,3)
B
3.6
(1,8)
3.4
(0,9)
C
7.5
(2,5)
4.3
(1,3)
5.7 Una característica de la calidad de la gasolina es su índice de octanos. Una refinería de petróleo
tiene cinco fórmulas que pueden emplearse para la obtención de gasolina con plomo o sin plomo.
(a) Para determinar que fórmula proporciona mayor índice de octanos, con cada una de ellas
se ha repetido 10 veces en el laboratorio el proceso de fabricación de gasolina con plomo.
Si el coeficiente de determinación del análisis de la varianza de los resultados es igual a
0.20, contrastar con α = 0.05 si existen diferencias entre las cinco fórmulas para este tipo
de gasolina.
(b) Los valores medios (ȳi• ) para cada fórmula son:
Fórmula
1
2
3
4
5
Media
89.2 90.1 90.7 90.5 89.5
Contrastar con α = 0.05 que fórmulas proporcionan índices de octanos significativamente
distintos y cuales no.
(c) Debido a los problemas medio-ambientales gran parte de la producción futura debe estar
libre de plomo. Para determinar que fórmula de las anteriores produce mejores resultados
en cuanto al índice de octanos , se realizo un diseño experimental similar al anterior (cinco
fórmulas, 10 observaciones en cada fórmula) para la obtención de gasolina sin plomo. El
coeficiente de determinación en este caso es igual a 0.25 y el índice medio para cada fórmula es,
Fórmula
1
2
3
4
5
Media
88.0 89.5 88.5 90.2 89.8
Contrastar (α = 0.05) si existe interacción entre los factores tipo de gasolina (con y sin
plomo) y fórmula.
5.8 Se ha realizado un experimento con dos factores cada uno de ellos con 3 niveles. El 20% de la
variabilidad total está explicada por la interacción de los dos factores y el 40% de la variabilidad
total es debida a la variabilidad residual. Determinar el número de replicaciones necesarias en cada
tratamiento para que la interacción sea significativa con α = 0.01. (Explicar el procedimiento de
cálculo, dejando el resultado indicado en función de las tablas).
3
5.9 Se ha estudiado el efecto de tres hornos diferentes y dos temperaturas (290 o C y 320 o C) en la
duración de cierto componente. Para cada combinación de horno y temperatura se ha replicado
el experimento 3 veces. En la tabla siguiente se proporcionan las medias y desviaciones típicas
(corregidas) de los datos de cada tratamiento.
Horno 1
Horno 2
Horno 3
Temperatura o C
290 o C
320 o C
Media Desv. T. Media Desv. T.
24.56
0.850
18.00
0.265
19.10
1.539
14.40
0.265
18.70
0.458
17.43
0.862
Contrasta si existe interacción entre los factores horno y temperatura (α = 0.05).
5.10 Se desea determinar si cuatro laboratorios dan en promedio los mismos resultados en un análisis
químico. Cada laboratorio ha repetido el análisis cinco veces y los resultados son:
1
58.7
61.4
60.9
59.1
58.2
Laboratorios
2
3
62.7 55.9
64.5 56.1
63.1 57.3
59.2 55.2
60.3 58.1
4
60.7
60.3
60.9
61.4
62.3
La tabla de análisis de la varianza y la comparación de las medias de los cuatros laboratorios se
muestran a continuación:
Analisis de la Varianza
----------------------------------------------------------------------------Fuente
Suma de Cuadrados Gl
Cuadr. Medios
F-Ratio
P-Valor
----------------------------------------------------------------------------Laboratorios
85,9255
3
28,6418
13,33
0,0001
Residual
34,38
16
2,14875
----------------------------------------------------------------------------Total (Corr.)
120,305
19
4
-------------------------------------------------------------------------------Method: 99,0 percent LSD
Laboratorio
Count
Mean
Homogeneous Groups
-------------------------------------------------------------------------------3
5
56,52
X
1
5
59,66
X
4
5
61,12
X
2
5
61,96
X
-------------------------------------------------------------------------------Contrast
Difference
+/- Limits
-------------------------------------------------------------------------------1 - 2
-2,3
2,70784
1 - 3
*3,14
2,70784
1 - 4
-1,46
2,70784
2 - 3
*5,44
2,70784
2 - 4
0,84
2,70784
3 - 4
*-4,6
2,70784
--------------------------------------------------------------------------------
Comparación de las medias de los cuatro laboratorios.
(a) Explica que conclusiones se pueden extraer de estos resultados: ¿Existen diferencias entre
los laboratorios? ¿Qué laboratorios presentan diferencias significativas? Da un intervalo
de confianza al 99% para la media del laboratorio 3.
(b) Según el modelo, la medida yij del laboratorio i en la muestra j tiene distribución normal
de media µi y varianza σ 2 . Los cuatro laboratorios afirman que el error en sus medidas
se corresponde con σ 2 = 1. Aceptando la hipótesis de homocedasticidad contrastar H0 :
σ 2 = 1 frente a H1 : σ 2 > 1.
(c) Para confirmar los resultados se vuelve a repetir el mismo proceso y otro día se vuelve
a analizar por los cuatro laboratorios el producto químico proporcionando otras cinco
medidas. Abajo se incluye la tabla de análisis de la varianza del estudio conjunto de las
40 observaciones con un modelo de dos factores: Laboratorio (4 niveles) y Día (2 niveles),
con 5 replicaciones en cada combinación de día y laboratorio.
Análisis de la varianza
----------------------------------------------------------------------------Suma de Grados
Cuadrados
Fuente
Cuadrados Libertad
Medios
F
P-Val
----------------------------------------------------------------------------A:Laboratorio
186,81
3
62,27
30,21
0,0
B:Día
0,07396
1
0,07396
0,04
0,8
AB
0,40334
3
0,134447
0,07
0,9
RESIDUAL
65,9686
32
2,06152
----------------------------------------------------------------------------TOTAL (CORREGIDA)
253,256
39
5
----------------------------------------------------------------Method: 99,0 percent LSD
Laboratorio
Count
LS Mean
Homogeneous Groups
----------------------------------------------------------------3
10
56,391
X
1
10
59,766
X
4
10
61,238
XX
2
10
62,037
X
----------------------------------------------------------------Contrast
Difference
+/----------------------------------------------------------------1 - 2
*-2,271
1,7
1 - 3
*3,375
1,7
1 - 4
-1,472
1,7
2 - 3
*5,646
1,7
2 - 4
0,799
1,7
3 - 4
*-4,847
1,7
-----------------------------------------------------------------
Interpreta los resultados del análisis conjunto y compáralos con los obtenidos en el primer
análisis.
(d) Contrasta si ha habido un cambio significativo en la varianza σ 2 de un día y otro. (Ayuda.
Comprueba que la varianza residual del modelo factorial es el promedio de las varianzas
residuales de cada día).
5.11 Se ha realizado un experimento para estudiar el efecto de la temperatura (T) y tiempo
de exposición (E) sobre la cantidad absorbida de un compuesto químico por un material
sumergido en él. En el estudio se han empleado tres temperaturas (T1, T2, T3) y tres tiempos
de exposición (E1, E2, E3): cada tratamiento se ha replicado tres veces. La cantidad absorbida
(mg) del compuesto químico en cada uno de los 27 experimentos se muestra en la tabla 1 y
las medias en la tabla 2:
Tabla 1: Cantidad Absorbida (mg)
Tiempo de
Exposición
E1
T1
35.5
29.7
31.5
Temperatura
T2
T3
91.2
70.1
100.7
64.1
82.4
70.1
E2
52.5
53.3
55.0
71.0
77.0
75.6
79.4
77.7
75.1
E3
85.9
85.2
80.2
87.0
86.1
88.1
83.0
87.0
78.5
Tabla 2: Medias de Cantidad Absorbida (mg)
Tiempo de
Exposición
E1
E2
E3
Medias
6
Temperatura
T1
T2
T3
32.23 91.43 68.10
53.60 74.53 77.40
83.76 87.06 82.83
56.53 84.34 76.11
Medias
63.92
68.51
84.56
72.33
La tabla 3 corresponde al análisis de la varianza del experimento y las figuras muestran los gráficos
de los intervalos de confianza para las medias de las tres temperaturas, los tres tiempos de
exposición y los nueve tratamientos por separado.
Fuente
Variabilidad
Temperatura
T. Exposición
Interacción
Residual
Total
Tabla 3: Tabla de análisis de la varianza
Suma de
Grados de
Cuadrados Libertad
Varianzas F
3673.61
2
1836.80 110.58
2112.65
2
1056.32
63.59
2704.44
4
676.11
40.70
299.00
18
16.61
8789.7
26
Intervalos de confianza (95%)
Intervalos de confianza (95%)
91
94
Absorcion
86
81
76
71
66
61
84
74
64
54
1
2
3
1
Tiempo
2
Temperatura
Int. de conf. para las medias de los 9 tratamientos (95%)
105
Absorcion
Absorcion
p-valor
0.0000
0.0000
0.0000
85
65
45
25
T1
T2
T3
T1
T2
E1
E2
7
T3
T1
T2
E3
T3
3
(a) Interpreta los resultados del análisis de la varianza.
(b) Demuestra que si se hubiera utilizado el modelo de un único factor para comparar los
nueve tratamientos, la variabilidad explicada de este modelo (VE’) se puede poner como
suma de las variabilidades explicadas del modelo factorial de la tabla 3:
V E 0 = V E(Temperatura) + V E(Tiempo) + V E(Interacción)
Obtén la tabla del análisis de la varianza del nuevo modelo.
(c) Realiza las comparaciones dos a dos de los nueve tratamientos y elige aquél o aquellos que
proporcionan una absorción mayor (95%).
(d) Comprueba gráficamente la hipótesis de homocedasticidad e interpreta los resultados.
5.12 Se ha realizado un diseño experimental para determinar la influencia de dos factores combinación
de hidrocarburos y cantidad de hidrógeno en el rendimiento de un proceso químico complejo. Se
estudiaron cuatro combinaciones de hidrocarburos (A,B, C y D) y tres niveles en el contenido de
hidrógeno (1,2 y 3). En cada tratamiento se realizaron cuatro réplicas. En la tabla 1 se presentan
los resultados: mejora en tanto por mil respecto a procedimiento estándar. Los números entre
paréntesis de la tabla se corresponden con las medias de cada tratamiento, de los cuatro niveles del
factor hidrocarburos y de los tres niveles de hidrógeno. En la tabla 2 se muestra la tabla de análisis
de la varianza del experimento.
1
Medias
2
Medias
3
Medias
Medias
Tabla 1. Datos
A
B
10.3
10.5
11.1
8.2
15.3
9.7
2.1
8.9
(9.7)
(9.325)
25.8
20.6
25.7
17.1
28.9
21.4
27.8
17.3
(27.05)
(19.1)
28.5
21.0
31.2
26.8
24.8
19.4
26.5
22.2
(27.75) (22.35)
(21.5) (16.925)
y medias entre paréntesis
C
D
Medias
7.2
13.0
5.3
12.9
12.5
5.3
19.1
12.0
(11.025) (10.8)
(10.213)
29.7
17.6
26.3
12.0
22.4
24.6
25.9
23.1
(26.075) (19.325) (22.888)
30.4
20.5
26.6
26.2
34.4
27.8
27.5
21.9
(29.975)
(24.1)
(25.981)
(22.275) (18.075)
8
Etapa
1
1
2
2
1
1
2
2
1
1
2
2
Fuentes
Hidrocarburos
Hidrógeno
Interacción
Residual
Total
Tabla 2. ANOVA
Suma
Grados
Cuadrados Libertad
242.5
3
2234
2
119.3
6
523.7
36
3120
47
Var.
80.85
1117
19.88
14.55
F
5.55
76.7
1.36
p-valor
.0031
.0000
.2546
(a) Comparar las medias de los cuatro niveles del factor Hidrocarburo y las de los tres niveles del factor
Hidrógeno. Indica si existen diferencias significativas con nivel de significación 0.05.
(b) Elige el tratamiento que proporciona el rendimiento óptimo, justificando la respuesta. Da un intervalo de confianza para el valor medio en dichas condiciones con nivel de confianza del 95%.
(c) El experimento se realizó en dos etapas, en una primera etapa se recogieron las 24 observaciones
que se indican en la tabla 1 como etapa 1 y las otras 24 como etapa 2. Los resultados del análisis
de la varianza correspondientes a cada etapa se muestran en las tablas 3 y 4.
Tabla 3. ANOVA - Etapa 1
Suma
Grados
Fuentes
Cuadrados Libert. Var.
Hidrocarburos
115.9
3
38.63
Hidrógeno
1175.0
2
587.7
Interacción
218.4
6
36.39
Residual
76.3
12
6.358
Total
1586.0
23
F
6.07
92.4
5.72
p-valor
.0093
.0000
.0051
Tabla 4. ANOVA - Etapa 2
Suma
Grados
Fuentes
Cuadrados Libert. Var.
F
Hidrocarburos
162.9
3
54.31
3.35
Hidrógeno
1076
2
537.9 33.19
Interacción
94.94
6
15.82 0.976
Residual
194.5
12
16.21
Total
1528
23
p-valor
.0555
.0000
.9762
¿Se puede concluir que en las dos etapas la varianza del error experimental es la misma? (Realiza
el contraste con α = 0.05)
(d) Denominando µ y µ0 a las medias (globales) de los modelos factoriales para cada una de las dos
etapas, contrasta que son iguales ( H0 : µ = µ0 ) con α = 0.01.
5.13 Sea un diseño factorial con 4 factores a 3, 4, 2 y 5 niveles. Calcular el número de parámetros totales
correspondientes a efectos principales e interacciones de orden 2, 3 y 4.
9
5.14 Un centro ha realizado un experimento para mejorar la resistencia a la tensión de ciertos muelles de
acero. En una etapa del proceso el muelle caliente se sumerge en aceite templado. Se han estudiado
tres factores, A (temperatura del acero antes de la inmersión, con tres niveles), B (temperatura del
baño de aceite, dos niveles) y C (concentración de carbono en el acero, dos niveles). El experimento
se ha replicado tres veces. En la tabla se muestra la media y la varianza (corregida) para los tres
datos de cada tratamiento.
A
1
1
1
1
2
2
2
2
3
3
3
3
B
1
1
2
2
1
1
2
2
1
1
2
2
C
1
2
1
2
1
2
1
2
1
2
1
2
yi
40.2
61.1
35.9
57.1
49.0
70.3
46.7
67.6
41.9
62.7
37.1
60.3
ŝ2i
0.25
2.68
2.43
4.44
3.49
7.77
5.08
1.03
4.27
11.41
1.33
6.13
(a) Dar un intervalo del 95 % de confianza para la varianza del error experimental, σ 2 .
(b) Indicar si los efectos principales de A, B y C son significativamente distintos de cero.
(c) Dado σ 2 , construir un intervalo que cumpla que la probabilidad de que ŝ2i (la varianza
muestral corregida de un tratamiento) esté contenido en él sea igual a 0.95. Sustituir σ 2
por su estimador y con ayuda de este intervalo, discutir si se puede rechazar la hipótesis
de homocedasticidad de las observaciones.
5.15 Se desea estudiar la señal recibida por un equipo de ultrasonidos en función de la profundidad a
la que se encuentra el objeto enterrado. En un experimento se han enterrando objetos a 0.5, 1.0,
1.5 y 2.0 metros. En cada distancia se han realizado 10 replicaciones. La tabla muestra la media y
varianza de cada nivel.
Nivel
1
2
3
4
Profundidad
0.5
1.0
1.5
2.0
Num.
10
10
10
10
Media
78.21
50.29
33.49
23.574
Varianza
28.19
11.11
8.86
12.55
Denominando µ1 , µ2 , µ3 y µ4 a las medias de los niveles, realiza el siguiente contraste:
H0 : µ1 − µ2 = µ3 − µ4 ,
H1 : µ1 − µ2 > µ3 − µ4 ,
suponiendo que las observaciones tienen distribución normal, con la misma varianza y que son
independientes (Utiliza α = 0.05). (Ayuda. Llamando δ = (µ1 − µ2 ) − (µ3 − µ4 ), el contraste
se puede escribir como H0 : δ = 0; H1 : δ > 0. Estima µ1 , µ2 , µ3 y µ4 con la media muestral
respectiva).
10
5.16 Un estudio bioquímico ha valorado la cantidad de tres ácidos (a, b, c) en muestras extraídas a
cuatro terneras (1, 2 ,3 y 4) de la misma raza. El análisis es bastante complejo y la determinación
incluye un error de medida. ¿Se puede aceptar la hipótesis de que los tres ácidos se encuentran
en la misma proporción en cada animal? Realiza el contraste con nivel de significación 0.05. (La
variabilidad total es 41.90).
1.
1
2
3
4
Medias
a
11.0
9.8
7.5
7.9
9.05
b
11.4
10.8
10.6
7.6
10.1
11
c
12.7
13.7
11.5
10.1
12.0
Medias
11.7
11.43
9.87
8.53
10.38
Capítulo 6. Regresión lineal
6.1 Con los datos de la tabla, se pide:
x
y
-2
1.1
-2
1.3
-1
2.0
-1
2.1
0
2.7
0
2.8
1
3.4
1
3.6
2
4.0
2
3.9
3
3.8
3
3.6
(a) Estimar un modelo de regresión simple con y como variable dependiente y x como regresor.
Indicar si el modelo es apropiado, justificando la respuesta.
(b) Estimar el modelo
yi = β 0 + β 1 xi + β 2 x2i + ui .
6.2 La ley de Hubble sobre la expansión del universo establece que dadas dos galaxias la velocidad de
desplazamiento de una respecto a la otra es v = Hd, siendo d su distancia y H la constante de
Hubble. La tabla proporciona la velocidad y la distancia de varias galaxias respecto a la Via Láctea.
Se pide:
Galaxia
Virgo
Pegaso
Perseo
Coma Berenices
Osa Mayor 1
Leo
Corona Boreal
Géminis
Osa Mayor 2
Hidra
Distancia
(millones años luz)
22
68
108
137
255
315
390
405
700
1100
Velocidad
(103 km/s)
1.21
3.86
5.15
7.56
14.96
19.31
21.56
23.17
41.83
61.14
Tabla: Distancia y velocidad de desplazamiento de las distintas galaxias a la Via Lactea.
Nota: Obsérvese que según el modelo de Hubble la regresión debe pasar por el origen. Tómese 1
año luz = 300 000 km/s × 31 536 000 s = 9.46 1012 km.
(a) Estimar por regresión la constante de Hubble.
(b) Como T = d/v = d/Hd = 1/H, la inversa de la constante de Hubble representa la edad
estimada del Universo. Construir un intervalo de confianza del 95% para dicha edad .
6.3 Estimar por máxima verosimilitud los parámetros β 1 y β 2 del modelo
yi = β 1 x1i + β 2 x22i + ui
; ui ; N (0, σ).
¿En qué condiciones los estimadores obtenidos por máxima verosimilitud son iguales que los obtenidos
por mínimos cuadrados?
6.4 Sir Francis Galton (1877) estudió la relación entre la estatura de una persona (y) y la estatura de
sus padres (x) obteniendo las siguientes conclusiones:
1
(a) Existía una correlación positiva entre las dos variables.
(b) Las estaturas de los hijos cuyos padres medían más que la media era, en promedio, inferior
a la de sus progenitores, mientras que los padres con estatura inferior a la media en
promedio tenían hijos más altos que ellos, calificando este hecho como de ”regresión” a la
media.
Contrastar (α = 0.05) estas dos conclusiones con la ecuación ŷ = 17.8 + 0.91x resultante de estimar
un modelo de regresión lineal entre las variables (en cm.) descritas anteriormente para una
muestra de tamaño 100 si la desviación típica (estimada) de β̂ 1 es 0.04.
6.5 Demostrar que en un modelo de regresión simple y y el estimador de la pendiente β̂ 1 son independientes. Utilizar esta propiedad para calcular la varianza de β̂ 0 = y − β̂ 1 x.
6.6 La matriz de varianzas de las variables X1 , X2 e Y es


25 27
14
 27 36 19.2 
14 19.2 16
Siendo X 1 = 30, X 2 = 40, Y = 100 y el número de datos n = 10. Se pide:
(a) Realizar la regresión simple entre Y (variable dependiente) y X1 , dando el intervalo de
confianza para la pendiente de la recta con α = 0.05. Hacer lo mismo con Y y X2 .
(b) Realizar la regresión múltiple entre Y (variable dependiente) y X1 , X2 , en desviaciones a
la media.
(c) Indicar si los coeficientes de la regresión anterior son significativos.
(d) Calcular R2 para los tres modelos, comentar los resultados obtenidos e indicar qué modelo
eligiría y por qué.
6.7 Demostrar que el coeficiente de correlación múltiple en el modelo general de regresión es igual al
coeficiente de correlación lineal entre la variable observada y y la prevista yb.
6.8 La resistencia a la tracción (y) de una aleación metálica en función de la temperatura de templado
(x) se ha ajustado con una ecuación de regresión para 30 observaciones resultando:
ŷ = 276.1 + 1.9x, ŝR = 15.7, R2 = 0.43
¿Se puede concluir con una confianza del 95% que la temperatura de templado tiene efecto significativo en la resistencia a la tracción.?
6.9 El coeficiente de determinación en un modelo de regresión simple es R2 = 0.75. Si el número de
observaciones es n = 100, contrasta la hipótesis H0 : β 1 = 0 frente a la alternativa H1 : β 1 6= 0
(α = 0.05).
6.10 La masa M de un cristal de hielo depositado en una cámara a temperatura (-5o C) y humedad
relativa constante crece según la ecuación M = αT β , donde T es el tiempo y α y β son parámetros
2
desconocidos. La relación anterior se linealiza con la transformación logarítmica, estimándose el
siguiente modelo
log M = log α + β log T + u
donde el término añadido u son los errores experimentales, que se consideran aleatorios e independientes con distribución normal, N(0,σ 2 ). Diez cristales del mismo tamaño y forma se introdujeron
en una cámara, extrayéndose secuencialmente según unos tiempos previamente establecidos. Para
determinar la influencia del tipo de cámara, se repitió exáctamente el experimento en una segunda
cámara. Los valores de ŝR para la cámara 1 y 2 son 0.64 y 0.50, respectivamente. Los modelos
estimados para cada cámara, XT X y (XT X)−1 son:
log M1 = −7.30 + 2.40 log T
log M2 = −5.74 + 2.03 log T
T
−1
(X X)
=
µ
T
X X=
µ
18.27 −3.89
−3.89 0.835
10.00 46.66
46.66 218.9
¶
¶
(a) Contrastar con nivel de significación 0.05 si los dos modelos tienen la misma pendiente. Lo
mismo para la ordenada en el origen. (NOTA.- Aceptar que la varianza de los dos modelos
es la misma y estimarla como el promedio de las dos varianzas residuales calculadas.)
(b) Un modelo de regresión múltiple Y = Xβ + U, se replica, es decir se obtienen dos vectores
de variables respuesta Y1 , Y2 , para los mismo regresores (matriz X). Demostrar que si
β̂ 1 y β̂2 son los resultados de la estimación de β utilizando por separado la variable Y1 e
Y2 ; entonces el estimador de β con todos los datos es (β̂1 +β̂2 )/2.
(c) Estimar un único modelo con los datos de las dos cámaras. Sabiendo que YT Y = 306.8,
donde Y = log M , dar un intervalo de confianza al 99% para los dos parámetros.
6.11 Se ha estimado un modelo de regresión para la estatura (y) de un grupo de adultos y sus estaturas
a los 7 (x1 ) y 14 (x2 ) años. La desviación típica residual obtenida es 5 cm y la desviación típica
del coeficiente de x1 (estatura a los 7 años) resulta 2.4, siendo este efecto no significativo al 95%.
Sin embargo, un segundo modelo de regresión que incluya sólo a esta variable (x1 ) conduce a una
desviación típica residual de 7 cm y a un coeficiente de regresión de 2 con desviación típica de 1.
¿Qué podemos concluir con estos resultados de la correlación entre x1 y x2 ?
6.12 En la tabla 1 se muestran los resultados de un experimento en el que se estudiaron las pérdidas por
abrasión (rozamiento) de material de goma empleado en la fabricación de neumáticos en función
de la dureza de la goma en grados Shore y de su resistencia a la tensión. Esta última variable está
representada por dos únicos valores, -1 para las gomas con una resistencia máxima a la tensión menor
de 180 kg/cm2 y con +1 aquellas que presentan una resistencia máxima superior a 180 kg/cm2 . Los
resultados del modelo de regresión múltiple (P érdidas = β 0 + β 1 Dureza + β 2 Re sistencia +ui ) se
muestran en las tablas 1 y 2.
(a) ¿Hay diferencias significativas en las pérdidas observadas en gomas con resistencia baja
(-1) y en gomas con resistencia alta (+1)?. Explicar el significado de β 2 (coeficiente de
Resistencia) y dar un intervalo de confianza de 95% para el mismo.
3
(b) Para comprobar si el efecto de la dureza en las pérdidas es el mismo para las gomas don
resistencia alta y baja se planteó el siguiente modelo:
P érdidas = β 0 + β 1 Dureza + β 2 Re sistencia + β 3 Dureza × Re sistencia + ui .
Explicar de forma concisa el significado de cada uno de los tres parámetros del modelo.
(c) Los resultados de la estimación del modelo del apartado 2 se proporcionan en la tabla 3 y
en la figura siguiente. Teniendo en cuenta los resultados de la tabla 2 y 3, elegir el modelo
que relaciona las pérdidas por rozamiento con las variables resistencia y dureza. Justificar
la respuesta. ¿Por qué cambia tanto el nivel crítico (p-value) correspondiente a la variable
Resistencia en uno y otro modelo?.
(d) En la tabla 1 se proporcionan los valores previstos y los residuos del modelo anterior.
Comprobar la hipótesis de homocedasticidad.
DATOS
Dureza
53
55
56
60
61
64
66
68
71
71
75
79
81
81
86
45
51
59
59
65
68
71
74
80
81
82
83
86
88
89
Resistencia
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Pérdidas
221
206
228
166
175
164
154
113
136
112
128
82
55
32
45
372
341
249
340
283
196
219
267
186
215
155
97
148
64
114
RESULTADOS
Predicción Residuos
227,1
-6,1
215,1
-9,1
209,1
18,9
185,1
-19,2
179,2
-4,2
161,2
2,8
149,2
4,8
137,3
-24,3
119,3
16,7
119,3
-7,3
95,4
32,6
71,4
10,6
59,4
-4,4
59,4
-27,4
29,5
15,5
378,4
-6,4
342,5
-1,5
294,6
-45,6
294,6
45,4
258,7
24,3
240,7
-44,7
222,8
-3,8
204,8
62,2
168,9
17,1
162,9
52,1
156,9
-1,9
150,9
-53,9
133,0
15,0
121,0
-57,0
115,0
-1,0
TABLA 1. Datos, valores previstos y residuos del modelo de regresión: P érdidas = β 0 + β 1 Dureza +
β 2 Re sistencia + ui
4
TABLA 2.
Multiple Regression Analysis
Dependent variable: Perdidas
Parameter
Estimate
Standard Error T Statistic
CONSTANT 596,075
32,8079
18,1686
Dureza
-5,98636
0,46042
-13,0019
Resistencia
51,7421
5,51215
9,38692
Analysis of Variance
Source
Sum of Squares Df
Mean Square
Model
200957,0
2
100478,0
Residual
24054,6
27
890,909
Total (Corr.) 225011,0
29
P-Value
0,0000
0,0000
0,0000
F-ratio
112,78
P-Value
0,0000
R-squared=89,3096 percent
R-squared (adjusted for d.f.)=88,5177 percent
Standard Error of Est.=29,8481
Mean absolute error =21,1946
Durbin-Watson statistic=2,25411
TABLA 3.
Multiple Regression Analysis
Dependent variable: Perdidas
Parameter
Estimate
Standard Error T Statistic
CONSTANT
592,59
34,4264
17,2132
Dureza
-5,93173
0,486879
-12,1832
Resistencia
65,4644
34,4264
1,90157
Dureza×Resistencia -0,196688
0,486879
-0,403978
Analysis of Variance
Source
Sum of Squares Df
Mean Square
Model
201107,0
3
67035,6
Residual
23904,5
26
919,404
Total (Corr.)
23904,5
29
P-Value
0,0000
0,0000
0,0684
0,6895
F-ratio
72,91
P-Value
0,0000
R-squared=89,3763 percent
R-squared (adjusted for d.f.)=88,1505 percent
Standard Error of Est.=30,3217
Mean absolute error =21,1085
Durbin-Watson statistic=2,25622
6.13 Se ha estimado un modelo de regresión múltiple para estudiar el efecto de tres regresores x1 , x2 , x3
sobre la resistencia de ciertas fibras textiles con n = 15 observaciones, resultando:
ŷi = 17.36 + 0.95x1i + 1.03x2i − 1.58x3i ,
ŝ2R = 2.54,
R2 = 0.92
Realiza el contraste general de regresión y los contrastes individuales (α = 0.05) si
5
(X̃ T X̃)−1


0.0051 −0.0041 0.0204
=  −0.0041
0.4033 0.1836  .
0.0204
0.1836 0.4818
6.14 Los datos mostrados son el resultado de un experimento para caracterizar la duración de un material
utilizado en un torno de corte de acero, en función de la velocidad de corte (X1 ) y del ratio de
alimentación (X2 ). Por sencillez, las variables se han escalado de la siguiente forma
V =
X1 − 900
,
300
V
-1
-1
1
1
-1
-1
1
1
0
0
F
-1
-1
-1
-1
1
1
1
1
√
-√ 2
2
Y
54.5
66.0
11.8
14.0
5.2
3.0
0.8
0.5
86.5
0.4
F =
V
√
-√ 2
2
0
0
0
0
0
0
0
0
X2 − 13
6
F
0
0
0
0
0
0
0
0
0
0
Y
20.1
2.9
3.8
2.2
3.2
4.0
2.8
3.2
4.0
3.5
y se ha estimado el siguiente modelo
log(Yi ) = β 0 + β 1 Vi + β 2 Fi + β 3 Vi2 + β 4 Fi2 + β 5 Vi × Fi + Ui
siendo Ui errores aleatorios con distribución normal de media cero y varianza constante. y se ha
estimado el siguiente modelo
log(Yi ) = β 0 + β 1 Vi + β 2 Fi + β 3 Vi2 + β 4 Fi2 + β 5 Vi × Fi + Ui
siendo Ui errores aleatorios con distribución normal de media cero y varianza constante. Los
resultados principales del análisis son los de la siguiente tabla.
Interpreta los resultados del análisis de regresión, indica de forma específica los resultados de los contrastes individuales de los parámetros β i y del contraste general de regresión si se utiliza un nivel
de significación α = 0.01.
6
Análisis de Regresión Múltiple
---------------------------------------------------------------------------Variable Dependiente: LOG10(Duración)
----------------------------------------------------------------------------Desviación
Estadístico
Parámetro
Estimación
Típica
t
P-Valor
----------------------------------------------------------------------------CONSTANTE
0,515979
0,045626
11,3089
0,0000
V
-0,343176
0,0372527
-9,21213
0,0000
F
-0,690076
0,0372536
-18,5237
0,0000
V^2
0,181733
0,0436797
4,16058
0,0010
F^2
0,125106
0,043684
2,86389
0,0125
V x F
-0,0316418
0,045626
-0,693503
0,4993
----------------------------------------------------------------------------Análisis de la Varianza
----------------------------------------------------------------------------Suma de
Grados Cuadrados
Fuente
Cuadrados Libertad
Medios
F
P-Valor
----------------------------------------------------------------------------Modelo
7,60038
5
1,52008
91,27
0,0000
Residual
0,233154
14
0,0166539
----------------------------------------------------------------------------Total (Corr.)
7,83354
19
6.15 En un modelo de regresión simple se ha obtenido un coeficiente de correlación igual a −0.8. Si el
número de observaciones es n = 150, ȳ = 22 y la variabilidad total es 320. Construir un intervalo
de confianza al 95% para el valor medio de la variable dependiente (y) cuando x (regresor) es
igual a x̄. (Aproximar la distribución t de Student correspondiente por una distribución normal, si
Z ; N (0, 1), P (Z ≤ 1.96) = 0.975).
6.16 Sea x1 la altura del tronco de un árbol y x2 el diámetro del mismo en su parte inferior. El volumen
y del tronco de árbol puede ser calculado aproximadamente con el modelo
yi = αx1i x22i + ui ,
según el cual, el volumen del tronco es proporcional al volumen de un cono con las medidas x1i , x2i ,
siendo α el parámetro (desconocido) de proporcionalidad, más una componente de error aleatorio
ui . La tabla siguiente contiene los datos (en metros y metros cúbicos) correspondientes a una
muestra aleatoria de 15 troncos de una variedad de pino.
Obs.
1
2
3
4
5
6
7
8
x1i
10,1
11,3
20,4
14,9
23,8
19,5
21,6
22,9
x2i
0,117
0,13
0,142
0,193
0,218
0,236
0,257
0,269
x1i x22i
0,14
0,19
0,41
0,56
1,13
1,09
1,43
1,66
yi
0,062
0,085
0,204
0,227
0,47
0,484
0,623
0,722
7
Obs.
9
10
11
12
13
14
15
x1i
19,8
26,8
21
27,4
29
27,4
31,7
x2i
0,297
0,328
0,351
0,376
0,389
0,427
0,594
x1i x22i
1,75
2,90
2,60
3,90
4,40
5,00
11,2
yi
0,821
1,280
1,034
1,679
2,073
2,022
4,630
(a) Estimar α por máxima verosimilitud suponiendo que las variables ui tienen distribución
normal de media cero, con la misma varianza e independientes.
(b) Un tronco tiene una altura de 20 metros y un diametro de 0.25 metros, dar un intervalo de
predicción de su volumen (95% de confianza). La varianza residual del modelo es 0,0058.
(c) En el análisis de los residuos se observa que la varianza de los errores crece con el volumen
del tronco. Para obtener homocedasticidad se propone el siguiente modelo transformado
utilizando logaritmos neperianos,
log yi = β 0 + β 1 log x1i + β 2 log x2i + ui
El resultado de la estimación es:
Parámetro
β0
β1
β2
Estimación
-1,45
1,14
1,86
y


0, 1250
0, 0212 −0, 0317
c b =  0, 0212
M
0, 0082 −0, 0051 
β
−0, 0317 −0, 0051
0, 0042
c b = sb2 (XT X)−1 (X es la matriz de los regresores transformados según el modelo)
siendo M
R
β
La transformación logarítmica del modelo inicial (αx1i x22i ) implicaría que β 1 = 1 y β 2 = 2.
Contrastar (nivel de significación 0.05) si estos dos valores son aceptables.
(d) Con este modelo, dar un intervalo de predicción (95% de confianza) para el volumen del
tronco del apartado 2 si la varianza residual es 0,0031.
6.17 La empresa de bebidas gaseosas CIBELES quiere determinar la influencia sobre la presión interna
(yi ) en los botes de refresco de dos variables continuas (x1 , x2 ) y del tipo de bebida (NARANJA=1,
LIMÓN=2 y COLA=3). Para distintos valores de x1 y x2 y 20 botes de cada sabor, ha medido
la presión interna. El tipo de bebida se representa por las variables z1 , z2 y z3 qué identifican el
sabor NARANJA, LIMÓN y COLA, respectivamente. El modelo estimado de regresión de y con
respecto a x1 , x2 , z2 y z3 es:
ŷ = 19.4 + 77.2x1 − 50.8x2 + 2.95z2 + 5.52z3 ;
donde
T
−1
(X X)



=


sbR = 4.32

0.1772 −0.6909 −0.5043 −0.0605 −0.0896
−0.6909
5.8085
0.2541
0.1478
0.2444 

−0.5043
0.2541
5.0070 −0.0680
0.1216 

−0.0605
0.1478 −0.0680
0.1049
0.0546 
−0.0896
0.2444
0.1216
0.0546
0.1127
(a) Realizar los contrastes individuales con α = 0.01, indicando las variables que influyen
significativamente en la presión. Interpretar el resultado explicando el significado de cada
parámetro.
(b) Si se realiza una regresión entre la presión interna (yi ) y las dos variables continuas x1 y
x2 se obtiene el siguiente modelo de regresión
ŷ = 23.86 + 65.1x1 − 56.3x2 ;
ŝR = 4.78.
Contrastar (α = 0.01) conjuntamente que el tipo de bebida no influye. (H0 : α2 = α3 = 0
frente a H1 : α2 ó α3 es distinto de cero).
8
(c) ¿Existe diferencia significativa en las presiones internas de los botes de LIMÓN y COLA?
(α = 0.01)
6.18 Se ha ajustado el siguiente modelo de regresión múltiple con una muestra de 86 vehículos, de
los cuales 31 son japoneses , 41 norteamericanos y 14 europeos, dónde la variable dependiente es
el consumo, y los regresores: Pot (potencia) está expresada en unidades de 100 Cv, el Peso en
Toneladas, ZJ toma el valor 1 si el coche es japonés y cero en los demás, y ZE toma el valor 1 para
los coches europeos y cero en los demás.
yb = 3.305 + 0.843 Pot + 3.829 Peso + 0.440 ZJ + 1.127 ZE
T
−1
(X X)



=


sb2R = 0.506,
R2 = 75.7%

4.791e − 1
5.054e − 2 −3.794e − 1 −9.157e − 2 −4.682e − 2
5.054e − 2
1.595e − 1 −1.931e − 1 −3.443e − 3 −1.262e − 2 

−3.794e − 1 −1.931e − 1
4.646e − 1
5.210e − 2
2.865e − 2 

−9.157e − 2 −3.443e − 3
5.210e − 2
6.667e − 2
2.744e − 2 
−4.682e − 2 −1.262e − 2
2.865e − 2
2.744e − 2
9.759e − 2
Dar el intervalo de confianza para el consumo previsto de un coche norteamericano con una potencia
de 120 Cv y 1600 kg de peso.
6.19 Sea X la matriz completa de un diseño 2k , por ejemplo para el caso de k = 3,






X=





1
1
1
1
1
1
1
1
−1
1
−1
1
−1
1
−1
1
−1
−1
1
1
−1
−1
1
1
−1
−1
−1
−1
1
1
1
1
1
−1
−1
1
1
−1
−1
1
1
−1
1
−1
−1
1
−1
1
1
1
−1
−1
−1
−1
1
1
−1
1
1
−1
1
−1
−1
1












e Y el vector de dimensión n = 2k con los valores de la variable respuesta correspondiente al experimento. El análisis estadístico del experimento se puede realizar mediante el modelo de regresión
múltiple
Y = Xβ + U,
donde β = (β 0 , β 1 , ..., β n−1 )T es el vector de parámetros y U = (u1 , u2 , ..., un )T el vector de variables
aleatorias independientes con distribución normal de media cero y desviación típica σ. Demostrar
b es σ 2 /n y que el error de predicción de una observación
que para cualquier i, la varianza de β
i
k
nueva en cualquiera de los 2 tratamientos tiene como varianza 2σ 2 .
6.20 Demuestra que la recta de regresión pasa por el punto (x̄, ȳ) y que el intervalo de predicción para
la media de la variable respuesta cuando el regresor toma el valor igual a x̄, es
ŝR
ȳ ± tα/2 √
n
donde n es el número de observaciones, tα/2 se obtiene de la distribución t de Student con n − 2
grados de libertad y ŝ2R es la varianza residual.
9
6.21 La masa M de un cristal de hielo depositado en una cámara a temperatura (-5o C) y humedad
relativa constante crece según la ecuación M = αT β , donde T es el tiempo en horas, y α y β
son parámetros desconocidos. La relación anterior se linealiza con la transformación logarítmica,
estimándose el siguiente modelo
log M = log α + β log T + u
donde el término añadido u son los errores experimentales, que se consideran aleatorios e independientes con distribución normal, N(0,σ 2 ). Diez cristales del mismo tamaño y forma se introdujeron
en una cámara, extrayéndose secuencialmente según unos tiempos previamente establecidos. El
modelo estimado, X T X y (X T X)−1 son:
d
log
Mi = −7.30 + 2.40 log Ti ,
T
X X=
µ
10.00 46.66
46.66 218.9
¶
T
−1
(X X)
ŝR = 0.64
=
µ
18.27 −3.89
−3.89 0.835
¶
Predice el crecimiento medio esperado del cristal después de 3 horas en la cámara con un intervalo
al 95% de confianza.
6.22 La siguiente tabla muestra los datos recogidos en un estudio sobre el efecto de disolver azufre en la
tensión superficial del cobre fundido
Variables
X: % en Peso deAzufre
Y: Reducción de Ten.Sup.
(dos replicaciones)
Observaciones
0.034 0.093 0.30
301
430
593
316
422
586
0.40
630
618
0.61
656
642
0.83
740
714
Se ha estimado el modelo de regresión lineal simple con log(X) como regresor. El resultado del
análisis de regresión y la gráfica del modelo se proporcionan más abajo.Se ha estimado el modelo de
regresión lineal simple con log(X) como regresor. El resultado del análisis de regresión y la gráfica
del modelo se proporcionan más abajo.
Análisis de Regresión: Modelo Logarítmico Y = a + b*ln(X)
-------------------------------------------------------------------------Variable dependiente: Tensión Superficial
Variable Independiente: Azufre
-------------------------------------------------------------------------Desviación
Estadístico
Parámetro
Estimación
Típica
t
P-Valor
-------------------------------------------------------------------------Constante
735,784
7,47038
98,4935
0,0000
Pendiente
127,457
4,12867
30,8712
0,0000
-------------------------------------------------------------------------Analisis de la Varianza
-------------------------------------------------------------------------Fuente
Suma de
Grados
Cuadrados
Cuadrados Libertad
Medios
F
P-Va
-------------------------------------------------------------------------Modelo
241678,0
1
241678,0
953,03
0,0
Residual
2535,9
10
253,59
-------------------------------------------------------------------------Total (Corr.)
244214,0
11
10
Tension_Sup
800
700
600
500
400
300
0
0,2
0,4
0,6
0,8
1
Azufre
Utiliza el modelo para predecir la reducción de la tensión superficial del cobre fundido con un 0.8%
de azufre disuelto. Da un intervalo de confianza del 95% para la predicción.
6.23 Se ha estimado un modelo de regresión con dos variables independientes y 20 observaciones obteniéndose la siguiente ecuación:
ybi = −19.17 + 0.222x1 + 0.659x2 ,
La matriz de varianzas de los regresores (x1 , x2 ) es
µ
¶
25.23 24.29
.
24.29 27.40
sb2R = 6.468
b ,β
b T
Teniendo en cuenta que la matriz de varianza teórica de los estimadores bb = [β
1 2 ] es


σ2
r σ2
−
 n s2 (1 − r2 )
n s1 s2 (1 − r2 ) 
,
1

2


σ2
rσ
−
2
2
2
n s1 s2 (1 − r )
n s2 (1 − r )
donde n es el número de observaciones, r el coeficiente de correlación entre los regresores, s21 y
s22 las varianzas muestrales de los regresores y σ 2 la varianza del modelo de regresión; realiza los
contrastes individuales de los dos regresores, α = 0.05. Interpreta el resultado de los dos contrastes.
11
Estadística
Soluciones a los ejercicios propuestos.
Curso 2004/05
1
Capítulo 1. Descriptiva
1.1
xp = (10 + 18 + 22 + 150)/4 = 50; sp =
r
(10 − 50)2 + ... + (150 − 50)2
= 57.9; xa = 10(10/200) +
4
=
s2x
... + 150(150/200) = 117.04;
p
sa = (10 − 117.04)2 (10/200) + ... + (150 − 117.04)2 (150/200) = 57.1.
s2z
+ s2y
1.2
Si es posible el resultado, z = x + y;
1.3
x0 = k1 x; y 0 = k2 y; cov(x0 , y 0 ) = k1 k2 cov(x, y); sx0 = |k1 | sx ; sy0 = |k2 | sy ; r(x0 , y0 ) = r(x, y).
1.4
cov(x, y) = bs2x ; s2y = b2 s2x ; r(x, y) = 1.
¯
¯
¯ s2x
rsx sy ¯¯
¯
= s2x s2y − r2 s2x s2y ≥ 0; 1 ≥ r2 .
¯ rsx sy
s2y ¯
1.5
1.6
1.7
1.8
+ 2sxy ; sxy
¯
¯
¯
4
−11/2 ¯¯
¯
= −11/2; ¯
¯ ≥ 0.
−11/2
9
Si. Determinante = −2. No puede ser una matriz de varianzas.
No. y = log10 xG ; xG es la media geométrica; xG < xA ; log10 xG < log10 xA ; 2.5 ≮ 2.
Q1 = −0.16; Q2 = mediana = −0.0.3; Q3 = 0.18; RI = 0.34; LI = −0.67; LS = 0.69, como el valor
máximo muestral es 0.45, entonces LS = 0.45.
Capítulo 2. Probabilidad
2.1
p = 0.472
2.2
La función de densidad es fz (z) =
2.4
k = log 2; E[X] =
2z
r2
con 0 < z < r y la función de distribución es Fz (z) =
z2
r2
25
y V ar[X] ' 51.67
log 2
¸
mV 2
= 32 kT,que es independiente de su masa. Fijada la temperatura T , cualquier gas tiene
2.5 E
2
el mismo valor medio de energía cinética molecular independientemente de su masa.
·
2.6
2.7
2.8
fY (y) = 1 con 0 ≤ y ≤ 1
10

x2

R ∞ x −
p =  5 2 e 2σ 2 dx = e−10/8
σ
R∞
R∞
Ra
E[X] = 0 xfX (x)dx + a xfX (x)dx ≥ a xfX (x)dx = aP (x > a) y despejando se obtiene la
desigualdad de Markov.
1
171
3
.
k = , E[Y ] = , V ar[Y ] =
2
8
320
½
2 √
c si x2 + y 2 ≤ r2
, fX (x) = 2 r2 − x2 , −r ≤ x ≤ r
2.10 fXY (x,y) =
2
2
2
0 si x + y > r
πr
2.9
2
2.11
2.12
2.13
1
1
(a) k = 6; E[p] = ; V ar[p] = .
2
20
´10
³R
0.75
6p(1 − p)dp
= 0.183
(b)
0
fU (u) = 2F (u)f (u)
La función de probabilidad para el máximo es:
Valor
1
2
3
4
5
6
Probabilidad
1/36
3/36
5/36
7/36
9/36
11/36
La función de probabilidad para el mínimo es:
Valor
1
2
3
4
5
6
Probabilidad
11/36
9/36
7/36
5/36
3/36
1/36
La función de probabilidad para la media es:
Valor
1
1, 5
2
2, 5
3
3, 5
4
4, 5
5
5, 5
6
Probabilidad
1/36
2/36
3/36
4/36
5/36
6/36
5/36
4/36
3/36
2/36
1/36
2.14
fXY (x, y) 6= fx (x)fY (y), por lo que X e Y no son variables aleatorias independientes.
2.15
(a) P (Z = n) =
Pn
−(λ1 +λ2 )
k=0 P (X = k)P (Y = n − k) = e
dividiendo por n!, y utilizando que (λ1 + λ2 )n =
3
Pn
k=0
Pn
k=0
λk1 λn−k
2
, multiplicando y
k!(n − k)!
n!
λk λn−k , se obtiene que:
k!(n − k)! 1 2
P (Z = n) =
e−(λ1 +λ2 )
(λ1 + λ2 )n ,
n!
que es la probabilidad de Poisson con parámetro λ = λ1 + λ2.
(b) P (X = k|Z = n) =
P (X = k|Z = n) =
2.16
¡n¢
k
´k ³
´n−k
³
λ1
n!
λ1
λ2
, si llamamos p =
,
+λ
+λ
λ
λ
1
2
1
2
k!(n − k)!
λ1 + λ2
(p)k (1 − p)n−k que es una binomial de parámetros n y p =
λ1
λ1 + λ2
P (X < 0.3|Y = 0.8) = 0.09
Sea X la variable llegada de clientes en una hora, X1 la variable llegada de clientes en los 15
primeros minutos de esa hora y X2 la variable llegada de clientes en los 45 últimos minutos de esa
hora. La probabilidad pedida:
µ ¶2
1
.
P (X1 = 2|X2 = 2) =
4
2.17
2.18
(a) k = 8
(b) P (X < 0.5|Y = 0.5) = 1
(c) Las variables aleatorias X e Y no son independientes ya que el campo de variación de X depende
de Y.
2.19
2.20
V ar(Z) = 0
LLamando X al tiempo de vida del receptor e Y al tiempo de vida del amplificador, P (X < Y ) =
2
.
3
2.21
El número medio de años que dura una máquina es:
RT
E[Y ] = 0 xfx (x)dx + T (1 − F (T )).
Por lo tanto el número medio esperado de máquinas empleadas en un año es:
RT
1
= [ 0 xfx (x)dx + T (1 − F (T ))]−1 .
E[Y ]


6 −2
4
6 −4 
2.22 MZ =  −2
4 −4
6
2.23
ρ = 0. Las variables no son independientes porque por ejemplo P (Y1 = 0|Y2 = 0) = 0 6= P (Y1 = 0)
2.24
(a) fX (x) = 2x con 0 < x < 1, fY (y) =
ya que fXY (x, y) = fX (x)fY (y)
(b) P (X + Y < 1) =
y
con 0 < y < 2. Las variables X e Y son independientes
2
1
24
4
2.25
FX (x) = 1 − e−ax ; x ≥ 0 y FY (y) = 1 − e−ay ; y ≥ 0. Como FXY (x, y) = FX (x)Fy (y) las variables
aleatorias X e Y son independientes.
P (X < 1, Y ≥ 2) = (1 − e−a )e−2b ; P (X < 1) = 1 − e−a y P (Y ≥ 2) = e−2b .
1
3
2.26
P (T1 < 1|T2 > 2) =
2.27
fY (y) = − ln(1 − y) con 0 ≤ y ≤ 1
2.28
p=
2.29
Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))] = E[XY ] − E[X]E[Y ],
1
2
se sustituye Y = U + V, obteniendo:
Cov(X, Y ) = E[(X(U + V )] − E[X]E[U + V ] = E[XU ] − E[X]E[U ] + E[XV ] − E[X]E[V ] =
= Cov(X, U ) + Cov(X, V )
2.30
(a) Sea Y el número de pruebas a realizar, E[Y ] = 51 × 0.395 + 1 × 0.605 = 20.75 ' 21
(b) Sea A el suceso de que un individuo sea portador del virus y B el suceso el resultado dela
análisis ha resultado positivo, P (A|B) = 0.025.
µ
¶
n
2.31 P (X = n) =
pk (1 − p)n−k+1 .
k−1
2.32
16/7
2.33
p=1−
2.34
(a) e−3
(b) e−6
(c) 1 −
P4
1 i
i=1 ( 2 )
= 0.0625
36
6!
63
3!
P15
−9
i=0 e
9i
i!
3 ( 3 )2
(d) e 5 5
2!
−
w
b b−1 −( )b
2.35 La función de densidad es fW (w) = b w e a con a > 0, < b > 0, w > 0 y la función de
µ w ¶b a
−
distribución es FW (w) = 1 − e a
2.36
p = 0.3
2.37
p = 0.065
2.38
(a) p = 0.76 × 0.37 × 0.76 = 0.21
5
(b) Sea D el tiempo de vida de la depuradora P (D < T + 1000|D > T ) = 0.049. No depende de
T, por lo que no está justificado renovar la depuradora antes del fallo ya que la probabilidad
de fallo no depende del tiempo que ha estado funcionando.
2.39
2.40
2.41
p = 0.175
β
β
p = e−k(t2 −t1 )
3
0
Sea X el número de peces capturados en 15 minutos, P (X > 1|λ = ) = 0.5276. Sea X el número
4
0
0
de peces capturados en dos horas de pesca P (X = 5|λ = 6) = 0.1606.
1
1000
2.42
λ(t) =
2.43
Utilizando la aproximación a la normal a ≥ 9.
y
−
1
1
fY (y) = √ √2π e 2 con y > 0
y
2.44
2.45
Mediana= 0.674σ
2.46
(a) 0.976
(b) 0.0229
(c) 0.999
(d) 0.1
2.47
(a) 0.3142
(b) 0.119
(c) 0.7103
2.48
X = peso de caja con 100 sobres;
X ∼ N (µ = 100 × 8 + 30 = 830; σ =
√
100 × 0, 25 = 5);
P (X > 820) = 1 − φ( 820−830
) = 0, 0228;
5
Y = peso de caja con 199 sobres;
Y ∼ N(µ = 99 × 8 + 30 = 822; σ =
√
99 × 0, 25 = 4, 975);
P (Y > 820) = 1 − φ( 820−822
4,975 ) = 0, 656
2.49
Y = número de veces que sale el número elegido
Y ∼ B(n = 3; p = 1/6);
X = balance del jugador = Y − 1
E[X] = 3/6 − 1 = −0.5; sale ganando la banca.
2.50
X = número de unidades defectuosas de un total de 400
6
X ∼ B(n = 400; p = 0, 06) ∼ (aprox) ∼ N (µ = 400 × 0, 06 = 24; σ =
c−24
) = 0, 05, es decir
Hay que calcular c tal que φ( 4,745
c−24
4,745
√
400 × 0, 06 × 0, 94 = 4, 745);
= −1, 645; c = 16, 18
Capítulo 3. Inferencia
3.1
3.2
3.3
3.4
3.5
3.6
3.7
n
b = 103; pb = 0.21.
b = 2x − 1.
N
θ2
6
b
θ] = θ y V ar[b
θ] = .
θ = x; E[b
5
35
b
θ = 100/22.
b = 1/7.
P (t > 10) = 1 − P (t ≤ 10) = 1 − FT (10) = exp(−10/7) = 0.24, siendo α
n
Ã
α
b=
n log
i=1
b
β
xi
b = máx{x1 , x2 , ..., x3 }.
!; β
20
2 10
726
dL(θ)
= − + 3 (xi )2 + 3 ; b
θMV = 8.2582.
dθ
θ
θ i=1
θ
3.8
L(p) = 20 log p + 95 log(1 − p) + k;
3.9
l(λ) =
3.10
1
2082
b 2082 = 297.4.
7 exp(− λ ); λ =
7
λ
θ2
b
.
θ) =
θ = 3x; V ar(b
2n
c=
n
nµ2
.
;c=
2
2
σ + nµ
4+n
3.12
k=
1
.
n(n − 1)
3.13
ECM (b
σ 2 ) = σ 4 (k − 1)2 +
3.14
µ
b=
3.11
3.15
3.16
dL(p)
= 0; pb = 0.174.
dp
n−1
2k 2 σ 4
;k=
.
(n − 1)
n+1
1
t1 t2
1
17
+ ; E[µ] = µ; V ar[µ] = V ar[t1 ] + V ar[t2 ] =
.
2
4
4
16
64nµ2
P = P (fallo en un mensaje) = P (fallo en al menos un bit de los 128) = 1 − (1 − p)128 . En los
340
= 1−(1−b
p)128 ; pb = 0.000270.
últimos 10000 mensajes (lecturas) ha habido 340 erróneos. Pb =
10000
sb
(a) µ ∈ x ± t(11; α2 ) √ ; µ ∈ (29.47, 30.70).
n
(b)
(n − 1)b
s2
; χ211 ; σ 2 ∈ (0.472, 2.709).
σ2
7
3.17
3.18
sb
µ ∈ x ± t(12; α2 ) √ ; µ ∈ (30.37, 38.25).
n
sb
ingreso ∈ x ± t(11; α2 ) √ ; ingreso ∈ (2857, 1822).La amplitud es 500.
n
L = 250; n = z 2α
2
3.19
sb2
= 40.8; al menos n = 41 estaciones.
L2
(a) x = 45.75; sb2 = 201.6
sb
(b) µ ∈ x ± t(14; α2 ) √ ; µ ∈ (34.82, 56.67)
n
(n − 1)b
s2
; χ214 ; σ 2 ∈ (90.19, 693.60)
σ2
√
sb
sb
(d) L = 2 × √ × t(14; α2 ) ; n > × t(14; α2 ) ; n > 23; n = 24.
n
6
r
r
pb(1 − pb)
pb(1 − pb)
; p ∈ (0.131, 0.239); L = 2 × 1.96 ×
;
3.20 p ∈ pb ± z α2
n
200
r
L
pb(1 − pb)
, L1 = ; m = 4 × 200 = 800.
L1 = 2 × 1.96 ×
m
2
!
à r
0.05
p(1 − p)
1.962 p(1 − p)
;r
= 1.96; n =
;p =
3.21 P (|b
p − p| ≤ 0.05) = 0.95; pb ; N p,
n
0.052
p(1 − p)
(c)
n
3.22
1/2; n = 384.
s
θ∈b
θ ± z α2
b
θ b
; θ = 236.5; T = 15; θ ∈ (228.72, 244.28).
T
2 × 30 × x
≤ χ2b,60 ; λ ∈ (4.46, 9.18).
λ
r P
2 x2i
α2
; V ar(b
αMV ) =
.
3.24 (a) α
b MV =
3n
6n
µ
¶
√
3π
1
x π
; V ar(b
αM ) =
(b) α
bM =
−
α2 .
2
8n n
sµ
r
¶
3π
1
α
b 2MV
; α ∈ (2.74, 3.21); α ∈ α
b M ± z α2
−
α
b 2M ; α ∈ (2.78, 3.27).
(c) α ∈ α
b MV ± z α2
6n
8n n
3.23
3.25
χ2a,60 ≤
(a) X ; B(n = 1012 , p = e−λt = e−20000/8270 ); E[X] = np = 8.9 × 1010 .
p
X ; N (µ = ne−λt , σ = ne−λt (1 − e−λt )).
(b) El intervalo es µ ± 1.96σ; (8.9 × 1010 ± 5.58 × 105 ). Se ve que el cociente entre la desviación
típica y la media es 6.26 × 10−6 , lo cual indica que la incertidumbre del proceso es despreciable.
8
b e−λt = 1010 ; N
b = x1 eλt = 1.12×1011 ; E[N
b ] = eλt E[x1 ] =
(c) E[X] = N p = N e−λt ; x = x1 = 1010 ; N
2λt
2λt
−λt
−λt
−λt
−λt
λt
λt
b ) = e V ar(x1 ) = e N e (1 − e ) = N e (1 − e ).
= N ; V ar(N
e Ne
(d) N e−λT =
3.26
(a) t =
(b) D =
log 2
N
;T =
= 5.73 × 103 .
2
λ
190 − x
√ ; tn−1 ; t = 1.84; |t| < t(4;0.025) = 2.78, no se puede rechazar H0 : µ = 190.
sb/ n
(n − 1)b
s2
; χ24 ; D = 4.58 < χ2(4,0.05) = 9.49, no se puede rechazar H0 : σ 2 = 100.
100
P (Error tipo I) = P (x > 11|µ = 10) = 0.0227; P (Error tipo II) = P (x < 11|µ = 12) = 0.0227.
¢¢
¡
¡
√
3.28 P X ≥ 85|X ; N 100 × 0.75, 100 × 0.75 × 0.25 = 0.01044 < α = 0.05. Con nivel de significación α = 0.05, la nueva medicina es más efectiva que la antigua.
½
pb − p
H0 : p = 0.03
;Z = r
3.29
; N (0, 1); Z = 1.24 < Z0.05 = 1.65, no se puede rechazar
H1 : p > 0.03
p(1 − p)
n

3.27
 0.04978 − p 

H0 ; P ot(p) = 1 − Φ 
 r p(1 − p)  ; P (Error tipo II|p = 0.06) = 1 − P ot(p = 0.06) = 0.2709.
200
3.30
2nx
; χ260 ; X 2 = 74.4 < χ2(60;0.05) = 79.1, no se puede rechazar H0 ;
λ
µ
¶
2nx
2
Nivel crítico: P (χ60 ≥ 74.4) = 0.10.P (Error tipo II|λ = 7.5) = P
≤ 79.1 |λ = 7.5 ≈ 0.25.
5
(a) X 2 =
(b)
3.31
½
x1
H0 : λ1 = λ2 x1 /λ1
;
> 1.74; x2 < 3.56. Después de 6000
; F2n1 ,2n2 . Se rechaza H0 si
H1 : λ1 > λ2 x2 /λ2
x2
2.35 × 6 + 6 × 9
horas x2 ≥
= 4.54 > 3.56. No es necesario seguir el ensayo.
15
P (b
p > c|p = 0.85) = 0.01; P (b
p > c|p = 0.95) = 0.99; n ≈ 180; c = 0.912.
3.32
(Oi − Ei )2
; χ25 ; X 2 = 7.5181 < χ2(5;0.05) = 11.1, no se puede rechazar la hipótesis de
Ei
normalidad.
3.33
(Oi − Ei )2
; χ25 ; Ei = 20 ∀i; X 2 = 8.5 < χ2(5;0.05) = 11.1,no existe evidencia para
Ei
rechazar la hipótesis de que el dado está equilibrado.
3.34
X 2 =8i=1
X 2 =6i=1
X : v.a número de epicentros en una cuadrícula de tamaño 100 km2 ; P oisson(λ);
P
xi
(Oi − Ei )2
48
no total de epicentros
b
= 1.41 epicentros/100 km2 ; X 2 =5i=1
=P =
; χ23 ;
λ= o
34
Ei
ni
n total de cuadrículas
X 2 = 0.44 < χ2(3;0.05) = 7.8147; no existe evidencia para rechazar la hipótesis de que la distribución
de epicentros es una Poisson. Nivel crítico: P (χ23 ≥ 0.44) ≈ 0.90 ÷ 0.95.
9
3.35
3.36
3.37
P (error tipo II ) = P (X > 0|p < 0.07) = 1 − (1 − p)20 , p < 0.07; P (error tipo I ) = P (X = 0|p =
0.07) = (1 − p)20 = 0.234. El método tiene una probabilidad muy alta (0.234) de dar como mejor
el apoyo nuevo cuando es igual que el existente.
20 2T
P
i
à χ240 ; X 2 = 22.74 < χ2(40;0.95) = 26.5. Se rechaza H0 con α = 0.05. Conviene
i=1 200
resaltar que el contraste es unilateral con la región de rechazo a la izquierda.
X2 =
X = número de defectos en 900m2 de tela
X ∼ P oisson(λ = 9 ∗ 4 = 36) ∼ (aprox) ∼ N (µ = 36; σ = 6);
P (X > 50, 5) = 1 − φ( 50,5−36
) = 0, 0078;
6
Y = número de defectos en 16 horas de fabricación
Y ∼ P oisson(λ = 9 ∗ 4 ∗ 16 = 576) ∼ (aprox) ∼ N (µ = 576; σ = 24);
H0 : λ = 576; H1 : λ > 576;
) = 8, 6e − 10; se rechaza H0 , la evidencia muestral indic que
P (Y > 720 | λ = 576) = 1 − φ( 720,5−576
24
ha habido un aumento.
Capítulo 4. Análisis de la varianza
4.1
(a) 0.4325 ≤
σ 21
≤ 1.1149.
σ 22
(b) µ1 − µ2 ∈ (−809.2, 1023.2).
4.2
La región de rechazo es:|d| > 2.179, como d = 0.51 no se rechaza las máquinas son iguales.
4.3
(a) Se debe elegir el proveedor A.
(b) µA − µB ∈ (3526.34, 6473.65).
4.4
El valor calculado de la F (19.2) se compara con el valor de tablas F(2,16;0.05) = 3.63. Como
19.2>3.63 se puede concluir que para α = 0.05 existen diferencias significativas entre los tratamientos.
4.5
(a) Se compara el valor obtenido de la F(3.99) con el valor de tablas F(4,25;0.05) = 2.76. Como
3.99>2.76 se concluye que existen diferencias significativas entre los materiales. No se puede concluir
que exista un material con desgaste significativamente menor. Los materiales que tiene un desgaste
medio significativamente distinto son: B y C, B y A, y E y C. El resto no se pueden considerar
significativamente distintos.
(b) 0.93 ≤ σ 2 ≤ 4.18
4.6
(a) El valor de la F obtenido es 2.05, que se compara con el de tablas F(3,15;0.05) = 3.29. Como3.29 >
2.05 no puede rechazarse la hipótesis nula de igualdad de medias.
(b) No, el valor 68 del tercer termómetro parece discordante con los demas.
10
(c) El termómetro 4 es distinto al 1 al 2. La diferencia de las conclusiones proviene de que el valor
68 del grupo 3 es atípico y distorsiona todo el resultado.
4.7
(a) Se compara el valor de la F (64.348) obtenido con el de las tablas F(2,12;0.01) = 6.92. Como
64.348 > 6.92 se rechaza la hipótesis nula de que las medias son iguales.
(b) El valor que se obtiene de la t es 2.9853 que no está incluido en el intervalo (−2.18, 2.18), con
lo que se rechaza la hipótesis nula.
4.8
La relación aproximada entre la desviación típica de la variable transformada y la original es
sz ' sy |h0 (y)| donde h es la transformación realizada, h0 es la primera derivada de la transformación
e y es el valor medio de y. Utilizando la expresión anterior se observa que la transformación que
corrige la heterocedaricidad es z = log y.
Capítulo 5. Diseño de experimentos
5.1
Se compara el valor de la F = 45.7 con el valor de las tablas F(1,4;0.05) = 7.71. Como 45.7 > 7.71
se rechaza que los equipos son iguales.
5.2
Si no se tiene en cuenta el bloque el resultado es el mismo que si no se tiene en cuenta. El factor
es significativo. Es mejor el modelo en bloques que el de un factor para cualquier caso. Ya que si el
bloque no es significativo, podemos pasar directamente al modelo con un factor (sin realizar ningún
cálculo), pero si el bloque es significativo se pierde mucho no planteando el modelo en bloques,
incluso podría suceder que el factor no resultara significativo.
5.3
(a) Existe evidencia de que el consumo medio no es igual en cada estación del año.
(b) La estación de mayor consumo es el invierno. No se puede hablar de una estación de menor
consumo, ya que el consumo medio en otoño, primavera y verano no se pueden considerar significativamente distintos. Los intervalos de confianza para el consumo medio de las diferentes estaciones
del año son: µI ∈ (13.36, 14.96), µI ∈ (12.17, 13.77), µI ∈ (11.86, 13.46) y µI ∈ (11.26, 12.86).
(c) Los factores estación y comunidad son significativos.
(d) El consumo en invierno es significativamente mayor que en el resto de las estaciones, el consumo
en otoño y primavera es significativamente mayor que en verano y, el consumo en primavera es
significativamente mayor que en primavera. Al incluir el factor comunidad disminuye la varianza
residual y el test para el invierno resulta más significativo y permite detectar el efecto de las demás
estaciones.
5.4
(a) No se rechaza H0 : µD = 0. El nivel crítico del contraste es 0.1462.
(b) El número de niveles del factor y del bloque es respectivamente I = 2 y J = 20, sb2R =
P2 P20 2
P20 2
P20 2
i=1
j=1 eij
j=1 e1j +
j=1 e2j
=
, donde eij = yij − yi• − y•j + y•• . Para un mismo día
(I − 1)(J − 1)
(J − 1)
1 P20
2
P20 2
P20 2
1
j=1 (Dj − D)
2
2
= sb2D
e1j + e2j = 0 ⇒ j=1 e1j = j=1 e2j , por lo tanto sbR =
(J − 1)
2
¶
¶2
µ
µ
y1• − y 2• 2
D
VE
√
√
=
= t2J−1.
(c) F1,J−1 = 2 =
sbR
sbD / J
sbD / J
11
5.5
El efecto del sexo y el tipo de de formación son significativos y además existe interacción entre ellos.
Interpretacción: 1) Existen diferencias significativas en el número medio de errores cometidos entre
profesores de ciencias y profesores de letras (11.67 más en ciencias). 2) También es significativa la
diferencia entre hombres y mujeres (9 errores más para hombres). 3) Además la diferencia observada
entre hombres y mujeres de letras (2 errores más para hombres) difieren significativamente de la
observada para los profesores de ciencias (16 errores más para hombres).
5.6
La interacción entre los dos factores no es significativa. Esta conclusión se puede obtener al
comparar el valor de la F (2.16) obtenido con el de las tablas F(2,24;0.05) = 3.4. Como 2.16>3.4 la
interacción no resulta significativa.
5.7
(a) Se compara el valor de laF (2.8125) con el obtenido en las tablas F(4,45;0.05) = 2.59. Como
2.8125 > 2.59 se rechaza la hipótesis nula de igualdad de medias, y se concluye que el índice de
octanos medido no es igual para cada fórmula.
(b) La fórmula 3 proporciona índice medio de octanos significativamente distintos a las fórmulas 1
y 5, y la fórmula 4 es significativamente distinto a la 1. Las demás fórmulas no se pueden considerar
que proporcionen índice de octanos diferentes.
(c) El valor de la F (2.43) correspondiente a la interaccion se compara con el valor de las tablas
F(4,90;0.05) = 2.47. Como 2.47 > 2.43 no se puede rechazar que la interacción sea nula, o de otra
forma, el efecto de la interacción no es significativo al 95%.
5.8
Para que la interacción sea significativa debe cumplirse que 1.125(R − 1) > F(4,9(R−1);0.05) , donde
R es el número de replicaciones. El cálculo de R es iterativo. Se irán dando valores hasta conseguir
que la interacción sea significativa.
5.9
V E(αβ) = 20.9988, V N E = 4.1842, el valor correspondiente de la F es 28.5155, que se compara
con el valor de las tablas F(2,12;0.05) = 3.89. Como 28.5155 > 3.89 se rechaza que la interacción entre
los factores horno y temperatura.
5.10
(a) El laboratorio 3 tiene una media significativamente menor que los otros tres. La diferencia
entre las medias de los laboratorios 1,2 y 4 no son significativas. Este resultado se observa en la
tabla del enunciado, en la que se marcan con un asterísco las diferencias significativas entre los
valores medios de los laboratorios. El intervalo para la media del tercer laboratorio es:
µ3 ∈ y 3• ± t16;0.005 sbR
r
1
,
n3
y sustituyendo para los datos obtenidos se tiene que:
r
√
1
µ3 ∈ 56.52 ± 2.921 × 2.14872
→ µ3 ∈ (54.61, 58.44).
5
(b) El contraste
H0 : σ 2 = 1
H1 : σ 2 > 1
12
se realiza con el estadístico
(n − I)ŝ2R
σ2
que tiene distribución de probabilidad χ2n−I siendo I = 4 el número de laboratorios y n = 20 el
número de datos.
χ20 =
(n − I)ŝ2R
16 × 2.14872
= 34. 38
=
σ2
1
que es mayor que el valor χ216,0.01 = 32, por consiguiente se rechaza la hipótesis H0 y se concluye
que la varianza es mayor que 1.
(c) Como resultado del análisis del modelo con dos factores se observa que el efecto principal día y
la interacción entre el laboratorio y el día no resultan significativas, obteniendo para ambos casos
p-valores (0.8510 y 0.9779 respectivamente) claramente superiores a 0.01. Por otra parte al hacer
las comparaciones para los laboratorios dos a dos se observa que además de las diferencias entre
laboratorios obtenidos en el primer apartado, se aprecia ahora una nueva diferencia significativa
entre el laboratorio 1 y 2.
(d) Sea σ 21 la varianza correspondiente al día 1 y σ 22 la correspondiente al día 2. El contraste pedido
es:
H0 : σ 21 = σ 22
H1 : σ 21 6= σ 22
16ŝ2R1
σ 21
El contraste se realiza según:
∼ F16,16 ,donde ŝ2R1 = 2.14875 y ŝ2R2 se calcula como se
16ŝ2R2
σ 22
muestra a continuación.
La varianza residual correspondiente al modelo de dos factores es:
P4 P2 P5
i=1
j=1
r=1 (yijr − ȳij. )
,donde I = 4 es el número de laboratorios, J = 1 es el
ŝ2R =
IJ(R − 1)
número de días y R = 5 es el número de replicaciones. Esta varianza residual se puede escribir
como:
P4 P5
P P
16ŝ2R1 + 16ŝ2R2
(yi1r − ȳi1. ) + 4i=1 5r=1 (yi2r − ȳi2. )
=
,de donde se obtiene
ŝ2R = i=1 r=1
32
32
que:
ŝ2R2 = 2ŝ2R − ŝ2R1 = 2 × 2.06152 − 2.14875 = 1.9743. El valor del estadístico de contraste
2.14875
= 1.0884, que pertenece al intervalo (F16,16;0.95 = 0.26, F16,16;0.05 = 3.92), por lo
es:
1.9743
que no se rechaza la hipótesis nula y se concluye que no ha habido un cambio en la varianza
de un día a otro.
5.11
(a) Los resultados del análisis de la varianza se pueden interpretar de la siguiente manera: En la
tabla 3 se puede ver que el nivel crítico de los tres contrastes es p-valor=0.0000, ésto quiere decir que
13
con un nivel de significación α = 0.05, por ejemplo, la temperatura, el tiempo de exposición
y la interacción entre ambas tienen un efecto significativo sobre la cantidad absorbida.
Como la interacción es significativa, el efecto de la temperatura y del tiempo de exposición sobre la
cantidad absorbida debe hacerse de forma conjunta. El gráfico de interaccciones que se proporciona
en el enunciado ayuda a realizar la interpretación: Para el tiempo de exposición E1: La
absorción media es diferente para cada temperatura. La máxima absorción se consigue a T 2 y la
mínima a T 1. Para el tiempo de exposición E2: La absorción media para cada temperatura
son más parecidas. Sólo es distinta la media de la temperatura T 1, que es mayor que las medias
de las otras dos. Para el tiempo de exposición E3: No existen diferencias significativas en la
absorción media de cada temperatura. Para este tiempo de exposición la temperatura no influye
en la absorción.
(b)La tabla de análisis de la varianza para el nuevo modelo es:
Fuente
Variabilidad
VE
V NE
VT
Suma de
Cuadrados
8490.7
299.00
8789.7
Grados de
Libertad
8
18
26
Varianzas
1061.34
16.61
F
63.89
p-valor
0.0000
(c) Con los datos del experimento, se rechazará H0 cuando|z i. − z j. | > 6.99. El tratamiento que
tiene mayor media es el número 2, z 2. = 91.43, que es significativamente distinto de todos los demás
salvo del 8, z 8. = 87.06, pero éste a su vez no se puede distinguir del 7, z 7. = 83.76. Luego no
se puede decir que exista un único tratamiento que proporcione una absorción significativamente
mayor que el resto.
(d) No se aprecian signos preocupantes de heterocedasticidad. Unicamente comentar que los residuos correspondientes al valor previsto zk. = 91.43 tienen mayor variabilidad que el resto. Al
representar los residuos frente a los tratamientos, se observa que es el tratamiento 2 el que presenta
mayor variabilidad. Este resultado debe ser analizado en detalle: El tratamiento 2, que es el que
presenta la mayor media de cantidad absorbida, es también el que presenta una mayor variabilidad. Este resultado tendría que ser comentado y discutido con los expertos que han realizado el
experimento.
5.12
(a) Los resultados del análisis de la varianza se pueden interpretar de la siguiente manera: los
factores hidrocarburo e hidrógeno son significativos pero la interacción entre ellos no lo es. Las
diferencias significativas con nivel de significación de 0.05 son:
- Para Hidrocarburos: B 6= A, B 6= C, D 6= A, D 6= C.
- Para Hidrógeno: 1 6= 2, 1 6= 3, 2 6= 3.
(b) Teniendo en cuenta que la interacción no es significativa el tratamiento que proporciona el
rendimiento óptimo es el correspondiente al hidrocarburo C y el hidrógeno 3. El intervalo de
confianza para el valor medio en esas condiciones es:
√
1
1
µ ∈ y33. ± t36;0.025 sbR √ → µ ∈ 29.975 ± 2.02 14.55
2
4
(c) .Se contrasta la hipótesis H0 : σ 21 = σ 22 frente a la alternativa H1 : σ 21 6= σ 22 , obteniendo
un valor de F = 0.3922, que se compara con los valores obtenidos en las tablas (F12,12 ). Como
0.3922 ∈ (0.30, 3.28),no se rechaza la hipótesis nula.
14
(16.6875 − 20.03)
p
= −1.38.
3.36 1/12
Como −1.38 está dentro del intervalo (−2.7, 2.7), no se rechaza la hipótesis nula de igualdad de
medias.
(d) Teniendo en cuenta que x1 = 18.6875 y x2 = 20.03, el estadístico t =
5.13
El número de parámetros correspondientes a efectos principales son 14, correspondientes a interacciones de orden 2 son 71, correspondientes a interacciones de orden 3 son 154, y correspondientes
a interacciones de orden 4 son 120. Por lo tanto, el número de parámetros totales son 359.
(a) 2.55 ≤ σ 2 ≤ 8.11
5.14
(b) Los efectos principales de A, B y C son significativamente distintos de cero.
(c) El intervalo pedido es: 0.0253σ 2 ≤ sb2i ≤ 3.69σ 2 . Sustituyendo σ 2 por su estimador se obtiene
que 0.106 ≤ sb2i ≤ 15.47. Como todos los valores de sb2i pertenecen al intervalo construido no se puede
rechazar la hipótesis de homocedasticidad.
q
5.15 . d = (y 1 − y2 ) − (y 3 − y4 ) ∼ N (µ = µ1 − µ2 − µ3 + µ4 ; σ = 4σ 2y /10);
2
SbR
10
=
t=
4
P
i=1
s2i
4×10−4 ;
(y 1 −y3 )−(y3 −y 4 )
√
bR 4/10
S
∼ t(4 × 10 − 4)
H0 : δ = 0; H1 : δ > 0;
Para la muestra, t = 6, 93 > t0,95 (36) = 1, 69, se rechaza H0
Capítulo 6. Regresión lineal
6.1
6.2
½
H0 : β 1 = 0
se rechaza H0 ; sb2R = 0.1269; en el
H1 : β 1 6= 0
gráfico de los residuos frente a los valores previstos se aprecia falta de linealidad, el modelo no es
adecuado.
 


b
β
2.8971
0
b=
b1 
(b) β
 =  0.6575  .
 β
b2
−01161
β
b = 2.5876; β
b = 0.5414; en el contraste
(a) β
0
1
(a) El modelo es vi = Hd
P i + ui ; la estimación por mínimos cuadradros se realiza a partir de
P
b = Pvi di = 6.015 × 10−18 s−1 .
M = (vi − Hdi )2 ; H
d2i
¶
µP
d
v
σ2
i
i
b ± t(9;0.025) × qsbR ;
b ± t(n−1;0.025) × sb(H);
b V ar(H)
b = V ar P
P
; H ∈ (H
(b) H ∈ (H
=
2
2
P 2
di
di
di
P
b −1 = 5271 × 106 años;
sb2R = e2i ; H ∈ (5.849 × 10−18 , 6.185 × 10−18 ) segundos; Tb = H
T ∈ (5126 × 106 , 5422 × 106 ) años.
15
6.3
6.4
6.5
Como ui ; N (0, σ),la estimación por máxima verosimilitud
#es equivalente a la estimación por
"
b
¡
¢
P
b = β 1 = WT W −1 W0 Y; siendo W =
mínimos cuadrados; M = (yi − β 1 x1i − β 2 x22i )2 ; b
b
β
2




2
x11 x21
y1
 ...
...  e Y =  ...  .
x1n x22n
yn
(a)
½
(b)
½
b −0
β
H0 : β 1 ≤ 0
;t = 1
; tn−2 ; t = 22.75 > t(98;0.05) ≈ 1.66, se rechaza H0 .
b )
H1 : β 1 > 0
sb(β
1
b −1
β
H0 : β 1 ≥ 1
;t = 1
; tn−2 ; t = −2.25 < t(98;0.95) ≈ −1.66, se rechaza H0 .
b )
H1 : β 1 < 1
sb(β
1
b1 ) = 0, al ser ambas variables normales, son independientes.
Si cov(y, β
h
³
´i
b ) = E (y − E(y)) β
b − E(β
b ) , siendo yi = β + β xi + ui .
cov(y, β
1
1
1
0
1
1P
b − E(β
b ) = 1 P (xi − x) ui ;
ui ; β
1
1
n
ns2x
2
b1 ) = P (xi − x) E(u2 ) = σ P (xi − x) = 0.
cov(y, β
i
n2 s2x
n2 s2x
y − E(y) =
6.6
b = 83.2; β
b = 0.56;
(a) Con x1 : yi = β 0 + β 1 x1i + ui ; β
0
1
b )=
b ); sb(β
b ± t(n−2;α/2) sb(β
β1 ∈ β
1
1
1
sbR
eT e
b T XT Y = 81.6;
√ ; sb2R =
; eT e = YT Y−β
n−2
s1 n
β 1 ∈ (0.1, 1.02).
b 0 = 78.8; α
b 1 = 0.53;
Con x2 : yi = α0 + α1 x2i + ²i ; α
sbR
²T ²
αT XT Y = 58.3;
; ²T ² = YT Y−b
α1 ) = √ ; sb2R =
α1 ∈ α
α1 ); sb(b
b 1 ± t(n−2;α/2) sb(b
n−2
s2 n
α1 ∈ (0.21, 0.85).
(b) En desviaciones a la media:
b=
yi − y = β 1 (x1i − x1 ) + β 2 (x2i − x2 ) + εi ; β
Ã
b
β
1
b
β
2
!
·
¸
´−1
³
−0.084
T
T
e
e
e
e
X Y=
= X X
.
0.597
´−1
³
bi − 0
β
εT ε
2 =
b = sb2 X
e
eTX
;
ar(β)
;
s
b
; tn−2−1 ; Vd
R
R
b)
n−2−1
sb(β
i
·
¸
0.17 −0.13
bT X
b =
e −β
eTY
e = 57.1; Vd
eTY
εT ε = Y
ar(β)
−0.13
0.12
(c) Los contrastes individuales ti =
t1 = −0.21 < t(7,0.025) = 2.36; t2 = 1.7 < t(7,0.025) = 2.36. Ninguno de los coeficientes es
significativo.
El contraste conjunto:
16
½
b
bT X
eTX
eβ
β
H0 : β 1 = β 2 = 0
;F =
; F(2,7) ; F = 6.73 > F(2,7;0.05) = 4.73. Se rechaza H0 .
2
H1 : Alguno 6= 0
k × sbR
cov(x1 , x2 )
=
Existe multicolinealidad provocada por la alta correlación entre x1 y x2 . r12 =
s1 s2
0.9.
6.7
(d) Regresión Y − X1 : R12 = 0.49; Regresión Y − X2 : R22 = 0.64; Regresión Y − X1 , X2 :
R32 = 0.64. El modelo con dos regresores y el modelo de regresión simple con X2 son similares.
La selección de un modelo u otro depende del objetivo. Si el interés es estimar los coeficientes
β, son preferibles las regresiones simples. Si lo que se pretende es hacer predicciones de Y para
valores de X1 , X2 se podría usar el modelo de regresión múltiple pues la multicolinealidad no
afecta a las predicciones.
¶1/2
µP
syb
(b
yi − y)2
= .
Coeficiente de correlación múltiple R = P
2
(yi − y)
sy
P
syby
yi − y)
(yi − y)(b
p
pP
=
.
Coeficiente de correlación lineal r = P
2
2
s
(yi − y)
(b
yi − y)
y syb
Se demuestra
s2yb
P
P
syb
(yi − y)(b
yi − y) = (b
yi − y)2 ; entonces r =
=
= R.
sy syb
sy
n − k − 1 R2
= 21.12 > F(1,28;0.05) = 4.196. El efecto es significativo.
k
1 − R2
6.8
F =
6.9
Conocidos los valores de R2 y n se calcula F =
n − 2 R2
= 294, y se compara con el valor de
1 1 − R2
= 3.92. Como 294 > 3.92 se rechaza la hipótesis nula.
tablas F(1,98;0.05)
(
0
b −β
b0
β
H0 : β 1 = β 1
1
, t = √1
; t(2(n−2)) ; sbT = 0.5743;
6.10 (a)
0
H1 : β 1 6= β 1
sbT 2 × 0.835
t = 0.4986 < t(16;0.025) = 2.1199. No se rechaza H0 .
½
b0 − β
b0
β
H0 : β 0 = β 00
0
,t = √
= −0.4493; |t| < t(16;0.025) . No se rechaza H0 .
H1 : β 0 6= β 00
sbT 2 × 18.27
6.12
¸
·
¸
b +β
b = (XT XR )−1 XT YR = 1 (β
b ).
; YR = XR β + U; β
2
R
R
2 1
b = sb2 (XT XR )−1 ; sb2 = 0.2258; (XT XR )−1 = 1 (XT X)−1 ; β 1 ∈
ar(β)
(c) Yb = −6.52+2.215 log T ; Vd
R
R
R
R
2
b
b
b
b ); β ∈ −6.52 ± 4.1333.
β 1 ± t(18;0.005) × sb(β 1 ); β 1 ∈ 2.215 ± 0.8836; β 0 ∈ β 0 ± t(18;0.005) × sb(β
0
0
(b) YR =
6.11
·
Y1
Y2
; XR =
X
X
b = 51.7421; p − V alue = 0.00. La variable resistencia es
(a) En la tabla 2 del enunciado: β
2
significativa.Significado de β 2 : Independientemente del valor de la dureza, las gomas de resistencia
alta(+1) tienen, por término medio, unas pérdidas superiores en 2 × β 2 unidades a las gomas de
b = 103.4842. Esta diferencia se aprecia en la gráfica
resitencia baja (-1). En el problema 2 × β
2
b
b2 ± t27;0.025 × sb(β
b2 ) con los datos de la tabla 2, β 2
del enunciado. Intervalo para β 2 . β 2 ∈ β
∈ [40.44; 63.04].
17
(b) β 0 : Ordenada en el origen. En este caso no tiene interés práctico. β 3 : Cuantifica el efecto de
la interacción dureza×resistencia en las pérdidas. Mide el cambio del efecto de la dureza al utilizar
gomas con resistencia alta o gomas con resistencia baja. Al observar la figura del enunciado, se
puede ver que la influencia de la dureza sobre las pérdidas no depende de la resistencia. En ambos
casos al aumentar la dureza, las pérdidas disminuyen en una cantidad muy similar, puesto que
las rectas que determinan esta relación son prácticamente paralelas en el rango de variación de la
dureza.
Para resistencia baja : P érdidas = (β 0 − β 2 ) + (β 1 − β 3 ) × Dureza
Para resistencia alta: P érdidas = (β 0 + β 2 ) + (β 1 + β 3 ) × Dureza
β 1 : Incremento que se produce en las pérdidas al aumentar la dureza un grado Shore, manteniendo la resistencia de las gomas constante.
β 2 : Interpretado en el apartado 1.
(c) Eligiríamos el modelo del apartado 1. Ambos modelos parecen adecuados porque en ambos
se rechaza el contraste general de regresión. Sin embargo en la tabla 3, se observa que la inter2
2
acción dureza×resistencia no es significativa. Además Rmodelo1 =88.5177 > Rmodelo2 = 88.1505.
La variable resistencia (significativa en el modelo 1), deja de serlo al introducir la interacción
b ) crece desde 5.52215 (modelo 1) hasta 34.4264 (modelo 2). Hay muldureza×resistencia. sb(β
1
ticolinealidad entre resistencia y dureza×resistencia que tambien ocasiona el cambio en el nivel
crítico.
(d) El gráfico de residuos frente a valores previstos no presenta anomalías que indiquen falta de
homocedasticidad.
6.13
n − k − 1 R2
à F(3,11); F = 42.166 > F(3,11;0.05) = 3.5874. Se rechaza H0 en el contraste
k
1 − R2
general de regresión.
F =
Los contrastes individuales:
½
b −0
β
H0 : β i = 0
; ti = i √ Ã t11 ; t1 = 8.347 > t(11;0.025) = 2.20;
H1 : β i 6= 0
sbR qii
t2 = 1.018 < 2.20; |t3 | = 1.429 < 2.20. Solo x3 es significativa.
6.14
6.15
6.16
El contraste general de regresión (contraste de la F) proporciona un nivel crítico = 0.0000 ( pvalor)<0.01, el contraste es por lo tanto significativo, se rechaza H0 ; Los contrastes individuales
son todos significativos (p-valor <0.01) a excepción de F 2 y V × F.
sbR
bh = n = 150; sb2R = 0.778; mh ∈ 22 ± 0.1411.
mh ∈ ybh ± t(n−2;α/2) √ ; ybh = 22; n
n
bh
(a) Como ui à N (0, σ),máxima verosimilitud es equivalente a mínimos cuadrados
P
P
yi zi
M = (yi − αzi )2 ; α
b = P 2 = 0.4210.
zi
(b) El error de predicción eh = yh − ybh ; eh à N
Ã
0, σ
18
s
z2
1 + Ph 2
zi
!
;
yh ∈ ybh ± t(n−1;α/2) sbR
½
s
z2
1 + Ph 2 = 0.525 ± 0.1636.
zi
1.14 − 1
H0 : β 1 = 1
= 1.54 < t(15−2−1;0.025) = 2.18. No se rechaza H0 .
,t = √
H1 : β 1 6= 1
0.0081
½
1.86 − 2
H0 : β 2 = 2
= −2.16; |t| < t(15−2−1;0.025) . No se rechaza H0 .
,t = √
H1 : β 2 6= 2
0.0042
√
(d) En general yh ∈ ybh ± tn−k−1 sbR 1 + vhh ; en nuestro caso
(c)
\
= −1.45 + 1.14 log 20 + 1.86 log 0.25 = −0.6134;
ybh = log(volumen)
√
¡
¢−1
√
0
T
xh = 149.64; log(volumen) ∈ −0.6134 ± 2.18 0.0031 1 + 149.64;
vhh = xh X X
volumen ∈ (0.1221, 2.4022).
6.17
(a)
b ;α
β
i bi
ti
77.2
7.415
−50.8
−5.255
2.95
2.108
5.52
; los valores |ti | se comparan con
3.806
t(60−4−1;0.005) = 2.68; todas las variables son significativas a excepción de z2 .
b : es la presión media de los botas de naranja para x1 = x2 = 0.; β
b : la presión media aumenta
β
0
1
b : la
en 77.2 por cada unidad de incremento en x1 manteniendo x2 , z2 y z3 constantes; β
2
presión media disminuye en 50.8 por cada unidad de incremento en x2 manteniendo x1 , z2 y
z3 constantes; α
b 2 : la presión media de los botes de limón es superior en 2.95 unidades a la
de los botes de naranja manteniendo x1 y x2 constantes; α
b 3 : la presión media de los botes de
cola es superior en 5.52 unidades a la de los botes de naranja manteniendo x1 y x2 constantes.
275.92/2
∆V E/2
= 7.3833 > F(2,55;0.01) ≈ 5.00. Se rechaza H0 .
à F(2,55) ; F =
2
4.322
sbR
½
b3) − 0
(b
α2 − α
H0 : α2 − α3 = 0
à t55 ;
(c)
;t = q
H1 : α2 − α3 6= 0
Vd
ar(b
α2 − α
b3)
Vd
ar(b
α2 − α
ar(b
α2 )+ Vd
ar(b
α3 )−2cov(b
c α2 , α
b 3 ) = 2.023; |t| = |−1.8073| < t(55;0.005) = 2.68.
b 3 ) = Vd
No existe diferencia significativa entre los botes de limón y cola.
√
6.18 yh ∈ ybh ± tn−k−1 sbR 1 + vhh ; ybh = 3.305 + 0.843 × 1.2 + 3.829 × 1.6 + 0 + 0 = 10.446;
(b) F =
6.19
¢−1
¡
√
vhh = x0h XT X
xh = 0.0639; yh ∈ 10.443 ± 2 × 0.7113 1 + 0.0639; yh ∈ 10.443 ± 1.4674.
¡
¢
b = σ 2 XT X −1 . En el problema XT X = nI, donde I
En el modelo de regresión múltiple V ar(β)
¡
¢−1
bi ) = σ 2 /n.
= (1/n)I, luego V ar(β
es la matriz identidad. XT X
T
b h = (σ 2 /n)n;
b = xT V ar(β)x
V ar(m
b h ) = V ar(xh β)
h
6.20
eh = yh − m
b h ) = σ2 + σ2 .
b h ; V ar(eh ) = V ar(yh ) + V ar(m
n
P
n
n
b +β
b P xi ; y = β
b +β
b x.
b −β
b xi ) = 0; P yi = β
(yi − β
0
1
0
1
0
1
i=1
i=1
i=1
19
mh ∈ ybh ± t(n−2;α/2) v
u
u
u
t
6.21
sbR
sbR
; xh = x; ybh = y; mh ∈ yh ± t(n−2;α/2) √ .
n
n
µ
¶2
xh − x
1+
sx
√
mh ∈ ybh ± t(8;0.025) sbR vhh
√
¢−1
¡
vhh = x0h XT X
xh = 10.7306; mh ∈ −4.66 ± 2.31 × 0.64 10.7306; mh ∈ −4.66 ± 4.41.
r
1
n
;n
bh =
6.22 yh ∈ ybh ± t(10;0.025) sbR 1 +
µ
¶ ; xh = −0.2231;
n
bh
xh − x 2
1+
sx
b = 735.784; β
b = 127.457; sb2 = 253.59; yh ∈ (668.79, 745.89).
x = −1.4262; sx = 1.1134; n = 12; β
0
1
R
20
Descargar