www.etsii.upm.es/ingor/estadistica/ EJERCICIOS 1. Probabilidad 2. Inferencia 3. Diseño de Experimentos 4. Regresión Escuela Técnica Superior de Ingenieros Industriales Universidad Politécnica de Madrid . Capítulo 1. Descriptiva 1.1 En un departamento cuatro profesores imparten clases en grupos con 10, 18, 22 y 150 alumnos respectivamente. Si se pregunta a los profesores por el tamaño de su clase ¿cuál sería el valor medio y la desviación típica obtenida? ¿Y si se pregunta a todos los alumnos del departamento? 1.2 ¿Es posible que la varianza de una variable x sea 4, la de y sea 9 y la de z = x + y sea igual a 2? Justificar la respuesta. 1.3 Demostrar que al multiplicar x por k1 e y por k2 , el coeficiente de correlación entre ambas no varía (k1 y k2 deben tener el mismo signo). 1.4 Demostrar que si entre dos variables existe una relación exacta y = a + bx, con b > 0, el coeficiente de correlación es uno. 1.5 Demostrar que el coeficiente de correlación es siempre en valor absoluto menor que uno. 1.6 En un proceso de fabricación se han medido tres variables y calculado la matriz de varianzas con el resultado siguiente: 2 3 1 3 4 2 1 2 2 ¿Podemos afirmar que hay un error en los cálculos? ¿Por qué? 1.7 A la variable x de media x = 100 se le ha aplicado una transformación con el logaritmo decimal obteniéndose la nueva variable y = log10 (x). La media de la nueva variable es y = 2.5. ¿Es posible este resultado? 1.8 En la figura se presenta el diagrama de tallos y hojas de los residuos obtenidos de un diseño factorial. Representa el diagrama de caja (box plot) de los datos. (Nota.- La rama -6|91 representa los valores -0.69 y -0.61). 2 2 4 10 18 29 (16) 36 27 20 14 6 -6 -5 -4 -3 -2 -1 -0 0 1 2 3 4 | | | | | | | | | | | | 91 00 766320 98754310 98654321100 9977666554433211 015566677 2333478 134789 23455699 011355 1 Capítulo 2. Probabilidad 2.1 Sea X una variable aleatoria con distribución uniforme en (0, 1). Calcular la probabilidad de que 2 Y > 0.8 si Y = e−X . 2.2 Se elige un punto al azar interior a la circunferencia de ecuación x2 + y 2 = r2 . Llamando Z a la variable aleatoria definida por la distancia entre el punto elegido y el centro de la circunferencia, calcular las funciones de densidad y distribución de Z. 2.3 Si X es una variable aleatoria con media µ. Demostrar que cuando m = µ, E[(X − m)2 ] es mínima. 2.4 La función de densidad de la variable aleatoria X es ½ 1/(kx), si 25 ≤ x ≤ 50 f (x) = 0, en el resto. Obtener k, la media y la varianza de X. 2.5 De acuerdo con la teoría cinética de los gases, la velocidad V de una molécula de masa m de un gas a la temperatura (absoluta) T es una variable aleatoria con la siguiente función de densidad: f (v) = 4 2 2 √ v 2 e−v /α , v ≥ 0 π α3 p √ donde α = 2kT /m, siendo k la constante de Boltzmann. Además, E(V ) = 2α/ π y Var(V ) = (3/2 − 4/π)α2 . Calcular el valor medio de la energía cinética, mV 2 /2, de una molécula. ¿ A una misma temperatura T , qué gas tiene mayor valor medio de energía cinética, uno ligero u otro más pesado? 2.6 La función de distribución de la variable aleatoria X es FX (x). Obtener la función de densidad de la variable aleatoria Y = FX (x). 2.7 Un modelo que habitualmente se utiliza en balística para comprobar la correcta calibración de las armas es · ¸ x2 x f (x) = 2 exp − 2 , x ≥ 0, σ ≥ 0, σ 2σ donde la variable aleatoria X es la distancia del punto de impacto del proyectil al centro del blanco al que iba dirigido y σ es el parámetro que mide la precisión. Si para una distancia determinada de disparo la precisión del arma es σ = 10 cm, ¿cuál es la probabilidad de que al lanzar 10 proyectiles, ninguno haya impactado a una distacia menor de 5 cm del centro del blanco? 2.8 Adaptar la demostración de la desigualdad de Chebychev y demostrar la desigualdad de Markov P (X > a) ≤ 1 E [X] a donde X es una variable aleatoria positiva (P (X > 0) = 1) 2.9 Dada la variable aleatoria X, cuya función de densidad es ½ k(1 − x2 ), si 0 < x < 1 f (x) = 0, en el resto 1 Obtener k, así como la media y la varianza de la variable Y = 3X − 1. 2.10 Supóngase una diana circular con centro en el origen de coordenadas y radio r y X, Y las coordenadas de un punto elegido al azar (por ejemplo, el lanzamiento de un dardo). Supóngase que cualquier otro punto de la diana tiene la misma probabilidad de ser elegido. Calcule fXY (x, y) y fX (x). 2.11 Un gran almacén guarda cajas que contienen piezas de distinto tipo. La proporción p de piezas de tipo A en una caja se puede considerar una variable aleatoria con función de densidad: f (p) = kp(1 − p) con 0 ≤ p ≤ 1 (a) Calcular el valor de k, la media y la varianza de la variable aleatoria p. (b) Si se toman 10 cajas al azar.¿Cuál es la probabilidad de que ninguna de ellas contenga una proporción de piezas de tipo A igual o superior al 75% ? 2.12 X e Y son dos variables aleatorias independientes con la misma función de distribución F . Calcular la función de densidad de U = max(X, Y). 2.13 Obtén la distribución de probabilidad del máximo, del mínimo y de la media de los resultados obtenidos al lanzar dos dados equilibrados. Se acepta que los resultados de los dados son variables aleatorias independientes. 2.14 La función de densidad de una variable aleatoria bidemensional viene dada por la expresión: ½ xy + cex , cuando 0 < x < 1 y 0 < y < 1 fXY (x, y) = 0, en el resto ¿Son independientes las variables aleatorias X e Y ? 2.15 Los billetes de banco son fabricados en pliegos. La impresión se realiza por dos máquinas iguales, una de ellas imprime el anverso y la otra el reverso. Sea X e Y , respectivamente, el número de defectos de impresión en el anverso y reverso de un pliego. Ambas variables son independientes con distribución de Poisson de parámetros λ1 y λ2 . (a) Demostrar que el número total de defectos en un pliego Z = X + Y tiene distribución de Poisson. (Nota.- Utilizar que Pr{Z = n} = n X k=0 Pr{X = k}Pr{Y = n − k} y el desarrollo del binomio de Newton para (λ1 + λ2 )n .) (b) Si el número total de defectos en un pliego es Z = n, ¿ cuál es la probabilidad de que haya exáctamente X = k defectos en el anverso? (Obtener la expresión en función de λ1 , λ2 , n y k). ¿ De qué distribución de probabilidad se trata? 2.16 La cantidad en miligramos de dos componentes contenidos en un producto es una variable aleatoria bidemensional, cuya función de densidad viene dada por la expresión 2 fXY (x, y) = ½ 4xy, cuando 0 ≤ x ≤ 1 y 0 ≤ y ≤ 1 0, en el resto Calcular la probabilidad de que la cantidad del primer componentes sea menor que 0.3 miligramos cuando la del segundo es 0.8 miligramos. 2.17 La llegada de los clientes a un banco se considera un proceso Poisson con parámetro λ. Sabiendo que en la última hora han llegado 2 clientes, ¿cuál es la probabilidad de que los dos entraran en los primeros 15 minutos? 2.18 La función de densidad de la variable aleatoria bidemendional (X, Y ), bien dada por la expresión: ½ kxy, cuando 0 < x < y < 1 fXY (x, y) = 0, en el resto (a) Calcular el valor de k. (b) Calcular P (X < 0.5|Y = 0.5). (c) ¿Son independientes las variables aleatorias X e Y ? 2.19 X e Y son variables aleatorias con coeficiente de correlación lineal ρ = −1. Si las varianzas son iguales, calcular la varianza de Z = X + Y − 1. 2.20 Un equipo de radio tiene dos partes, el receptor y el amplificador. La duración del receptor es una variable aleatoria exponencial de media 500 horas y la duración del amplificador una variable exponencial de media 1000 horas. ¿Cuál es la probabilidad de que el fallo del equipo (cuando se produzca) sea debido a un fallo del receptor? (Se supone que las variables son independientes) 2.21 Una máquina en funcionamiento es reemplazada por una nueva máquina bien cuando falla, bien cuando alcanza la edad de T años. Si el tiempo de vida de las sucesivas máquinas son variables aleatorias independientes con la misma función de distribución F y con función de densidad f, demuestra que el número medio esperado de máquinas empleadas en un año es ·Z 0 T ¸−1 xf (x)dx + T (1 − F (T )) . 2.22 Sea X1 una variable aleatoria N(10,1), X2 una variable aleatoria N(20,1), y X3 una variable aleatoria N(30,4). Se define Z1 = X1 + X2 − X3 Z2 = X1 + X2 + X3 Z3 = X1 − X2 − X3 Si X1 , X2 , X3 son independientes, calcular la matriz de varianzas de (Z1 , Z2 , Z3 ). 3 2.23 La distribución de probabilidad conjunta de las variables aleatorias Y1 e Y2 es la siguiente: Y2 -1 0 1 -1 1/16 3/16 1/16 Y1 0 3/16 0 3/16 1 1/16 3/16 1/16 Calcular su coeficiente de correlación e indicar si son independientes. 2.24 La función de densidad conjunta de X e Y viene dada por f (x, y) = xy, 0 < x < 1, 0 < y < 2 (a) Obtener las funciones de densidad marginales y decir si X e Y son independientes. (b) Calcular P(X + Y < 1). 2.25 La función de distribución conjunta de dos variables aleatorias X e Y es F (x, y) = (1 − e−ax )(1 − e−by ), x ≥ 0, y ≥ 0, a > 0, b > 0 siendo a y b dos constantes conocidas. Calcula las funciones de distribución marginales de X e Y.¿Son variables aleatorias independientes? Calcula P (X < 1, Y ≥ 2), P (X < 1) y P (Y ≥ 2). 2.26 Un ordenador tarda un total de T2 segundos en procesar un mensaje de correo electrónico, esta cantidad incluye el tiempo T1 durante el cual el mensaje está en la cola esperando a ser procesado (T2 ≥ T1 ). La función de densidad conjunta de las variables aleatorias T1 , T2 es fT1 T2 (t1 , t2 ) = e−t2 , 0 ≤ t1 ≤ t2 < ∞ Calcular la probabilidad de que un mensaje haya estado menos de un segundo en la cola si el tiempo total que ha durado su procesamiento ha sido mayor que dos segundos. 2.27 Sea X un valor elegido al azar de la distribución uniforme en el intervalo [0,1]. A continuación se toma al azar otro valor Y de la distribución uniforme [X, 1]. Calcular la función de densidad marginal de Y. 2.28 Una oficina de correos tiene dos ventanillas de atención al público. Tres personas A,B y C llegan en el mismo instante a la oficina de correos y encuentran las dos ventanillas desocupadas. Los tiempos de servicio requeridos por las tres personas son variables aleatorias independientes con distribución exponencial de parámetro λ. Los tiempos de servicio de A y B comienzan de inmediato, mientras que C debe esperar a que termine el primero de los dos. ¿Cuál es la probabilidad de que C no sea el último en salir de la oficina de correos? 2.29 Sean X, Y, U y V variables aleatorias, demostrar que si Y = U + V, entonces Cov(X, Y ) = Cov(X, U ) + Cov(X, V ). 2.30 Un laboratorio de análisis realiza pruebas de sangre para detectar la presencia de un tipo de virus. Se sabe que una de cada 100 personas es portadora del virus. Se va a realizar un estudio en un colegio, para abaratar las pruebas se realiza un análisis combinado que consiste en: En lugar de analizar la sangre de cada individuo, se toman las muestras de 50 y se analiza la mezcla. Si el resultado del análisis es negativo, se concluye que los 50 individuos están sanos. Si el análisis es positivo, se repite a cada persona de manera individual. El análisis es infalible. 4 (a) Determinar el número esperado de pruebas (análisis) que se tendrá que realizar si se sigue este tipo de estrategia. (b) ¿Cuál es la probabilidad de que un individuo determinado sea portador del virus, si el resultado del análisis realizado a su grupo de 50 ha resultado positivo? 2.31 De un lote con una proporción de piezas defectuosas p, se extraen piexas con reposición hasta que se observa la k−ésima defectuosa. Obtener la distribución de probabilidad de la variable aleatoria X número total de piezas observadas. 2.32 La función de densidad de una variable aleatoria X viene dada por la expresión ½ x/8, si 0 ≤ x ≤ 4 f (x) = 0, en el resto Se generan secuencialmente valores de esta variable. ¿Cuántos valores de X habrá que generar por término medio hasta obtener un valor mayor que 3? 2.33 Una pareja decide tener hijos hasta el nacimiento de la primera niña. Calcular la probabilidad de que tengan más de 4 hijos. (Supóngase P (niño) = P (niña) = 0.5) 2.34 Si las llamadas telefónicas a una centralita siguen una distribución de Poisson de parámetro λ = 3 llamadas/cinco minutos, calcular la probabilidad de: (a) (b) (c) (d) Seis llamadas en cinco minutos. Tres llamadas en diez minutos. Más de 15 en un cuarto de hora. Dos en un minuto. 2.35 La variable aleatoria X tiene distribución exponencial con media 1. Obtener la función de distribución y la función de densidad de W = aX 1/b , a > 0, b > 0 2.36 El número de averías diarias de una máquina sigue una distribución de Poisson de media 0.4 averías. Calcular la probabilidad de que haya tres días sucesivos sin averías. 2.37 A un puesto de servicio llegan de manera independiente, por término medio, 10 clientes/hora. Calcular la probabilidad de que lleguen 8 clientes en la próxima media hora sabiendo que en la última hora llegaron 14 clientes, y que la variable aleatoria número de clientes que llegan en un hora siguen una distribución de Poisson. 2.38 En una planta industrial dos bombas B1 y B2 en paralelo conducen agua desde un pozo a una depuradora D, y posteriormente otras dos bombas B3 y B4 , también en paralelo, la trasladan a un depósito como indica la figura. Los tiempos de vida de la depuradora y de las bombas son variables aleatorias independientes con distribución exponencial, siendo 20 mil horas la vida media de la depuradora y 30 mil horas la de cada bomba. 5 - B1 Pozo @ R @ µ ¡ - B2 ¡ D ¡ µ ¡ B3 @ R B4 @ - Depósito - (a) Calcular la probabilidad de que llegue agua al depósito después de 20 mil horas de funcionamiento. (b) Calcular la probabilidad de que una depuradora que ha trabajado T horas falle antes de las mil horas siguientes. ¿Es razonable que para evitar fallos de la depuradora se renueve ésta cada 20 mil horas? ¿Por qué? 2.39 La distancia D entre dos vehículos consecutivos es una autopista sigue una distribución exponencial con media 200 metros. ¿Cuál es la probabilidad de que en un tramo de 1 km haya exactamente 5 vehículos? 2.40 La función de densidad del tiempo T de funcionamiento de un componente hasta que falla es f (t) = kβtβ−1 exp(−ktβ ), t > 0, k > 0, β > 0. Cuando un componente falla se puede reparar y queda igual que otro que no hubiera fallado nunca y tuviera la misma edad. Además, el tiempo necesario para reparar el componente se considera despreciable. Si un componente tiene su primer fallo en el instante t1 , calcular la probabilidad de que el segundo fallo se produzca después de t2 con t2 > t1 . 2.41 Ricardo es un pescador experto que ha comprobado, después de una larga experiencia practicando su deporte favorito, que el número de peces capturados por la mañana puede ser representado por una variable aleatoria de Poisson de media 3 peces a la hora. Quiere ir a pescar el sábado próximo, si empieza a las 7 de la mañana, ¿cuál es la probabilidad de que capture el primer pez antes de las 7 h. 15 min.? ¿Cuál es la probabilidad de que capture 5 peces durante dos horas de pesca? 2.42 La variable aleatoria T representa la duración de vida de un componente electrónico. En teoría de la fiabilidad la probabilidad de que un componente falle en el instante t sabiendo que ha durado hasta t se denomina tasa de fallo y se representa por λ(t), siendo su valor en función de t λ(t) = f (t) , 1 − F (t) donde f y F son, respectivamente, las funciones de densidad y de distribución de la variable aleatoria T . Obtener la tasa de fallo en caso que T sea una variable aleatoria exponencial de media 1000 horas e interpolar el resultado. 2.43 Un examen consiste en 25 cuestiones. En cada cuestión, el alumno debe elegir entre 5 soluciones propuestas, de las que una (y sólo una) es cierta. El número mínimo de respuestas correctas que debe tener un alumno para aprobar es a. El profesor decide fijar a con el siguiente criterio: que la probabilidad de aprobar para un alumno que conteste todas las cuestiones al azar sea menor de 0.05. Obtener a. (Una cuestión es respondida al azar si cada uno de los cinco resultados propuestos tiene la misma probabilidad de ser escogido). 6 2.44 Obtener la función de densidad de una variable aleatoria χ2 con un grado de libertad. (Si X ; N (0, 1), Y = X 2 es una χ21 .) 2.45 Dada una variable aleatoria X, cuya distribución es N(0, σ 2 ), calcular la mediana de la variable Y = |X|. 2.46 La longitud L en milímetros de las piezas fabricadas en un proceso es una variable aleatoria que se distribuye según una N (32, 0.3), considerándose aceptables aquellas cuya medida se encuentra dentro del intervalo (31.1, 32.6). (a) Calcular la probabilidad de que una pieza elegida al azar sea aceptable. (b) Si se toma al azar una muestra de tres piezas, ¿cuál es la probabilidad de que la primera y la tercera sean aceptables y la segunda no lo sea? (c) ¿Cuál es la probabilidad de que en una muestra de tamaño 3 al menos una sea aceptable? (d) Las piezas se embalan en lotes de 500. Calcular la probabilidad de que un lote tenga más de 15 defectuosas. 2.47 En cierta fabricación mecánica el 96% de las piezas resultan con longitudes admisibles (dentro de tolerancias), un 3% son piezas defectuosas cortas y un 1% son defectuosas largas. Calcular la probabilidad de: (a) En un lote de 250 piezas sean admisibles 242 o más. (b) En un lote de 500 sean cortas 10 o menos. (c) En 1000 piezas haya entre 6 y 12 largas. Todas las aproximaciones se calculan la distribución normal. 2.48 Una máquina rellena sobres de azucar para café. La cantidad de azucar en cada sobre se distribuye como una normal de media 8 gramos y desviación típica 0.5 gramos. Los sobres llenos se colocan en cajas de cartón. Cada caja tiene 100 sobres de azucar. El peso conjunto de la caja y los 100 sobres vacíos es 30 gramos. Al final del proceso de empaquetado se pesa cada caja llena, si el peso es menor de 820 gramos se retiran y no se comercializan. ¿Cuál es el porcentaje de cajas llenas que pesan menos de 820 gramos? ¿Cuál es la probabilidad de que una caja con 99 sobres llenos de azucar supere el control? (Se supone despreciable el peso de un sobre vacío) 2.49 En un juego de apuestas una persona paga un euro, elige un número del 1 al 6 y lanza tres dados. La banca le paga tantos euros como número de veces haya salido el número elegido. Sea X los euros ganados o perdidos por el jugador en una jugada, calcula E[X]. ¿A quién beneficia este juego, a la banca o al jugador? 2.50 Una empresa y su proveedor han llegado a un acuerdo en cuanto al plan de muestreo en la compraventa de lotes de 100.000 unidades. Para comprobar la calidad se tomará una muestra de 400 unidades, aceptando el lote cuando haya como máximo c unidades defectuosas. Calcula c para que la probabilidad de aceptar un lote con el 6% de piezas defectuosas sea 0.05. 7 Capítulo 3. Inferencia 3.1 La variable aleatoria X tiene distribución binomial con parámetros n y p, ambos desconocidos. Si {16,18,22,25,27} es una muestra aleatoria simple de la distribución anterior, estimar por el método de los momentos n y p. 3.2 Los taxis en servicio de una ciudad están numerados del 1 al N. Se observa una muestra de 10 taxis y se apuntan sus números. Obtener un estimador de N por el método de los momentos. 3.3 Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de una variable aleatoria X con función de densidad, fX (x) = 5x4 /θ5 , 0 ≤ x ≤ θ. Obtén el estimador por el método de los momentos de θ y determina su sesgo y su varianza. 3.4 Una variable aleatoria discreta puede tomar los valores 0, 1 y 2 con probabilidades 1.5/θ, 2.5/θ y (θ − 4)/θ respectivamente. Se toma una muestra de tamaño 25 con los resultados siguientes (la segunda fila corresponde a la fracción observada Oi para 0, 1 y 2). x Oi 0 17 1 5 2 3 Estimar θ por máxima verosimilitud. 3.5 Se ha tomado una muestra de tamaño 10 del tiempo, en minutos, entre el paso de dos autobuses T en una parada con los siguientes resultados: 9,10,6,4,15,6,1,5,4,10. Si la función de distribución del tiempo de paso es F (t) = 1 − exp(−αt), calcular la probabilidad estimada de esperar al autobús más de 10 minutos. 3.6 La función de distribución de una variable aleatoria es x < 0, 0 α F (x) = (x/β) 0 ≤ x ≤ β, 1 x > β. donde los parámetros α y β son positivos. Estimar los parámetros de la distribución por el método de máxima verosimilitud. 3.7 El club de tiro de una determinada ciudad está estudiando la distancia X del punto de impacto del proyectil al centro de la diana de sus 13 mejores tiradores. Sabiendo que la función de densidad de la variable aleatoria presentada es x2 2x x ≥ 0, θ ≥ 0, f (x) = 2 exp[− 2 ], θ θ estimar θ si la distancia en cm al blanco de 10 tiradores fue 2,1 3,2 6,3 5,4 2,2 1 6,9 7,1 6,6 2,5 9,1 y la distancia de los otros tres fue mayor que la distancia máxima permitida en su categoría que es de 11cm. 3.8 Una compañía, para determinar el número de consumidores de un determinado producto en Madrid, ha encuestado a personas elegidas al azar hasta encontrar a 20 que utilicen el producto. Estimar por máxima verosimilitud la proporción de consumidores en la ciudad si el número total de entrevistados ha sido 115. 3.9 El tiempo de duración de ciertos componentes electrónicos es una variable aleatoria con distribución exponencial. Se ha realizado un ensayo con 10 componentes cuyos tiempos de duración han sido: 37,45,92,104,109,200,295. Despues de 400 horas, tres componentes seguían funcionando. Con esta información, estimar por máxima verosimilitud el parámetro de la distribución exponencial. 3.10 Sea X1 , X2 , ..., Xn una muestra aleatoria simple de la función de densidad f (x) = 2(θ − x)/θ2 , 0 ≤ x ≤ θ. Obtener por el método de los momentos un estimador insesgado de θ y calcular su varianza. 3.11 Sea X la media aritmética de una muestra aleatoria simple de una distribución N(µ, σ). Se define X̂ = cX como nuevo estimador para µ. Determinar c (en función de µ y σ) para que el nuevo estimador tenga Error Cuadrático Medio (ECM) mínimo. Calcular c si se sabe que el coeficiente de variación σ/µ = 2. 3.12 X1 , X2 , ..., Xn es una muestra aleatoria simple de una distribución normal con parámetros desconocidos. Para estimar la varianza se propone el siguiente estimador S2 = k n−1 X n X (Xi − Xj )2 . i=1 j=i+1 Determinar k para que el estimador sea centrado. s2 , siendo sb2 3.13 Para estimar la media σ 2 de una población normal se utiliza el estimador σ b2 = kb la varianza muestral corregida y k una constante. Calcular el valor de k que minimiza el error cuadrático medio. (Utilizar Var[χ2g ] = 2g, siendo g el número de grados de libertad). 3.14 Los tiempos de funcionamiento de dos componentes electrónicos distintos siguen distribuciones exponenciales con esperanzas µ y 2µ. Se han obtenido los tiempos de fallo de una muestra de cada tipo de componente, en ambos casos de tamaño n. Obtener el estimador de máxima verosimilitud de µ, calcular su media y su varianza. 3.15 Un sistema de lectura telemática de consumo de energía eléctrica emplea un mensaje de 128bit. Ocasionalmente las interferencias aleatorias provocan que un bit se invierta produciéndose un error de transmisión. Se acepta que la probabilidad de que cada bit cambie en una transmisión es constante e igual a p, y que los cambios son independientes. Estima el valor de p si se ha comprobado que de las últimas 10000 lecturas efectuadas (todas de 128-bit) 340 eran erróneas. 3.16 Se han tomado 12 valores de una variable física X, que se supone normal, resultando 30.2, 30.8, 29.3, 29, 30.9, 30.8, 29.7, 28.9, 30.5, 31.2, 31.3, 28.5. (a) Construir un intervalo de confianza para la media de la población al 95% de confianza. 2 (b) Construir un intervalo de confianza para la varianza de la población con el mismo nivel de confianza del apartado anterior. 3.17 En la lista adjunta se indica la edad y el área científica en que trece importantes científicos de diversas áreas descubrieron la teoría que les ha dado la fama. Construir con estos datos un intervalo de confianza para la edad a la que los científicos realizan su contribución más importante: Galileo (34, astronomía), Franklin (40, electricidad), Lavoisier (31, química), Lyell (33, geología), Darwin (49, biología), Maxwell (33, ecuaciones de la luz), Curie (34, radiactividad), Plank (43, teoría cuántica), Marx (30, socialismo científico), Freud (31, psicoanálisis), Bohr (26, modelo del átomo), Einstein (26, relatividad), Keynes (36, macroeconomía). 3.18 Una muestra de 12 estaciones de servicio de una cadena de gasolineras proporciona un ingreso medio por persona al mes de 2340 euros con una desviación típica de 815 euros. Calcular un intervalo de confianza para el ingreso medio por trabajador en esta empresa. Calcular el número de estaciones que debemos estudiar para que el intervalo tenga una amplitud máxima de 500 euros. 3.19 Se han escogido al azar 15 probetas de un determinado acero, cuya resistencia a la compresión se supone que se distribuye normalmente, y se ha medido ésta en las unidades adecuadas, habiéndose observado los resultados siguientes 40.15, 65.10, 49.5, 22.4, 38.2, 60.4, 43.4, 26.35, 31.2, 55.6, 47.25, 73.2, 35.9, 45.25, 52.4. (a) (b) (c) (d) Estimar la resistencia media del acero y su varianza. Hallar un intervalo de confianza del 99% para la resistencia media. Hallar un intervalo de confianza del 99% para la varianza. ¿Cuántas probetas deberían haberse utilizado en el estudio si se quisiera estimar la resistencia media del acero con una precisión de ±6 unidades y una confianza del 95%?. 3.20 Una compañía de comida precocinada desea lanzar al mercado un nuevo producto. Para conocer la aceptación del mismo realiza previamente una encuesta entre 200 personas elegidas al azar, de las que 37 manifiestan su disposición a comprarlo. Obtener un intervalo de confianza (α = 0.05) para la proporción p de compradores potenciales de este nuevo producto. ¿Cúal debería ser el tamaño muestral si se quisiera reducir la longitud del intervalo a la mitad. 3.21 Se desea estimar la proporción de niños entre 0 y 14 años que se encuentran adecuadamente vacunados contra la poliomielitis. Si se quiere que la diferencia en valor absoluto entre la estimación final y el verdadero valor de la proporción sea menor que 0.05 con probabilidad 0.95, ¿ Cúal es el tamaño muestral mínimo requerido?. 3.22 Una roca lunar es enviada a un laboratorio para determinar su nivel de radiactividad θ, nivel que se mide por el número medio de partículas emitidas por hora. Después de 15 horas, el equipo Geiger ha contabilizado un total de 3.547 partículas emitidas. Aceptando que el número de partículas emitidas sigue una distribución de Poisson, dar un intervalo con 95% de confianza para el nivel de radiactividad de la roca. (Nota.- Utilizar que si Z tiene distribución N(0,1), entonces P (Z ≤ 1.96) = 0.975). 3.23 Teniendo en cuenta que si X1 , X2 , . . . , Xn es una muestra aleatoria simple de una variable aleatoria exponencial con función de densidad, f (x) = λ1 e−x/λ , x ≥ 0, λ > 0; el estadístico U = 2nX/λ tiene distribución χ22n , donde X = (X1 + X2 + · · · + Xn )/n; resolver la cuestión siguiente: 3 El tiempo de funcionamiento de un equipo electrónico es una variable aleatoria con distribución exponencial. Se han tomado los tiempos de funcionamiento hasta el fallo de 30 equipos elegidos al azar, obteniéndose 6.2 × 103 horas de media. Calcular un intervalo con 95 % de confianza para la vida media de un equipo. 3.24 La velocidad de una molécula según el modelo de Maxwell, es una variable aleatoria con función de densidad √4 × 1 x2 exp −(x/α)2 , x ≥ 0 f (x) = π α3 0, x ≤ 0. donde α > 0, es el parámetro de la distribución y se verifica que 2α 3 4 E(X) = √ y V ar(X) = − α2 . 2 π π (a) Calcular el estimador máximo verosímil de α y su varianza asintótica. (b) Calcular el estimador por momentos de α y la varianza de dicho estimador. 100 100 P P 2 xi = (c) Para una muestra de tamaño n=100, para la que se verifica que xi = 342 y que i=1 i=1 1339, hallar un intervalo de confianza de α con el 95% de confianza utilizando ambos estimadores. 3.25 Los núcleos (radionucleidos) del elemento radiactivo Carbono 14 (C 14 ) se desintegran aleatoriamente. El tiempo que tarda en desintegrarse cada radionucleido es una variable aleatoria con distribución exponencial de media 8, 27 × 103 años. (a) Si inicialmente había 1012 radionucleidos, obtener el número esperado de los radionucleidos sin desintegrar al cabo de los 20.000 años. (b) Obtener, para la variable aleatoria número de radionucleidos sin desintegrar al cabo de 20.000 años, un intervalo que contenga al valor de esa variable con probabilidad 0, 95 e interpretar el resultado. (c) Una pieza arqueológica ha estado enterrada durante 20.000 años al cabo de los cuales se han observado 1010 radionucleidos de C 14 . Estimar por el método de los momentos el número inicial de radionucleidos N y calcular la media y la varianza del estimador obtenido. (d) Determinar el tiempo que debe transcurrir para que el número de radionucleidos iniciales se reduzca a la mitad. 3.26 Un proceso industrial fabrica piezas cuya longitud en mm se distribuye según una N (190, 10). Una muestra de 5 piezas proporciona los resultados siguientes: 187, 212, 195, 208, 192 (a) Contrastar la hipótesis de que la media del proceso µ es efectivamente 190. (b) Contrastar la hipótesis de que la varianza del proceso σ 2 es 100. Tómese α = 0.05 en todos los contrastes. 4 3.27 Para contrastar unilateralmente que la esperanza µ de una variable aleatoria normal es 10, se toma una muestra de tamaño 16 y se rechaza la hipótesis en el caso en que la media muestral sea mayor que 11, aceptándose en el caso contrario. Sabiendo que la desviación típica de la población es σ = 2, ¿cúal es la probabilidad de error de tipo I de este contraste?. ¿Cúal sería la probabilidad de error de tipo II del contraste si el valor verdadero de la esperanza fuese 12?. 3.28 Una medicina estándar es efectiva en el 75% de los casos en los que se aplica. Se ha comprobado un nuevo medicamento en 100 pacientes, observándose su efectividad en 85 de ellos. ¿ Es la nueva medicina más efectiva que la estándar ? (Contrastar con α = 0.05). 3.29 Un empresario quiere comprar una empresa que fabrica cojinetes. Durante los 5 últimos años la proporción de cojinetes defectuosos se ha mantenido en un 3%. Para verificar esto, se toma una muestra de 200 cojinetes y obtiene que 9 son defectuosos. ¿Se puede concluir que la proporción de cojinetes defectuosos ha aumentado? Calcular la potencia del contraste planteado anteriormente en función de p. Calcular la probabilidad de error de tipo II cuando la hipótesis alternativa es p = 0.06, siendo p la proporción de defectuosos.(Nota: Utilícese la aproximación normal y α = 0, 05.). 3.30 Teniendo en cuenta que si X1 , X2 , . . . , Xn es una muestra aleatoria simple de una variable aleatoria exponencial con función de densidad, f (x) = λ1 e−x/λ , x ≥ 0, λ > 0; el estadístico U = 2nX/λ tiene distribución χ22n , donde X = (X1 + X2 + · · · + Xn )/n; resolver las cuestiones siguientes: (a) El tiempo de funcionamiento de un equipo electrónico es una variable aleatoria con distribución exponencial. Se han tomado los tiempos de funcionamiento hasta el fallo de 30 equipos elegidos al azar, obteniéndose 6.2 × 103 horas de media. Contrastar con nivel de significación igual a 0.05, H0 : λ = 5 × 103 horas, frente a H1 : λ > 5 × 103 horas; indicando: (a) el valor crítico, y (b) la probabilidad de error tipo II cuando λ = 7.5 × 103 horas. (Es suficiente con proporcionar el valor más proximo obtenido en las tablas del libro de texto). (b) Se va a realizar un ensayo con 15 equipos fabricados por una segunda empresa. Si el tiempo de funcionamiento de estos tiene también distribución exponencial. ¿ Cuál es el valor máximo de la media muestral de estos quince equipos que permitiría concluir con α = 0.05 que son peores que los de la primera empresa? Después de 6000 horas de ensayo han fallado 6 equipos, siendo el promedio de estos seis valores igual a 2350 horas. ¿Es necesario seguir el ensayo para tomar una decisión ? 3.31 Cibeles Computer S.A. ha realizado un gran pedido de chips para su nueva linea de ordenadores personales. En el contrato de suministro se especifica que al menos el 95% de los chips deben ser aceptables. Como es imposible comprobarlo al 100%, el control se va a realizar mediante el siguiente procedimiento: de cada lote (que se supone de gran tamaño) se toman al azar n chips, si la proporción de chips en la muestra que supera el control es mayor que c se acepta el lote y en caso contrario se rechaza. Llamando p a la proporción real de chips aceptables en un lote, determinar n y c si se desea que P(Aceptar un lote)=0.01 si p=0.85 P(Aceptar un lote)=0.99 si p=0.95. (Utilizar la aproximación normal y considerar que si Z es una variable aleatoria normal estándar, P (Z ≤ 2.33) = 0.99). 5 3.32 La estatura de 60 niños de una escuela infantil se resume en la siguiente tabla de frecuencias, dónde la última columna muestra la frecuencia esperada bajo la hipótesis de normalidad. Frecuencia Frecuencia Intervalo Observada Esperada 41,5-43,5 4 4,08 43,5-45,5 7 5,58 45,5-47,5 12 9,06 47,5-49,5 8 11,27 49,5-51,5 6 11,27 51,5-53,5 11 9,08 53,5-55,5 9 5,58 55,5-57,5 3 4,08 Total 60 60 ¿Se puede aceptar la hipótesis de normalidad de los datos (α = 0.05) ? 3.33 Se tira 120 veces un dado y se obtienen los resultados de la tabla VALOR FRECUENCIA 1 20 2 14 3 23 4 12 5 26 6 25 Contrastar la hipótesis de que el dado está equilibrado y que, por tanto, sus caras son equiprobables. (Tómese α = 0.05). 3.34 Un modelo sísmico indica que la distribución de los epicentros de sismos en una región debería seguir una distribución de Poisson en el plano. Un grupo de expertos pretende contrastar si ese modelo se cumple, para ello ha representado un mapa de la región dividido en cuadrículas de tamaño 100 km2 , y ha señalado con puntos las posiciones de los epicentros (véase figura adjunta). Realizar el contraste χ2 de bondad de ajuste con nivel de significación α = 0, 05 proporcionando el nivel crítico aproximado del contraste. 6 3.35 El Ministerio de defensa está considerando un nuevo sistema de apoyo para el lanzamineto de misiles de corto alcance. El sistema existente tiene errores en el 7% de los lanzamientos y se desea comprobar si el nuevo sistema tiene una probabilidad de fallo menor. El ensayo va a consistir en realizar 20 lanzamientos y se concluirá que el nuevo sistema es mejor si no se produce ningún fallo. Llamando p a la probabilidad de fallo del sistema nuevo y aceptando independencia entre los resultados del lanzamiento, obtenga y represente gráficamente la probabilidad de error de tipo II del contraste ½ H0 : p = 0.07 H1 : p < 0.07 Obtenga la probabilidad de error tipo I. Interprete el resultado y valore si el método de decisión es adecuado. 3.36 El tiempo de duración T de un componente electrodinámico es una variable aleatoria con distribución exponencial de media µ. Veinte componentes han sido sometidos a un ensayo y el número de horas que han durado ha sido: 10.99 15.79 24.14 34.43 43.72 51.72 56.12 60.27 77.20 88.47 91.07 117.58 130.40 133.12 152.90 159.00 193.62 208.71 308.82 316.07 Teniendo en cuenta que 2T /µ tiene distribución χ2 con dos grados de libertad, realiza el siguiente contraste H0 : µ = 200 horas, H1 : µ < 200 horas, con α = 0.05. 3.37 Para controlar la calidad de un proceso textil se cuenta el número de defectos que aparecen en la tela fabricada. Según el fabricante, cuando el proceso funciona correctamente el número de defectos en una bobina de 100 metros cuadrados es una variable aleatoria de Poisson con media 4. Se ha instalado un equipo de visión artificial para realizar el recuento que permite inspeccionar 900 m2 de tela cada hora. ¿Cuál es la probabilidad de que aparezcan más de 50 defectos en una hora si el proceso funciona bien? En una jornada de 16 horas de fabricación se han contabilizado 720 defectos, ¿se puede afirmar que ha habido un aumento del número medio de defectos en ese día? (Nivel de significación 0.05). 7 Capítulo 4. Análisis de la varianza 4.1 Se estudian los Km recorridos antes del desgaste de dos tipos de neumáticos con los resultados siguientes: Tipo A B ni 121 121 xi (Km) 27465 27572 sbi (Km) 2500 3000 (a) Calcular, con α = 0.05,un intervalo de confianza para σ 21 . σ 22 (b) Un intervalo de confianza para µ1 − µ2 . 4.2 Se dispone de rendimientos de dos máquinas. Los resultados de la máquina A son 137.5; 140.7; 106.9; 175.1; 177.3; 120.4; 77.9 y 104.2, mientras que los reultados para la B son: 103.3; 121.7; 98.4; 161.5; 167.8 y 67.3. ¿Son las máquinas iguales? (Suponer que los rendimientos de ambas máquinas siguen distribuciones normales). 4.3 Un fabricante de automóviles debe elegir entre un determinado tipo de piezas de acero suministradas por un proveedor A y otras suministradas por otro proveedor B. Para proceder a la elección se ha analizado la resistencia a la tracción de las piezas suministradas por ambos proveedores, tomando una muestra de tamaño 10 de las piezas del primero, y otra de tamaño 12 del segundo. La resistencia media de la muestra de A es de 54000 unidades y la de la muestra de B es de 49000 unidades, siendo las desviaciones típicas muestrales corregidas sbA = 2100 y sbB = 1900. Las resistencias de las piezas de ambos proveedores se distribuyen normalmente. Las piezas del proveedor B son más baratas que las del proveedor A, por lo que estas últimas sólo son rentables si tienen una resistencia media al menos 2000 unidades mayor que las de B, y la misma variabilidad. (a) ¿A qué proveedor habría que comprar las piezas a la vista de los resultados muestrales? (b) Obtener un intervalo de confianza del 90\% para la diferencia de medias de la resistencia de las piezas de los proveedores A y B. 4.4 En una fábrica de automóviles se utiliza una misma planta para el ensamblaje de tres modelos distintos (A, B y C). Para determinar si los modelos reciben el mismo tratamiento, se ha realizado un control de calidad a una muestra tomada para cada modelo. El número de defectos encontrados para cinco vehículos del modelo A son 5, 4, 6, 6 y 7; para seis vehículos del modelo B son 7, 8, 6, 7, 6 y 5;y para ocho vehículos del modelo C: 9, 7, 8, 9, 10, 11, 10 y 10. Contrastar si existen diferencias en el tratamiento que se da a los distintos modelos. 4.5 Cinco tipos (A, B, C, D y E) de material sintético se han sometido a un ensayo de desgaste. Para cada tipo de material la prueba se repitio 6 veces. El desgaste medio y la desviación típica corregida en cada caso es la siguiente: media x̄i d. típica ŝi A 14.1 1.3 B 16.3 1.2 1 C 13.5 1.4 D 14.8 1.2 E 15.3 1.5 (a) Contrastar (α = 0.05) la hipótesis H0 : µA = µB = µC = µD = µE frente a la hipótesis alternativa, H1 : Alguna media es distinta a las demás. Indicar con nivel de confianza 0.95 el material con desgaste menor y qué materiales tienen desgaste medio, distinto. (b) Obtener un intervalo de confianza con α = 0.01 para la varianza del error experimental. 4.6 Se mide la temperatura de una mezcla con cuatro termómetros, obteniéndose los datos siguientes: Termómetro 1 2 3 4 63 64 58 61 63 64 59 61 62 63 59 62 65 64 68 60 66 65 63 (a) ¿Son los cuatro termómetros análogos? (b) Analizar si se verifican las hipótesis básicas del modelo ADEVA mediante los residuos. (c) Elimine el tercer termómetro y calcule la tabla ADEVA para comparar los otros tres termómetros. ¿Qué conclusiones pueden extraerse? 4.7 Se desea comprobar el efecto de un tratamiento térmico sobre la resistencia de un nuevo material. Se han tomado 15 probetas y se han asignado al azar a los tres tratamientos T1 , T2 y T3 obteniendo como medida de resistencia superficial los valores siguientes: T1 2.65 2.67 2.46 1.90 2.62 T2 4.31 3.96 4.64 4.74 4.00 T3 4.81 5.32 4.93 5.49 4.45 (a) Contrastar mediante el test de análisis de la varianza si existen diferencias significativas entre los tratamientos térmicos (α = 0.01). (b) La temperatura del tratamiento 2 es la media de las temperaturas de los otros dos tratamientos. Si la relación entre la resistencia y la temperatura es lineal, es de esperar que la media del tratamiento 2 verifique : H0 : µ2 = 12 (µ1 + µ3 ). Hacer el contraste bilateral de esta hipótesis con α = 0.05. (Nota.- Usar la distribución de y 2 − (y 1 + y 3 )/2, donde yi es la media de los datos correspondientes al tratamiento Ti ). 4.8 En un modelo de análisis de la varianza se ha observado que la desviación típica (ŝi ) y la media (y i ) de las observaciones de cada tratamiento están relacionadas linealmente, ŝi = kyi , donde k es una constante. ¿ Cuál de las siguientes transformaciones es la más adecuada para corregir la heterocedasticidad ? z = log y, z = y 2 o z = ky 2 Capítulo 5. Diseño de experimentos 5.1 Un laboratorio de Análisis Clínicos ha adquirido un nuevo equipo (B) para medir el colesterol en la sangre de los enfermos. Para evaluar si el nuevo equipo está ajustado se decide analizar muestras de 5 enfermos que previamente han sido analizadas con otro equipo (A), dando como resultado Enfermo Equipo A Equipo B 1 215 224 2 305 312 3 247 251 4 221 232 5 286 295 Media 254.8 262.8 Contrastar con α = 0.05 existen diferencias entre los dos equipos. 5.2 El análisis de la varianza de un diseño en bloques aleatorizados proporciona los siguientes resultados: V T = 232, V E(factor) = 156, V E(bloque) = 15 y V N E = 61. El número de niveles del factor es 5 y el número de bloques 8. Construir la tabla ADEVA. ¿ Cuál sería el resultado del análisis si no se tiene en cuenta el efecto de los bloques ? Indicar en qué circunstancias es preferible cada uno de los modelos. 5.3 Para determinar el consumo de energía eléctrica para usos domésticos se ha medido el consumo medio por persona en las distintas estaciones del año en siete comunidades autónomas para 1989, habiéndose obtenido los siguientes resultados: COMUNIDAD 1 2 3 4 5 6 7 MEDIAS INVIERNO 13.1 13.4 13.8 14.0 14.4 14.8 15.6 14.16 PRIMAVERA 11.4 12.1 12.1 12.8 12.6 13.4 14.2 12.66 VERANO 10.6 11.1 11.4 11.7 12.5 13.0 14.1 12.06 OTOÑO 11.5 12.0 12.9 12.6 13.4 14.0 14.4 12.97 MEDIAS 11.65 12.15 12.55 12.77 13.22 13.80 14.57 12.96 (a) Analizar si el factor estación del año es influyente, sabiendo que ŝ2y = 1.53.(No considerar el factor Comunidad). (b) Razonar estadísticamente cuál es la estación de mayor consumo y la de menor, utilizando el análisis anterior. Calcular los intervalos de confianza para el consumo medio de cada estación del año. (c) Sabiendo que la variabilidad explicada por el factor comunidad es 23.62, construir una nueva tabla de la varianza, con dos factores, y decidir qué factor es significativo. (d) Utilizar los resultados del apartado anterior para realizar un contraste de igualdad de medias del efecto estación y comparar los resultados con los del apartado 2, justificando las diferencias encontradas. ( NOTA: Utilizar α = 0.05 en todos los contrastes ) 5.4 Una instalación típica de almacenamiento de combustible en una Estación de Servicio (gasolinera) está formada por un tanque enterrado de gran capacidad, al que se encuentran conectados distintos 1 surtidores. La cantidad total de gasolina suministrada en un día se puede determinar midiendo directamente la variación que se ha producido en el tanque de almacenamiento (Y1j ) o por la suma de los suministros de los distintos surtidores (Y2j ). La comparación de ambas medidas permite determinar pérdidas en la instalación enterrada y otras anomalías. En el proceso de comparación es necesario tener en cuenta que las medidas están afectadas por errores aleatorios. Durante 20 días se han tomado los valores anteriores en un gasolinera: Día→ Y1j Y2j 1 4116,2 4143,6 2 5627,0 5632,0 3 2820,4 2868,1 4 2521,8 2477,7 5 2973,5 2955,4 6 2834,9 2851,9 7 2335,7 2312,7 8 2590,8 2630,6 9 2182,7 2208,9 10 2621,4 2635,9 Día→ Y1j Y2j 11 4323,6 4305,4 12 1880,7 1877,9 13 2131,4 2159,2 14 3349,6 3366,7 15 2545,0 2566,1 16 2247,3 2281,4 17 1817,5 1854,6 18 1461,3 1461,5 19 1646,5 1607,3 20 1955,4 1956,4 (a) Llamando Dj = Y1j − Y2j a la diferencia en las medidas de un mismo día, contrastar con α = 0.05 H0 : H1 : µD = 0 µD 6= 0 donde Dj tiene distribución N(µD , σ D ). Calcular el nivel crítico del contraste aproximando la distribución t de Student por la normal. (b) Los datos anteriores pueden ser analizados mediante un modelo de bloques aleatorizados tomando el tipo de medida (tanque, surtidores) como un factor y los días como bloques. Demostrar con caracter general que en el modelo de bloques aleatorizados si el factor tiene dos niveles la varianza residual cumple: 1 sb2R = sb2D 2 donde sb2D es la estimación de σ 2D del apartado 1. (c) Teniendo en cuenta lo anterior, demostrar que el contraste correspondiente al factor en el modelo de bloques aleatorizados es equivalente al contraste del apartado 1. 5.5 Un investigador quiere estudiar el efecto de sexo (hombre, mujer) y tipo de formación (ciencias, letras) en el dominio del inglés escrito en profesores universitarios. Para ello analiza el número de incorrecciones gramaticales en artículos científicos enviados a publicación. Para cada combinación de niveles de los factores se han elegido al azar tres profesores. En la tabla se proporciona el número de fallos detectados en artículos de 15 páginas Hombre Mujer Letras 8, 6, 13 5, 10, 6 Ciencias 22, 28, 33 12, 14, 9 Contrastar con nivel de significación 0.05 si los efectos principales y la interacción son significativos. Tener en cuenta que P (F1,8 ≤ 5.32) = 0.95, siendo F1,8 la distribución F con grados de libertad 1 y 8. Interpretar los resultados. 2 5.6 Un alumno, como trabajo de la asignatura de estadística, ha comparado tres marcas distintas (A,B,C) de palomitas de maíz precocinadas. Cada marca puede prepararse friendolas en una sartén (método 1) o en el horno microondas (método 2). El alumno ha realizado un diseño factorial completo 3×2 con cinco replicaciones en cada uno de los seis tratamientos. La variable respuesta medida es el porcentaje de granos de maíz que no se han inflado adecuadamente. Los resultados del experimento se muestran en la tabla, en cada tratamiento se proporciona la media y entre paréntesis la desviación típica corregida para las cinco replicaciones. Contrastar si la interacción entre los dos factores es significativa. Sartén Horno A 5.5 (1,4) 3.8 (1,3) B 3.6 (1,8) 3.4 (0,9) C 7.5 (2,5) 4.3 (1,3) 5.7 Una característica de la calidad de la gasolina es su índice de octanos. Una refinería de petróleo tiene cinco fórmulas que pueden emplearse para la obtención de gasolina con plomo o sin plomo. (a) Para determinar que fórmula proporciona mayor índice de octanos, con cada una de ellas se ha repetido 10 veces en el laboratorio el proceso de fabricación de gasolina con plomo. Si el coeficiente de determinación del análisis de la varianza de los resultados es igual a 0.20, contrastar con α = 0.05 si existen diferencias entre las cinco fórmulas para este tipo de gasolina. (b) Los valores medios (ȳi• ) para cada fórmula son: Fórmula 1 2 3 4 5 Media 89.2 90.1 90.7 90.5 89.5 Contrastar con α = 0.05 que fórmulas proporcionan índices de octanos significativamente distintos y cuales no. (c) Debido a los problemas medio-ambientales gran parte de la producción futura debe estar libre de plomo. Para determinar que fórmula de las anteriores produce mejores resultados en cuanto al índice de octanos , se realizo un diseño experimental similar al anterior (cinco fórmulas, 10 observaciones en cada fórmula) para la obtención de gasolina sin plomo. El coeficiente de determinación en este caso es igual a 0.25 y el índice medio para cada fórmula es, Fórmula 1 2 3 4 5 Media 88.0 89.5 88.5 90.2 89.8 Contrastar (α = 0.05) si existe interacción entre los factores tipo de gasolina (con y sin plomo) y fórmula. 5.8 Se ha realizado un experimento con dos factores cada uno de ellos con 3 niveles. El 20% de la variabilidad total está explicada por la interacción de los dos factores y el 40% de la variabilidad total es debida a la variabilidad residual. Determinar el número de replicaciones necesarias en cada tratamiento para que la interacción sea significativa con α = 0.01. (Explicar el procedimiento de cálculo, dejando el resultado indicado en función de las tablas). 3 5.9 Se ha estudiado el efecto de tres hornos diferentes y dos temperaturas (290 o C y 320 o C) en la duración de cierto componente. Para cada combinación de horno y temperatura se ha replicado el experimento 3 veces. En la tabla siguiente se proporcionan las medias y desviaciones típicas (corregidas) de los datos de cada tratamiento. Horno 1 Horno 2 Horno 3 Temperatura o C 290 o C 320 o C Media Desv. T. Media Desv. T. 24.56 0.850 18.00 0.265 19.10 1.539 14.40 0.265 18.70 0.458 17.43 0.862 Contrasta si existe interacción entre los factores horno y temperatura (α = 0.05). 5.10 Se desea determinar si cuatro laboratorios dan en promedio los mismos resultados en un análisis químico. Cada laboratorio ha repetido el análisis cinco veces y los resultados son: 1 58.7 61.4 60.9 59.1 58.2 Laboratorios 2 3 62.7 55.9 64.5 56.1 63.1 57.3 59.2 55.2 60.3 58.1 4 60.7 60.3 60.9 61.4 62.3 La tabla de análisis de la varianza y la comparación de las medias de los cuatros laboratorios se muestran a continuación: Analisis de la Varianza ----------------------------------------------------------------------------Fuente Suma de Cuadrados Gl Cuadr. Medios F-Ratio P-Valor ----------------------------------------------------------------------------Laboratorios 85,9255 3 28,6418 13,33 0,0001 Residual 34,38 16 2,14875 ----------------------------------------------------------------------------Total (Corr.) 120,305 19 4 -------------------------------------------------------------------------------Method: 99,0 percent LSD Laboratorio Count Mean Homogeneous Groups -------------------------------------------------------------------------------3 5 56,52 X 1 5 59,66 X 4 5 61,12 X 2 5 61,96 X -------------------------------------------------------------------------------Contrast Difference +/- Limits -------------------------------------------------------------------------------1 - 2 -2,3 2,70784 1 - 3 *3,14 2,70784 1 - 4 -1,46 2,70784 2 - 3 *5,44 2,70784 2 - 4 0,84 2,70784 3 - 4 *-4,6 2,70784 -------------------------------------------------------------------------------- Comparación de las medias de los cuatro laboratorios. (a) Explica que conclusiones se pueden extraer de estos resultados: ¿Existen diferencias entre los laboratorios? ¿Qué laboratorios presentan diferencias significativas? Da un intervalo de confianza al 99% para la media del laboratorio 3. (b) Según el modelo, la medida yij del laboratorio i en la muestra j tiene distribución normal de media µi y varianza σ 2 . Los cuatro laboratorios afirman que el error en sus medidas se corresponde con σ 2 = 1. Aceptando la hipótesis de homocedasticidad contrastar H0 : σ 2 = 1 frente a H1 : σ 2 > 1. (c) Para confirmar los resultados se vuelve a repetir el mismo proceso y otro día se vuelve a analizar por los cuatro laboratorios el producto químico proporcionando otras cinco medidas. Abajo se incluye la tabla de análisis de la varianza del estudio conjunto de las 40 observaciones con un modelo de dos factores: Laboratorio (4 niveles) y Día (2 niveles), con 5 replicaciones en cada combinación de día y laboratorio. Análisis de la varianza ----------------------------------------------------------------------------Suma de Grados Cuadrados Fuente Cuadrados Libertad Medios F P-Val ----------------------------------------------------------------------------A:Laboratorio 186,81 3 62,27 30,21 0,0 B:Día 0,07396 1 0,07396 0,04 0,8 AB 0,40334 3 0,134447 0,07 0,9 RESIDUAL 65,9686 32 2,06152 ----------------------------------------------------------------------------TOTAL (CORREGIDA) 253,256 39 5 ----------------------------------------------------------------Method: 99,0 percent LSD Laboratorio Count LS Mean Homogeneous Groups ----------------------------------------------------------------3 10 56,391 X 1 10 59,766 X 4 10 61,238 XX 2 10 62,037 X ----------------------------------------------------------------Contrast Difference +/----------------------------------------------------------------1 - 2 *-2,271 1,7 1 - 3 *3,375 1,7 1 - 4 -1,472 1,7 2 - 3 *5,646 1,7 2 - 4 0,799 1,7 3 - 4 *-4,847 1,7 ----------------------------------------------------------------- Interpreta los resultados del análisis conjunto y compáralos con los obtenidos en el primer análisis. (d) Contrasta si ha habido un cambio significativo en la varianza σ 2 de un día y otro. (Ayuda. Comprueba que la varianza residual del modelo factorial es el promedio de las varianzas residuales de cada día). 5.11 Se ha realizado un experimento para estudiar el efecto de la temperatura (T) y tiempo de exposición (E) sobre la cantidad absorbida de un compuesto químico por un material sumergido en él. En el estudio se han empleado tres temperaturas (T1, T2, T3) y tres tiempos de exposición (E1, E2, E3): cada tratamiento se ha replicado tres veces. La cantidad absorbida (mg) del compuesto químico en cada uno de los 27 experimentos se muestra en la tabla 1 y las medias en la tabla 2: Tabla 1: Cantidad Absorbida (mg) Tiempo de Exposición E1 T1 35.5 29.7 31.5 Temperatura T2 T3 91.2 70.1 100.7 64.1 82.4 70.1 E2 52.5 53.3 55.0 71.0 77.0 75.6 79.4 77.7 75.1 E3 85.9 85.2 80.2 87.0 86.1 88.1 83.0 87.0 78.5 Tabla 2: Medias de Cantidad Absorbida (mg) Tiempo de Exposición E1 E2 E3 Medias 6 Temperatura T1 T2 T3 32.23 91.43 68.10 53.60 74.53 77.40 83.76 87.06 82.83 56.53 84.34 76.11 Medias 63.92 68.51 84.56 72.33 La tabla 3 corresponde al análisis de la varianza del experimento y las figuras muestran los gráficos de los intervalos de confianza para las medias de las tres temperaturas, los tres tiempos de exposición y los nueve tratamientos por separado. Fuente Variabilidad Temperatura T. Exposición Interacción Residual Total Tabla 3: Tabla de análisis de la varianza Suma de Grados de Cuadrados Libertad Varianzas F 3673.61 2 1836.80 110.58 2112.65 2 1056.32 63.59 2704.44 4 676.11 40.70 299.00 18 16.61 8789.7 26 Intervalos de confianza (95%) Intervalos de confianza (95%) 91 94 Absorcion 86 81 76 71 66 61 84 74 64 54 1 2 3 1 Tiempo 2 Temperatura Int. de conf. para las medias de los 9 tratamientos (95%) 105 Absorcion Absorcion p-valor 0.0000 0.0000 0.0000 85 65 45 25 T1 T2 T3 T1 T2 E1 E2 7 T3 T1 T2 E3 T3 3 (a) Interpreta los resultados del análisis de la varianza. (b) Demuestra que si se hubiera utilizado el modelo de un único factor para comparar los nueve tratamientos, la variabilidad explicada de este modelo (VE’) se puede poner como suma de las variabilidades explicadas del modelo factorial de la tabla 3: V E 0 = V E(Temperatura) + V E(Tiempo) + V E(Interacción) Obtén la tabla del análisis de la varianza del nuevo modelo. (c) Realiza las comparaciones dos a dos de los nueve tratamientos y elige aquél o aquellos que proporcionan una absorción mayor (95%). (d) Comprueba gráficamente la hipótesis de homocedasticidad e interpreta los resultados. 5.12 Se ha realizado un diseño experimental para determinar la influencia de dos factores combinación de hidrocarburos y cantidad de hidrógeno en el rendimiento de un proceso químico complejo. Se estudiaron cuatro combinaciones de hidrocarburos (A,B, C y D) y tres niveles en el contenido de hidrógeno (1,2 y 3). En cada tratamiento se realizaron cuatro réplicas. En la tabla 1 se presentan los resultados: mejora en tanto por mil respecto a procedimiento estándar. Los números entre paréntesis de la tabla se corresponden con las medias de cada tratamiento, de los cuatro niveles del factor hidrocarburos y de los tres niveles de hidrógeno. En la tabla 2 se muestra la tabla de análisis de la varianza del experimento. 1 Medias 2 Medias 3 Medias Medias Tabla 1. Datos A B 10.3 10.5 11.1 8.2 15.3 9.7 2.1 8.9 (9.7) (9.325) 25.8 20.6 25.7 17.1 28.9 21.4 27.8 17.3 (27.05) (19.1) 28.5 21.0 31.2 26.8 24.8 19.4 26.5 22.2 (27.75) (22.35) (21.5) (16.925) y medias entre paréntesis C D Medias 7.2 13.0 5.3 12.9 12.5 5.3 19.1 12.0 (11.025) (10.8) (10.213) 29.7 17.6 26.3 12.0 22.4 24.6 25.9 23.1 (26.075) (19.325) (22.888) 30.4 20.5 26.6 26.2 34.4 27.8 27.5 21.9 (29.975) (24.1) (25.981) (22.275) (18.075) 8 Etapa 1 1 2 2 1 1 2 2 1 1 2 2 Fuentes Hidrocarburos Hidrógeno Interacción Residual Total Tabla 2. ANOVA Suma Grados Cuadrados Libertad 242.5 3 2234 2 119.3 6 523.7 36 3120 47 Var. 80.85 1117 19.88 14.55 F 5.55 76.7 1.36 p-valor .0031 .0000 .2546 (a) Comparar las medias de los cuatro niveles del factor Hidrocarburo y las de los tres niveles del factor Hidrógeno. Indica si existen diferencias significativas con nivel de significación 0.05. (b) Elige el tratamiento que proporciona el rendimiento óptimo, justificando la respuesta. Da un intervalo de confianza para el valor medio en dichas condiciones con nivel de confianza del 95%. (c) El experimento se realizó en dos etapas, en una primera etapa se recogieron las 24 observaciones que se indican en la tabla 1 como etapa 1 y las otras 24 como etapa 2. Los resultados del análisis de la varianza correspondientes a cada etapa se muestran en las tablas 3 y 4. Tabla 3. ANOVA - Etapa 1 Suma Grados Fuentes Cuadrados Libert. Var. Hidrocarburos 115.9 3 38.63 Hidrógeno 1175.0 2 587.7 Interacción 218.4 6 36.39 Residual 76.3 12 6.358 Total 1586.0 23 F 6.07 92.4 5.72 p-valor .0093 .0000 .0051 Tabla 4. ANOVA - Etapa 2 Suma Grados Fuentes Cuadrados Libert. Var. F Hidrocarburos 162.9 3 54.31 3.35 Hidrógeno 1076 2 537.9 33.19 Interacción 94.94 6 15.82 0.976 Residual 194.5 12 16.21 Total 1528 23 p-valor .0555 .0000 .9762 ¿Se puede concluir que en las dos etapas la varianza del error experimental es la misma? (Realiza el contraste con α = 0.05) (d) Denominando µ y µ0 a las medias (globales) de los modelos factoriales para cada una de las dos etapas, contrasta que son iguales ( H0 : µ = µ0 ) con α = 0.01. 5.13 Sea un diseño factorial con 4 factores a 3, 4, 2 y 5 niveles. Calcular el número de parámetros totales correspondientes a efectos principales e interacciones de orden 2, 3 y 4. 9 5.14 Un centro ha realizado un experimento para mejorar la resistencia a la tensión de ciertos muelles de acero. En una etapa del proceso el muelle caliente se sumerge en aceite templado. Se han estudiado tres factores, A (temperatura del acero antes de la inmersión, con tres niveles), B (temperatura del baño de aceite, dos niveles) y C (concentración de carbono en el acero, dos niveles). El experimento se ha replicado tres veces. En la tabla se muestra la media y la varianza (corregida) para los tres datos de cada tratamiento. A 1 1 1 1 2 2 2 2 3 3 3 3 B 1 1 2 2 1 1 2 2 1 1 2 2 C 1 2 1 2 1 2 1 2 1 2 1 2 yi 40.2 61.1 35.9 57.1 49.0 70.3 46.7 67.6 41.9 62.7 37.1 60.3 ŝ2i 0.25 2.68 2.43 4.44 3.49 7.77 5.08 1.03 4.27 11.41 1.33 6.13 (a) Dar un intervalo del 95 % de confianza para la varianza del error experimental, σ 2 . (b) Indicar si los efectos principales de A, B y C son significativamente distintos de cero. (c) Dado σ 2 , construir un intervalo que cumpla que la probabilidad de que ŝ2i (la varianza muestral corregida de un tratamiento) esté contenido en él sea igual a 0.95. Sustituir σ 2 por su estimador y con ayuda de este intervalo, discutir si se puede rechazar la hipótesis de homocedasticidad de las observaciones. 5.15 Se desea estudiar la señal recibida por un equipo de ultrasonidos en función de la profundidad a la que se encuentra el objeto enterrado. En un experimento se han enterrando objetos a 0.5, 1.0, 1.5 y 2.0 metros. En cada distancia se han realizado 10 replicaciones. La tabla muestra la media y varianza de cada nivel. Nivel 1 2 3 4 Profundidad 0.5 1.0 1.5 2.0 Num. 10 10 10 10 Media 78.21 50.29 33.49 23.574 Varianza 28.19 11.11 8.86 12.55 Denominando µ1 , µ2 , µ3 y µ4 a las medias de los niveles, realiza el siguiente contraste: H0 : µ1 − µ2 = µ3 − µ4 , H1 : µ1 − µ2 > µ3 − µ4 , suponiendo que las observaciones tienen distribución normal, con la misma varianza y que son independientes (Utiliza α = 0.05). (Ayuda. Llamando δ = (µ1 − µ2 ) − (µ3 − µ4 ), el contraste se puede escribir como H0 : δ = 0; H1 : δ > 0. Estima µ1 , µ2 , µ3 y µ4 con la media muestral respectiva). 10 5.16 Un estudio bioquímico ha valorado la cantidad de tres ácidos (a, b, c) en muestras extraídas a cuatro terneras (1, 2 ,3 y 4) de la misma raza. El análisis es bastante complejo y la determinación incluye un error de medida. ¿Se puede aceptar la hipótesis de que los tres ácidos se encuentran en la misma proporción en cada animal? Realiza el contraste con nivel de significación 0.05. (La variabilidad total es 41.90). 1. 1 2 3 4 Medias a 11.0 9.8 7.5 7.9 9.05 b 11.4 10.8 10.6 7.6 10.1 11 c 12.7 13.7 11.5 10.1 12.0 Medias 11.7 11.43 9.87 8.53 10.38 Capítulo 6. Regresión lineal 6.1 Con los datos de la tabla, se pide: x y -2 1.1 -2 1.3 -1 2.0 -1 2.1 0 2.7 0 2.8 1 3.4 1 3.6 2 4.0 2 3.9 3 3.8 3 3.6 (a) Estimar un modelo de regresión simple con y como variable dependiente y x como regresor. Indicar si el modelo es apropiado, justificando la respuesta. (b) Estimar el modelo yi = β 0 + β 1 xi + β 2 x2i + ui . 6.2 La ley de Hubble sobre la expansión del universo establece que dadas dos galaxias la velocidad de desplazamiento de una respecto a la otra es v = Hd, siendo d su distancia y H la constante de Hubble. La tabla proporciona la velocidad y la distancia de varias galaxias respecto a la Via Láctea. Se pide: Galaxia Virgo Pegaso Perseo Coma Berenices Osa Mayor 1 Leo Corona Boreal Géminis Osa Mayor 2 Hidra Distancia (millones años luz) 22 68 108 137 255 315 390 405 700 1100 Velocidad (103 km/s) 1.21 3.86 5.15 7.56 14.96 19.31 21.56 23.17 41.83 61.14 Tabla: Distancia y velocidad de desplazamiento de las distintas galaxias a la Via Lactea. Nota: Obsérvese que según el modelo de Hubble la regresión debe pasar por el origen. Tómese 1 año luz = 300 000 km/s × 31 536 000 s = 9.46 1012 km. (a) Estimar por regresión la constante de Hubble. (b) Como T = d/v = d/Hd = 1/H, la inversa de la constante de Hubble representa la edad estimada del Universo. Construir un intervalo de confianza del 95% para dicha edad . 6.3 Estimar por máxima verosimilitud los parámetros β 1 y β 2 del modelo yi = β 1 x1i + β 2 x22i + ui ; ui ; N (0, σ). ¿En qué condiciones los estimadores obtenidos por máxima verosimilitud son iguales que los obtenidos por mínimos cuadrados? 6.4 Sir Francis Galton (1877) estudió la relación entre la estatura de una persona (y) y la estatura de sus padres (x) obteniendo las siguientes conclusiones: 1 (a) Existía una correlación positiva entre las dos variables. (b) Las estaturas de los hijos cuyos padres medían más que la media era, en promedio, inferior a la de sus progenitores, mientras que los padres con estatura inferior a la media en promedio tenían hijos más altos que ellos, calificando este hecho como de ”regresión” a la media. Contrastar (α = 0.05) estas dos conclusiones con la ecuación ŷ = 17.8 + 0.91x resultante de estimar un modelo de regresión lineal entre las variables (en cm.) descritas anteriormente para una muestra de tamaño 100 si la desviación típica (estimada) de β̂ 1 es 0.04. 6.5 Demostrar que en un modelo de regresión simple y y el estimador de la pendiente β̂ 1 son independientes. Utilizar esta propiedad para calcular la varianza de β̂ 0 = y − β̂ 1 x. 6.6 La matriz de varianzas de las variables X1 , X2 e Y es 25 27 14 27 36 19.2 14 19.2 16 Siendo X 1 = 30, X 2 = 40, Y = 100 y el número de datos n = 10. Se pide: (a) Realizar la regresión simple entre Y (variable dependiente) y X1 , dando el intervalo de confianza para la pendiente de la recta con α = 0.05. Hacer lo mismo con Y y X2 . (b) Realizar la regresión múltiple entre Y (variable dependiente) y X1 , X2 , en desviaciones a la media. (c) Indicar si los coeficientes de la regresión anterior son significativos. (d) Calcular R2 para los tres modelos, comentar los resultados obtenidos e indicar qué modelo eligiría y por qué. 6.7 Demostrar que el coeficiente de correlación múltiple en el modelo general de regresión es igual al coeficiente de correlación lineal entre la variable observada y y la prevista yb. 6.8 La resistencia a la tracción (y) de una aleación metálica en función de la temperatura de templado (x) se ha ajustado con una ecuación de regresión para 30 observaciones resultando: ŷ = 276.1 + 1.9x, ŝR = 15.7, R2 = 0.43 ¿Se puede concluir con una confianza del 95% que la temperatura de templado tiene efecto significativo en la resistencia a la tracción.? 6.9 El coeficiente de determinación en un modelo de regresión simple es R2 = 0.75. Si el número de observaciones es n = 100, contrasta la hipótesis H0 : β 1 = 0 frente a la alternativa H1 : β 1 6= 0 (α = 0.05). 6.10 La masa M de un cristal de hielo depositado en una cámara a temperatura (-5o C) y humedad relativa constante crece según la ecuación M = αT β , donde T es el tiempo y α y β son parámetros 2 desconocidos. La relación anterior se linealiza con la transformación logarítmica, estimándose el siguiente modelo log M = log α + β log T + u donde el término añadido u son los errores experimentales, que se consideran aleatorios e independientes con distribución normal, N(0,σ 2 ). Diez cristales del mismo tamaño y forma se introdujeron en una cámara, extrayéndose secuencialmente según unos tiempos previamente establecidos. Para determinar la influencia del tipo de cámara, se repitió exáctamente el experimento en una segunda cámara. Los valores de ŝR para la cámara 1 y 2 son 0.64 y 0.50, respectivamente. Los modelos estimados para cada cámara, XT X y (XT X)−1 son: log M1 = −7.30 + 2.40 log T log M2 = −5.74 + 2.03 log T T −1 (X X) = µ T X X= µ 18.27 −3.89 −3.89 0.835 10.00 46.66 46.66 218.9 ¶ ¶ (a) Contrastar con nivel de significación 0.05 si los dos modelos tienen la misma pendiente. Lo mismo para la ordenada en el origen. (NOTA.- Aceptar que la varianza de los dos modelos es la misma y estimarla como el promedio de las dos varianzas residuales calculadas.) (b) Un modelo de regresión múltiple Y = Xβ + U, se replica, es decir se obtienen dos vectores de variables respuesta Y1 , Y2 , para los mismo regresores (matriz X). Demostrar que si β̂ 1 y β̂2 son los resultados de la estimación de β utilizando por separado la variable Y1 e Y2 ; entonces el estimador de β con todos los datos es (β̂1 +β̂2 )/2. (c) Estimar un único modelo con los datos de las dos cámaras. Sabiendo que YT Y = 306.8, donde Y = log M , dar un intervalo de confianza al 99% para los dos parámetros. 6.11 Se ha estimado un modelo de regresión para la estatura (y) de un grupo de adultos y sus estaturas a los 7 (x1 ) y 14 (x2 ) años. La desviación típica residual obtenida es 5 cm y la desviación típica del coeficiente de x1 (estatura a los 7 años) resulta 2.4, siendo este efecto no significativo al 95%. Sin embargo, un segundo modelo de regresión que incluya sólo a esta variable (x1 ) conduce a una desviación típica residual de 7 cm y a un coeficiente de regresión de 2 con desviación típica de 1. ¿Qué podemos concluir con estos resultados de la correlación entre x1 y x2 ? 6.12 En la tabla 1 se muestran los resultados de un experimento en el que se estudiaron las pérdidas por abrasión (rozamiento) de material de goma empleado en la fabricación de neumáticos en función de la dureza de la goma en grados Shore y de su resistencia a la tensión. Esta última variable está representada por dos únicos valores, -1 para las gomas con una resistencia máxima a la tensión menor de 180 kg/cm2 y con +1 aquellas que presentan una resistencia máxima superior a 180 kg/cm2 . Los resultados del modelo de regresión múltiple (P érdidas = β 0 + β 1 Dureza + β 2 Re sistencia +ui ) se muestran en las tablas 1 y 2. (a) ¿Hay diferencias significativas en las pérdidas observadas en gomas con resistencia baja (-1) y en gomas con resistencia alta (+1)?. Explicar el significado de β 2 (coeficiente de Resistencia) y dar un intervalo de confianza de 95% para el mismo. 3 (b) Para comprobar si el efecto de la dureza en las pérdidas es el mismo para las gomas don resistencia alta y baja se planteó el siguiente modelo: P érdidas = β 0 + β 1 Dureza + β 2 Re sistencia + β 3 Dureza × Re sistencia + ui . Explicar de forma concisa el significado de cada uno de los tres parámetros del modelo. (c) Los resultados de la estimación del modelo del apartado 2 se proporcionan en la tabla 3 y en la figura siguiente. Teniendo en cuenta los resultados de la tabla 2 y 3, elegir el modelo que relaciona las pérdidas por rozamiento con las variables resistencia y dureza. Justificar la respuesta. ¿Por qué cambia tanto el nivel crítico (p-value) correspondiente a la variable Resistencia en uno y otro modelo?. (d) En la tabla 1 se proporcionan los valores previstos y los residuos del modelo anterior. Comprobar la hipótesis de homocedasticidad. DATOS Dureza 53 55 56 60 61 64 66 68 71 71 75 79 81 81 86 45 51 59 59 65 68 71 74 80 81 82 83 86 88 89 Resistencia -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Pérdidas 221 206 228 166 175 164 154 113 136 112 128 82 55 32 45 372 341 249 340 283 196 219 267 186 215 155 97 148 64 114 RESULTADOS Predicción Residuos 227,1 -6,1 215,1 -9,1 209,1 18,9 185,1 -19,2 179,2 -4,2 161,2 2,8 149,2 4,8 137,3 -24,3 119,3 16,7 119,3 -7,3 95,4 32,6 71,4 10,6 59,4 -4,4 59,4 -27,4 29,5 15,5 378,4 -6,4 342,5 -1,5 294,6 -45,6 294,6 45,4 258,7 24,3 240,7 -44,7 222,8 -3,8 204,8 62,2 168,9 17,1 162,9 52,1 156,9 -1,9 150,9 -53,9 133,0 15,0 121,0 -57,0 115,0 -1,0 TABLA 1. Datos, valores previstos y residuos del modelo de regresión: P érdidas = β 0 + β 1 Dureza + β 2 Re sistencia + ui 4 TABLA 2. Multiple Regression Analysis Dependent variable: Perdidas Parameter Estimate Standard Error T Statistic CONSTANT 596,075 32,8079 18,1686 Dureza -5,98636 0,46042 -13,0019 Resistencia 51,7421 5,51215 9,38692 Analysis of Variance Source Sum of Squares Df Mean Square Model 200957,0 2 100478,0 Residual 24054,6 27 890,909 Total (Corr.) 225011,0 29 P-Value 0,0000 0,0000 0,0000 F-ratio 112,78 P-Value 0,0000 R-squared=89,3096 percent R-squared (adjusted for d.f.)=88,5177 percent Standard Error of Est.=29,8481 Mean absolute error =21,1946 Durbin-Watson statistic=2,25411 TABLA 3. Multiple Regression Analysis Dependent variable: Perdidas Parameter Estimate Standard Error T Statistic CONSTANT 592,59 34,4264 17,2132 Dureza -5,93173 0,486879 -12,1832 Resistencia 65,4644 34,4264 1,90157 Dureza×Resistencia -0,196688 0,486879 -0,403978 Analysis of Variance Source Sum of Squares Df Mean Square Model 201107,0 3 67035,6 Residual 23904,5 26 919,404 Total (Corr.) 23904,5 29 P-Value 0,0000 0,0000 0,0684 0,6895 F-ratio 72,91 P-Value 0,0000 R-squared=89,3763 percent R-squared (adjusted for d.f.)=88,1505 percent Standard Error of Est.=30,3217 Mean absolute error =21,1085 Durbin-Watson statistic=2,25622 6.13 Se ha estimado un modelo de regresión múltiple para estudiar el efecto de tres regresores x1 , x2 , x3 sobre la resistencia de ciertas fibras textiles con n = 15 observaciones, resultando: ŷi = 17.36 + 0.95x1i + 1.03x2i − 1.58x3i , ŝ2R = 2.54, R2 = 0.92 Realiza el contraste general de regresión y los contrastes individuales (α = 0.05) si 5 (X̃ T X̃)−1 0.0051 −0.0041 0.0204 = −0.0041 0.4033 0.1836 . 0.0204 0.1836 0.4818 6.14 Los datos mostrados son el resultado de un experimento para caracterizar la duración de un material utilizado en un torno de corte de acero, en función de la velocidad de corte (X1 ) y del ratio de alimentación (X2 ). Por sencillez, las variables se han escalado de la siguiente forma V = X1 − 900 , 300 V -1 -1 1 1 -1 -1 1 1 0 0 F -1 -1 -1 -1 1 1 1 1 √ -√ 2 2 Y 54.5 66.0 11.8 14.0 5.2 3.0 0.8 0.5 86.5 0.4 F = V √ -√ 2 2 0 0 0 0 0 0 0 0 X2 − 13 6 F 0 0 0 0 0 0 0 0 0 0 Y 20.1 2.9 3.8 2.2 3.2 4.0 2.8 3.2 4.0 3.5 y se ha estimado el siguiente modelo log(Yi ) = β 0 + β 1 Vi + β 2 Fi + β 3 Vi2 + β 4 Fi2 + β 5 Vi × Fi + Ui siendo Ui errores aleatorios con distribución normal de media cero y varianza constante. y se ha estimado el siguiente modelo log(Yi ) = β 0 + β 1 Vi + β 2 Fi + β 3 Vi2 + β 4 Fi2 + β 5 Vi × Fi + Ui siendo Ui errores aleatorios con distribución normal de media cero y varianza constante. Los resultados principales del análisis son los de la siguiente tabla. Interpreta los resultados del análisis de regresión, indica de forma específica los resultados de los contrastes individuales de los parámetros β i y del contraste general de regresión si se utiliza un nivel de significación α = 0.01. 6 Análisis de Regresión Múltiple ---------------------------------------------------------------------------Variable Dependiente: LOG10(Duración) ----------------------------------------------------------------------------Desviación Estadístico Parámetro Estimación Típica t P-Valor ----------------------------------------------------------------------------CONSTANTE 0,515979 0,045626 11,3089 0,0000 V -0,343176 0,0372527 -9,21213 0,0000 F -0,690076 0,0372536 -18,5237 0,0000 V^2 0,181733 0,0436797 4,16058 0,0010 F^2 0,125106 0,043684 2,86389 0,0125 V x F -0,0316418 0,045626 -0,693503 0,4993 ----------------------------------------------------------------------------Análisis de la Varianza ----------------------------------------------------------------------------Suma de Grados Cuadrados Fuente Cuadrados Libertad Medios F P-Valor ----------------------------------------------------------------------------Modelo 7,60038 5 1,52008 91,27 0,0000 Residual 0,233154 14 0,0166539 ----------------------------------------------------------------------------Total (Corr.) 7,83354 19 6.15 En un modelo de regresión simple se ha obtenido un coeficiente de correlación igual a −0.8. Si el número de observaciones es n = 150, ȳ = 22 y la variabilidad total es 320. Construir un intervalo de confianza al 95% para el valor medio de la variable dependiente (y) cuando x (regresor) es igual a x̄. (Aproximar la distribución t de Student correspondiente por una distribución normal, si Z ; N (0, 1), P (Z ≤ 1.96) = 0.975). 6.16 Sea x1 la altura del tronco de un árbol y x2 el diámetro del mismo en su parte inferior. El volumen y del tronco de árbol puede ser calculado aproximadamente con el modelo yi = αx1i x22i + ui , según el cual, el volumen del tronco es proporcional al volumen de un cono con las medidas x1i , x2i , siendo α el parámetro (desconocido) de proporcionalidad, más una componente de error aleatorio ui . La tabla siguiente contiene los datos (en metros y metros cúbicos) correspondientes a una muestra aleatoria de 15 troncos de una variedad de pino. Obs. 1 2 3 4 5 6 7 8 x1i 10,1 11,3 20,4 14,9 23,8 19,5 21,6 22,9 x2i 0,117 0,13 0,142 0,193 0,218 0,236 0,257 0,269 x1i x22i 0,14 0,19 0,41 0,56 1,13 1,09 1,43 1,66 yi 0,062 0,085 0,204 0,227 0,47 0,484 0,623 0,722 7 Obs. 9 10 11 12 13 14 15 x1i 19,8 26,8 21 27,4 29 27,4 31,7 x2i 0,297 0,328 0,351 0,376 0,389 0,427 0,594 x1i x22i 1,75 2,90 2,60 3,90 4,40 5,00 11,2 yi 0,821 1,280 1,034 1,679 2,073 2,022 4,630 (a) Estimar α por máxima verosimilitud suponiendo que las variables ui tienen distribución normal de media cero, con la misma varianza e independientes. (b) Un tronco tiene una altura de 20 metros y un diametro de 0.25 metros, dar un intervalo de predicción de su volumen (95% de confianza). La varianza residual del modelo es 0,0058. (c) En el análisis de los residuos se observa que la varianza de los errores crece con el volumen del tronco. Para obtener homocedasticidad se propone el siguiente modelo transformado utilizando logaritmos neperianos, log yi = β 0 + β 1 log x1i + β 2 log x2i + ui El resultado de la estimación es: Parámetro β0 β1 β2 Estimación -1,45 1,14 1,86 y 0, 1250 0, 0212 −0, 0317 c b = 0, 0212 M 0, 0082 −0, 0051 β −0, 0317 −0, 0051 0, 0042 c b = sb2 (XT X)−1 (X es la matriz de los regresores transformados según el modelo) siendo M R β La transformación logarítmica del modelo inicial (αx1i x22i ) implicaría que β 1 = 1 y β 2 = 2. Contrastar (nivel de significación 0.05) si estos dos valores son aceptables. (d) Con este modelo, dar un intervalo de predicción (95% de confianza) para el volumen del tronco del apartado 2 si la varianza residual es 0,0031. 6.17 La empresa de bebidas gaseosas CIBELES quiere determinar la influencia sobre la presión interna (yi ) en los botes de refresco de dos variables continuas (x1 , x2 ) y del tipo de bebida (NARANJA=1, LIMÓN=2 y COLA=3). Para distintos valores de x1 y x2 y 20 botes de cada sabor, ha medido la presión interna. El tipo de bebida se representa por las variables z1 , z2 y z3 qué identifican el sabor NARANJA, LIMÓN y COLA, respectivamente. El modelo estimado de regresión de y con respecto a x1 , x2 , z2 y z3 es: ŷ = 19.4 + 77.2x1 − 50.8x2 + 2.95z2 + 5.52z3 ; donde T −1 (X X) = sbR = 4.32 0.1772 −0.6909 −0.5043 −0.0605 −0.0896 −0.6909 5.8085 0.2541 0.1478 0.2444 −0.5043 0.2541 5.0070 −0.0680 0.1216 −0.0605 0.1478 −0.0680 0.1049 0.0546 −0.0896 0.2444 0.1216 0.0546 0.1127 (a) Realizar los contrastes individuales con α = 0.01, indicando las variables que influyen significativamente en la presión. Interpretar el resultado explicando el significado de cada parámetro. (b) Si se realiza una regresión entre la presión interna (yi ) y las dos variables continuas x1 y x2 se obtiene el siguiente modelo de regresión ŷ = 23.86 + 65.1x1 − 56.3x2 ; ŝR = 4.78. Contrastar (α = 0.01) conjuntamente que el tipo de bebida no influye. (H0 : α2 = α3 = 0 frente a H1 : α2 ó α3 es distinto de cero). 8 (c) ¿Existe diferencia significativa en las presiones internas de los botes de LIMÓN y COLA? (α = 0.01) 6.18 Se ha ajustado el siguiente modelo de regresión múltiple con una muestra de 86 vehículos, de los cuales 31 son japoneses , 41 norteamericanos y 14 europeos, dónde la variable dependiente es el consumo, y los regresores: Pot (potencia) está expresada en unidades de 100 Cv, el Peso en Toneladas, ZJ toma el valor 1 si el coche es japonés y cero en los demás, y ZE toma el valor 1 para los coches europeos y cero en los demás. yb = 3.305 + 0.843 Pot + 3.829 Peso + 0.440 ZJ + 1.127 ZE T −1 (X X) = sb2R = 0.506, R2 = 75.7% 4.791e − 1 5.054e − 2 −3.794e − 1 −9.157e − 2 −4.682e − 2 5.054e − 2 1.595e − 1 −1.931e − 1 −3.443e − 3 −1.262e − 2 −3.794e − 1 −1.931e − 1 4.646e − 1 5.210e − 2 2.865e − 2 −9.157e − 2 −3.443e − 3 5.210e − 2 6.667e − 2 2.744e − 2 −4.682e − 2 −1.262e − 2 2.865e − 2 2.744e − 2 9.759e − 2 Dar el intervalo de confianza para el consumo previsto de un coche norteamericano con una potencia de 120 Cv y 1600 kg de peso. 6.19 Sea X la matriz completa de un diseño 2k , por ejemplo para el caso de k = 3, X= 1 1 1 1 1 1 1 1 −1 1 −1 1 −1 1 −1 1 −1 −1 1 1 −1 −1 1 1 −1 −1 −1 −1 1 1 1 1 1 −1 −1 1 1 −1 −1 1 1 −1 1 −1 −1 1 −1 1 1 1 −1 −1 −1 −1 1 1 −1 1 1 −1 1 −1 −1 1 e Y el vector de dimensión n = 2k con los valores de la variable respuesta correspondiente al experimento. El análisis estadístico del experimento se puede realizar mediante el modelo de regresión múltiple Y = Xβ + U, donde β = (β 0 , β 1 , ..., β n−1 )T es el vector de parámetros y U = (u1 , u2 , ..., un )T el vector de variables aleatorias independientes con distribución normal de media cero y desviación típica σ. Demostrar b es σ 2 /n y que el error de predicción de una observación que para cualquier i, la varianza de β i k nueva en cualquiera de los 2 tratamientos tiene como varianza 2σ 2 . 6.20 Demuestra que la recta de regresión pasa por el punto (x̄, ȳ) y que el intervalo de predicción para la media de la variable respuesta cuando el regresor toma el valor igual a x̄, es ŝR ȳ ± tα/2 √ n donde n es el número de observaciones, tα/2 se obtiene de la distribución t de Student con n − 2 grados de libertad y ŝ2R es la varianza residual. 9 6.21 La masa M de un cristal de hielo depositado en una cámara a temperatura (-5o C) y humedad relativa constante crece según la ecuación M = αT β , donde T es el tiempo en horas, y α y β son parámetros desconocidos. La relación anterior se linealiza con la transformación logarítmica, estimándose el siguiente modelo log M = log α + β log T + u donde el término añadido u son los errores experimentales, que se consideran aleatorios e independientes con distribución normal, N(0,σ 2 ). Diez cristales del mismo tamaño y forma se introdujeron en una cámara, extrayéndose secuencialmente según unos tiempos previamente establecidos. El modelo estimado, X T X y (X T X)−1 son: d log Mi = −7.30 + 2.40 log Ti , T X X= µ 10.00 46.66 46.66 218.9 ¶ T −1 (X X) ŝR = 0.64 = µ 18.27 −3.89 −3.89 0.835 ¶ Predice el crecimiento medio esperado del cristal después de 3 horas en la cámara con un intervalo al 95% de confianza. 6.22 La siguiente tabla muestra los datos recogidos en un estudio sobre el efecto de disolver azufre en la tensión superficial del cobre fundido Variables X: % en Peso deAzufre Y: Reducción de Ten.Sup. (dos replicaciones) Observaciones 0.034 0.093 0.30 301 430 593 316 422 586 0.40 630 618 0.61 656 642 0.83 740 714 Se ha estimado el modelo de regresión lineal simple con log(X) como regresor. El resultado del análisis de regresión y la gráfica del modelo se proporcionan más abajo.Se ha estimado el modelo de regresión lineal simple con log(X) como regresor. El resultado del análisis de regresión y la gráfica del modelo se proporcionan más abajo. Análisis de Regresión: Modelo Logarítmico Y = a + b*ln(X) -------------------------------------------------------------------------Variable dependiente: Tensión Superficial Variable Independiente: Azufre -------------------------------------------------------------------------Desviación Estadístico Parámetro Estimación Típica t P-Valor -------------------------------------------------------------------------Constante 735,784 7,47038 98,4935 0,0000 Pendiente 127,457 4,12867 30,8712 0,0000 -------------------------------------------------------------------------Analisis de la Varianza -------------------------------------------------------------------------Fuente Suma de Grados Cuadrados Cuadrados Libertad Medios F P-Va -------------------------------------------------------------------------Modelo 241678,0 1 241678,0 953,03 0,0 Residual 2535,9 10 253,59 -------------------------------------------------------------------------Total (Corr.) 244214,0 11 10 Tension_Sup 800 700 600 500 400 300 0 0,2 0,4 0,6 0,8 1 Azufre Utiliza el modelo para predecir la reducción de la tensión superficial del cobre fundido con un 0.8% de azufre disuelto. Da un intervalo de confianza del 95% para la predicción. 6.23 Se ha estimado un modelo de regresión con dos variables independientes y 20 observaciones obteniéndose la siguiente ecuación: ybi = −19.17 + 0.222x1 + 0.659x2 , La matriz de varianzas de los regresores (x1 , x2 ) es µ ¶ 25.23 24.29 . 24.29 27.40 sb2R = 6.468 b ,β b T Teniendo en cuenta que la matriz de varianza teórica de los estimadores bb = [β 1 2 ] es σ2 r σ2 − n s2 (1 − r2 ) n s1 s2 (1 − r2 ) , 1 2 σ2 rσ − 2 2 2 n s1 s2 (1 − r ) n s2 (1 − r ) donde n es el número de observaciones, r el coeficiente de correlación entre los regresores, s21 y s22 las varianzas muestrales de los regresores y σ 2 la varianza del modelo de regresión; realiza los contrastes individuales de los dos regresores, α = 0.05. Interpreta el resultado de los dos contrastes. 11 Estadística Soluciones a los ejercicios propuestos. Curso 2004/05 1 Capítulo 1. Descriptiva 1.1 xp = (10 + 18 + 22 + 150)/4 = 50; sp = r (10 − 50)2 + ... + (150 − 50)2 = 57.9; xa = 10(10/200) + 4 = s2x ... + 150(150/200) = 117.04; p sa = (10 − 117.04)2 (10/200) + ... + (150 − 117.04)2 (150/200) = 57.1. s2z + s2y 1.2 Si es posible el resultado, z = x + y; 1.3 x0 = k1 x; y 0 = k2 y; cov(x0 , y 0 ) = k1 k2 cov(x, y); sx0 = |k1 | sx ; sy0 = |k2 | sy ; r(x0 , y0 ) = r(x, y). 1.4 cov(x, y) = bs2x ; s2y = b2 s2x ; r(x, y) = 1. ¯ ¯ ¯ s2x rsx sy ¯¯ ¯ = s2x s2y − r2 s2x s2y ≥ 0; 1 ≥ r2 . ¯ rsx sy s2y ¯ 1.5 1.6 1.7 1.8 + 2sxy ; sxy ¯ ¯ ¯ 4 −11/2 ¯¯ ¯ = −11/2; ¯ ¯ ≥ 0. −11/2 9 Si. Determinante = −2. No puede ser una matriz de varianzas. No. y = log10 xG ; xG es la media geométrica; xG < xA ; log10 xG < log10 xA ; 2.5 ≮ 2. Q1 = −0.16; Q2 = mediana = −0.0.3; Q3 = 0.18; RI = 0.34; LI = −0.67; LS = 0.69, como el valor máximo muestral es 0.45, entonces LS = 0.45. Capítulo 2. Probabilidad 2.1 p = 0.472 2.2 La función de densidad es fz (z) = 2.4 k = log 2; E[X] = 2z r2 con 0 < z < r y la función de distribución es Fz (z) = z2 r2 25 y V ar[X] ' 51.67 log 2 ¸ mV 2 = 32 kT,que es independiente de su masa. Fijada la temperatura T , cualquier gas tiene 2.5 E 2 el mismo valor medio de energía cinética molecular independientemente de su masa. · 2.6 2.7 2.8 fY (y) = 1 con 0 ≤ y ≤ 1 10 x2 R ∞ x − p = 5 2 e 2σ 2 dx = e−10/8 σ R∞ R∞ Ra E[X] = 0 xfX (x)dx + a xfX (x)dx ≥ a xfX (x)dx = aP (x > a) y despejando se obtiene la desigualdad de Markov. 1 171 3 . k = , E[Y ] = , V ar[Y ] = 2 8 320 ½ 2 √ c si x2 + y 2 ≤ r2 , fX (x) = 2 r2 − x2 , −r ≤ x ≤ r 2.10 fXY (x,y) = 2 2 2 0 si x + y > r πr 2.9 2 2.11 2.12 2.13 1 1 (a) k = 6; E[p] = ; V ar[p] = . 2 20 ´10 ³R 0.75 6p(1 − p)dp = 0.183 (b) 0 fU (u) = 2F (u)f (u) La función de probabilidad para el máximo es: Valor 1 2 3 4 5 6 Probabilidad 1/36 3/36 5/36 7/36 9/36 11/36 La función de probabilidad para el mínimo es: Valor 1 2 3 4 5 6 Probabilidad 11/36 9/36 7/36 5/36 3/36 1/36 La función de probabilidad para la media es: Valor 1 1, 5 2 2, 5 3 3, 5 4 4, 5 5 5, 5 6 Probabilidad 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36 2.14 fXY (x, y) 6= fx (x)fY (y), por lo que X e Y no son variables aleatorias independientes. 2.15 (a) P (Z = n) = Pn −(λ1 +λ2 ) k=0 P (X = k)P (Y = n − k) = e dividiendo por n!, y utilizando que (λ1 + λ2 )n = 3 Pn k=0 Pn k=0 λk1 λn−k 2 , multiplicando y k!(n − k)! n! λk λn−k , se obtiene que: k!(n − k)! 1 2 P (Z = n) = e−(λ1 +λ2 ) (λ1 + λ2 )n , n! que es la probabilidad de Poisson con parámetro λ = λ1 + λ2. (b) P (X = k|Z = n) = P (X = k|Z = n) = 2.16 ¡n¢ k ´k ³ ´n−k ³ λ1 n! λ1 λ2 , si llamamos p = , +λ +λ λ λ 1 2 1 2 k!(n − k)! λ1 + λ2 (p)k (1 − p)n−k que es una binomial de parámetros n y p = λ1 λ1 + λ2 P (X < 0.3|Y = 0.8) = 0.09 Sea X la variable llegada de clientes en una hora, X1 la variable llegada de clientes en los 15 primeros minutos de esa hora y X2 la variable llegada de clientes en los 45 últimos minutos de esa hora. La probabilidad pedida: µ ¶2 1 . P (X1 = 2|X2 = 2) = 4 2.17 2.18 (a) k = 8 (b) P (X < 0.5|Y = 0.5) = 1 (c) Las variables aleatorias X e Y no son independientes ya que el campo de variación de X depende de Y. 2.19 2.20 V ar(Z) = 0 LLamando X al tiempo de vida del receptor e Y al tiempo de vida del amplificador, P (X < Y ) = 2 . 3 2.21 El número medio de años que dura una máquina es: RT E[Y ] = 0 xfx (x)dx + T (1 − F (T )). Por lo tanto el número medio esperado de máquinas empleadas en un año es: RT 1 = [ 0 xfx (x)dx + T (1 − F (T ))]−1 . E[Y ] 6 −2 4 6 −4 2.22 MZ = −2 4 −4 6 2.23 ρ = 0. Las variables no son independientes porque por ejemplo P (Y1 = 0|Y2 = 0) = 0 6= P (Y1 = 0) 2.24 (a) fX (x) = 2x con 0 < x < 1, fY (y) = ya que fXY (x, y) = fX (x)fY (y) (b) P (X + Y < 1) = y con 0 < y < 2. Las variables X e Y son independientes 2 1 24 4 2.25 FX (x) = 1 − e−ax ; x ≥ 0 y FY (y) = 1 − e−ay ; y ≥ 0. Como FXY (x, y) = FX (x)Fy (y) las variables aleatorias X e Y son independientes. P (X < 1, Y ≥ 2) = (1 − e−a )e−2b ; P (X < 1) = 1 − e−a y P (Y ≥ 2) = e−2b . 1 3 2.26 P (T1 < 1|T2 > 2) = 2.27 fY (y) = − ln(1 − y) con 0 ≤ y ≤ 1 2.28 p= 2.29 Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))] = E[XY ] − E[X]E[Y ], 1 2 se sustituye Y = U + V, obteniendo: Cov(X, Y ) = E[(X(U + V )] − E[X]E[U + V ] = E[XU ] − E[X]E[U ] + E[XV ] − E[X]E[V ] = = Cov(X, U ) + Cov(X, V ) 2.30 (a) Sea Y el número de pruebas a realizar, E[Y ] = 51 × 0.395 + 1 × 0.605 = 20.75 ' 21 (b) Sea A el suceso de que un individuo sea portador del virus y B el suceso el resultado dela análisis ha resultado positivo, P (A|B) = 0.025. µ ¶ n 2.31 P (X = n) = pk (1 − p)n−k+1 . k−1 2.32 16/7 2.33 p=1− 2.34 (a) e−3 (b) e−6 (c) 1 − P4 1 i i=1 ( 2 ) = 0.0625 36 6! 63 3! P15 −9 i=0 e 9i i! 3 ( 3 )2 (d) e 5 5 2! − w b b−1 −( )b 2.35 La función de densidad es fW (w) = b w e a con a > 0, < b > 0, w > 0 y la función de µ w ¶b a − distribución es FW (w) = 1 − e a 2.36 p = 0.3 2.37 p = 0.065 2.38 (a) p = 0.76 × 0.37 × 0.76 = 0.21 5 (b) Sea D el tiempo de vida de la depuradora P (D < T + 1000|D > T ) = 0.049. No depende de T, por lo que no está justificado renovar la depuradora antes del fallo ya que la probabilidad de fallo no depende del tiempo que ha estado funcionando. 2.39 2.40 2.41 p = 0.175 β β p = e−k(t2 −t1 ) 3 0 Sea X el número de peces capturados en 15 minutos, P (X > 1|λ = ) = 0.5276. Sea X el número 4 0 0 de peces capturados en dos horas de pesca P (X = 5|λ = 6) = 0.1606. 1 1000 2.42 λ(t) = 2.43 Utilizando la aproximación a la normal a ≥ 9. y − 1 1 fY (y) = √ √2π e 2 con y > 0 y 2.44 2.45 Mediana= 0.674σ 2.46 (a) 0.976 (b) 0.0229 (c) 0.999 (d) 0.1 2.47 (a) 0.3142 (b) 0.119 (c) 0.7103 2.48 X = peso de caja con 100 sobres; X ∼ N (µ = 100 × 8 + 30 = 830; σ = √ 100 × 0, 25 = 5); P (X > 820) = 1 − φ( 820−830 ) = 0, 0228; 5 Y = peso de caja con 199 sobres; Y ∼ N(µ = 99 × 8 + 30 = 822; σ = √ 99 × 0, 25 = 4, 975); P (Y > 820) = 1 − φ( 820−822 4,975 ) = 0, 656 2.49 Y = número de veces que sale el número elegido Y ∼ B(n = 3; p = 1/6); X = balance del jugador = Y − 1 E[X] = 3/6 − 1 = −0.5; sale ganando la banca. 2.50 X = número de unidades defectuosas de un total de 400 6 X ∼ B(n = 400; p = 0, 06) ∼ (aprox) ∼ N (µ = 400 × 0, 06 = 24; σ = c−24 ) = 0, 05, es decir Hay que calcular c tal que φ( 4,745 c−24 4,745 √ 400 × 0, 06 × 0, 94 = 4, 745); = −1, 645; c = 16, 18 Capítulo 3. Inferencia 3.1 3.2 3.3 3.4 3.5 3.6 3.7 n b = 103; pb = 0.21. b = 2x − 1. N θ2 6 b θ] = θ y V ar[b θ] = . θ = x; E[b 5 35 b θ = 100/22. b = 1/7. P (t > 10) = 1 − P (t ≤ 10) = 1 − FT (10) = exp(−10/7) = 0.24, siendo α n à α b= n log i=1 b β xi b = máx{x1 , x2 , ..., x3 }. !; β 20 2 10 726 dL(θ) = − + 3 (xi )2 + 3 ; b θMV = 8.2582. dθ θ θ i=1 θ 3.8 L(p) = 20 log p + 95 log(1 − p) + k; 3.9 l(λ) = 3.10 1 2082 b 2082 = 297.4. 7 exp(− λ ); λ = 7 λ θ2 b . θ) = θ = 3x; V ar(b 2n c= n nµ2 . ;c= 2 2 σ + nµ 4+n 3.12 k= 1 . n(n − 1) 3.13 ECM (b σ 2 ) = σ 4 (k − 1)2 + 3.14 µ b= 3.11 3.15 3.16 dL(p) = 0; pb = 0.174. dp n−1 2k 2 σ 4 ;k= . (n − 1) n+1 1 t1 t2 1 17 + ; E[µ] = µ; V ar[µ] = V ar[t1 ] + V ar[t2 ] = . 2 4 4 16 64nµ2 P = P (fallo en un mensaje) = P (fallo en al menos un bit de los 128) = 1 − (1 − p)128 . En los 340 = 1−(1−b p)128 ; pb = 0.000270. últimos 10000 mensajes (lecturas) ha habido 340 erróneos. Pb = 10000 sb (a) µ ∈ x ± t(11; α2 ) √ ; µ ∈ (29.47, 30.70). n (b) (n − 1)b s2 ; χ211 ; σ 2 ∈ (0.472, 2.709). σ2 7 3.17 3.18 sb µ ∈ x ± t(12; α2 ) √ ; µ ∈ (30.37, 38.25). n sb ingreso ∈ x ± t(11; α2 ) √ ; ingreso ∈ (2857, 1822).La amplitud es 500. n L = 250; n = z 2α 2 3.19 sb2 = 40.8; al menos n = 41 estaciones. L2 (a) x = 45.75; sb2 = 201.6 sb (b) µ ∈ x ± t(14; α2 ) √ ; µ ∈ (34.82, 56.67) n (n − 1)b s2 ; χ214 ; σ 2 ∈ (90.19, 693.60) σ2 √ sb sb (d) L = 2 × √ × t(14; α2 ) ; n > × t(14; α2 ) ; n > 23; n = 24. n 6 r r pb(1 − pb) pb(1 − pb) ; p ∈ (0.131, 0.239); L = 2 × 1.96 × ; 3.20 p ∈ pb ± z α2 n 200 r L pb(1 − pb) , L1 = ; m = 4 × 200 = 800. L1 = 2 × 1.96 × m 2 ! à r 0.05 p(1 − p) 1.962 p(1 − p) ;r = 1.96; n = ;p = 3.21 P (|b p − p| ≤ 0.05) = 0.95; pb ; N p, n 0.052 p(1 − p) (c) n 3.22 1/2; n = 384. s θ∈b θ ± z α2 b θ b ; θ = 236.5; T = 15; θ ∈ (228.72, 244.28). T 2 × 30 × x ≤ χ2b,60 ; λ ∈ (4.46, 9.18). λ r P 2 x2i α2 ; V ar(b αMV ) = . 3.24 (a) α b MV = 3n 6n µ ¶ √ 3π 1 x π ; V ar(b αM ) = (b) α bM = − α2 . 2 8n n sµ r ¶ 3π 1 α b 2MV ; α ∈ (2.74, 3.21); α ∈ α b M ± z α2 − α b 2M ; α ∈ (2.78, 3.27). (c) α ∈ α b MV ± z α2 6n 8n n 3.23 3.25 χ2a,60 ≤ (a) X ; B(n = 1012 , p = e−λt = e−20000/8270 ); E[X] = np = 8.9 × 1010 . p X ; N (µ = ne−λt , σ = ne−λt (1 − e−λt )). (b) El intervalo es µ ± 1.96σ; (8.9 × 1010 ± 5.58 × 105 ). Se ve que el cociente entre la desviación típica y la media es 6.26 × 10−6 , lo cual indica que la incertidumbre del proceso es despreciable. 8 b e−λt = 1010 ; N b = x1 eλt = 1.12×1011 ; E[N b ] = eλt E[x1 ] = (c) E[X] = N p = N e−λt ; x = x1 = 1010 ; N 2λt 2λt −λt −λt −λt −λt λt λt b ) = e V ar(x1 ) = e N e (1 − e ) = N e (1 − e ). = N ; V ar(N e Ne (d) N e−λT = 3.26 (a) t = (b) D = log 2 N ;T = = 5.73 × 103 . 2 λ 190 − x √ ; tn−1 ; t = 1.84; |t| < t(4;0.025) = 2.78, no se puede rechazar H0 : µ = 190. sb/ n (n − 1)b s2 ; χ24 ; D = 4.58 < χ2(4,0.05) = 9.49, no se puede rechazar H0 : σ 2 = 100. 100 P (Error tipo I) = P (x > 11|µ = 10) = 0.0227; P (Error tipo II) = P (x < 11|µ = 12) = 0.0227. ¢¢ ¡ ¡ √ 3.28 P X ≥ 85|X ; N 100 × 0.75, 100 × 0.75 × 0.25 = 0.01044 < α = 0.05. Con nivel de significación α = 0.05, la nueva medicina es más efectiva que la antigua. ½ pb − p H0 : p = 0.03 ;Z = r 3.29 ; N (0, 1); Z = 1.24 < Z0.05 = 1.65, no se puede rechazar H1 : p > 0.03 p(1 − p) n 3.27 0.04978 − p H0 ; P ot(p) = 1 − Φ r p(1 − p) ; P (Error tipo II|p = 0.06) = 1 − P ot(p = 0.06) = 0.2709. 200 3.30 2nx ; χ260 ; X 2 = 74.4 < χ2(60;0.05) = 79.1, no se puede rechazar H0 ; λ µ ¶ 2nx 2 Nivel crítico: P (χ60 ≥ 74.4) = 0.10.P (Error tipo II|λ = 7.5) = P ≤ 79.1 |λ = 7.5 ≈ 0.25. 5 (a) X 2 = (b) 3.31 ½ x1 H0 : λ1 = λ2 x1 /λ1 ; > 1.74; x2 < 3.56. Después de 6000 ; F2n1 ,2n2 . Se rechaza H0 si H1 : λ1 > λ2 x2 /λ2 x2 2.35 × 6 + 6 × 9 horas x2 ≥ = 4.54 > 3.56. No es necesario seguir el ensayo. 15 P (b p > c|p = 0.85) = 0.01; P (b p > c|p = 0.95) = 0.99; n ≈ 180; c = 0.912. 3.32 (Oi − Ei )2 ; χ25 ; X 2 = 7.5181 < χ2(5;0.05) = 11.1, no se puede rechazar la hipótesis de Ei normalidad. 3.33 (Oi − Ei )2 ; χ25 ; Ei = 20 ∀i; X 2 = 8.5 < χ2(5;0.05) = 11.1,no existe evidencia para Ei rechazar la hipótesis de que el dado está equilibrado. 3.34 X 2 =8i=1 X 2 =6i=1 X : v.a número de epicentros en una cuadrícula de tamaño 100 km2 ; P oisson(λ); P xi (Oi − Ei )2 48 no total de epicentros b = 1.41 epicentros/100 km2 ; X 2 =5i=1 =P = ; χ23 ; λ= o 34 Ei ni n total de cuadrículas X 2 = 0.44 < χ2(3;0.05) = 7.8147; no existe evidencia para rechazar la hipótesis de que la distribución de epicentros es una Poisson. Nivel crítico: P (χ23 ≥ 0.44) ≈ 0.90 ÷ 0.95. 9 3.35 3.36 3.37 P (error tipo II ) = P (X > 0|p < 0.07) = 1 − (1 − p)20 , p < 0.07; P (error tipo I ) = P (X = 0|p = 0.07) = (1 − p)20 = 0.234. El método tiene una probabilidad muy alta (0.234) de dar como mejor el apoyo nuevo cuando es igual que el existente. 20 2T P i à χ240 ; X 2 = 22.74 < χ2(40;0.95) = 26.5. Se rechaza H0 con α = 0.05. Conviene i=1 200 resaltar que el contraste es unilateral con la región de rechazo a la izquierda. X2 = X = número de defectos en 900m2 de tela X ∼ P oisson(λ = 9 ∗ 4 = 36) ∼ (aprox) ∼ N (µ = 36; σ = 6); P (X > 50, 5) = 1 − φ( 50,5−36 ) = 0, 0078; 6 Y = número de defectos en 16 horas de fabricación Y ∼ P oisson(λ = 9 ∗ 4 ∗ 16 = 576) ∼ (aprox) ∼ N (µ = 576; σ = 24); H0 : λ = 576; H1 : λ > 576; ) = 8, 6e − 10; se rechaza H0 , la evidencia muestral indic que P (Y > 720 | λ = 576) = 1 − φ( 720,5−576 24 ha habido un aumento. Capítulo 4. Análisis de la varianza 4.1 (a) 0.4325 ≤ σ 21 ≤ 1.1149. σ 22 (b) µ1 − µ2 ∈ (−809.2, 1023.2). 4.2 La región de rechazo es:|d| > 2.179, como d = 0.51 no se rechaza las máquinas son iguales. 4.3 (a) Se debe elegir el proveedor A. (b) µA − µB ∈ (3526.34, 6473.65). 4.4 El valor calculado de la F (19.2) se compara con el valor de tablas F(2,16;0.05) = 3.63. Como 19.2>3.63 se puede concluir que para α = 0.05 existen diferencias significativas entre los tratamientos. 4.5 (a) Se compara el valor obtenido de la F(3.99) con el valor de tablas F(4,25;0.05) = 2.76. Como 3.99>2.76 se concluye que existen diferencias significativas entre los materiales. No se puede concluir que exista un material con desgaste significativamente menor. Los materiales que tiene un desgaste medio significativamente distinto son: B y C, B y A, y E y C. El resto no se pueden considerar significativamente distintos. (b) 0.93 ≤ σ 2 ≤ 4.18 4.6 (a) El valor de la F obtenido es 2.05, que se compara con el de tablas F(3,15;0.05) = 3.29. Como3.29 > 2.05 no puede rechazarse la hipótesis nula de igualdad de medias. (b) No, el valor 68 del tercer termómetro parece discordante con los demas. 10 (c) El termómetro 4 es distinto al 1 al 2. La diferencia de las conclusiones proviene de que el valor 68 del grupo 3 es atípico y distorsiona todo el resultado. 4.7 (a) Se compara el valor de la F (64.348) obtenido con el de las tablas F(2,12;0.01) = 6.92. Como 64.348 > 6.92 se rechaza la hipótesis nula de que las medias son iguales. (b) El valor que se obtiene de la t es 2.9853 que no está incluido en el intervalo (−2.18, 2.18), con lo que se rechaza la hipótesis nula. 4.8 La relación aproximada entre la desviación típica de la variable transformada y la original es sz ' sy |h0 (y)| donde h es la transformación realizada, h0 es la primera derivada de la transformación e y es el valor medio de y. Utilizando la expresión anterior se observa que la transformación que corrige la heterocedaricidad es z = log y. Capítulo 5. Diseño de experimentos 5.1 Se compara el valor de la F = 45.7 con el valor de las tablas F(1,4;0.05) = 7.71. Como 45.7 > 7.71 se rechaza que los equipos son iguales. 5.2 Si no se tiene en cuenta el bloque el resultado es el mismo que si no se tiene en cuenta. El factor es significativo. Es mejor el modelo en bloques que el de un factor para cualquier caso. Ya que si el bloque no es significativo, podemos pasar directamente al modelo con un factor (sin realizar ningún cálculo), pero si el bloque es significativo se pierde mucho no planteando el modelo en bloques, incluso podría suceder que el factor no resultara significativo. 5.3 (a) Existe evidencia de que el consumo medio no es igual en cada estación del año. (b) La estación de mayor consumo es el invierno. No se puede hablar de una estación de menor consumo, ya que el consumo medio en otoño, primavera y verano no se pueden considerar significativamente distintos. Los intervalos de confianza para el consumo medio de las diferentes estaciones del año son: µI ∈ (13.36, 14.96), µI ∈ (12.17, 13.77), µI ∈ (11.86, 13.46) y µI ∈ (11.26, 12.86). (c) Los factores estación y comunidad son significativos. (d) El consumo en invierno es significativamente mayor que en el resto de las estaciones, el consumo en otoño y primavera es significativamente mayor que en verano y, el consumo en primavera es significativamente mayor que en primavera. Al incluir el factor comunidad disminuye la varianza residual y el test para el invierno resulta más significativo y permite detectar el efecto de las demás estaciones. 5.4 (a) No se rechaza H0 : µD = 0. El nivel crítico del contraste es 0.1462. (b) El número de niveles del factor y del bloque es respectivamente I = 2 y J = 20, sb2R = P2 P20 2 P20 2 P20 2 i=1 j=1 eij j=1 e1j + j=1 e2j = , donde eij = yij − yi• − y•j + y•• . Para un mismo día (I − 1)(J − 1) (J − 1) 1 P20 2 P20 2 P20 2 1 j=1 (Dj − D) 2 2 = sb2D e1j + e2j = 0 ⇒ j=1 e1j = j=1 e2j , por lo tanto sbR = (J − 1) 2 ¶ ¶2 µ µ y1• − y 2• 2 D VE √ √ = = t2J−1. (c) F1,J−1 = 2 = sbR sbD / J sbD / J 11 5.5 El efecto del sexo y el tipo de de formación son significativos y además existe interacción entre ellos. Interpretacción: 1) Existen diferencias significativas en el número medio de errores cometidos entre profesores de ciencias y profesores de letras (11.67 más en ciencias). 2) También es significativa la diferencia entre hombres y mujeres (9 errores más para hombres). 3) Además la diferencia observada entre hombres y mujeres de letras (2 errores más para hombres) difieren significativamente de la observada para los profesores de ciencias (16 errores más para hombres). 5.6 La interacción entre los dos factores no es significativa. Esta conclusión se puede obtener al comparar el valor de la F (2.16) obtenido con el de las tablas F(2,24;0.05) = 3.4. Como 2.16>3.4 la interacción no resulta significativa. 5.7 (a) Se compara el valor de laF (2.8125) con el obtenido en las tablas F(4,45;0.05) = 2.59. Como 2.8125 > 2.59 se rechaza la hipótesis nula de igualdad de medias, y se concluye que el índice de octanos medido no es igual para cada fórmula. (b) La fórmula 3 proporciona índice medio de octanos significativamente distintos a las fórmulas 1 y 5, y la fórmula 4 es significativamente distinto a la 1. Las demás fórmulas no se pueden considerar que proporcionen índice de octanos diferentes. (c) El valor de la F (2.43) correspondiente a la interaccion se compara con el valor de las tablas F(4,90;0.05) = 2.47. Como 2.47 > 2.43 no se puede rechazar que la interacción sea nula, o de otra forma, el efecto de la interacción no es significativo al 95%. 5.8 Para que la interacción sea significativa debe cumplirse que 1.125(R − 1) > F(4,9(R−1);0.05) , donde R es el número de replicaciones. El cálculo de R es iterativo. Se irán dando valores hasta conseguir que la interacción sea significativa. 5.9 V E(αβ) = 20.9988, V N E = 4.1842, el valor correspondiente de la F es 28.5155, que se compara con el valor de las tablas F(2,12;0.05) = 3.89. Como 28.5155 > 3.89 se rechaza que la interacción entre los factores horno y temperatura. 5.10 (a) El laboratorio 3 tiene una media significativamente menor que los otros tres. La diferencia entre las medias de los laboratorios 1,2 y 4 no son significativas. Este resultado se observa en la tabla del enunciado, en la que se marcan con un asterísco las diferencias significativas entre los valores medios de los laboratorios. El intervalo para la media del tercer laboratorio es: µ3 ∈ y 3• ± t16;0.005 sbR r 1 , n3 y sustituyendo para los datos obtenidos se tiene que: r √ 1 µ3 ∈ 56.52 ± 2.921 × 2.14872 → µ3 ∈ (54.61, 58.44). 5 (b) El contraste H0 : σ 2 = 1 H1 : σ 2 > 1 12 se realiza con el estadístico (n − I)ŝ2R σ2 que tiene distribución de probabilidad χ2n−I siendo I = 4 el número de laboratorios y n = 20 el número de datos. χ20 = (n − I)ŝ2R 16 × 2.14872 = 34. 38 = σ2 1 que es mayor que el valor χ216,0.01 = 32, por consiguiente se rechaza la hipótesis H0 y se concluye que la varianza es mayor que 1. (c) Como resultado del análisis del modelo con dos factores se observa que el efecto principal día y la interacción entre el laboratorio y el día no resultan significativas, obteniendo para ambos casos p-valores (0.8510 y 0.9779 respectivamente) claramente superiores a 0.01. Por otra parte al hacer las comparaciones para los laboratorios dos a dos se observa que además de las diferencias entre laboratorios obtenidos en el primer apartado, se aprecia ahora una nueva diferencia significativa entre el laboratorio 1 y 2. (d) Sea σ 21 la varianza correspondiente al día 1 y σ 22 la correspondiente al día 2. El contraste pedido es: H0 : σ 21 = σ 22 H1 : σ 21 6= σ 22 16ŝ2R1 σ 21 El contraste se realiza según: ∼ F16,16 ,donde ŝ2R1 = 2.14875 y ŝ2R2 se calcula como se 16ŝ2R2 σ 22 muestra a continuación. La varianza residual correspondiente al modelo de dos factores es: P4 P2 P5 i=1 j=1 r=1 (yijr − ȳij. ) ,donde I = 4 es el número de laboratorios, J = 1 es el ŝ2R = IJ(R − 1) número de días y R = 5 es el número de replicaciones. Esta varianza residual se puede escribir como: P4 P5 P P 16ŝ2R1 + 16ŝ2R2 (yi1r − ȳi1. ) + 4i=1 5r=1 (yi2r − ȳi2. ) = ,de donde se obtiene ŝ2R = i=1 r=1 32 32 que: ŝ2R2 = 2ŝ2R − ŝ2R1 = 2 × 2.06152 − 2.14875 = 1.9743. El valor del estadístico de contraste 2.14875 = 1.0884, que pertenece al intervalo (F16,16;0.95 = 0.26, F16,16;0.05 = 3.92), por lo es: 1.9743 que no se rechaza la hipótesis nula y se concluye que no ha habido un cambio en la varianza de un día a otro. 5.11 (a) Los resultados del análisis de la varianza se pueden interpretar de la siguiente manera: En la tabla 3 se puede ver que el nivel crítico de los tres contrastes es p-valor=0.0000, ésto quiere decir que 13 con un nivel de significación α = 0.05, por ejemplo, la temperatura, el tiempo de exposición y la interacción entre ambas tienen un efecto significativo sobre la cantidad absorbida. Como la interacción es significativa, el efecto de la temperatura y del tiempo de exposición sobre la cantidad absorbida debe hacerse de forma conjunta. El gráfico de interaccciones que se proporciona en el enunciado ayuda a realizar la interpretación: Para el tiempo de exposición E1: La absorción media es diferente para cada temperatura. La máxima absorción se consigue a T 2 y la mínima a T 1. Para el tiempo de exposición E2: La absorción media para cada temperatura son más parecidas. Sólo es distinta la media de la temperatura T 1, que es mayor que las medias de las otras dos. Para el tiempo de exposición E3: No existen diferencias significativas en la absorción media de cada temperatura. Para este tiempo de exposición la temperatura no influye en la absorción. (b)La tabla de análisis de la varianza para el nuevo modelo es: Fuente Variabilidad VE V NE VT Suma de Cuadrados 8490.7 299.00 8789.7 Grados de Libertad 8 18 26 Varianzas 1061.34 16.61 F 63.89 p-valor 0.0000 (c) Con los datos del experimento, se rechazará H0 cuando|z i. − z j. | > 6.99. El tratamiento que tiene mayor media es el número 2, z 2. = 91.43, que es significativamente distinto de todos los demás salvo del 8, z 8. = 87.06, pero éste a su vez no se puede distinguir del 7, z 7. = 83.76. Luego no se puede decir que exista un único tratamiento que proporcione una absorción significativamente mayor que el resto. (d) No se aprecian signos preocupantes de heterocedasticidad. Unicamente comentar que los residuos correspondientes al valor previsto zk. = 91.43 tienen mayor variabilidad que el resto. Al representar los residuos frente a los tratamientos, se observa que es el tratamiento 2 el que presenta mayor variabilidad. Este resultado debe ser analizado en detalle: El tratamiento 2, que es el que presenta la mayor media de cantidad absorbida, es también el que presenta una mayor variabilidad. Este resultado tendría que ser comentado y discutido con los expertos que han realizado el experimento. 5.12 (a) Los resultados del análisis de la varianza se pueden interpretar de la siguiente manera: los factores hidrocarburo e hidrógeno son significativos pero la interacción entre ellos no lo es. Las diferencias significativas con nivel de significación de 0.05 son: - Para Hidrocarburos: B 6= A, B 6= C, D 6= A, D 6= C. - Para Hidrógeno: 1 6= 2, 1 6= 3, 2 6= 3. (b) Teniendo en cuenta que la interacción no es significativa el tratamiento que proporciona el rendimiento óptimo es el correspondiente al hidrocarburo C y el hidrógeno 3. El intervalo de confianza para el valor medio en esas condiciones es: √ 1 1 µ ∈ y33. ± t36;0.025 sbR √ → µ ∈ 29.975 ± 2.02 14.55 2 4 (c) .Se contrasta la hipótesis H0 : σ 21 = σ 22 frente a la alternativa H1 : σ 21 6= σ 22 , obteniendo un valor de F = 0.3922, que se compara con los valores obtenidos en las tablas (F12,12 ). Como 0.3922 ∈ (0.30, 3.28),no se rechaza la hipótesis nula. 14 (16.6875 − 20.03) p = −1.38. 3.36 1/12 Como −1.38 está dentro del intervalo (−2.7, 2.7), no se rechaza la hipótesis nula de igualdad de medias. (d) Teniendo en cuenta que x1 = 18.6875 y x2 = 20.03, el estadístico t = 5.13 El número de parámetros correspondientes a efectos principales son 14, correspondientes a interacciones de orden 2 son 71, correspondientes a interacciones de orden 3 son 154, y correspondientes a interacciones de orden 4 son 120. Por lo tanto, el número de parámetros totales son 359. (a) 2.55 ≤ σ 2 ≤ 8.11 5.14 (b) Los efectos principales de A, B y C son significativamente distintos de cero. (c) El intervalo pedido es: 0.0253σ 2 ≤ sb2i ≤ 3.69σ 2 . Sustituyendo σ 2 por su estimador se obtiene que 0.106 ≤ sb2i ≤ 15.47. Como todos los valores de sb2i pertenecen al intervalo construido no se puede rechazar la hipótesis de homocedasticidad. q 5.15 . d = (y 1 − y2 ) − (y 3 − y4 ) ∼ N (µ = µ1 − µ2 − µ3 + µ4 ; σ = 4σ 2y /10); 2 SbR 10 = t= 4 P i=1 s2i 4×10−4 ; (y 1 −y3 )−(y3 −y 4 ) √ bR 4/10 S ∼ t(4 × 10 − 4) H0 : δ = 0; H1 : δ > 0; Para la muestra, t = 6, 93 > t0,95 (36) = 1, 69, se rechaza H0 Capítulo 6. Regresión lineal 6.1 6.2 ½ H0 : β 1 = 0 se rechaza H0 ; sb2R = 0.1269; en el H1 : β 1 6= 0 gráfico de los residuos frente a los valores previstos se aprecia falta de linealidad, el modelo no es adecuado. b β 2.8971 0 b= b1 (b) β = 0.6575 . β b2 −01161 β b = 2.5876; β b = 0.5414; en el contraste (a) β 0 1 (a) El modelo es vi = Hd P i + ui ; la estimación por mínimos cuadradros se realiza a partir de P b = Pvi di = 6.015 × 10−18 s−1 . M = (vi − Hdi )2 ; H d2i ¶ µP d v σ2 i i b ± t(9;0.025) × qsbR ; b ± t(n−1;0.025) × sb(H); b V ar(H) b = V ar P P ; H ∈ (H (b) H ∈ (H = 2 2 P 2 di di di P b −1 = 5271 × 106 años; sb2R = e2i ; H ∈ (5.849 × 10−18 , 6.185 × 10−18 ) segundos; Tb = H T ∈ (5126 × 106 , 5422 × 106 ) años. 15 6.3 6.4 6.5 Como ui ; N (0, σ),la estimación por máxima verosimilitud #es equivalente a la estimación por " b ¡ ¢ P b = β 1 = WT W −1 W0 Y; siendo W = mínimos cuadrados; M = (yi − β 1 x1i − β 2 x22i )2 ; b b β 2 2 x11 x21 y1 ... ... e Y = ... . x1n x22n yn (a) ½ (b) ½ b −0 β H0 : β 1 ≤ 0 ;t = 1 ; tn−2 ; t = 22.75 > t(98;0.05) ≈ 1.66, se rechaza H0 . b ) H1 : β 1 > 0 sb(β 1 b −1 β H0 : β 1 ≥ 1 ;t = 1 ; tn−2 ; t = −2.25 < t(98;0.95) ≈ −1.66, se rechaza H0 . b ) H1 : β 1 < 1 sb(β 1 b1 ) = 0, al ser ambas variables normales, son independientes. Si cov(y, β h ³ ´i b ) = E (y − E(y)) β b − E(β b ) , siendo yi = β + β xi + ui . cov(y, β 1 1 1 0 1 1P b − E(β b ) = 1 P (xi − x) ui ; ui ; β 1 1 n ns2x 2 b1 ) = P (xi − x) E(u2 ) = σ P (xi − x) = 0. cov(y, β i n2 s2x n2 s2x y − E(y) = 6.6 b = 83.2; β b = 0.56; (a) Con x1 : yi = β 0 + β 1 x1i + ui ; β 0 1 b )= b ); sb(β b ± t(n−2;α/2) sb(β β1 ∈ β 1 1 1 sbR eT e b T XT Y = 81.6; √ ; sb2R = ; eT e = YT Y−β n−2 s1 n β 1 ∈ (0.1, 1.02). b 0 = 78.8; α b 1 = 0.53; Con x2 : yi = α0 + α1 x2i + ²i ; α sbR ²T ² αT XT Y = 58.3; ; ²T ² = YT Y−b α1 ) = √ ; sb2R = α1 ∈ α α1 ); sb(b b 1 ± t(n−2;α/2) sb(b n−2 s2 n α1 ∈ (0.21, 0.85). (b) En desviaciones a la media: b= yi − y = β 1 (x1i − x1 ) + β 2 (x2i − x2 ) + εi ; β à b β 1 b β 2 ! · ¸ ´−1 ³ −0.084 T T e e e e X Y= = X X . 0.597 ´−1 ³ bi − 0 β εT ε 2 = b = sb2 X e eTX ; ar(β) ; s b ; tn−2−1 ; Vd R R b) n−2−1 sb(β i · ¸ 0.17 −0.13 bT X b = e −β eTY e = 57.1; Vd eTY εT ε = Y ar(β) −0.13 0.12 (c) Los contrastes individuales ti = t1 = −0.21 < t(7,0.025) = 2.36; t2 = 1.7 < t(7,0.025) = 2.36. Ninguno de los coeficientes es significativo. El contraste conjunto: 16 ½ b bT X eTX eβ β H0 : β 1 = β 2 = 0 ;F = ; F(2,7) ; F = 6.73 > F(2,7;0.05) = 4.73. Se rechaza H0 . 2 H1 : Alguno 6= 0 k × sbR cov(x1 , x2 ) = Existe multicolinealidad provocada por la alta correlación entre x1 y x2 . r12 = s1 s2 0.9. 6.7 (d) Regresión Y − X1 : R12 = 0.49; Regresión Y − X2 : R22 = 0.64; Regresión Y − X1 , X2 : R32 = 0.64. El modelo con dos regresores y el modelo de regresión simple con X2 son similares. La selección de un modelo u otro depende del objetivo. Si el interés es estimar los coeficientes β, son preferibles las regresiones simples. Si lo que se pretende es hacer predicciones de Y para valores de X1 , X2 se podría usar el modelo de regresión múltiple pues la multicolinealidad no afecta a las predicciones. ¶1/2 µP syb (b yi − y)2 = . Coeficiente de correlación múltiple R = P 2 (yi − y) sy P syby yi − y) (yi − y)(b p pP = . Coeficiente de correlación lineal r = P 2 2 s (yi − y) (b yi − y) y syb Se demuestra s2yb P P syb (yi − y)(b yi − y) = (b yi − y)2 ; entonces r = = = R. sy syb sy n − k − 1 R2 = 21.12 > F(1,28;0.05) = 4.196. El efecto es significativo. k 1 − R2 6.8 F = 6.9 Conocidos los valores de R2 y n se calcula F = n − 2 R2 = 294, y se compara con el valor de 1 1 − R2 = 3.92. Como 294 > 3.92 se rechaza la hipótesis nula. tablas F(1,98;0.05) ( 0 b −β b0 β H0 : β 1 = β 1 1 , t = √1 ; t(2(n−2)) ; sbT = 0.5743; 6.10 (a) 0 H1 : β 1 6= β 1 sbT 2 × 0.835 t = 0.4986 < t(16;0.025) = 2.1199. No se rechaza H0 . ½ b0 − β b0 β H0 : β 0 = β 00 0 ,t = √ = −0.4493; |t| < t(16;0.025) . No se rechaza H0 . H1 : β 0 6= β 00 sbT 2 × 18.27 6.12 ¸ · ¸ b +β b = (XT XR )−1 XT YR = 1 (β b ). ; YR = XR β + U; β 2 R R 2 1 b = sb2 (XT XR )−1 ; sb2 = 0.2258; (XT XR )−1 = 1 (XT X)−1 ; β 1 ∈ ar(β) (c) Yb = −6.52+2.215 log T ; Vd R R R R 2 b b b b ); β ∈ −6.52 ± 4.1333. β 1 ± t(18;0.005) × sb(β 1 ); β 1 ∈ 2.215 ± 0.8836; β 0 ∈ β 0 ± t(18;0.005) × sb(β 0 0 (b) YR = 6.11 · Y1 Y2 ; XR = X X b = 51.7421; p − V alue = 0.00. La variable resistencia es (a) En la tabla 2 del enunciado: β 2 significativa.Significado de β 2 : Independientemente del valor de la dureza, las gomas de resistencia alta(+1) tienen, por término medio, unas pérdidas superiores en 2 × β 2 unidades a las gomas de b = 103.4842. Esta diferencia se aprecia en la gráfica resitencia baja (-1). En el problema 2 × β 2 b b2 ± t27;0.025 × sb(β b2 ) con los datos de la tabla 2, β 2 del enunciado. Intervalo para β 2 . β 2 ∈ β ∈ [40.44; 63.04]. 17 (b) β 0 : Ordenada en el origen. En este caso no tiene interés práctico. β 3 : Cuantifica el efecto de la interacción dureza×resistencia en las pérdidas. Mide el cambio del efecto de la dureza al utilizar gomas con resistencia alta o gomas con resistencia baja. Al observar la figura del enunciado, se puede ver que la influencia de la dureza sobre las pérdidas no depende de la resistencia. En ambos casos al aumentar la dureza, las pérdidas disminuyen en una cantidad muy similar, puesto que las rectas que determinan esta relación son prácticamente paralelas en el rango de variación de la dureza. Para resistencia baja : P érdidas = (β 0 − β 2 ) + (β 1 − β 3 ) × Dureza Para resistencia alta: P érdidas = (β 0 + β 2 ) + (β 1 + β 3 ) × Dureza β 1 : Incremento que se produce en las pérdidas al aumentar la dureza un grado Shore, manteniendo la resistencia de las gomas constante. β 2 : Interpretado en el apartado 1. (c) Eligiríamos el modelo del apartado 1. Ambos modelos parecen adecuados porque en ambos se rechaza el contraste general de regresión. Sin embargo en la tabla 3, se observa que la inter2 2 acción dureza×resistencia no es significativa. Además Rmodelo1 =88.5177 > Rmodelo2 = 88.1505. La variable resistencia (significativa en el modelo 1), deja de serlo al introducir la interacción b ) crece desde 5.52215 (modelo 1) hasta 34.4264 (modelo 2). Hay muldureza×resistencia. sb(β 1 ticolinealidad entre resistencia y dureza×resistencia que tambien ocasiona el cambio en el nivel crítico. (d) El gráfico de residuos frente a valores previstos no presenta anomalías que indiquen falta de homocedasticidad. 6.13 n − k − 1 R2 à F(3,11); F = 42.166 > F(3,11;0.05) = 3.5874. Se rechaza H0 en el contraste k 1 − R2 general de regresión. F = Los contrastes individuales: ½ b −0 β H0 : β i = 0 ; ti = i √ à t11 ; t1 = 8.347 > t(11;0.025) = 2.20; H1 : β i 6= 0 sbR qii t2 = 1.018 < 2.20; |t3 | = 1.429 < 2.20. Solo x3 es significativa. 6.14 6.15 6.16 El contraste general de regresión (contraste de la F) proporciona un nivel crítico = 0.0000 ( pvalor)<0.01, el contraste es por lo tanto significativo, se rechaza H0 ; Los contrastes individuales son todos significativos (p-valor <0.01) a excepción de F 2 y V × F. sbR bh = n = 150; sb2R = 0.778; mh ∈ 22 ± 0.1411. mh ∈ ybh ± t(n−2;α/2) √ ; ybh = 22; n n bh (a) Como ui à N (0, σ),máxima verosimilitud es equivalente a mínimos cuadrados P P yi zi M = (yi − αzi )2 ; α b = P 2 = 0.4210. zi (b) El error de predicción eh = yh − ybh ; eh à N à 0, σ 18 s z2 1 + Ph 2 zi ! ; yh ∈ ybh ± t(n−1;α/2) sbR ½ s z2 1 + Ph 2 = 0.525 ± 0.1636. zi 1.14 − 1 H0 : β 1 = 1 = 1.54 < t(15−2−1;0.025) = 2.18. No se rechaza H0 . ,t = √ H1 : β 1 6= 1 0.0081 ½ 1.86 − 2 H0 : β 2 = 2 = −2.16; |t| < t(15−2−1;0.025) . No se rechaza H0 . ,t = √ H1 : β 2 6= 2 0.0042 √ (d) En general yh ∈ ybh ± tn−k−1 sbR 1 + vhh ; en nuestro caso (c) \ = −1.45 + 1.14 log 20 + 1.86 log 0.25 = −0.6134; ybh = log(volumen) √ ¡ ¢−1 √ 0 T xh = 149.64; log(volumen) ∈ −0.6134 ± 2.18 0.0031 1 + 149.64; vhh = xh X X volumen ∈ (0.1221, 2.4022). 6.17 (a) b ;α β i bi ti 77.2 7.415 −50.8 −5.255 2.95 2.108 5.52 ; los valores |ti | se comparan con 3.806 t(60−4−1;0.005) = 2.68; todas las variables son significativas a excepción de z2 . b : es la presión media de los botas de naranja para x1 = x2 = 0.; β b : la presión media aumenta β 0 1 b : la en 77.2 por cada unidad de incremento en x1 manteniendo x2 , z2 y z3 constantes; β 2 presión media disminuye en 50.8 por cada unidad de incremento en x2 manteniendo x1 , z2 y z3 constantes; α b 2 : la presión media de los botes de limón es superior en 2.95 unidades a la de los botes de naranja manteniendo x1 y x2 constantes; α b 3 : la presión media de los botes de cola es superior en 5.52 unidades a la de los botes de naranja manteniendo x1 y x2 constantes. 275.92/2 ∆V E/2 = 7.3833 > F(2,55;0.01) ≈ 5.00. Se rechaza H0 . à F(2,55) ; F = 2 4.322 sbR ½ b3) − 0 (b α2 − α H0 : α2 − α3 = 0 à t55 ; (c) ;t = q H1 : α2 − α3 6= 0 Vd ar(b α2 − α b3) Vd ar(b α2 − α ar(b α2 )+ Vd ar(b α3 )−2cov(b c α2 , α b 3 ) = 2.023; |t| = |−1.8073| < t(55;0.005) = 2.68. b 3 ) = Vd No existe diferencia significativa entre los botes de limón y cola. √ 6.18 yh ∈ ybh ± tn−k−1 sbR 1 + vhh ; ybh = 3.305 + 0.843 × 1.2 + 3.829 × 1.6 + 0 + 0 = 10.446; (b) F = 6.19 ¢−1 ¡ √ vhh = x0h XT X xh = 0.0639; yh ∈ 10.443 ± 2 × 0.7113 1 + 0.0639; yh ∈ 10.443 ± 1.4674. ¡ ¢ b = σ 2 XT X −1 . En el problema XT X = nI, donde I En el modelo de regresión múltiple V ar(β) ¡ ¢−1 bi ) = σ 2 /n. = (1/n)I, luego V ar(β es la matriz identidad. XT X T b h = (σ 2 /n)n; b = xT V ar(β)x V ar(m b h ) = V ar(xh β) h 6.20 eh = yh − m b h ) = σ2 + σ2 . b h ; V ar(eh ) = V ar(yh ) + V ar(m n P n n b +β b P xi ; y = β b +β b x. b −β b xi ) = 0; P yi = β (yi − β 0 1 0 1 0 1 i=1 i=1 i=1 19 mh ∈ ybh ± t(n−2;α/2) v u u u t 6.21 sbR sbR ; xh = x; ybh = y; mh ∈ yh ± t(n−2;α/2) √ . n n µ ¶2 xh − x 1+ sx √ mh ∈ ybh ± t(8;0.025) sbR vhh √ ¢−1 ¡ vhh = x0h XT X xh = 10.7306; mh ∈ −4.66 ± 2.31 × 0.64 10.7306; mh ∈ −4.66 ± 4.41. r 1 n ;n bh = 6.22 yh ∈ ybh ± t(10;0.025) sbR 1 + µ ¶ ; xh = −0.2231; n bh xh − x 2 1+ sx b = 735.784; β b = 127.457; sb2 = 253.59; yh ∈ (668.79, 745.89). x = −1.4262; sx = 1.1134; n = 12; β 0 1 R 20