LIBRO DE PRÁCTICAS DEL SEGUNDO SEMESTRE ESTADISTICA II CURSO 2009 CONTENIDO PRÁCTICA 9: PROPIEDADES DESEABLES DE LOS ESTIMADORES...... 1 PRÁCTICA 10: ESTIMACIÓN PUNTUAL .......................................................... 5 PRÁCTICA 11: ESTIMACIÓN POR INTERVALO ............................................ 9 PRÁCTICA 12: PRUEBA DE HIPÓTESIS DE SIGNIFICACIÓN DE PARÁMETROS........................................................................... 15 PRÁCTICA 13: PRUEBA DE HIPOTESIS DE BONDAD DE AJUSTE E INDEPENDENCIA ..................................................................... 26 PRÁCTICA 14: MUESTREO DE POBLACIONES FINITAS .......................... 32 PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE..................................... 37 PRÁCTICA 16: MODELO DE REGRESIÓN MÚLTIPLE............................... 50 SEGUNDA REVISIÓN 2005…………………………………………………….. 57 PRÁCTICA 9: PROPIEDADES DESEABLES DE LOS ESTIMADORES PRÁCTICA 9: PROPIEDADES DESEABLES DE LOS ESTIMADORES EJERCICIO 1 Sea X1, X2, X3 y X4 una MAS c/r de tamaño cuatro de X ~ FX ( x; μ ) con E( X ) = μ desconocida y V ( X ) = σ 2 < ∞ . 1. De las siguientes estadísticas ¿cuáles son estimadores insesgados de μ? 1 (X 1 + X 2 ) + 1 (X 3 + X 4 ) 6 3 1 T2 = ( X 1 + 2 X 2 + 3 X 3 + 4 X 4 ) 5 1 T3 = ( X 1 + X 2 + X 3 + X 4 ) 4 1 T4 = ( X 1 + X 4 ) 2 T1 = 2. Entre los estimadores insesgados de μ hallados, ¿cuál es el que tiene la varianza más pequeña? ¿Cuáles son las eficiencias relativas de los demás estimadores insesgados con respecto al que tiene la varianza más pequeña? EJERCICIO 2 Sea X1, X2,..., Xn una muestra aleatoria simple con reposición de una cierta población con media μ y varianza σ2. i =n 1. Demostrar que T = ∑ a i X i es un estimador insesgado de μ para cualquier i =1 i =n conjunto de constantes conocidas tales que ∑a i =1 i =n 2. Si ∑a i =1 i i = 1 (i=1,2,..., n). = 1 , demostrar que V(T) se minimiza si ai = i =n Sugerencia: observar que ∑ ai = i =1 2 i=n 2 1 n 1⎞ 1 ⎛ ⎜ ai − ⎟ + , cuando ∑ n⎠ n i =1 ⎝ ∀i i =n ∑a i =1 i =1 3. Dada X1, X2, X3, X4 MAS c/r de X ∼ Fx(x), se define el estadístico: T = (0.2 X 1 + 0.1X 2 + 0.4 X 3 + 0.3 X 4 ) como estimador de μ. Analizar el ECM(T). 4. Se define otro estimador de μ, T* = 2, cualquiera sea la muestra. Sabiendo además que E(X2) = 2 μ2, comparar el ECM(T) y el ECM(T*). ¿Cuál de los dos estimadores elegiría Ud., T ó T*? 1 PRÁCTICA 9: PROPIEDADES DESEABLES DE LOS ESTIMADORES EJERCICIO 3 Sea X1, X2,..., Xn MAS c/r de una variable aleatoria X con densidad dada por: ⎧ke θ− x f ( x ,θ ) = ⎨ ⎩0 x≥θ x<θ Se pide: 1. Determinar k de modo que sea efectivamente una densidad. 2. Para el k hallado, calcular E(X) y V(X) 3. Hallar la función de densidad de Z= mín {X1, X2, ...,Xn} 4. Determinar E(Z) 1 5. Demostrar que θ* = Z − es un estimador insesgado de θ. n __ 1 6. Sabiendo que V(Z) = 2 , comparar θ* con θ** = X n − 1 como estimadores de θ. n EJERCICIO 4 Sea X ∼ U(0,b) con b > 0 y X1, X2,..., Xn una MAS c/r de una variable aleatoria X. Se proponen como estimadores de b: __ T1 = 2 X n T2 = máx {X1, X2, ...,Xn} Se pide: 1. Comparar el ECM de T1 y T2. 2. Encontrar la distribución exacta de T2. 3. Para n suficientemente grande encontrar la distribución aproximada de T1. 4. Comparar los resultados hallados en 2. y 3. EJERCICIO 5 (Canavos 8.7) Se muestrea una población cuya distribución es exponencial con una densidad dada por: x ⎧1 x>0 ⎪ exp( − ) f(x,θ) = ⎨ θ θ ⎪⎩0 x≤0 1. Mediante el uso de la cota de Cramer-Rao determinar la varianza del estimador insesgado de varianza mínima de θ. 2. Deducir que el estimador eficiente de θ es la media muestral. 2 PRÁCTICA 9: PROPIEDADES DESEABLES DE LOS ESTIMADORES EJERCICIO 6 Sea una MAS c/r de una variable aleatoria X discreta con función de cuantía dada por: ⎧1 ⎪ 2 (1 − θ ) si x = −1 ó x = 1 ⎪ pX ( x ) = ⎨ ⎪ θ si x=0 ⎪ ⎩ donde θ ∈ [0,1] es un parámetro desconocido. Se considera θ* = ⎧1 1 n Yi con Yi = ⎨ ∑ n i =1 ⎩0 Xi = 0 Xi ≠ 0 Se pide: 1. Mostrar que θ* es un estimador insesgado para θ. 2. Mostrar que θ* es de mínima varianza. 3. Mostrar que θ* es asintóticamente eficiente, asintóticamente normal y hallar su media y su varianza asintótica. EJERCICIO 7 (Novales 9.8) Demostrar que la media muestral es un estimador suficiente para el parámetro de la densidad exponencial. EJERCICIO 8 (Novales 9.9) Demostrar que la media muestral es un estimador suficiente para el parámetro de la distribución de Poisson. EJERCICIO 9 Sean X ~ N μ, σ 2 y X1, X2,..., Xn MAS c/r de X ( ) Se pide: __ 1. Investigar la eficiencia de X n como estimador de μ? __ 2. Si σ2 = 1 ¿Es X n suficiente como estimador de μ? __ __ 3. Probar que ( X n )3 es suficiente como estimador de μ, mientras que ( X n )2 no lo es. 4. Si μ = 0 ¿Es S2 suficiente como estimador de σ2? 3 PRÁCTICA 9: PROPIEDADES DESEABLES DE LOS ESTIMADORES EJERCICIO 10 (Novales 9.31) Utilice la desigualdad de Chebychev y la descomposición del ECM en suma de varianza y sesgo al cuadrado para probar que si la varianza de un estimador asintóticamente insesgado tiende a cero al aumentar el tamaño muestral, dicho estimador es consistente. EJERCICIO 11 __ Demostrar que X n calculado en base a X1, X2,..., Xn, MAS c/r de X es consistente como estimador de E(X) si: a) X ∼ Bernoulli (p). b) X ∼ Fx(x) con μ y σ2 finitas EJERCICIO 12 Dada X1, X2,..., Xn MAS c/r de X ∼ Fx(x) se define: Fn* ( a ) = 1 n n ∑ i =1 Ι { X i ≤ a} con a constante. Se pide: * 1. ¿Qué se requiere para que Fn ( a ) sea un estadístico? 2. Calcular su esperanza y varianza en función de p = P(X≤ a) 4. Demostrar que dicho estadístico es consistente para estimar p = P(X≤ a) 4 PRÁCTICA 10: ESTIMACIÓN PUNTUAL PRÁCTICA 10: ESTIMACIÓN PUNTUAL EJERCICIO 1 Determinar los estimadores máximo verosímiles y los estimadores por el método de los momentos de los siguientes parámetros: 1. p en una distribución B(x,n,p), con n conocido y tamaño de muestra m 2. λ en una distribución Poisson(λ) 3. λ en una distribución Exponencial de media 1/λ 4. a en una U(a,1) 5. μ y σ2 en una N μ, σ 2 . ( ) EJERCICIO 2 Una variable discreta toma los valores 0,1 y 2 con función de cuantía: pX(0,p) = p2 pX (2,p) = (1-p) 2 pX (1,p) = 2p (1-p) siendo p, 0<p<1, un parámetro desconocido. Estimar p aplicando máxima verosimilitud y el método de los momentos, a partir de una muestra de tamaño 100 en la que se ha presentado 22 veces el 0, 53 veces el 1 y 25 veces el 2. EJERCICIO 3 (Segunda Revisión 1989) Se desea estimar el parámetro θ en base a una MAS c/r de tamaño 3. El espacio paramétrico es Θ = {0,1,2,3}. De la muestra se determinó que: ⎧1 / 5 ⎪1 / 4 ⎪ P (X1 = x 1 , X 2 = x 2 , X 3 = x 3 ) = ⎨ ⎪1 / 3 ⎪⎩1 / 2 si si si si θ=0 θ =1 θ=2 θ=3 Determinar la estimación máximo verosímil de θ. Fundamentar. EJERCICIO 4 Sea X una variable aleatoria con densidad dada por: ⎧x ⎪⎪ θ 2 fX ( x) = ⎨ ⎪2 − x ⎪⎩ θ θ 2 si 0< x<θ con θ ∈ R + si θ ≤ x ≤ 2θ Se pide: ∧ 1. Hallar θ MV para X1 de X (MAS de tamaño 1). ∧ 2. Hallar θ MM . 5 PRÁCTICA 10: ESTIMACIÓN PUNTUAL EJERCICIO 5 (Examen de Marzo de 1995) Sea X ~ U(θ-1/2 , θ+1/2) y sea X1, X2, ..., Xn una MAS c/r de tamaño n de la v.a. X. Sea T = máx {X1, X2, ..., Xn}. Se pide: 1. Hallar la distribución en el muestreo de T ∀ t ∈ Rec(T). 2. Probar que: 1 n E( T ) = θ − + 2 n +1 3. Sea T* = T-1/2 un estimador de θ. Probar que T* es asintóticamente insesgado. 4. Sea T** el estimador de θ por el método de los momentos. Estudiar la eficiencia asintótica de T**. EJERCICIO 6 Sea X una variable aleatoria tal que: ⎧1 − θ ⎪ p X ( x, θ) = ⎨ 4 ⎪⎩ θ si x = −2, x = −1, x = 1, x = 2 si x=0 Una MAS c/r de X de tamaño n=50 arrojó estos resultados: 10 observaciones valieron -2 10 observaciones valieron -1 20 observaciones valieron 0 5 observaciones valieron 1 5 observaciones valieron 2 Se pide: 1. Hallar el campo de variación de θ, es decir el espacio paramétrico, Θ. ∧ 2. Hallar θ MV . 3. Para calcular el estimador de θ por el método de los momentos se presenta un problema con el momento de primer orden. ¿Cuál es ese problema y cómo podríamos calcular una estimación de θ por el método de los momentos?. 4. Hallar con el procedimiento propuesto en el punto anterior y para la muestra obtenida, la estimación por el método de los momentos. 6 PRÁCTICA 10: ESTIMACIÓN PUNTUAL EJERCICIO 7 Sea X una variable aleatoria con función de densidad: ⎧ 3x 2 0≤ x≤a ⎪ f X ( x) = ⎨ a 3 ⎪ 0 en otro caso ⎩ Se pide: 1. Hallar la función de verosimilitud L(a) para una MAS c/r de tamaño n de X y mostrar que L(a) es decreciente. ∧ 2. Probar que el estimador máximo verosímil de a es a MV = máx {X1, X2, ...,Xn} ∧ 3. Determinar la función de densidad de a MV . ∧ 4. Demostrar que a MV es sesgado. Hallar su sesgo y mostrar que su ECM es: ∧ 2a 2 ECM ( a ) = ( 3n + 1 )( 3n + 2 ) ∧ 5. Hallar a MM y demostrar que es insesgado. ∧ ∧ 6. Determinar a partir de qué valor de n se cumple que: ECM ( a MV ) < ECM ( a MM ) 7. Si estuviéramos trabajando con una MAS c/r de tamaño n =100 ¿qué estimador de los anteriores elegiríamos? Justificar. EJERCICIO 8 (Novales 9.28) Utilizar el método de los momentos para obtener el estimador del parámetro θ en la función de densidad: ⎧θx θ−1 si 0 < x < 1 con 0 < θ < ∞ f ( x / θ) = ⎨ en otro caso ⎩0 EJERCICIO 9 (Segunda Revisión 1998) Sea X ~ N 0, σ 2 y X1, X2,..., Xn MAS c/r de X ( ) Se pide: 1. Hallar el estimador de σ2 por el método de los momentos. 2. Demostrar que el estimador de σ2 por el método de máxima verosimilitud coincide con el de los momentos. 3. Hallar el sesgo y varianza del estimador obtenido (sugerencia: recordar que si X ~ χ12 se tiene que V(X) = 2). __ 1 n 4. Dado el estimador alternativo para σ2, M 2 = ∑ ( X i − X n ) 2 , obtener su error n i =1 cuadrático medio y compararlo con el del estimador estudiado en las partes anteriores. 7 PRÁCTICA 10: ESTIMACIÓN PUNTUAL EJERCICIO 10 (Novales 9.9) Sea Xi una variable aleatoria que puede tomar k valores numéricos: x1, x2, ..., xk con k probabilidades: p1, p2, ... pk, con ∑ pi = 1. Esta es la distribución multinomial. Si se i =1 extrae una muestra de tamaño n, en la que se obtienen n1 valores de x1, n2 valores de k x2, ... nk valores de xk, con ∑n i =1 i = n , probar que el estimador de máxima ∧ n ⎞ ⎛n n verosimilitud del vector p = ( p1, p2, ... pk ) es p = ⎜ 1 , 2 , L , k ⎟ . n ⎠ ⎝n n EJERCICIO 11 Sean X, Y variables aleatorias normales tales que X ~ N μ1 ,σ 2 y Y~ N μ 2 , σ 2 . ( ) ( ) 1. Probar que con muestras independientes con reposición de tamaño n1 y n2, el n1 s12 + n2 s22 2 estimador máximo verosímil de la varianza común es: s = donde n1 + n2 s12 y s 22 son las varianzas muestrales de la primera y segunda muestra respectivamente. 2. Probar que s2 es sesgado y que s * 2 = n1 s12 + n2 s22 es insesgado para σ2. n1 + n2 − 2 EJERCICIO 12 (Segunda Revision 2000) El nivel de las ventas mensuales de un refresco (X) puede modelarse adecuadamente por la función de densidad: ⎧ 2 (x −λ) ⎪ f X ( x ,λ ) = ⎨ 9λ2 ⎪ 0 ⎩ si x ∈ [λ ,4λ ] λ ∈ ℜ+ en otro caso donde λ es un parámetro que mide el gasto en publicidad del refresco (el cual se supone constante mes a mes). SE PIDE: 1. Hallar el estimador de λ por el método de los momentos para una MAS C/R de tamaño n. 2. El estimador obtenido, ¿es insesgado? Fundamentar. 3. Calcular el error cuadrático medio del estimador. 8 PRÁCTICA 11: ESTIMACIÓN POR INTERVALO PRÁCTICA 11: ESTIMACIÓN POR INTERVALO EJERCICIO 1 Sea X ~ N (μ ,25) y X1, X2, ..., Xn una MAS c/r de tamaño 100 de X. Se pide: 1. Construir un intervalo aleatorio que contenga a μ con un 0.95 de probabilidad. __ 2. Elegida una muestra, resultó x n = 20. Determinar un intervalo de confianza al 95% para μ. 3. Explicar el significado de este intervalo de confianza. EJERCICIO 2 En una elección los votantes deben elegir entre dos candidatos A y B. Un estudio reciente reveló que 1400 personas de un total de 2500 seleccionadas aleatoriamente, tienen preferencia por el candidato A. a) Obtener un intervalo de confianza al 99% para la verdadera proporción de votantes a favor del candidato A. Con base en este resultado, ¿podría usted afirmar que es probable que A gane la elección? ¿Por qué? b) Supóngase que se selecciona aleatoriamente una muestra de 225 personas con la misma proporción muestral a favor del candidato A. ¿Son los resultados diferentes a los del literal a)? c) En este caso, ¿son razonables las suposiciones para los intervalos de confianza aproximados del 99%? EJERCICIO 3 El precio del refresco mediano en restaurantes es una variable aleatoria normal con desvío estándar igual a $2. Una muestra de precios en 20 restaurantes arrojó los siguientes resultados: 30, 30, 30, 25, 35, 25, 35, 30, 40, 35, 40, 37, 28, 30, 30, 25, 28, 28, 30, 29. a) Construir un intervalo para el parámetro precio promedio del refresco mediano en restaurantes al 90% de confianza. b) Si en realidad se desconoce el valor de σ, obtener nuevamente un intervalo al 90% para dicho parámetro. ¿Por qué este intervalo tiene mayor amplitud que el que se obtuvo en el punto anterior? 9 PRÁCTICA 11: ESTIMACIÓN POR INTERVALO EJERCICIO 4 En una investigación de mercado sobre un nuevo producto se quiere seleccionar una MAS c/r de consumidores tal que si tomamos el porcentaje de consumidores que está a favor del producto como estimación del verdadero porcentaje poblacional no queremos "errar" por más de un 1% del valor verdadero con una "seguridad" del 95% El enunciado anterior puede interpretarse de dos maneras: • • Si el verdadero porcentaje poblacional es 100p queremos que el valor inferido para p esté en el intervalo ( p-0.01, p+0.01) con una probabilidad mayor o igual a 0.95. Si el verdadero porcentaje poblacional es 100p queremos que el valor inferido para p esté en el intervalo ( p-0.01p, p+0.01p) con una probabilidad mayor o igual a 0.95. a) Utilizar la desigualdad de Tchebychev para determinar la relación entre el tamaño de muestra (n) y el verdadero valor poblacional (p) para ambas interpretaciones y comparar los resultados graficando n como función de p en ambos casos. b) Observar el comportamiento de n cuando p está cercano a 0 y a 1. ¿Cómo cambian los resultados si se utiliza el TCL? EJERCICIO 5 (Canavos 8.24) Una tienda de donas se interesa en estimar su volumen de ventas diarias. Supóngase que el valor de la desviación estándar es de $50. a) Si el volumen de ventas se encuentra aproximado por una distribución normal, ¿cuál debe ser el tamaño de la muestra para que con una probabilidad de 0.95 la media muestral se encuentre a no más de $20 del verdadero volumen de ventas promedio? b) Si no es posible suponer que la distribución es normal, obtener el tamaño necesario de la muestra para la pregunta anterior. EJERCICIO 6 Se desea estimar el parámetro proporción de fumadores entre los 10.000 estudiantes de una universidad. A esos efectos se selecciona una MAS c/r de 400 alumnos. A la pregunta “¿Es Ud. fumador?”, 80 estudiantes responden afirmativamente y 320 por la negativa. Se pide: a) Construir un intervalo de confianza al 95% para el parámetro a investigar. b) Construir un intervalo de confianza al 95% para el total de fumadores entre los 10.000 estudiantes de la universidad. c) Sabiendo que la proporción de fumadores nunca podría superar el 30%, calcular el tamaño de una MAS c/r para obtener una estimación de dicho parámetro si la seguridad y la precisión deseadas son 95% y 3% respectivamente. 10 PRÁCTICA 11: ESTIMACIÓN POR INTERVALO EJERCICIO 7 Sea X una variable aleatoria absolutamente continua y X1, X2, ...,Xn una MAS c/r de X. Sabiendo que (20 ≤ μ ≤ 30) es un intervalo de confianza al 99% para μ = E(X). Se pide: a) A partir del intervalo de confianza obtenido y sabiendo que X se distribuye N(μ,σ2) y que n=25, deducir la estimación puntual de μ y el valor de σ2. b) Indicar en cada una de las afirmaciones siguientes cuál es verdadera y cuál es falsa. En este último caso explicar cuál es el error. AFIRMACIÓN 1: Si se extraen 100 muestras al azar, habrá 99 medias muestrales que pertenecerán a dicho intervalo. AFIRMACIÓN 2: Si se extraen muchas muestras, en el 99% de los casos las medias poblacionales pertenecerán al intervalo de confianza. AFIRMACIÓN 3: De cada 100 intervalos correspondientes a otras tantas muestras, promedialmente 99 de ellos contendrán a la media poblacional. EJERCICIO 8 (Canavos 8.34) Se espera tener una cierta variación aleatoria nominal en el espesor de las láminas de plástico que una máquina produce. Para determinar cuándo la variación en el espesor se encuentra dentro de ciertos límites, cada día se seleccionan en forma aleatoria 12 láminas de plástico y se mide en milímetros su espesor. Los datos que se obtuvieron son los siguientes: 12.6, 11.9, 12.3, 12.8, 11.8, 11.7, 12.4, 12.1, 12.3, 12.3, 12.5, 12.9. Si se supone que el espesor es una variable aleatoria distribuida normal, obtener los intervalos de confianza estimados del 90, 95 y 99% para la varianza desconocida del espesor. Si no es aceptable una varianza mayor de 0.9 mm2 ¿existe alguna razón para preocuparse con base en esta evidencia? EJERCICIO 9 (Canavos 8.32) Cierto metal se produce, por lo común, mediante un proceso estándar. Se desarrolla un nuevo proceso en el que se añade una aleación a la producción del metal. Los fabricantes se encuentran interesados en estimar la verdadera diferencia entre las tensiones de ruptura de los metales producidos por los dos procesos. Para cada metal se seleccionan 12 especímenes y cada uno de éstos se somete a una tensión hasta que se rompe. La siguiente tabla muestra las tensiones de ruptura de los especímenes en kilogramos por centímetro cuadrado: Proceso estándar 428 419 458 439 441 456 463 429 438 445 441 463 Proceso nuevo 462 448 435 465 429 472 453 459 427 468 452 447 11 PRÁCTICA 11: ESTIMACIÓN POR INTERVALO EJERCICIO 9 (continuación) Si se supone que el muestreo se llevó a cabo sobre dos distribuciones normales e independientes con varianzas iguales, obtener los intervalos de confianza estimados del 90, 95 y 99% para μE - μN Con base en los resultados, ¿se estaría inclinado a concluir que existe una diferencia real entre μE y μN? EJERCICIO 10 (Canavos 8.38) Una agencia estatal tiene la responsabilidad de vigilar la calidad del agua para la cría de peces con fines comerciales. Esta agencia se encuentra interesada en comparar la variación de cierta sustancia tóxica en dos estuarios cuyas aguas se encuentran contaminadas por desperdicios industriales provenientes de una zona industrial cercana. En el primer estuario se seleccionan 11 muestras y en el segundo 8, las cuales se enviaron a un laboratorio para su análisis. Las mediciones en ppm (partes por millón) que se observaron en cada muestra se exponen en la tabla. Si se supone que el muestreo se hizo sobre dos poblaciones independientes distribuidas normales, obtener un intervalo de confianza estimado del 90% para el cociente de las dos varianzas no conocidas σ21/σ22. Con base en este resultado, ¿se podría concluir que las dos varianzas son diferentes? ¿Por qué? Niveles de una sustancia tóxica (ppm): Estuario 1 10 10 12 13 9 8 12 12 10 14 8 Estuario 2 11 8 9 7 10 8 8 10 EJERCICIO 11 (Novales 10.9) Sean X e Y los miligramos de nicotina por cigarrillo con filtro y sin filtro, de una determinada marca. Suponga que ambas cantidades siguen una distribución Normal. Se analizaron 9 cigarrillos con filtro y 11 sin filtro, con los resultados: X: 1.1; 0.7; 0.9; 0.1; 0.8; 0.3; 0.9; 0.4; 1.0 Y: 0.9; 1.6; 1.5; 0.5; 1.0; 1.9; 1.4; 1.2; 1.3; 1.6; 2.1; Estimar el cociente de varianzas, y construir un intervalo de confianza del 98% para el mismo. 12 PRÁCTICA 11: ESTIMACIÓN POR INTERVALO EJERCICIO 12 (Canavos 8.40) Se desea estudiar el efecto de una nueva vacuna para la gripe. Una MAS con reposición de 500 personas vacunadas revela que 150 de ellas se engriparon en el último invierno, mientras que en una MAS con reposición de 1000 personas no vacunadas se engriparon 400. Suponiendo que las poblaciones son independientes, construir un intervalo de confianza al 95% para la diferencia entre las proporciones de personas que se engripan de las dos poblaciones. ¿Qué diría sobre la efectividad de la vacuna? EJERCICIO 13 (Examen) Una empresa de la industria manufacturera produce un tubo de imagen para PC, cuya duración en el tiempo (X) tiene la siguiente distribución de probabilidad: ⎧α ⎪ f X ( x ) = ⎨x2 ⎪⎩0 si x ≥ α en otro caso donde el parámetro α (α > 0) se mide en unidades de tiempo y se interpreta como la duración mínima garantizada por el fabricante. Se pide: 1. Demostrar que el estimador máximo verosímil de α es T = mín{X1, X2, ...,Xn}, a partir de una MAS c/r de X de tamaño n. 2. Se observó una MAS c/r de 20 tubos de imagen de PC, vendidos hace 10 años, de los cuales: 5 de ellos se rompieron a los 2 años 4 se rompieron a los 3 años 2 se rompieron a los 4 años 2 se rompieron a los 5 años los restantes seguían funcionando luego de 5 años. Hallar una estimación de α a partir de la muestra observada 3. Hallar la distribución en el muestreo de T (la función de densidad de T). 4. Determinar b (en función de α y n) tal que P(α < T < b) = 0.95 5. A partir del intervalo (α, b) hallado: 5.1. Hallar un intervalo aleatorio al 95% para α. 5.2. Hallar un intervalo de confianza al 95% para α. 5.3. ¿Cuál es la diferencia conceptual entre los intervalos hallados en 5.1 y 5.2? 6. Estudiar la consistencia de T como estimador de α. 13 PRÁCTICA 11: ESTIMACIÓN POR INTERVALO EJERCICIO 14 (Segundo Control 2000) Para conocer la proporción de mujeres adolescentes con hijos se realizó una encuesta a 1.015 mujeres de 14 a 19 años, mediante muestreo sin reposición. La precisión en la estimación del parámetro es muy relevante, porque el objetivo de la investigación consiste en cuantificar el número total de madres adolescentes para proporcionarles ayuda económica. Un estadístico analiza los resultados de la investigación y proporciona los siguientes resultados: Estimación puntual: 0,12 Intervalo de confianza: [0,10 – 0,14] Un segundo investigador revisa los datos aportados por el estadístico y concluye que los resultados están equivocados, por los siguientes motivos: a) En primer lugar, las adolescentes con hijos en la muestra son 121, por lo que la estimación correcta de “p” es 0,119. b) En segundo lugar, el nivel de confianza utilizado por el primer estadístico parece excesivo, y propone en su lugar un 92%. c) En tercer lugar, al bajar el nivel de confianza se obtiene un intervalo de amplitud más reducida, lo cual es coherente con el principio de la “mínima amplitud esperada” para construir intervalos de confianza. SE PIDE: 1. ¿Cuál es el nivel de confianza utilizado por el primer estadístico para construir el intervalo [0,10 – 0,14]? 2. Calcular el intervalo de confianza que propone el segundo investigador (aproximar con 3 decimales). 3. Indicar si la afirmación c) es correcta, fundamentando la respuesta. 14 PRÁCTICA 12 PRUEBA DE HIPÓTESIS DE SIGNIFICACIÓN DE PARÁMETROS PRÁCTICA 12: PRUEBA DE HIPÓTESIS DE SIGNIFICACIÓN DE PARÁMETROS EJERCICIO 1 Para los siguientes problemas de decisión, definir el “Error de tipo I” y el “Error de tipo II”, y en función de ello proponer las hipótesis nula y alternativa. 1. El gerente de una compañía de ómnibus debe decidir sobre la frecuencia diaria entre dos localidades. Tradicionalmente la compañía viaja 4 veces por día y algunas veces se llegan a agotar los boletos. El gerente está pensando en incrementar la frecuencia a 6 viajes diarios para lograr un mayor número de boletos vendidos a costa de las compañías competidoras, pero con el riesgo de viajar con muchos asientos vacíos en alguna de las frecuencias con la consiguiente pérdida de imagen frente a sus clientes habituales (principal preocupación de la compañía). Cada ómnibus carga como máximo 40 pasajeros. El número medio de pasajeros transportados hasta la fecha es 150 y se espera que con las nuevas frecuencias dicho número ascenderá a 210. 2. Un fabricante de heladeras las pinta de color blanco o celeste en las proporciones del 60% y del 40% respectivamente. Últimamente se ha notado un aumento en la demanda del color celeste al punto que se han perdido algunas ventas por falta de stock y a la inversa, se nota un incremento del stock de heladeras blancas. El gerente de producción opina que rápidamente deberían alterarse las proporciones de heladeras que se pintan de blanco y celeste (por ej. 50% y 50%). El gerente de comercialización no está de acuerdo pues cree que la propensión a demandar el celeste es una moda pasajera. Para tomar la decisión se consultará con una muestra aleatoria de clientes antiguos sobre el color que habrán de elegir cuando decidan cambiar de heladera. Elaborar la regla de decisión del punto de vista del gerente de comercialización. EJERCICIO 2 En una prueba se da un cuestionario con 15 preguntas de respuesta VERDADERO o FALSO. Se quiere probar que un estudiante contesta al azar. Para ello se adopta la siguiente regla de decisión: - Si 12 o más respuestas son correctas el estudiante no está contestando al azar; - Si menos de 12 son correctas el estudiante está contestando al azar. Se pide: 1. Plantear las hipótesis a comprobar. (El peor error es decir que el estudiante estudió, cuando realmente está adivinando). 2. Con la regla de decisión adoptada, ¿cuál es el nivel de significación de la prueba? 15 PRÁCTICA 12 PRUEBA DE HIPÓTESIS DE SIGNIFICACIÓN DE PARÁMETROS EJERCICIO 3 Para realizar la siguiente prueba: H0) θ = θ 0 H1) θ = θ 1 Se sabe que considerando la región crítica RC1: y que considerando la región crítica RC2: P ( Error tipo I) = 0.10 P ( Error tipo II) = 0.30 P (Error tipo I) = 0.30 P ( Error tipo II) = 0.10 Se pide: 1. ¿Cuál de las regiones críticas utilizará para realizar la prueba? Fundamente. 2. Calcular la potencia de la prueba para la región crítica elegida. EJERCICIO 4 (Novales 10.3) Un profesor recrimina sistemáticamente a un colega suyo por el nivel de exigencia, por lo que éste último le ofrece corregir por separado los mismos exámenes, que se acaban de celebrar, y comparar los porcentajes de alumnos que aprueban. Tras la corrección, el primer profesor aprueba a 248 de los 400 alumnos mientras que el segundo aprueba a 214. a) ¿Qué concluiría usted a un nivel de significación del 5% ? b) ¿Y al 10%? EJERCICIO 5 Sea X1, X2, ...., Xn una MAS c/r de una variable X∼Bernoulli (p) elegida para probar H0) p=0,49 contra H1) p=0,51. Usando la aproximación normal, determinar n para que la probabilidad de ambos tipos de error no supere 0,01. EJERCICIO 6 En una población normal con una media desconocida y varianza igual a 25 se desea someter a prueba H0) μ = 10 contra H1) μ = 12 a partir de una muestra de tamaño n y con un nivel de significación α. 1. Hallar la forma de la RC óptima. 2. Determinar dicha RC y el valor de n para que las probabilidades de ambos tipos de error no superen 0.01. 16 PRÁCTICA 12 PRUEBA DE HIPÓTESIS DE SIGNIFICACIÓN DE PARÁMETROS EJERCICIO 7 (Canavos 9.1) Suponga que usted desea probar la hipótesis H0) θ = 5 contra la alternativa H1) θ = 8 por medio de un solo valor que se observa en una variable aleatoria con densidad de probabilidad dada por: x ⎧1 ⎪ exp( − ) θ f ( x ,θ ) = ⎨ θ ⎪0 ⎩ x>0 x≤0 Si el tamaño máximo del error de tipo I que puede tolerarse es de 0.15, ¿cuál de las siguientes reglas de decisión es la mejor para escoger entre las dos hipótesis? Rechazar H0 si X Rechazar H0 si X Rechazar H0 si X ≥9 ≥ 10 ≥ 11 EJERCICIO 8 (Canavos 9.4 y 9.5) La cantidad promedio que se coloca en un recipiente en un proceso de llenado se supone que es de 20 onzas. En forma periódica, se escogen al azar 25 recipientes y el contenido de cada uno de éstos se pesa. Se juzga al proceso como fuera de control __ cuando la media muestral X n es menor o igual a 19.8 o mayor o igual a 20.2 onzas. Se supone que la cantidad que se vacía en cada recipiente se encuentra aproximada, en forma adecuada, por una distribución normal con una desviación estándar de 0.5 onzas. a) Enúnciense las hipótesis nula y alternativa que son propias para esta situación. b) Obtener la probabilidad del error de tipo I. c) Obtener y graficar la función de potencia para los siguientes valores medios de llenado: 19.5, 19.6, 19.7, 19.8, 19.9, 20.0, 20.1, 20.2, 20.3, 20.4 y 20.5. d) Como una prueba alternativa, considérese el rechazo de H0 cuando __ __ X n ≤ 19.5 o cuando X n ≥ 20.5 . Si el tamaño máximo del error de tipo I es de 0.05, ¿cuál de las dos pruebas es la mejor? e) Supóngase ahora que el tamaño de la muestra se aumenta a 36 recipientes. Dados los mismos tamaños del error de tipo I para las pruebas propuestas, obtener los nuevos valores críticos y comparar las funciones de potencia de las dos pruebas. EJERCICIO 9 (Novales 10.5) Un analista cree que la cotización peseta/dólar USA puede representarse por una distribución N (μ ,16) , pero no está seguro de que haya descendido en el último mes por debajo de su nivel medio, que cree que ha permanecido estable en 82.5 ptas./dólar. Por tanto, se quiere constatar H0) µ = 82.5 frente a H1) µ < 82.5, y está dispuesto a rechazar la hipótesis nula de estabilidad en el tipo de cambio, si obtiene una media muestral inferior a 80.5 ptas./dólar. (Suponer que dispone de una muestra con 25 observaciones). 17 PRÁCTICA 12 PRUEBA DE HIPÓTESIS DE SIGNIFICACIÓN DE PARÁMETROS EJERCIO 9 (continuación) Se pide: a) ¿Cuál es el nivel de significación del contraste? b) ¿Cuál es su función de potencia? Dibújela. c) ¿Cuál debería ser la región crítica para tener un nivel de significación del 10%? d) ¿Cuál sería la función de potencia en tal caso? Dibújela junto con la anterior. EJERCICIO 10 (Canavos 9.8) Sea X1, X2, ..., Xn, una muestra aleatoria de tamaño n de una distribución de Poisson con parámetro λ desconocido. Obtener la mejor región crítica de tamaño α para probar: H0: λ = λ0 H1: λ = λ1< λ0 EJERCICIO 11 (Novales 10.12) Hallar la forma de la región crítica óptima para el contraste de hipótesis nula H0) p = p0, frente a H1) p = p1, en una población B(p). EJERCICIO 12 (Canavos 9.12) Un contratista ordena un gran número de vigas de acero con longitud promedio de 5 metros. Se sabe que la longitud de una viga se encuentra normalmente distribuida con una desviación estándar de 0.02 metros. Después de recibir el embarque, el contratista selecciona 16 vigas al azar y mide sus longitudes. Si la media muestral tiene un valor más pequeño que el esperado, se tomará la decisión de enviar el embarque al fabricante. a) Si la probabilidad de rechazar un embarque bueno es de 0.04, ¿cuál debe ser el valor de la media muestral para que el embarque sea regresado al fabricante? b) Si la longitud promedio real es de 4.98 metros, ¿cuál es la potencia de la prueba en el inciso a)? EJERCICIO 13 (Canavos 9.16) En cierto condado de Iowa, la cosecha promedio de maíz por acre fue de 100 toneladas por acre. Para un año dado en el que el clima fue particularmente bueno, se seleccionaron 12 parcelas en forma aleatoria y éstas arrojaron una cosecha promedio de 106 toneladas por acre, para la misma variedad de maíz. Si la producción por acre se modela en forma adecuada por una distribución normal con una desviación estándar de 8 toneladas por acre, ¿existe alguna razón para creer que este año la producción será mejor que la producción promedio normal?. Empléese α = 0.01. Para este caso, ¿cuál es el valor-p? EJERCICIO 14 (Múltiple Opción seleccionada de la Segunda Revisión de 2001) 1. Dada la prueba de hipótesis H0) μ = μ0 contra H1) μ ≠ μ0 con nivel α = 10% en la que se obtiene un valor p de 0.08, entonces la decisión a tomar es: a) No se rechaza H0) porque el valor p es mayor a α/2. b) Se rechaza H0) porque el valor p es menor que α. c) No tenemos elementos para decidir porque no conocemos el valor de μ0 . d) Ninguna de las anteriores. 18 PRÁCTICA 12 PRUEBA DE HIPÓTESIS DE SIGNIFICACIÓN DE PARÁMETROS EJERCICIO 14 (continuación) 2. Dada la prueba de hipótesis H0) μ ≤ μ0 contra H1) μ > μ0 donde la región crítica es {todas las muestras / x ≥ k } a) No se puede calcular el nivel de significación de la prueba porque la hipótesis nula es compuesta. b) El valor de la potencia no es único porque la hipótesis alternativa es compuesta. c) Para calcular el valor p se necesita el valor de k. d) Ninguna de las anteriores. 3. En una prueba de hipótesis en la cual H0) μ = 5 contra H1) μ ≠ 5, ¿cuál los siguientes valores para el tamaño de muestra (n) y el nivel de significación (α) dará una probabilidad de error II menor? a) n = 100 y α = 0.01. b) n = 200 y α = 0.02. c) n = 200 y α = 0.03. d) Ninguna de las anteriores. EJERCICIO 15 Una empresa está estudiando comprar los derechos de distribución de las camisetas de las "Tortillas Nunga". Las utilidades mensuales provenientes de esta concesión están aproximadamente modeladas por una distribución normal con media y varianza desconocidas. El problema que se presenta es la variabilidad mensual de las utilidades, dado que dicha variabilidad es una medida del riesgo que se asume en el negocio. La empresa, asesorada por un especialista en inversiones, decide no comprar si la desviación típica de las utilidades es de U$S 800 o más. Para decidir se toma una MAS c/r de 12 meses, en los cuales se investigan las __ utilidades en cada uno de ellos y se obtiene que s x = 600 y x = 2.200. Se pide: (Fundamentando sus respuestas) 1. Explicar sucintamente, por qué la desviación típica es una medida del riesgo que se asume. 2. Definir el peor error que la empresa puede cometer y en base a éste realice una prueba de hipótesis, con el fin de determinar si la empresa compra o no, los derechos de distribución. Utilice un nivel de significación del 5%. 3. Con los resultados utilizados en 2, construir un intervalo de confianza para la varianza de las utilidades de Tortillas Nunga. Mark Eting, técnico en comercialización de productos, en un informe elevado a la gerencia, indica que la marca "Tortillas Nunga” ya no es tan popular como antes y sugiere como alternativa que se compren los derechos de distribución del fusil de asalto AK 74 de Pambo, ya que el estreno de "Pambo XXXII - En busca de su bisnieto” ha aumentado la popularidad del personaje. La distribución de las utilidades mensuales se puede modelar adecuadamente. 19 PRÁCTICA 12 PRUEBA DE HIPÓTESIS DE SIGNIFICACIÓN DE PARÁMETROS EJERCICIO 15 (continuación) 4. por una normal de media y varianza desconocida. Para tratar de resolver el problema se toma una muestra al azar de 20 meses donde se encuentra que: 20 ∑ xi = 42.000 i =1 20 ∑x i =1 2 i = 97.200.000 Construir un intervalo de confianza para la varianza de las utilidades al 95%. 5. Obsérvese que la estimación del valor de la varianza del producto de Pambo es mayor que la de las Tortillas Nungas; ¿por qué, para un 95% de confianza, el riesgo que se asume, en la peor situación, es menor? EJERCICIO 16 (Canavos 9.30) Se cree que el promedio para el número de respuestas correctas para la prueba SAT para las mujeres es mayor que el de los hombres por más de diez puntos. Las muestras aleatorias para ambos sexos arrojaron los siguientes resultados: __ Mujeres: n1 = 125; X n1 = 480 y S x1 = 60 . __ Hombres: n2 = 100; X n 2 = 460 y S x 2 = 52 . a) Si se muestrearon dos poblaciones independientes normales, ¿se encuentra la creencia apoyada por la evidencia muestral con α = 0.05? ¿Cuál es el valorp? b) Supóngase que la verdadera diferencia es de 15 puntos. ¿Cuál es la potencia de la prueba anterior? EJERCICIO 17 (Canavos 9.33) Se espera que dos operadores produzcan, en promedio, el mismo número de unidades terminadas en el mismo tiempo. Los siguientes datos son los números de unidades terminadas para ambos trabajadores en una semana de trabajo: Operador 1: 12; 11; 18; 16; 13 Operador 2: 14; 18; 18; 17; 16 Si se supone que el número de unidades terminadas diariamente por los dos trabajadores son variables aleatorias independientes distribuidas normales con varianzas iguales, ¿se puede discernir alguna diferencia entre las medias a un nivel α= 0.1? EJERCICIO 18 (Canavos 9.46) Para el ejercicio 17 (Canavos 9.33), ¿puede apoyarse la opinión de que la variación en el número de artículos terminados para el operador 2 es menor que para el operador 1 a un nivel α = 0.05? 20 PRÁCTICA 12 PRUEBA DE HIPÓTESIS DE SIGNIFICACIÓN DE PARÁMETROS EJERCICIO 19 (Examen Setiembre 1997) El jefe de personal de una empresa sospecha que los empleados de más edad pierden más días de trabajo al año por enfermedad que los trabajadores jóvenes. Decide probar esta hipótesis y elige al azar los registros de 10 empleados de 40 años o más y de 10 empleados de menos de 40 años. Se sabe que ambas poblaciones tienen una distribución normal con la misma varianza. Los resultados son: 40 años o más Menos de 40 años 37 24 19 42 21 18 35 15 16 0 4 9 0 10 12 20 63 22 25 13 Sean: μ1 = ‘promedio anual de días perdidos por enfermedad de trabajadores de 40 años o más’. μ2 = ‘promedio anual de días perdidos por enfermedad de trabajadores de menos de 40 años’. Se pide: 1. Establecer la hipótesis nula y la alternativa para este problema, sabiendo que el peor error es afirmar que los empleados de 40 años o más pierden más días de trabajo por enfermedad que los empleados menores de 40 años cuando en realidad no es cierto. 2. Proponer un estadístico apropiado para la prueba. 3. Entre la curva normal y la distribución t, ¿cuál es la distribución en el muestreo adecuada? Fundamente su respuesta. 4. Establecer la regla de decisión con un nivel de significación del 5%. 5. ¿Cuál debe ser la conclusión del jefe de personal? 6. Obtener el valor-p de esta prueba y explicar su significado. EJERCICIO 20 Una empresa que se dedica a comercializar válvulas realiza sus ventas en lotes de 10.000 unidades. Los compradores consideran aceptables lotes que no contengan más de un 10% de defectuosas. Como norma, cada venta se realiza luego de analizar los lotes a través del porcentaje de defectuosas existentes en una muestra de tamaño n. Solamente en el 2.5% de los casos la empresa está dispuesta a no vender lotes aceptables para los compradores. Al mismo tiempo se tratará de minimizar la probabilidad de que el lote se venda cuando el porcentaje de válvulas defectuosas supere el 10%. Se pide: 1. Definir el riesgo del comprador y el del vendedor. 2. Plantear una prueba de hipótesis adecuada para decidir si la empresa vende el lote. 3. Encontrar una región crítica óptima para dicha prueba en base a una muestra de 600 válvulas con reposición. 21 PRÁCTICA 12 PRUEBA DE HIPÓTESIS DE SIGNIFICACIÓN DE PARÁMETROS EJERCICIO 20 (continuación) 4. Si un lote contiene el 13% de válvulas defectuosas, ¿cuál sería el riesgo que correría un determinado comprador? (n = 600). 5. Calcular cuál debiera ser el tamaño de la muestra para que la potencia de la prueba sea k = 0,95 para el mismo nivel de significación. EJERCICIO 21 Una empresa desea lanzar un nuevo producto al mercado pero no está segura qué canal de distribución utilizar: almacenes mayoristas o minoristas. La empresa optará por los minoristas si más de la mitad de los consumidores potenciales (600.000 personas) conocen la marca del producto. Se pide: 1. ¿Qué método estadístico sugeriría utilizar? Fundamente su respuesta. 2. ¿Qué información necesitaría suministrarle la empresa para que Ud. pueda trabajar? 3. Plantear la hipótesis nula y la hipótesis alternativa y la forma de la región crítica. 4. Si α = 0.05 n = 600 X 600 =300/600. ¿Qué canal de distribución utilizaría la empresa? 5. Identifique el peor error que se puede cometer y su probabilidad máxima. 6. Calcular la función de potencia para p = 0.7 e interpretar el resultado obtenido. EJERCICIO 22 Una empresa comercial recibe del fabricante lotes de 10.000 artículos iguales que deben respetar determinadas normas: a) Cada artículo del lote se clasifica como bueno o defectuoso según cumpla o no con las normas preestablecidas. b) Un lote es aceptable si tiene un porcentaje de artículos defectuosos que no supera el 10%. Para decidir acerca de la compra de un lote, el comprador elige una muestra (MAS c/r) de 600 artículos del lote y cuenta el número de defectuosos. Si al seleccionar la muestra encuentra 66 artículos defectuosos. Se pide: 1. ¿Qué decisión tomaría la empresa comercial en base a una prueba de significación para la proporción de artículos defectuosos con un nivel de significación del 1%? 2. ¿Cuál sería el riesgo del fabricante? 3. Si el verdadero porcentaje de artículos defectuosos en el lote fuera del 15%: 3.1. ¿Cuál sería el riesgo de la empresa comercial al decidir en base a esta prueba? 3.2. Calcular cuál debería ser el tamaño de la muestra para que el riesgo de la empresa comercial fuera del 5%. 22 PRÁCTICA 12 PRUEBA DE HIPÓTESIS DE SIGNIFICACIÓN DE PARÁMETROS EJERCICIO 23 (Novales 10.14) Halle el contraste de razón de verosimilitudes para el contraste de la hipótesis nula: H0) μ = μ0, frente a la alternativa compuesta H1) μ ≠ μ0 en una población N μ, σ 2 , con σ 2 desconocida. Pruebe que este contraste coincide con el contraste habitual basado en el estadístico de la t de Student. ( ) EJERCICIO 24 (Novales 10.15) Halle el contraste de razón de verosimilitudes para el contraste de la hipótesis nula: H0) σ 2 = σ 02 , frente a la alternativa compuesta H1) σ 2 ≠ σ 02 en una población, con μ asimismo desconocida. Pruebe que este contraste coincide con el contraste habitual basado en el estadístico de la chi-cuadrado. EJERCICIO 25 (Examen 7/10/96) Las diferentes partes de este ejercicio son independientes entre sí. PARTE I Es común que los vendedores cometan errores en las facturas, por ejemplo al escribir los precios de los productos, las cantidades vendidas y en las sumas. En una empresa se tiene la política de sancionar a un vendedor si este produce más del 10 % de facturas con errores, porque pasado este límite se considera que el vendedor trabaja "mal". Una muestra aleatoria simple con reposici6n de 1000 facturas del vendedor Juan contiene 150 facturas con errores y su supervisor decidió sancionarlo. Plantear: 1. La hipótesis nula y la hipótesis alternativa considerando que el "peor error" que se puede cometer es decidir que el vendedor trabaja "mal" cuando en realidad trabaja “bien”. 2. Plantear el estadístico a utilizar y su distribución en el muestreo. 3. Hallar la región crítica si se utiliza un nivel de significación del 1%. 4. ¿La decisión del supervisor es consistente con el resultado de la muestra? 5. Si en realidad el vendedor confecciona el 12 % de las facturas con error, ¿cuál es la probabilidad de error de tipo II? 23 PRÁCTICA 12 PRUEBA DE HIPÓTESIS DE SIGNIFICACIÓN DE PARÁMETROS EJERCICIO 25 (continuación) PARTE II Se desea estimar el consumo medio mensual de cerveza por persona en la población montevideana. Para ello se tomó una muestra de tamaño 1000 personas (MAS c/r) en 1985 y se obtuvo el siguiente intervalo de confianza al 95%: (1.58; 1.82) litros por persona por mes. Se pide: 1. Probar la hipótesis nula de que el consumo promedio mensual per capita de cerveza en la población de Montevideo es 1.8 litros contra la hipótesis de que es diferente de 1.8 en 1995. Utilice un nivel de significación de 2%. 2. Probar la hipótesis nula de que el consumo promedio mensual per capita de cerveza en la población de Montevideo es 1.8 litros contra la hipótesis alternativa de que es menor que 1.8 en 1995 para un nivel de significación del 10%. 3. En su opinión, ¿a qué se debe que ambas pruebas conduzcan a decisiones diferentes? EJERCICIO 26 (Segunda Revisión 2000) En una institución de salud la Dirección Técnica controla periódicamente la cantidad de medicamentos que se consumen en la consulta en policlínicas. Se considera razonable un consumo promedio de 1,5 medicamentos por consulta. Si en un período el promedio excede de 1,5 entonces los médicos que más recetaron son sancionados con suspensión. En cada período la Dirección Técnica selecciona al azar por MAS C/R 400 pacientes que consultaron en Policlínicas y analiza el número de medicamentos que les fueron recetados en la última consulta. La Dirección Técnica adopta la siguiente regla de decisión: si el promedio de medicamentos por consulta en la muestra es mayor que 1,6 entonces se asumirá que en la población de pacientes de Policlínicas el promedio supera 1,5 y se procederá a sancionar con suspensión a los médicos más recetadores. Para la Dirección Técnica el peor error consiste en sancionar a los médicos cuando en realidad no debería hacerlo. SE PIDE: 1. Plantear las hipótesis nula y alternativa apropiadas para este problema. 2. Se conoce que la varianza del número de medicamentos recetados por consulta es 1,44. De acuerdo con la regla de decisión, ¿cuál es el nivel de significación de la prueba? 3. ¿Cuál es la probabilidad que con la regla establecida no se sancione a los médicos más recetadores si en realidad en el período analizado el promedio de recetas por consulta alcanza a 1,7? 24 PRÁCTICA 12 PRUEBA DE HIPÓTESIS DE SIGNIFICACIÓN DE PARÁMETROS EJERCICIO 26 (continuación) 4. Modificar la regla de decisión (con el mismo tamaño de muestra) para que la probabilidad de error de tipo I no supere 2,5%. 5. Con esta prueba, ¿es posible realizar afirmaciones acerca de una posible reducción en el consumo promedio de medicamentos por consulta? Fundamentar la respuesta. EJERCICIO 27 (Segunda Revisión 2001) Una prueba de matemática de múltiple opción consta de 10 preguntas, con tres opciones de respuesta cada una, una sola correcta. Por cada respuesta correcta se obtienen 4 puntos y por cada respuesta equivocada –2. Es obligatorio responder las 10 preguntas. El puntaje mínimo para aprobar la prueba es 16 puntos. Sean: X = ’puntaje de la prueba’ e Y = ‘número de respuestas correctas’. 1. Hallar la relación entre X e Y. Hallar el mínimo del Rec(X) e interpretar su significado. 2. Plantear una prueba de hipótesis para el parámetro p = ‘probabilidad de contestar bien’, sabiendo que el peor error es que el estudiante aprueba la prueba cuando en realidad está adivinando. Se tiene que indicar: H0), H1), la región crítica y el nivel de significación. 3. Plantear, sin calcular, la función de potencia de la prueba en función del parámetro definido en el punto 2. 4. Un alumno estudioso tiene probabilidad constante e igual a 0.7 de responder correctamente a cada pregunta. Calcular la probabilidad de que un alumno estudioso apruebe la prueba (aproximar con 3 decimales). 5. Si 300 alumnos rinden la prueba y todos ellos son ‘estudiosos’ y no pueden copiarse, ¿cuál es el número esperado de alumnos que aprobarán la prueba? Fundamente la respuesta. 25 PRÁCTICA 13: PRUEBA DE HIPÓTESIS DE BONDAD DE AJUSTE E INDEPENDENCIA PRÁCTICA 13: PRUEBA DE HIPOTESIS DE BONDAD DE AJUSTE E INDEPENDENCIA EJERCICIO 1 (Canavos 10.2) El número de nacimientos observados por mes en un hospital fue: Ene Feb Mar Abr May Jun Jul Ago Set Oct Nov Dic 95 105 95 105 90 95 105 110 105 100 95 100 Si α = 0.01, ¿existe alguna razón para creer que el número de nacimientos no se encuentra distribuido en forma uniforme durante todos los meses del año? ¿Cuál es el valor-p? EJERCICIO 2 (Segunda revisión de 1998) La información que a continuación se presenta es una tabulación del número de goles por partido (en los noventa minutos de juego) que se registraron en el mundial de fútbol de Francia ' 98. CANTIDAD DE GOLES 0 1 2 3 4 5 6 7 Total NUMERO DE PARTIDOS 5 10 13 19 11 5 0 1 64 1. Con un nivel de significación del 5%. ¿el número de goles por partido podría distribuirse Poisson con parámetro λ? (El parámetro λ se determinará apropiadamente). 2. El valor-p de la prueba ¿es menor o mayor que 0.10? Fundamente su respuesta. EJERCICIO 3 Someter a prueba la hipótesis de que los puntajes de una prueba se distribuyen aproximadamente normal, con un nivel de significación del 1% a partir de los datos obtenidos de una muestra de 290 estudiantes Puntaje 0 - 10 10 - 15 15 - 20 20 - 25 25 - 30 30 - 40 40 - 50 Total 26 Frecuencia 24 49 71 72 37 21 16 290 PRÁCTICA 13: PRUEBA DE HIPÓTESIS DE BONDAD DE AJUSTE E INDEPENDENCIA EJERCICIO 4 (Canavos 10.6) Durante un período de 30 años se llevó a cabo un estudio médico para determinar, entre otras cosas, si los hábitos de fumador pueden influenciar en el desarrollo de la enfermedad cardíaca. Durante este período, 160 hombres desarrollaron alguna enfermedad cardíaca. Estos hombres fueron clasificados como fumadores agudos (más de dos cajas de cigarros al día), fumadores moderados (una a dos cajas al día), fumadores ocasionales (menos de una caja al día) o no fumadores. El número de hombres en cada categoría que desarrolló alguna enfermedad cardíaca es el siguiente: Fumador Fumador Fumador agudo Moderado Ocasional 58 54 36 No fumador 12 Total 160 a) Si se supone que al comienzo del estudio había una cantidad igual de hombres en cada una de las cuatro categorías, ¿existe alguna razón a un nivel de α = 0.01 para creer que las proporciones en estas categorías no son las mismas? b) ¿Cómo se podría prevenir al investigador médico del uso de la prueba de bondad de ajuste chi-cuadrado en esta situación? EJERCICIO 5 (Examen Febrero 1999) Un odontólogo atiende sus pacientes de lunes a viernes en jornadas de 6 horas. El odontólogo se queja, últimamente, de un creciente cansancio, debido a que los jueves y viernes atiende más pacientes que de lunes a miércoles. La probabilidad de que un paciente que asiste al dentista durante cierta semana, lo haga en cada uno de los días es la siguiente: Día de la semana Día Nº Probabilidad Lunes 1 0.16 Martes 2 0.16 Miércoles 3 0.16 Jueves 4 0.26 Viernes 5 0.26 Por consejo de un estadístico, el odontólogo anuncia a sus pacientes que a partir del mes siguiente aumentará el horario de atención a 7 horas de lunes a miércoles, y lo reducirá a 5 horas los jueves y viernes. Transcurridos dos meses de los cambios, se selecciona una semana al azar y se obtienen los siguientes resultados: Día de la semana Día Nº Pacientes atendidos Lunes 1 10 Martes 2 9 Miércoles 3 11 Jueves 4 14 Viernes 5 16 27 PRÁCTICA 13: PRUEBA DE HIPÓTESIS DE BONDAD DE AJUSTE E INDEPENDENCIA EJERCICIO 5 (continuación) Se pide: 1. Plantear las hipótesis nula y alternativa de los dos problemas siguientes: 1.1. Se desea saber si la distribución nueva de pacientes es uniforme (discreta). 1.2. Se desea saber si la distribución nueva de pacientes no cambió. 2. Indicar en el caso de la prueba 1.2 el estadístico de la prueba y su distribución aproximada en el muestreo bajo H0. 3. Decidir en la prueba 1.2 para un nivel de significación del 5%. Trabajar con 3 dígitos. 4. Indicar qué significa el concepto de Error Tipo II de la prueba de hipótesis desarrollada. EJERCICIO 6 (Segunda Revisión 1996) El gerente de producción de una empresa asegura que la demanda total semanal del producto X se distribuye aleatoriamente con función de densidad: ⎧ x2 si x ∈ [0 ,1 ) ⎪ 2 ⎪ ⎪− 7x2 + 10 x − 6 si x ∈ [1 ,2 ] fX ( x ) = ⎨ ⎪ 2 0 en otro caso ⎪ ⎪ ⎩ donde X se mide en Kg. de producto. Para verificar la afirmación del Gerente de Producción, se tomó una MAS c/r de la demanda en 400 semanas con el siguiente resultado: Demanda 0.0 – 0.5 0.5 – 1.0 1.0 – 1.5 1.5 – 2.0 Número de semanas 9 61 195 135 Se pide: 1. Para un nivel de significación del 10% ¿puede afirmarse que la demanda total semanal se distribuye según la afirmación del gerente de producción? (Realizar los cálculos con dos decimales). 2. Para un nivel de significación del 10% y para la misma muestra, se somete a prueba la hipótesis H0) X ~ N ( μ0 , σ02 ) con μ0 y σ02 dadas, y resulta que, de acuerdo con los resultados, no se rechaza dicha hipótesis. ¿Es este resultado coherente con el resultado del punto anterior? Fundamentar la respuesta. 28 PRÁCTICA 13: PRUEBA DE HIPÓTESIS DE BONDAD DE AJUSTE E INDEPENDENCIA EJERCICIO 7 (Canavos 10.14) Se toma una muestra aleatoria de 25 hombres casados y se les pregunta la edad que tenían cuando se casaron. Se obtienen los siguientes datos: 24, 19, 20, 22, 50, 23, 23, 21, 25, 27, 45, 27, 26, 26, 35, 29, 28, 30, 31, 32, 31, 33, 34, 38, 41. Úsese la estadística de Kolmogorov-Smirnov para probar la hipótesis nula de que la distribución de las edades de los hombres cuando contrajeron sus primeras nupcias es una distribución gama con θ = 2 y α = 16. Úsese α = 0.05. (Sugerencia: para calcular las probabilidades gama, véase una tabla de la función gama incompleta determinada por 5.55). EJERCICIO 8 Se desea investigar si existe asociación o independencia entre ciertas categorías de la PEA y la edad de dicha población. A esos efectos se eligió una muestra aleatoria de 1000 personas activas obteniéndose los siguientes resultados: EDAD CATEGORÍA DE LA PEA Menos de 25 Entre 25 - 60 Más de 60 Ocupados en industria manufacturera 50 220 40 Ocupados en el comercio 60 150 20 Ocupados en los servicios 50 250 30 Desocupados 40 80 10 Someter a prueba la hipótesis de independencia entre la edad y la categoría de la PEA para un nivel de significación α = 3%. EJERCICIO 9 (Segunda Revisión 1997) Se efectuó una encuesta entre 483 amas de casa que compran habitualmente yogur para determinar si existe alguna relación entre la marca que compran más frecuentemente y la característica principal que debe tener un "buen yogur". Las marcas de yogur que existen en el mercado son: A, B, C, D y E. Las características de un "buen yogur" son: buen sabor, nutritivo, barato, sin aditivos y calidad. Se quiere saber si existe dependencia entre la marca de yogur comprada más frecuentemente y la característica principal que debe tener un "buen yogur". Con la información obtenida en la encuesta se elaboraron los siguientes cuadros de valores observados y esperados. 29 PRÁCTICA 13: PRUEBA DE HIPÓTESIS DE BONDAD DE AJUSTE E INDEPENDENCIA EJERCICIO 9 (continuación) Cuadro de valores observados Característica principal Marca A Marca B Marca C Marca D Marca E Total Sabor Nutritivo Barato 30 28 15 14 16 103 30 28 10 13 12 93 20 18 15 16 25 94 Sin aditivos 15 16 23 27 24 105 Calidad Total 28 26 9 18 7 88 123 116 72 88 84 483 Cuadro de valores esperados Característica principal Marca A Marca B Marca C Marca D Marca E Sabor Nutritivo Barato α 24.7 15.4 18.8 17.9 β 22.3 13.9 16.9 16.2 γ 22.6 14 17.1 16.3 Sin aditivos 26.7 25.2 15.7 19.1 18.3 Calidad 22.4 21.1 13.1 16 15.3 Se pide: 1. Determinar los valores de α, β y γ de la tabla de valores esperados. (Aproximar con un decimal). 2. Plantear las hipótesis nula y alternativa para esta prueba. 3. Sabiendo que el valor del estadístico Chi-cuadrado en la muestra es 40.45, ¿qué decisión adoptaría para un nivel de significación del 5%? 4. El valor-p ¿será mayor, igual o menor que el 5%? Fundamente la respuesta. 30 PRÁCTICA 13: PRUEBA DE HIPÓTESIS DE BONDAD DE AJUSTE E INDEPENDENCIA EJERCICIO 10 Para estudiar la posible asociación o independencia entre la condición de fumador y el fallecimiento por cáncer pulmonar, se seleccionó una muestra de 10.000 personas fallecidas en el último año y se encontraron los siguientes resultados. CAUSA DEL FALLECIMIENTO Cáncer de pulmón Otras causas TOTAL CONDICIÓN DE FUMADOR SI NO 200 200 800 8.800 1.000 9.000 TOTAL 400 9.600 10.000 1. Probar si existe independencia entre los atributos condición de fumador y causa de fallecimiento, para un nivel de significación del 1%. ¿Y al 5%? 2. Estimar, a partir de los resultados de la muestra, las probabilidades de morir de cáncer de pulmón condicionadas por la condición de fumador. EJERCICIO 11 (Canavos 10.22) Se llevó a cabo una encuesta con respecto a la preferencia del consumidor para determinar si existía alguna predilección para tres marcas competitivas (A, B y C) dependiendo de la región geográfica en la que habita el consumidor. Con base en una muestra aleatoria de consumidores, se obtuvo la siguiente información para tres distintas regiones. Región 1 Región 2 Región 3 Marca A 40 52 25 Marca B 52 70 35 Marca C 68 78 60 Con base en esta información, ¿la preferencia por una determinada marca depende de la región geográfica a un nivel α = 0.05? 31 PRÁCTICA 14: MUESTREO DE POBLACIONES FINITAS PRÁCTICA 14: MUESTREO DE POBLACIONES FINITAS EJERCICIO 1 Sea Ω = {w1, w2, w3, w4, w5, w6, w7, w8}. Se elige una MAS S/R de tamaño 3. Se pide: 1. ¿Cuántas muestras diferentes pueden formarse? 2. ¿Cuál es la probabilidad de una muestra cualquiera? 3. ¿Cuál es la probabilidad de que w8 pertenezca a la muestra? 4. ¿Cuál es la probabilidad de que w7 y w8 pertenezcan a la muestra? 5. Sea X la edad de cada individuo de la población: X(wi) = i ∀ i. 5.1. ¿Cuál es la media de las edades en la población? 5.2. ¿Cuál es la cuasi-varianza de las edades en la población? 6. Se eligió una muestra y resultó (w3, w5, w7). 6.1. ¿Cuál es un estimador insesgado de la media poblacional a partir de dicha muestra? Calcular la estimación. 6.2. ¿Cuál es un estimador insesgado de la cuasi-varianza poblacional a partir de dicha muestra? Calcular la correspondiente estimación. 7. Supongamos ahora otra variable Y tal que: Y(w1) = 10; Y(w2) = Y(w3) = 11; Y(w4) = 14; Y(w5) = Y(w6) = Y(w7) = 20; Y(w8) = 25 7.1. Calcular media y cuasi-varianza poblacionales. 7.2. Calcular P( |Y - μ | < ε) con ε = 1, ε = 3, ε = 5. EJERCICIO 2 Considere una población Ω = {w1, w2, w3}. Sean s1 = {w1, w2}, s2 = {w1, w3}, s3 = {w2, w3}, s4 = {w1, w2, w3} las muestras posibles con probabilidades p1 = 0.4, p2 = 0.3, p3 = 0.2, p4 = 0.1. Se pide: 1. Calcular la probabilidad de que el elemento wi salga en la muestra seleccionada ∀ wi ∈ Ω. 2. Calcular la probabilidad de que el par (wi , wj) con i ≠ j salga seleccionado en la muestra ∀ (wi , wj) ∈ Ω. EJERCICIO 3 Anualmente llegan al Balneario Las Cañas unos 10.000 turistas provenientes del exterior y del interior del país. Para conocer el gasto promedio diario de los turistas en 1996 se eligió una MAS S/R de 500 turistas. A cada uno de ellos se le preguntó por el gasto diario y se obtuvieron los siguientes resultados: Gasto diario 100 - 200 200 - 400 400 - 600 600 - 700 Total 32 Nº de turistas 100 250 130 20 500 PRÁCTICA 14: MUESTREO DE POBLACIONES FINITAS EJERCICIO 3 (continuación) Se pide: 1. Estimar el gasto promedio diario de los 10.000 turistas. 2. Sabiendo que la estadía de todos los turistas en "Las Cañas" es de 3 días, estimar el gasto total de los turistas en dicho balneario. 3. Hallar un intervalo de confianza al 95% para el gasto promedio diario de los turistas. 4. Hallar un intervalo de confianza al 90% para el gasto total de los turistas. 5. Utilizando los datos de la muestra para estimar la cuasi-varianza poblacional, ¿cuál debió ser el tamaño de la muestra (MAS S/R) para estimar el gasto promedio diario de los turistas con una precisión de $20 y una seguridad del 95%? EJERCICIO 4 Para estimar la proporción de hogares unipersonales en una ciudad de 20.000 hogares, se seleccionará una MAS S/R. Sabiendo que en el último Censo dicha proporción era del 11%, y que de ninguna manera puede superar el 15%, determinar el tamaño de la muestra para tener una precisión del 1% y una seguridad del 99%. EJERCICIO 5 A los efectos de estimar el ingreso medio de los hogares de una región, se decide seleccionar una MAS S/R de una población de 500.000 hogares. Se pide: 1. Determinar el tamaño de la muestra necesario para una precisión de 50 unidades monetarias y una confianza del 95% (se supone que la varianza del ingreso de los hogares es de aproximadamente 1.0002). 2. Realizada la encuesta con el tamaño antes calculado, se obtuvo la siguiente distribución de la muestra: Ingreso 100 - 200 200 - 500 500 - 1000 1000 - 2000 Frecuencia relativa 0.3 0.4 0.2 0.1 2.1. Estimar el ingreso medio por hogar y el ingreso total de la región. 2.2. Construir intervalos de confianza para dichos parámetros al 95%. 33 PRÁCTICA 14: MUESTREO DE POBLACIONES FINITAS EJERCICIO 6 Se desea estimar el ingreso medio de los hogares de una ciudad que tiene 4 barrios a partir de una muestra de 1000 hogares. Se dispone además de la siguiente información: Estrato Nº de hogares 1 2 3 4 10.000 20.000 30.000 40.000 Varianza de los ingresos (de encuestas anteriores) 2.500 900 225 100 Se pide: 1. Asignar la muestra por estratos por MAEP y MAEO. ⎛∧ ⎞ 2. Calcular V ⎜ t YMAE ⎟ en ambos casos y comparar la eficiencia relativa de ambos ⎝ ⎠ métodos. EJERCICIO 7 Se considera una población de 12:500.000 personas activas. Se desea estimar la proporción de desocupados. La población se clasifica en dos estratos: N1 = 9:000.000 y N2 = 3:500.000 se utilizará MAE para seleccionar una muestra de 12.500 personas activas. Se pide: 1. Determinar el tamaño de muestra en cada estrato, usando asignación proporcional. 2. Al realizar la encuesta se encontraron las siguientes tasas de desempleo en la muestra: d1 = 5% y d2 = 6%. 3. Estimar el porcentaje de desocupados en la población. 4. Estimar el total de desocupados en cada estrato y en la población. 5. Estimar la varianza del estimador de la proporción de desocupados. 6. Hallar un intervalo de confianza al 95% para el total de desocupados en la población. 7. Sabiendo que σ '12 = 0.06 y que σ ' 22 = 0.08 , ¿cuál debería ser el tamaño total de una muestra MAEP para obtener una precisión de medio punto porcentual y una seguridad del 95% en la estimación de la proporción de desocupados en la población? 34 PRÁCTICA 14: MUESTREO DE POBLACIONES FINITAS EJERCICIO 8 A fin de estimar la media μ de una cierta variable X, se decide muestrear una población de N = 10.000 elementos, y tomar la media muestral obtenida como estimador de μ . Para ello, se dispone de dos diseños: DISEÑO 1: MAS S/R de n = 200 elementos. DISEÑO 2: MAE de n = 200 elementos, con las siguientes características: Se divide la población en dos estratos. El estrato 1 tiene N1 = 5.000 elementos, y el estrato 2 tiene N2 = 5.000 elementos. La muestra se distribuye así: n1 = 150 elementos en el estrato 1 y n2 = 50 elementos en el estrato 2. Se sabe que, siendo σ 12 la varianza poblacional del estrato 1, σ 22 la del estrato 2 y σ 2 la varianza total de la población, se cumple la siguiente relación: σ 12 = 4σ 22 = 0.9σ 2 Se pide: 1. Estimar la varianza de la media muestral en ambos diseños y concluir cuál de ellos es más eficiente. (Se supone que los costos no juegan). 2. Calcular la eficiencia relativa estimada del estimador de la media mediante el MAE con respecto al MAS en este caso. EJERCICIO 9 (Segunda Revisión 1995) Una población de N = 1000 individuos se dividió en dos estratos de tamaño N1 = 200 y N2 = 800. Se pide: 1. Mostrar que si las cuasi-varianzas poblacionales de dichos estratos están en 8 la relación, σ 1′ = σ ′2 , entonces, para una muestra total de tamaño n se 3 verifica que: el tamaño de la muestra del estrato 1 (n1) por asignación óptima resulta el doble del n1 que se obtendría mediante la asignación proporcional. Calcular ambos ni en función de n y verificar la proposición anterior. 35 PRÁCTICA 14: MUESTREO DE POBLACIONES FINITAS EJERCICIO 10 (Examen Febrero 1992) Una población de 300.000 animales está a punto de entrar en epidemia de una cierta enfermedad. Experiencias realizadas con anterioridad muestran que: Sobre una muestra (MAS s/r) de 1.000 animales no vacunados en ocasión de la epidemia anterior, murieron 250 y, Sobre una muestra (MAS s/r) de 400 animales vacunados murieron sólo 40. Se pide: 1. Construir un intervalo de confianza al 95% para el número de animales que se espera que mueran: 1.1. Si no hay vacunación. 1.2. Si se vacuna a toda la población. 2. Plantear la forma del intervalo aleatorio utilizado para construir los intervalos de confianza del punto anterior. 3. El costo de cada animal muerto es de $ 1.000 y el costo de cada vacuna es de $ 100. Hallar el casto total esperado en caso de epidemia: 3.1. Si no hay vacunación. 3.2. Si se vacuna a toda la población. 4. Un estudio profundo por parte del Organismo de Control Sanitario ha mostrado la existencia de dos zonas de riesgo en caso de epidemia: Zona de alto riesgo: Población: 100.000 animales Una muestra (MAS s/r) de 500 animales vacunados en la última epidemia estimó la probabilidad de muerte en 0.20. Zona de menor riesgo: Población: 200.000 animales Una muestra (MAS s/r) de 500 animales no vacunados en la última epidemia estimó la probabilidad de muerte en 0.15. Si se sigue la estrategia de vacunar sólo a la población de animales de la zona de alto riesgo: 4.1. Estimar el número esperado de animales que habrán de morir en caso de epidemia (con la nueva estrategia). 4.2. Hallar el costo esperado de esta estrategia. ¿Es más conveniente que las anteriores? 4.3. Hallar el error estándar del estimador de 4.1. 36 PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE EJERCICIO 1 A continuación se realizan una serie de afirmaciones sobre modelos lineales; discutir la validez de las mismas. 1. Las relaciones entre variables explicativas de un modelo pueden ser siempre linealizadas y por lo tanto aplicar las técnicas de modelos lineales. 2. Los supuestos clásicos en los que se basa la estimación de modelos lineales son únicamente una primera aproximación al tema, pues son simplificadores de la realidad. 3. El diagrama de dispersión es una herramienta muy útil para ver qué clase de relación mantienen dos variables. 4. Dado el modelo lineal simple: Yi = β 0 + β1 X i + ε i : 4.1. Los llamados supuestos clásicos son: E( ε i ) = 0 E( ε i2 ) = σ 2 COV ( ε i , ε j ) = 0 ∀ i ≠ j X i son valores fijos 4.2. Bajo los supuestos clásicos, los estimadores mínimo cuadráticos de β 0 y β 1 coinciden con los estimadores máximo verosímiles. 5. En el modelo lineal simple y bajo los supuestos clásicos, β 0 y β1 son los parámetros del modelo, y: n ^ β1 = ⎛ ∑ ⎜⎝ Y i =1 i ___ ___ ⎞ ⎞⎛ − Y ⎟⎜ X i − X ⎟ ⎠ ⎠⎝ ___ ⎞ ⎛ ⎜Xi − X ⎟ ∑ ⎠ i =1 ⎝ n ___ ^ y 2 ^ ___ β 0 = Y − β1 X son los estimadores que se obtienen por el método de los mínimos cuadrados. 5.1. Los estimadores mínimo cuadráticos son insesgados. 5.2. Los estimadores mínimo cuadráticos son los que tienen menor varianza. 6. Como el modelo de regresión visto en el curso es solamente aplicable a relaciones lineales: 6.1. El modelo Yi = β 0 + β1 X i + ε i no es estimable por mínimos cuadrados. 6.2. El modelo Yi = β 0 + β1 X i2 + ε i no es estimable por mínimos cuadrados. 6.3. El modelo Yi = (β 0 + β1 log( X i )) ( 1 / β0 ) + ε i no es estimable por mín cuadrados. β1 6.4. El modelo Yi = β 0 . X i .ε i no es estimable por mínimos cuadrados. 6.5. El modelo Yi = β 0 .β1X i .ε i no es estimable por mínimos cuadrados. 37 PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE EJERCICIO 2 Se presentan a continuación los resultados de distintas especificaciones de modelos lineales simples realizados para ver qué modelo se ajusta mejor para explicar la cotización del dólar. Se contó para ello con la serie de cotizaciones al cierre de cada mes del dólar billete, tipo vendedor, en el mercado interbancario desde marzo de 1985 a mayo de 1988. Se pide: Evalúe de acuerdo a los resultados presentados para cada función, cuál de ellas se ajusta mejor. Z t = β 0 + β1t + ε t donde Z t es la cotización del dólar y t el tiempo en meses (marzo ^ ^ de 1985 = 1). Las estimaciones de los parámetros son β 0 = 61,50 , β1 = 6,22 y R 2 = 0,9582 . Z t = β 0 ( β1 )t ε t (Modelo exponencial) Se linealizó: Ln( Z t ) = Ln( β 0 ) + Ln( β1 ). t + Ln( ε t ) ∧ ∧ Se estimó el modelo y se llegó a: Ln( β 0 ) = 4 ,46 , Ln( β1 ) = 0,034 y R 2 = 0,9973 . Z t = β 0 t β1 ε t (Modelo potencial) Se linealizó: Ln( Z t ) = Ln( β 0 ) + Ln( t ). β1 + Ln( ε t ) ∧ ∧ Se estimó el modelo y se llegó a: Ln( β 0 ) = 4 ,04 , β1 = 0 ,40 y R 2 = 0,8313 . EJERCICIO 3 (Canavos 13.3) Dado el modelo lineal Yi = βX i + ε i , i = 1, 2, … , n supóngase que E( ε i ) = 0 , V ( ε i ) = σ 2 ∀ i y COV ( ε i , ε j ) = 0 ∀ i ≠ j . ∧ a) Obtener el estimador β de mínimos cuadrados para β ∧ ∧ b) Determinar si β es un estimador no sesgado de β, y demostrar que V ( β ) = EJERCICIO 4 Dado el modelo lineal Yi = α + ε i , i = 1, 2, … , n V ( ε i ) = σ ∀ i y COV ( ε i , ε j ) = 0 ∀ i ≠ j . 2 ∧ a) Obtener el estimador α de mínimos cuadrados para α. ∧ b) Analizar las propiedades de α como estimador de α. 38 σ2 ∑ X i2 supóngase E( ε i ) = 0 , PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE EJERCICIO 5 En una muestra de 10 automotoras se registraron las ventas anuales de automóviles que utilizan nafta (X) y de automóviles que utilizan gas oil (Y). La muestra arrojó los siguientes resultados: 10 ∑ X i = 2.500 i =1 10 ∑Yi = 2.000 i =1 10 ∑X i =1 10 2 i = 910.000 ∑Yi 2 = 590.000 i =1 10 ∑X Y i =1 i i = 312.500 Se supone que el vector (X,Y)' puede modelarse aproximadamente por: ⎛X⎞ ⎜⎜ ⎟⎟ ~ N 2 ( μ ,Σ ) ⎝Y ⎠ SE PIDE: PARTE I: A partir de los resultados de la muestra: 1. Obtener estimaciones de los parámetros de la distribución de (X,Y)'. 2. ¿Son estas estimaciones consistentes? Fundamentar. 3. Estimar el coeficiente de correlación de (X,Y). 4. De acuerdo con los resultados obtenidos ¿es válida la afirmación de que las buenas automotoras de gasoleros no son tan efectivas vendiendo autos a nafta? Fundamentar. PARTE II: Utilizando las estimaciones obtenidas en PARTE I, calcular: 1. La probabilidad que una automotora venda anualmente más de 300 automóviles a gas oil. 2. La probabilidad que una automotora venda anualmente más de 300 automóviles a gas oil sabiendo que en el año se vendieron 100 automóviles a nafta. 3. El número esperado de automóviles a gas oil a vender por una automotora sabiendo que en el año vendió 250 automóviles a nafta. PARTE III: Supóngase que los datos de la muestra corresponden a 10 automotoras seleccionadas por el número de autos vendidos a nafta, siendo aleatorio el número de autos vendidos a gas oil. Suponiendo un modelo de la forma: Yi = β 0 + β1 X i + ε i . 1. Establecer los supuestos necesarios (y sólo los necesarios) para estimar los parámetros β 0 y β1 por mínimos cuadrados. 2. Establecer los supuestos adicionales para probar la significación del modelo a través del análisis de la varianza, indicando el papel que desempeñan cada uno de los supuestos en dicho análisis. 3. Estudiar la significación del modelo para un nivel del 5%. 39 PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE EJERCICIO 6 Se desea estimar una relación lineal que vincule el consumo privado (CP) como una función del Producto Bruto Interno (PBI) a lo largo del período 1970 - 1985. A esos efectos se ha sacado la siguiente información del Banco Central del Uruguay: AÑOS 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 Valores en N$ de 1978 CP PBI 21.972 25.857 22.118 25.888 22.281 25.486 22.382 25.579 21.986 26.383 22.758 27.930 22.239 29.043 22.158 29.384 22.919 30.930 24.163 32.838 26.232 34.808 26.854 35.469 24.257 32.138 21.926 30.257 20.556 29.532 20.764 29.738 Fuente: BCU Se pide: 1. Establecer los supuestos necesarios para estimar la relación deseada. 2. Realizar el diagrama de dispersión. 3. Estimar el modelo lineal simple: CPt = β 0 + β1 PBI t + ε t por mínimos cuadrados. 4. Estimar la varianza de los residuos ( σ ε2 ) y la varianza de los estimadores. 5. Calcular e interpretar el coeficiente de determinación (R2). 6. Observar la siguiente salida de la opción de regresión del Excel aplicada a este problema particular. Identificar los elementos que se han estudiado en el curso. 40 PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE EJERCICIO 6 (continuación) Resumen Estadísticas de la regresión Coeficiente de correlación múltiple Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones ANÁLISIS DE VARIANZA Grados de Libertad Regresión 1 Residuos 14 Total 15 Intercepción Variable X 1 0.7413 0.5495 0.5174 12.047 16 Suma de Cuadrados 247.852 203.173 451.025 Promedio de cuadrados 247.852 14.512 F Valor crítico 170.787 de F 0.0010 Coeficien Error típico tes Estadístico t Probabilidad Inferior 95% Superior 95% 110.605 0.4002 38.564 41.326 49.090 0.1925 172.120 0.6079 28.681 0.0968 0.0017 0.0010 EJERCICIO 7 Se plantea un modelo simple Yi = β 0 + β1 X i + ε i y en base a las observaciones del par ( X i ,Yi ) se obtuvieron los siguientes resultados: 10 ∑ X i = 37,20 i =1 10 ∑ X i2 = 139,42 i =1 10 ∑Yi = 78,75 i =1 10 ∑Yi2 = 622,64 i =1 10 ∑ X Y = 294,05 i =1 i i n = 10 Se pide: 1. Estimar los parámetros explicitando los supuestos utilizados: 1.1. Utilizando las fórmulas del modelo lineal simple. 1.2. Utilizando β = ( X' X ) X' Y . 2. Determinar las varianzas de los estimadores mínimo cuadráticos. 3. Calcular R2. 4. Construir un intervalo de confianza del 95% para β1 , suponiendo distribución normal de los residuos ε i . Analizar la significación del modelo. ^ 41 −1 PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE EJERCICIO 8 Al gerente de Marketing de Fascination le interesa explicar el consumo de cosméticos de la gama Fascination Plus con la importancia que las mujeres dan a su imagen. Para conseguir este objetivo, se consulta por el consumo mensual de cosméticos (en unidades) a una muestra de 4 mujeres cuya autoimagen es dada (en una cierta escala ). Se obtuvieron los siguientes datos: Autoimagen 2 3 5 8 Consumo mensual de Cosméticos 1 3 7 13 Se pide: Determine la media de la variable explicada y la media de la variable explicativa. Estime la recta de regresión lineal. Determine los valores estimados del consumo mensual de cosméticos. Determine los errores estimados. Determine el coeficiente de correlación lineal. Explique qué dificultad se presenta cuando se intenta probar la significación del modelo. 7. Explicite para este caso los supuestos del modelo necesarios para probar la significación del modelo. 1. 2. 3. 4. 5. 6. EJERCICIO 9 El gerente de una cadena de heladerías desea usar la temperatura ambiental promedio para predecir las ventas diarias de halados. Para ello recoge datos para una muestra aleatoria de 10 días. Día Temperatura promedio (grados Fahrenheit) Xi 1 72 2 79 3 85 4 90 5 66 6 95 7 100 8 98 9 82 10 91 42 Ventas diarias (en kg.) Yi 110 127 140 151 89 187 205 190 136 165 PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE EJERCICIO 9 (continuación) 10 ∑ X i = 858 i =1 10 ∑ X i2 = 74.740 i =1 10 ∑ Yi = 1.500 i =1 10 ∑ Yi 2 = 237.366 i =1 10 ∑X Y i =1 i i = 132.369 Se pide: 1. Calcular la ecuación de regresión lineal. 2. Interpretar el valor obtenido de la pendiente de la recta. 3. Calcular el residuo para el primer día. 4. Calcular el error estándar de estimación. 5. En el caso de una prueba de hipótesis donde se dice H0) β1 ≤ 0 contra H1) β1 > 0 5.1. ¿Cuál es la región crítica apropiada? 5.2. ¿Cuál sería la conclusión para α = 2.5%? 5. 3. Interprete el resultado obtenido. 6. Calcular el R2 e interpretar su valor. 7. Sabiendo que la conversión de grados Fahrenheit a grados Celsius es 5 Grados Celsius = (Grados Fahrenheit - 32) x 9 calcular la temperatura media y la desviación estándar de la temperatura en los diez días en grados Celsius. EJERCICIO 10 (Examen Agosto 1999) El Cr. Jota Erre tiene una teoría por la cual el tipo de cambio promedio mensual interbancario vendedor (Yt) tiene incrementos fijos e iguales mes a mes, a partir de un cierto valor inicial. En cambio, el Ec. Equis Zeta cree que la variable Yt crece, a partir de un cierto valor inicial, a una tasa constante todos los meses. Se pide: 1. Plantear un modelo lineal de acuerdo con la teoría del Cr. Jota Erre. 2. Plantear un modelo adecuado para el Ec. Equis Zeta y explicar cómo se debe proceder para "linealizar" el modelo. 3. Para comprobar la teoría del Cr. Jota Erre se seleccionaron 10 meses consecutivos y se observó el valor de la variable Yt. Para los datos que se presentan a continuación, estimar el modelo. T 1 2 3 4 5 6 7 8 9 10 Yt 10.4 10.6 10.6 10.7 10.8 10.9 10.9 10.9 11.0 11.2 4. Calcular los 10 residuos o errores de estimación para la muestra extraída. 5. A partir de los resultados de la parte anterior, estimar la varianza del modelo. 6. Explicar qué supuesto es necesario agregar a los supuestos clásicos para realizar una prueba de significación del modelo, y explicar cómo interviene dicho supuesto en el desarrollo de la prueba. 7. Probar la significación del modelo para un nivel del 5%. 8. Realizar una predicción puntual del valor esperado de Y15. 9. Construir un intervalo de confianza para E(Y/t=15) para una seguridad del 95%. 43 PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE EJERCICIO 11 (Examen Febrero 1999) Para explicar el ingreso promedio mensual de los hogares mediante un modelo de regresión lineal simple un especialista propone como variable explicativa los "años de educación formal del jefe del hogar". Para realizar las estimaciones de los parámetros del modelo el especialista entiende que deben cumplirse algunos de los siguientes supuestos: * Hay que seleccionar previamente, y no al azar, los jefes de hogar según ciertos valores prefijados del ingreso de los hogares. * Hay que seleccionar previamente, y no al azar, los jefes de hogar según ciertos valores prefijados de los años de educación formal. * La selección de los hogares debe hacerse de tal forma de evitar que haya correlación entre los residuos del modelo. * La variabilidad de los ingresos, para cada valor prefijado de los años de educación, debe ser constante. * La variabilidad de los ingresos, para cada valor prefijado de los años de educación, debe ser proporcional a los años de educación. * Los residuos del modelo tienen distribución normal. * Los residuos del modelo tienen distribución uniforme continua. * El valor esperado de los errores, para cada valor prefijado de los años de educación, es constante. * El valor esperado de los errores, para cada valor prefijado de los años de educación, es nulo. Se pide: 1. Establecer cuáles de los supuestos anteriores son necesarios para estimar los parámetros del modelo. 2. Se dispone de los siguientes datos de 15 hogares: Y = "ingreso promedio mensual (en miles de $)” X = "años de educación formal" 15 ∑X i =1 i = 151 15 ∑X i =1 2 i = 1.747 15 15 ∑Y = 167 ∑Y i =1 i i =1 i 2 = 2.081 15 ∑ X Y = 1.879 i =1 i i Obtener la ecuación estimada de la recta de regresión (aproximar a 2 decimales). 3. ¿Qué interpretación tienen los coeficientes estimados en este problema? 4. Calcular las estimaciones de las varianzas de los coeficientes estimados. 5. Obtener un intervalo de confianza al 95% para β1. Explicitar los supuestos necesarios. 6. ¿Es significativa la variable X para explicar la Y para un nivel del 5%? Fundamente la respuesta sin realizar cálculos. 44 PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE EJERCICIO 12 (Examen Marzo 2001) Se considera el siguiente conjunto de datos a los efectos de estimar los parámetros del modelo de regresión lineal simple Yi = β 0 + β1 xi + ε i para i = 1, K ,6. x 1 .0 0 1 .0 0 3 .0 0 3 .0 0 5 .0 0 5 .0 0 Y 1 0 .2 0 7 .8 0 8 .2 0 5 .8 0 6 .2 0 3 .8 0 La representación gráfica de dichos datos y de la recta de regresión lineal aparece en la gráfica siguiente (diagrama de dispersión). r e g r e s ió n li n e a l 12 10 y 8 6 4 2 0 0 2 4 6 8 x El siguiente cuadro presenta parte de la salida de la opción Regresión de Excel. Resumen Estadísticas de la regresión Coeficiente de determinación R^2 Error típico Observaciones 0.649 1.470 6 ANÁLISIS DE VARIANZA Regresión Residuos Total Grados libertad 1 4 5 Intercepción Variable X 1 Coeficientes Error típico 10.0000 1.2550 -1.0000 0.3674 45 de Suma de Promedio de F cuadrados los cuadrados 16.0000 16.0000 7.4074 8.6400 2.1600 24.6400 Estadístico t valor-p 7.9682 0.0013 -2.7217 0.0529 PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE EJERCICIO 12 (continuación) Se pide (dar las respuestas con al menos 4 decimales): 1. Calcular el coeficiente de correlación r entre X y Y. 2. Calcular el valor-p asociado al estadístico F=7.4074, fundamentando su respuesta. 3. Qué porcentaje de la variación total de la variable Y es explicada por el modelo? 4. Someta a prueba la significación del modelo en su conjunto para un nivel α = 7% (sí, siete por ciento). 5. Construya un intervalo de confianza al 95% para el parámetro σ ε2 , varianza de los residuos del modelo. EJERCICIO 13 (Canavos 13.4, 13.6 y 13.8) Una compañía local de energía seleccionó una residencia típica para desarrollar un modelo empírico para consumo de energía (en kilowatts por día) como una función de la temperatura promedio diaria durante los meses de invierno. Se obtuvo la siguiente información durante un período de 15 días. Temperatura (ºC) Consumo energético 0 8 7.5 13.5 14 8.5 4.5 -11 70 57 60 63 66 67 107 96 57 -7.5 -8.5 1.5 88 80 0.5 2 -6 -4 64 79 82 97 Se pide: 1. Graficar los datos. ¿Sugiere la gráfica una asociación lineal? 2. Para un modelo lineal simple, obténgase la ecuación estimada de regresión y grafíquese sobre la gráfica de la parte a). 3. Interprétense los coeficientes de regresión estimados. 4. ¿Qué se recomendaría a la compañía para mejorar el modelo empírico? 5. Dada la ecuación de regresión estimada en la parte b) calcúlense los residuos. 6. Verifíquese que se cumplen las propiedades: n n i =1 i =1 ^ ∑ Yi = ∑ Y i y n ∑X e i =1 i i =0 7. Obténgase la varianza residual. ∧ ∧ 8. Calcúlense los estimadores de las desviaciones estándar de β 0 y β1 . 9. Obténgase un intervalo estimado de confianza del 95% para el valor real de la pendiente. 10. Determínese si una relación lineal entre la temperatura atmosférica promedio y el consumo de energía es estadísticamente discernible para un nivel α = 0.05. 11. Para cada temperatura atmosférica, calcúlense los intervalos de confianza del 95% estimados para el uso medio de energía y grafíquense éstos contra la recta estimada de regresión. 12. Estímense los consumos individuales de energía para las siguientes temperaturas: -10, -8, -5, -2, 1, 4, 7, 10, y 13. Obténganse intervalos de predicción del 95% para las estimaciones. 46 PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE EJERCICIO 14 (Segunda Revisión 2000) En un comercio se cree que las ventas semanales son linealmente decrecientes con cada semana del mes. Para comprobarlo, se seleccionaron 36 semanas y se calcularon las ventas por semana. Los datos obtenidos se presentan en el siguiente cuadro. Dato (i) Semana(xi) Ventas (yi) Dato (i) Semana(xi) Ventasi 1 1 10000 19 2 12000 2 2 9000 20 3 10000 3 3 8000 21 4 10000 4 4 8000 22 5 10000 5 1 13000 23 1 13000 6 2 13000 24 2 11000 7 3 11000 25 3 10000 8 4 9000 26 4 9000 9 5 7000 27 1 14000 10 1 14000 28 2 12000 11 2 12000 29 3 11000 12 3 12000 30 4 8000 13 4 10000 31 5 9000 14 1 12000 32 1 12000 15 2 11000 33 2 12000 16 3 10000 34 3 12000 17 4 11000 35 4 11000 18 1 12000 36 5 8000 i = 36 i = 36 i = 36 i = 36 i = 36 i =1 i =1 i =1 i =1 i =1 ∑ xi = 100; ∑ yi = 386.000; ∑ xi2 = 340; ∑ yi2 = 4.250 : 000.000; ∑ xi yi = 1.010.000. SE PIDE: 1. Plantear el modelo explicativo de las ventas semanales en función de la semana del mes. 2. Estimar β0 y β1. 3. Interpretar el valor estimado de β1 en este problema. 4. ¿Es el modelo significativo para un nivel del 5%? EJERCICIO 15 (Examen Febrero 2000) (Las distintas partes son independientes entre sí.) PARTE A Dada Yi / X i = xi ~ Poisson( βxi ) i = 1,2,...., n Se pide: 1. Plantear la regresión de Y sobre X. 2. Hallar el estimador por mínimos cuadrados de β con los supuestos habituales. 47 PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE EJERCICIO 15 (continuación) PARTE B Para un modelo lineal simple Se pide: ^ ^ 1. Probar que S ^ = β1 S XY , siendo Y el valor estimado por el modelo para Y. YY ^ 2. Probar que β1 = 3. Recordando que S^ Y SX . 2 S XY R = 2 2 S X SY 2 S ^2 hallar la relación entre R 2 y YY S ^2 S 2 Y . Y PARTE C Se estiman por mínimos cuadrados y para n = 50 varios modelos: ( i ) Yi = β0 + β1Xi1 + εi para el que se obtiene R2 = 0,2527. Se piensa en la especificación alternativa: ( ii ) Yi = β0 + β1Xi1 + β2Xi2 + εi Para tener una idea de qué tan buena es la variable X2 para explicar Y se estiman los modelos: ( iii ) Yi = α0 + α1Xi2 + εi para el que se obtiene R2 = 0,4709. ( iv) Xi1 = γ 0 + γ1Xi2 + εi para el que se obtiene R2 = 0,0067. SE PIDE: Analizar si son verdaderas o falsas las siguientes afirmaciones. Justificar. 1. Para el modelo ( i ) la variable X1 es significativa al 1%. 2. X1 y X2 son casi incorrelacionadas, mientras que Y y X2 tienen un coeficiente de correlación muestral de 0,6862. 3. La especificación ( ii ) tendrá un R2 mayor que la ( i ) y la ( iii ). EJERCICIO 16 (Examen) En la automotora EL AUTO MEDIO, todos los meses se venden de 10 a 20 autos de diferentes marcas y modelos. Todos los meses el dueño de la empresa - egresado de C. Económicas- calcula el valor promedio de los autos vendidos para comparar con meses anteriores. En los primeros 12 meses observa los valores de la tabla adjunta. En el mes 13 se obtiene un promedio de U$S 10.300. Luego de pensarlo, el dueño afirma que debe haberse cometido un error, porque de acuerdo con el Teorema Central del Límite, la predicción más razonable para el mes 13 es un valor entre U$S 11.600 y U$S 12.400. La información recabada se presenta en la siguiente tabla: MES (X) VPM (Y) 48 1 2 3 4 5 6 7 8 9 10 11 12 11.3 11.2 11.5 11.6 11.8 11.5 11.4 11.6 11.8 11.6 12.0 11.9 PRÁCTICA 15: MODELO DE REGRESIÓN SIMPLE EJERCICIO 16 (continuación) VPM - Valor Promedio Mensual en miles 12 12 ∑ X i2 = 650 ∑Yi2 = 1.615: 360.000 i =1 i =1 12 ∑ X Y = 912.200 i =1 i i Se pide: 1. ¿Es cierta la afirmación del dueño de la empresa? Fundamentar la respuesta, explicando el significado del Teorema Central del Límite. 2. Si se utiliza el mes como variable explicativa, formular un modelo lineal simple para explicar el valor promedio de los autos vendidos y estimar los parámetros del modelo (β 0 ,β1 , σ ε2 ) utilizando los datos de los primeros 12 meses. 3. Calcular R2 y comentar el resultado obtenido. ^ ^ 4. Calcular Y 13 según el modelo estimado. La diferencia entre Y 13 y Y13 se debe a que a partir del mes 13 se eliminó un impuesto del 20% sobre el valor de venta de los automóviles. Se quiere estimar un nuevo modelo para explicar el valor promedio mensual de los autos vendidos sin el impuesto con los primeros 12 datos, utilizando otra vez el mes como variable explicativa. Encontrar la relación ^ ^ ^ entre las estimaciones de los parámetros del modelo original ( β 0 ,β 1 , σ ε2 ) y los ^ ^ ^ del nuevo modelo ( β ∗0 ,β1∗ ,σ ∗ε2 ) (sin calcular). ^ 5. Calcular Y13* a partir del nuevo modelo y hallar un intervalo de confianza al 95% ^ para el parámetro E( Y13* ) . 49 PRÁCTICA 16: MODELO DE REGRESIÓN MULTIPLE PRÁCTICA 16: MODELO DE REGRESIÓN MÚLTIPLE EJERCICIO 1 A continuación se realizan una serie de afirmaciones sobre modelos lineales; discutir la validez de las mismas. 1. El modelo lineal general, es decir, aquel que implica considerar más de una variable explicativa, es más real en virtud de que pocos fenómenos se explican solamente por una variable como supone el modelo simple. 2. En el modelo Yi = β 0 + β1 X i + ε i probar la significación del modelo en general 3. 4. 5. 6. implica probar la hipótesis de β1 = 0. En el modelo lineal general Y = X β + ε , explicar la forma que tienen los vectores Y y ε y la matriz de observaciones X en el caso de tener más de dos variables explicativas (además del término independiente). Asimismo, explicitar la forma del vector de los coeficientes β . El diagrama de dispersión es una herramienta muy útil para ver qué clase de relación mantienen dos variables. El análisis de la varianza constituye un instrumento para estudiar los efectos parciales que pueden tener una o más de las variables en la explicación de la varianza estimada. El coeficiente de determinación R2 aumenta su valor con el número de variables explicativas consideradas, lo que constituye un elemento negativo del indicador. Indique como puede solucionarse este problema. EJERCICIO 2 Una empresa que vende productos de venta masiva está estudiando el comportamiento de sus ventas en los últimos 8 años. Como en el mercado existe únicamente una empresa competidora, con niveles similares de precio y calidad, se observa la relación entre las ventas anuales (Yi), los gastos en publicidad de la propia empresa (Xi,1) y los gastos en propaganda de la competidora(Xi,2). Se observaron los siguientes datos: i 1 2 3 4 5 6 7 8 50 Yi 30 50 60 70 90 100 110 120 Xi,1 10 15 20 25 30 35 40 45 Xi,2 5 5 8 10 12 15 20 25 PRÁCTICA 16: MODELO DE REGRESIÓN MULTIPLE EJERCICIO 2 (continuación) Se pide: 1. Plantear un modelo lineal para explicar las ventas anuales de la empresa, explicitar los supuestos y estimarlo por MCO usando la notación matricial sabiendo que: ⎛1.302 − 0.110 0.148 ⎞ ⎜ ⎟ −1 (X ′X ) = ⎜ 0.016 − 0.027 ⎟ ⎜ 0.048 ⎟⎠ ⎝ 2. En base a los resultados hallados someter a prueba la hipótesis de significación del modelo en su conjunto a un nivel de significación del 5%. 3. Realizar el análisis de la varianza confeccionando el cuadro correspondiente. EJERCICIO 3 Una empresa de ómnibus utiliza el siguiente modelo lineal para explicar los costos de reparación y mantenimiento de sus unidades: COSTOS i = β 0 + β1 KMVIAJ i + β 2 EDADi + ε i COSTOS i = total de costos anuales de reparación y mantenimiento del i-ésimo vehículo. KMVIAJ i = miles de kilómetros viajados por el i-ésimo vehículo. EDADi = antigüedad en años del i-ésimo vehículo. Procesados los datos en Excel se obtiene la siguiente salida: Resumen Estadísticas de la regresión Coeficiente de correlación 0.901241 múltiple Coeficiente de 0.812237 determinación R^2 R^2 ajustado 0.780943 Error típico XXX Observaciones XXX 51 PRÁCTICA 16: MODELO DE REGRESIÓN MULTIPLE EJERCICIO 3 (continuación) ANÁLISIS DE VARIANZA Grados de libertad Promedio Suma de de F Cuadrados Cuadrados XXX XXX 25.95512 32785.31 XXX XXX Regresión Residuos Total XXX XXX 14 Intercepción Variable X 1 Variable X 2 Coeficientes Error típico 108.91501 73.270750 26.678791 3.7041353 71.130916 XXX Valor crítico de F 0.000 Estadístico t Probabilidad XXX XXX 3.7363434 0.030 0.00 0.003 Se pide: 1. Completar la salida calculando los datos faltantes. ∧ 2. ¿Cómo interpreta el valor de los β i obtenidos? 3. Construir intervalos de confianza al 95% para β1 y β 2 . 4. Analizar la validez del modelo. 5. El gerente de la empresa afirma que los kilómetros viajados no influyen significativamente en los costos. ¿Qué comentario le merece esta afirmación? 6. ¿Sería pertinente excluir alguna de las variables incluidas? EJERCICIO 4 En una empresa se desea explicar el salario actual de sus funcionarios mediante el siguiente modelo de regresión lineal: SALi = β 0 + β1 EDUCi + β 2 EDADi + β 3 SALINIC + ε i SALi = Salario actual EDUCi = Nivel educativo EDADi = Edad del funcionario SALINIC = Salario con que ingresó en la empresa Para los datos de todos los funcionarios se obtiene el siguiente resultado: Resumen Estadísticas de la regresión Coeficiente de correlación múltiple Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones 52 0.89524 0.80146 0.80020 3053.09 474 PRÁCTICA 16: MODELO DE REGRESIÓN MULTIPLE EJERCICIO 4 (continuación) ANÁLISIS DE VARIANZA Grados de libertad Suma de Cuadrados Promedio de F Cuadrados Regresión Residuos Total 3 470 473 17685582341 5895194114 632.43 4381056929 9321397.72 22066639270 46652514.3 Intercepción Variable X 1 Variable X 2 Variable X 3 Coeficientes 135.90 298.04 -58.95 1.73 Error típico 983.58 67.21 12.53 0.059 Estadístico t 0.138 4.434 4.629 29.331 Valor crítico de F 0.000 Probabilidad 0.8902 0.000 0.000 0.000 Se pide: 1. Construir un intervalo de confianza al 95% para el coeficiente de la variable nivel educativo e interpretar sus resultados. 2. Determinar si el modelo es significativo al 5%. 3. Plantear la prueba de hipótesis que permita contrastar si la variable edad influye negativamente en el salario actual. 4. ¿Es correcta la siguiente interpretación de la salida? “En promedio, al aumentar la edad disminuye el salario? Fundamentar la respuesta. EJERCICIO 5 Se desea estimar el gasto de los hogares montevideanos en función de la edad del jefe/a del hogar, la cantidad de integrantes del hogar y la situación ocupacional del jefe/a. Para ello se definieron las siguientes variables: GASTO: Gasto del hogar. EDAD: Edad del jefe/a. CANTIDAD: Cantidad de integrantes del hogar. OCUPADO: Variable binaria que vale 1 si el jefe/a esta ocupado y 0 en otro caso. DESOCUPADO: Variable binaria que vale 1 si el jefe/a esta desocupado y 0 en otro caso. Se pide: 1. Indicar qué supuesto del modelo de regresión lineal no se cumple. 2. Indicar cómo debe interpretarse el coeficiente estimado para la variable OCUPADO. 53 PRÁCTICA 16: MODELO DE REGRESIÓN MULTIPLE EJERCICIO 6 (Segunda Revisión 2000) A continuación se presentan los resultados de la estimación de dos modelos de regresión lineal que buscan explicar a la variable dependiente, Y. El modelo 1 incorpora una constante y la variable explicativa X1, mientras que en el modelo 2 se incorpora, además, otra variable explicativa, X2. MODELO 1 Estadísticas de la regresión Coeficiente de correlación Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones 0.9525 xxxx 0.9029 32.194 xxxx ANÁLISIS DE VARIANZA Grados de Suma de Cuadrados F libertad cuadrados medios Valor p Regresión Residuos Total 1 38 39 0.0000 Intercepción x1 MODELO 2 Estadísticas de la regresión Coeficiente de correlación Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones 3849.62 393.86 4243.48 Coeficient Error tí i 72.568 xxxx 31.593 0.1639 3849.62 10.36 371.42 Estadístico Probabilida t d 142.556 0.0000 192.722 0.0000 Inferior 95% Superior 95% xxxx 2.83 xxxx 3.49 0.9528 0.9079 xxxx 32.504 40 ANÁLISIS DE VARIANZA Grados de Suma de Cuadrados F libertad cuadrados medios Valor p Regresión Residuos Total 2 37 39 xxxx 390.92 xxxx xxxx xxxx 182.32 0.0000 Error 0.5142 0.1690 0.1649 Estadístico 141.290 185.908 0.5273 Probabilida 0.0000 0.0000 0.6011 Inferior 95% Superior 95% Intercepción x1 x2 Coeficient 72.649 31.413 0.0870 6.22 2.80 -0.25 8.31 3.48 0.42 54 PRÁCTICA 16: MODELO DE REGRESIÓN MULTIPLE EJERCICIO 6 (continuación) SE PIDE: 1. Completar las celdas con xxxx. 2. Realizar la prueba de significación conjunta del MODELO 2. Interpretar el significado de cada una de las hipótesis. 3. Interpretar el valor 3.1413 del coeficiente estimado para X1 en el MODELO 2. 4. Determinar si es significativa la variable X2 en el MODELO 2, para un nivel del 5%. 5. Determinar el número de filas y columnas de la matriz P que permite proyectar ortogonalmente el vector y sobre el S.E.V. que generan las columnas de la matriz X. EJERCICO 7 (Examen Marzo 2003) El Gerente General de una empresa que comercializa diversos productos por catálogo está interesado en encontrar la relación que existe entre las ventas semanales (en U$S) y las siguientes variables: X1 = Cantidad de catálogos que se imprimen por mes X2 = Cantidad de páginas de los catálogos X3 = Tamaño de las páginas de los catálogos (en cm2) X4 = Número de líneas telefónicas disponibles para recibir los pedidos X5 = Amplitud del horario de atención telefónica (en horas semanales). Para estimar un modelo de regresión lineal múltiple, el Gerente General solicita a un estadístico que seleccione una muestra apropiada de semanas que represente adecuadamente las diferentes combinaciones de las variables Xi. Seleccionada la muestra se realizaron diversos cálculos, algunos de los cuales se presentan en el siguiente cuadro. Modelo: Yi = β 0 + β 1 . X i1 + β 2 . X i 2 + β 3 . X i 3 + β 4 . X i 4 + β 5 . X i 5 + ε i Variable R2 = 0,750000 2 R corregido = 0,721591 Intercepto n X1 ( y i − y ) 2 = 4.000.000 X ∑ 2 i =1 X3 X4 X5 Coeficiente +12.180,0 +1,5 +48,0 -0,8 +60,0 +20,0 p-valor 0,0027 0,0184 0,4132 0,0408 0,0087 0,6600 x1 = 10.000 x 2 = 50 x3 = 600 x4 = 6 x5 = 40 1. Plantear el modelo estimado. 2. ¿Cuál fue el tamaño de la muestra? Explicite sus cálculos. 3. Calcular la Variación Explicada (SCReg) y estudiar la significación del modelo al 5%, explicitando las hipótesis, el estadístico y su distribución y la Región Crítica. 4. ¿Qué variables son significativas al 5%? Justificar la respuesta. 55 PRÁCTICA 16: MODELO DE REGRESIÓN MULTIPLE EJERCICIO 7 (continuación) 5. ¿Cuál es el resultado esperado estimado en las ventas semanales de una reducción de 2 páginas en los catálogos a imprimir?, considerando que las otras variables no cambian. 6. Para bajar los costos, el Gerente General se ve en la necesidad de reducir alguna de las 5 variables Xi. ¿Qué recomendación le formularía Ud.? Fundamentar la respuesta. 7. Suponga que se quiere elaborar un modelo más sencillo donde las ventas semanales se expliquen exclusivamente con la cantidad de catálogos a imprimir por mes: Yi = α 0 + α 1 . X 1i + ε i . Si se utilizan los mismos datos que permitieron estimar el modelo anterior: 7.1) ¿Cómo es el nuevo R2 respecto al del modelo anterior? Fundamentar la respuesta. 7.2) ¿Cómo es el nuevo R2 corregido respecto al del modelo anterior? Fundamentar. 7.3) Sabiendo que αˆ 0 = 11.260,0 , ¿cuál es la estimación de α1 ? 7.4) Sabiendo además que el estadístico-t para α1 es 9,798, deducir la parte de la variación total explicada por el nuevo modelo. 7.5) Utilizando el nuevo modelo, realizar una predicción de las ventas de una semana en que se imprimirán 12.000 catálogos, y construir un intervalo para la predicción al 95%. 56 SEGUNDA REVISIÓN 2005 SEGUNDA REVISIÓN 2005 EJERCICIO 1 (15 puntos) ⎧eα − x si x ≥ α Sea la variable aleatoria X con función de densidad fX(x) = ⎨ si x < α ⎩0 Sea (X1, X2,…,Xn) una MAS C/R de X. (Observe que Y = X – α tiene distribución Exponencial de parámetro λ = 1). SE PIDE: 1. Hallar la distribución del estadístico T = Máx(Xi). 2. Hallar el estimador de α por el método de los momentos ( α~ ). 3. Calcular ECM( α~ ). 4. Probar que α~ converge en probabilidad al parámetro α. EJERCICIO 2 (8 puntos) Un camión cargado de 1.200 cajones de naranjas debe atravesar un puesto de control. Las Autoridades sólo permiten continuar al camión si la carga no excede las 10 toneladas. La capacidad del camión es de 12 toneladas y las Autoridades entienden que la carga podría exceder del límite permitido. Como la opción de pesar toda la carga sería muy complicada, se decide seleccionar una MAS S/R de 100 cajones, resultando un promedio de 8 kilos por cajón, con una cuasi-varianza en la muestra de 3 Kg2. SE PIDE: 1. Construir un intervalo de confianza al 95% para el peso total de la carga. 2. ¿Cuál es la probabilidad aproximada que la carga supere las 10 toneladas? EJERCICIO 3 (12 puntos) El gerente de marketing realizó una investigación de mercado para decidir sobre la conveniencia de lanzar un nuevo producto al mercado. La decisión sería afirmativa si más del 20% de los consumidores consultados se muestra interesado por el nuevo producto. Se seleccionó una MAS C/R de tamaño “n” en la que se encontró que el 24% estaba interesado en el producto. Como se definió Xi = 1 si el entrevistado i está interesado en el producto y 0 en caso contrario y se eligió RC = {Muestras: x > 0,2329} con un α = 0.05, el gerente decidió rechazar H0) p ≤ 0,2. a) Determinar el tamaño de muestra utilizado. b) ¿Cuál sería la decisión (lanzar el nuevo producto / no lanzarlo) si fuera α = 0.04? EJERCICIO 4 (15 puntos) El Profesor Teo Primo opina que el puntaje de la Primera Revisión de Estadística II se puede explicar mediante un modelo lineal exclusivamente con el nivel de asistencia a clase de los alumnos. Para comprobar esta afirmación Teo seleccionó, de la población que rindió la Primera Revisión de Estadística II, una muestra de 45 alumnos con la siguiente distribución. Sean: Yi = Puntaje de la Primera Revisión de Estadística II del alumno i xi = Nº de clases del primer semestre a las que asistió el alumno i 57 SEGUNDA REVISIÓN 2005 EJERCICIO 4 (continuación) CANTIDAD DE ALUMNOS 15 15 15 NÚMERO DE CLASES A LAS QUE ASISTIERON EN EL PRIMER SEMESTRE 40 36 32 Resultados del Modelo de Teo Primo Yˆi = 10 + 0,3. xi R 2 = 0,72 SE PIDE: 1) Calcular ∑ (x − x ) a partir de los datos de la muestra. 2 i i 2) Deducir ∑ (y − y) . 2 i i 3) Construir un intervalo de confianza al 95% para β1. 4) Estudiar la significación del modelo. 58