5. REGRESION LINEAL MÚLTIPLE Existe una variable dependiente (Y) para dos ó más variables independientes (x).La teoría es una extensión de la Regresión Lineal Simple. Una vez más esta operación se refiere al desarrollo de una ecuación que se puede utilizar para predecir valores de y respecto a valores dados de las diferentes variables independientes. El objetivo de las variables independientes adicionales es incrementar la capacidad predictiva sobre la de la regresión lineal simple. La ecuación de regresión tiene la forma: Y ' a b1 1 b2 2 b3 3 b4 4 ...+ bk k donde a = intersección de la recta con el eje b1 , b2 , b3 , b4 ....bn = pendiente ó estimadores de los parámetros. k = número de variables independientes. PRUEBA DE HIPÓTESIS DE LA REGRESIÓN LINEAL MÚLTIPLE EN FORMA GENERAL ( PARA EL MODELO DE PREDICCIÓN) Ho = b1 = b2 = b3 = b4 =........bk = 0 (El modelo no es adecuado) H1 = b1 b2 b3 b4 ........ bk 0 (El modelo es adecuado) ESTADÍSTICA DE PRUEBA F = MSR / MSE MSR = SSR / ∂1 MSE = SSE / ∂2 Donde: MSR = Cuadrado medio de regresión MSE = Cuadrado medio del error SSR = Suma de cuadrados de regresión SSE = Suma de cuadrados del error ∂1 (grados de libertad del numerador) = k ∂2 (grados de libertad del denominador) = n – (k+1) Fα,∂1, ∂2 f (F ) ∂1 ∂2 1-α F Fα (de tablas) 5.1 DETERMINACION DE LA BONDAD DEL MODELO (r2) O ≤ r2≤ 1 r2 SSR SST donde: SST= Suma Total de los cuadrados SST = SSE + SSR 5.2 ERROR ESTANDAR DE ESTIMACIÓN MÚLTIPLE error = SSE n (k 1) ∂2 (grados de libertad del denominador) TABLA ANOVA Fuente gl SS MS F Regresión K SSR MSR= SSR/k MSR/MSE Error(Residuos) n-(k+1) SSE MSE= SSE/[(n-(k+1)] Total n-1 SST Ejemplo 1: El señor Wide es el presidente de la unión de profesores de una universidad de Estados Unidos. Para preparar las próximas negociaciones le gustaría saber cuál es la estructura de los salarios de los maestros. El piensa que hay tres factores de los que depende el salario de un maestro: años de experiencia, una calificación a su competencia como maestro dada por el director, y si tiene o no grado de maestría. En una muestra aleatoria de 20 maestros se obtuvieron los siguientes datos Salario en (miles de $) Años de experiencia X1 Calificación del director X2 Grado de Maestría X3 21.1 23.6 19.3 33 28.6 35 32 26.8 38.6 21.7 15.7 20.6 41.8 36.7 28.4 23.6 31.8 20.7 22.8 32.8 8 5 2 15 11 14 9 7 22 3 1 5 23 17 12 14 8 4 2 8 35 43 51 60 73 80 76 54 55 90 30 44 84 76 68 25 90 62 80 72 0 0 1 1 0 1 0 1 1 1 0 0 1 0 1 0 1 0 1 0 sería bueno eliminar alguna de las variables. *1 =sí, 0 = no.(variables tontas) a) ¿Qué variables tienen una fuerte correlación con la variable dependiente? b) Determine la ecuación de regresión.¿ Cuál sería el salario estimado para un profesor que tiene cinco años de experiencia, una calificación de 60 por el director, y que no tiene grado de maestría? c) Realizar una prueba de hipótesis global para determinar si alguno de los coeficientes es distinto de cero. d) Realice una prueba de hipótesis individual para determinar si Solución: Para poder hacer el análisis, procesamos los datos en Excel: a) ¿Qué variables tienen una fuerte correlación con la variable dependiente? Para esto se tiene que calcular la correlación entre la variable dependiente, y cada una de las variables independientes, como si fuera una Regresión lineal simple, de este modo se obtendrían las gráficas con su respectiva línea de regresión, para cada una de las variables Variable X 2 Curva de regresión ajustada Variable X 1 Curva de regresión ajustada 50 50 y = 0.9766x + 18.453 R2 = 0.8289 y = 0.2007x + 15.204 R2 = 0.3297 40 30 30 Y Y 40 20 20 10 10 0 0 0 5 10 15 Variable X 1 20 25 0 20 40 60 Variable X 2 80 100 Variable X 3 Curva de regresión ajustada Y 50 40 30 20 10 0 y = 4.38x + 25.54 R2 = 0.1062 Se puede observar claramente que la variable X1 que se refiere a la antigüedad es la que tiene mayor correlación con la variable dependiente Y Pronóstico para Y 0 0.5 1 1.5 Variable X 3 Lineal (Pronóstico para Y) b) Determine la ecuación de regresión.¿ Cuál sería el salario estimado para un profesor que tiene cinco años de experiencia, una calificación de 60 por el director, y que no tiene grado de maestría? de acuerdo a los resultados obtenidos en Excel: Y ' 9.9152 0.8993 X 1 0.1539 X 2 0.6673 X 3 por lo tanto el salario del profesor sería: Y ' 9.9152 0.8993(5) 0.1539(60) 0.6673(0) Y ' $23,645.70 c) Realizar una prueba de hipótesis global para determinar si alguno de los coeficientes es distinto de cero. Ho = b1 = b2 = b3 = b4 =........bk = 0 (El modelo no es adecuado) H1 = b1 b2 b3 b4 ........ bk 0 (El modelo es adecuado) El valor F calculado, sería : F para MSR 301.064 52.721, este valor lo comparamos con el valor crítico obtenido en tablas MSE 5.710 Fα,∂1, ∂2 = F en este caso tomaremos .05 nivel de significancia,3 gl para el .05,3,16 numerador, y 16 gl para el denominador . el valor crítico será: 3.24 f (F ) ∂1 ∂2 1-α F 3.24 52.72 Se puede observar que H0 se rechaza y que el valor crítico (valor p global) es muy pequeño (0.00000001623,prácticamente cero).Es obvio, ya que 52.72 está muy alejado de 3.24. por lo que se concluye que no todos los coeficientes de correlación son cero. Decimos que no todos pues si observas la columna que dice probabilidad(es el valor p), se puede ver que la variable X3 cae dentro de la zona de aceptación, ya que es mayor que α (0.59). Desde un punto de vista práctico, esto significa que las variables independientes(Antigüedad, Maestría,etc), Sí pueden definir apropiadamente los salarios que se asignarán a los maestros. La prueba global, esto nos asegura. d) Realice una prueba de hipótesis individual para determinar si sería bueno eliminar alguna de las variables. Para esto utilizaremos los resultados que nos da Excel acerca del valor p para cada una de las variables. Se observa que la variable X3 cae en la zona de aceptación, por lo que ésta variable no tiene correlación con el Salario de un maestro, por lo que podría eliminarse. vea que el valor p ( 0.59) es mucho mayor que α =.05 Se utilizara la distribución t más adelante para probar individualmente los coeficientes de regresión, por lo pronto aprenderemos a interpretar los resultados de Excel. t Coeficient es Desviación estándar Ejemplo 2: La tabla siguiente enlista de precios de venta (Y), en base a 7 variables predictoras para 50 residencias de una zona de Eugene, Oregon. Se obtuvo con el fin de obtener un modelo para estimar el valor de las residencias GARAGE PRECIO DE SUPERFICIE RESIDENCIA i VENTA y(X$1000) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 10.2 10.5 11.1 15.3 15.8 16.3 17.2 17.7 18 18.1 18.4 18.4 18.9 19.3 19.5 19.9 20.3 20.3 20.8 21 21.5 22 22.1 22.5 22.8 22.8 22.9 23.2 23.5 24.9 25 25.1 26.6 26.9 26.9 27.8 28 28.7 29 30.1 32 33.8 35.3 37.1 37.5 38 38.4 39 43 55 PIES CUAD. X1(X 100) 8 9.5 9.1 9.5 12 10 11.8 10 13.8 12.5 15 12 16 16.5 16 16.8 15 17.8 17.9 19 17.6 18.5 18 17 18.7 20 20 21 20.5 19.9 21.5 20.5 22 22 21.8 22.5 24 23.5 25 25.6 25 25 26.8 22.1 27.5 25 24 31 21 40 TOTAL 1 = TIENE DORMITORIOS BAÑOS CUARTOS EDAD 0 = NO X2 X3 2 2 3 3 3 3 3 2 3 3 3 3 3 3 3 2 3 3 3 2 3 3 3 2 3 3 3 3 2 3 2 3 3 3 2 3 3 3 3 3 4 2 3 3 3 4 3 4 4 5 X4 1 1 1 1 2 1 2 1 2 2 2 2 2 2 2 2 1 2 2 2 1 2 2 3 1 2 2 2 2 1 2 1 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 3 2 3 X5 5 5 6 6 7 6 7 7 7 7 7 7 7 7 7 7 7 8 7 7 6 8 7 8 6 7 7 7 7 7 7 7 7 7 6 7 7 8 7 7 8 8 7 8 8 8 8 9 9 12 5 8 2 6 5 11 8 15 10 11 12 8 9 15 11 12 8 1 18 22 17 11 5 2 6 16 12 10 11 13 8 9 10 6 15 11 17 12 11 15 12 8 6 18 12 10 13 25 18 22 VISITA X6 X7 0 0 0 0 0 0 0 1 0 0 0 0 1 0 1 0 1 1 1 0 0 1 0 1 0 0 0 1 1 1 0 1 0 1 1 1 0 0 1 1 1 0 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 a) Obtenga el modelo en Excel para obtener estimaciones del valor de cada una de las siguientes cinco residencias de Eugene (no forman parte de las 50 anteriores). Los datos se dan en la siguiente tabla. RESIDENCIA SUPERFICIE DORMI- PIES CUAD. TORIOS X1 X2 X3 X4 1 22.4 4 2 7 18 1 1 2 15.3 3 2 7 6 0 0 3 17.2 4 1 7 4 1 0 4 31.7 5 3 9 24 0 0 5 20.0 4 2 8 11 1 1 i BAÑOS TOTAL EDAD GARAGE VISTA CUARTOS X5 X6 X7 b) Realizar una prueba de hipótesis global para determinar si alguno de los coeficientes es distinto de cero. Solución: a) Los resultados que arroja Excel son los siguientes: por lo tanto, la ecuación de regresión es: Y’ =-13.858+0.951x1+0.79413374x2-2.807x3+3.06x4+0.070x5+0.6536x6+1.0263x7 sustituyendo en el modelo anterior, la variables que caracterizan cada residencia, obtendremos los siguientes costos: RESIDENCIA SUPERFICIE DORMI- PIES CUAD. TORIOS X1 X2 X3 X4 1 22.4 4 2 7 18 1 1 $29.36603 2 15.3 3 2 7 6 0 0 $19.3006 3 17.2 4 1 7 4 1 0 $25.2222 4 31.7 5 3 9 24 0 0 $41.0582 5 20.0 4 2 8 11 1 1 $29.65363 i BAÑOS TOTAL EDAD GARAGE VISTA CUARTOS Costo$ (miles de X5 X6 X7 dólares) Se puede observar que la residencia 4 tiene un costo mayor a pesar de ser la más antigua, esto se debe a que la superficie en pies cuadrados es mayor, esto lo podemos afirmar ya que ésta variable presenta el coeficiente de correlación más alto, así como la variable 4 con 9 cuartos en total. b) Realizar una prueba de hipótesis global para determinar si alguno de los coeficientes es distinto de cero. Ho = b1 = b2 = b3 = b4 =........bk = 0 (El modelo no es adecuado) H1 = b1 b2 b3 b4 ........ bk 0 (El modelo es adecuado) El valor F calculado, sería : F para MSR 490.904 54.098 , este valor lo comparamos con el valor crítico obtenido en tablas MSE 9.074 Fα,∂1, ∂2 =F en este caso tomaremos .05 nivel de significancia,7 gl para el .05,7, 42 numerador, y 42 gl para el denominador . Se puede observar que H0 se rechaza y que el valor crítico (valor p global) es muy pequeño (5.58E19,prácticamente cero).Es obvio, ya que 54.098 está muy alejado de 2.25. por lo que se concluye que no todos los coeficientes de correlación son cero. Decimos que no todos pues si observas la columna que dice probabilidad(es el valor p) el valor crítico será: 2.25 f (F ) ∂1 ∂2 1-α F 2.25 54.098 Prueba de hipótesis individual: se puede ver que las variables X2, X5, X6, y X7 cae dentro de la zona de aceptación, ya que sus valores de probabilidad(valor p) son mayores que α =0.05, por lo que se concluye que éstas variables su correlación es igual a cero. Intercepción Variable X 1 Variable X 2 Variable X 3 Variable X 4 Variable X 5 Variable X 6 Variable X 7 Probabilidad 0.00016531 1.1766E-10 0.41341474 0.0316483 0.00072083 0.47721757 0.52122032 0.49598421 Desde un punto de vista práctico, esto significa que las variables independientes 1, 3 y 4 son las que definen el Costo de las residencias. para concluir esto, también nos apoyamos en el estadístico t, el cual se obtiene en Excel mediante la fórmula: Intercepción Variable X 1 Variable X 2 Variable X 3 Variable X 4 Variable X 5 Variable X 6 Variable X 7 t Coeficient es Desviación estándar Error típico ó Estadístico Coeficientes Desviación.Estandar t 13.8583569 3.35011176 -4.1366849 0.95172059 0.11211768 8.48858645 0.79413374 0.96130274 0.8261016 2.80781456 1.26303907 -2.2230623 3.06486574 0.83981068 3.64947221 0.07058774 0.09842058 0.71720505 0.65366781 1.01047093 0.64689423 1.02636173 1.49441373 0.68679892 haciendo mediante un valor crítico obtenido de tablas para α =0.05 y n-1=49 g.l. X5=0.717 X6=0.646 X2=0.82 X4=3.64 t -2.021 X3=-2.22 2.021 X7=0.686 X1=8.48 Observe como las variables que ya habíamos mencionado: X2, X5, X6, y X7 caen dentro de la zona de aceptación, lo que indica que no son aptas para el modelo. Ejercicio 5.1 1. El gerente de ventas de una empresa grande fabricante de coches está estudiando las ventas de los automóviles. El quisiera saber cuáles son los factores que determinan el número de coches que se venden en una representación. Para investigar esto, toma aleatoriamente una muestra de 12 representantes. De cada uno de ellos obtiene la información de cuantos coches vendió en el último mes, los minutos de publicidad radiofónica que pagó en el último mes, el número de vendedores de tiempo completo que tiene, y si la representación se encuentra o no en la ciudad. La información obtenida es la siguiente: Coches vendidos en el último mes Y 127 138 159 144 139 128 161 180 102 163 106 149 Publicidad X1 18 15 22 23 17 16 25 26 15 24 18 25 Vendedores X2 10 15 14 12 12 12 14 17 7 16 10 11 Ciudad X3 1 0 1 1 0 1 1 1 0 1 0 1 a) determine la ecuación de regresión.¿Cuántos coches esperaría que se vendieran en una representación en la que hay 20 vendedores, paga 15 minutos de publicidad y se encuentra en la ciudad? b) realice una prueba de hipótesis global para determinar si alguno de los coeficientes de regresión es distinto de cero. Use el nivel de significancia de 0.05. c) Utilice los datos obtenidos en Excel, para hacer una prueba de hipótesis individual. Pensaría en eliminar alguna de las variables independientes 5.3 PRUEBA DE HIPOTESIS PARA UN PARAMETRO INDIVIDUAL bi Ho: bi = 0 (Xi no es adecuada para el modelo) Ha: bi ≠ 0 (Xi es adecuada para el modelo) ESTADÍSTICA DE PRUEBA t Coeficient es Desviación estándar usando la distribución t, podemos probar individualmente los coeficientes de regresión t= bi bi 0 b i Sb i Sb i donde : bi 0 = es el valor que toma la Hipótesis nula H0 , que en este caso será cero S bi = desviación estándar de la distribución de los coeficientes de regresión neta bi = representa cualquiera de los coeficientes de regresión neta. Ejemplo 3: Salsberry Realty vende casas a lo largo de la costa este de EU. Una de las preguntas que con frecuencia hacen los posibles compradores es: ¿Si compramos la casa, cuanto tenemos que gastar en calefacción en invierno?.se pidió al departamento de investigación de Salsberry que desarrollara algunos lineamientos respecto al costo de calefacción de casas. Se peso que eran tres las variables relacionadas: 1) La temperatura ambiente, 2) las pulgadas de material aislante en el ático, y 3) el tiempo de vida que tuviera el calefactor. Para investigar, Salsberry tomó una muestra de 20 casas Antigüedad Costo calef Temperatura Aislante cal 250 35 3 6 360 29 4 10 165 36 7 3 43 60 6 9 92 65 5 6 200 30 5 5 355 10 6 7 290 7 10 10 230 21 9 11 120 55 2 5 73 54 12 4 205 48 5 1 400 20 5 15 320 39 4 7 72 272 94 190 235 139 t 60 20 58 40 27 30 bi 0 4.5827 5.93 Sb i 0.7723 8 5 7 8 9 7 6 8 3 11 8 5