Ejercicio resuelto Regresión Múltiple Como parte de un estudio para investigar la relación entre la tensión nerviosa (estrés) y otras variables (tamaño de la empresa, número de años en la posición actual, salario anual en miles de dólares, edad en años), se reunieron los siguientes datos a partir de una muestra aleatoria simple de quince ejecutivos de una empresa. La salida de análisis con SPPS es: Estadísticos descriptivos N Estrés Tamaño empresa Años en posición Salario anual Edad N válido (según lista) 15 15 15 15 15 15 Mínimo 10 127 2 20 27 Máximo 184 812 16 84 63 Media 67.20 415.73 8.27 38.60 44.53 Desv. típ. 51.164 187.513 4.148 16.745 10.947 Resumen del modelo Modelo 1 R cuadrado corregida .779 R R cuadrado .918a .842 Error típ. de la estimación 24.031 a. Variables predictoras: (Constante), Edad, Tamaño empresa, Salario anual, Años en posición ANOVAb Modelo 1 Regresión Residual Total Suma de cuadrados 30873.468 5774.932 36648.400 gl 4 10 14 Media cuadrática 7718.367 577.493 F 13.365 Sig. .001a a. Variables predictoras: (Constante), Edad, Tamaño empresa, Salario anual, Años en posición b. Variable dependiente: Estrés Coeficientesa Modelo 1 (Constante) Tamaño empresa Años en posición Salario anual Edad Coeficientes no estandarizados B Error típ. -126.505 32.281 .176 .040 -1.563 2.012 1.575 .446 1.629 .629 Coeficientes estandarizad os Beta .646 -.127 .515 .349 t -3.919 4.397 -.777 3.533 2.591 Sig. .003 .001 .455 .005 .027 a. Variable dependiente: Estrés a) Escriba la recta de regresión múltiple estimada a partir de estos datos. Interprete los coeficientes de regresión. b) ¿Cuál es el valor del coeficiente de determinación que usaría para describir la bondad de ajuste del modelo? Interprételo en términos del problema de regresión c) Examine los tests t de los coeficientes de regresión. ¿Le parece que es este un modelo adecuado para describir el estrés o propone otro? d) Qué supuestos se deben cumplir para la utilización de este modelo. e) Dé un estimador de la desviación estándar poblacional. ¿A qué se refiere esta medida de variabilidad? Solución 1 (a): La recta de regresión es: Estrés= −126,505+ 0,176Tamaño−1,563Años+1,575Salario+1,629Edad Interpretación de los coeficientes de regresión: Intercepto=-126,505 Si el tamaño de la empresa, el número de años, el salario y la edad fueran cero, es decir, si todas las variables explicativas fueran cero, el puntaje de estrés del ejecutivo sería menos 126,505 Pendiente de Tamaño: Por cada unidad que aumenta el tamaño de la empresa, el estrés del ejecutivo aumenta en 0,176 unidades. Pendiente de Años: Por cada año en posición actual, el estrés del ejecutivo disminuye en 1,563 puntos. Pendiente de Salario: Por cada mil dólares que aumenta el salario, el estrés del ejecutivo aumenta en 1,575 puntos. Pendiente de la edad: por cada año de edad, el estrés del ejecutivo aumenta en 1,629 puntos. Solución 1 (b): 2 El coeficiente de determinación que se usa en regresión lineal múltiple es el R ajustado, que en este caso es de 0,779. Este coeficiente nos indica que las variables usadas en el modelo explican en un 77,9% la variabilidad total del estrés. Solución 1 (c): Los test t de los coeficientes de regresión sirven para docimar la hipótesis: H o: β j = 0 H 1: βj ≠ 0 En este problema tenemos 4 tests de esta forma (j=1,2,3,4). Al examinar los valores p correspondientes a cada uno de los tests nos damos cuenta que casi todas las pendientes son significativas (distintas de cero), salvo la de la variable Años en posición actual, cuyo valor p es 0,455, por lo tanto aceptamos la hipótesis nula, y concluimos que la pendiente es igual a cero. Por lo tanto este no sería un modelo adecuado para describir el estrés de los ejecutivos, deberíamos ajustar otro modelo sin la variable "Años en posición actual". Solución 1 (d): Los supuestos que debe cumplir el modelo son: 1) Linealidad: La relación entre la variable respuesta y las explicativas debe ser lineal 2) Nocolinealidad: las variables explicativas no deben estar correlacionadas entre sí 3) Normalidad de los residuos 4) Homocedasticidad de los residuos (varianza constante). Solución 1 (e): El estimador de la desviación estándar poblacional es 24,031 o la raíz de la media cuadrática residual: raíz de 577,493= 24,03 Este es un estimador de la variabilidad del estrés considerando las variables explicativas del modelo, y lo podemos contrastar con el estimador de la variabilidad del estrés de 51,164 que es la desviación estándar del estrés sin tomar en cuenta estas variables.