Centro Universitario Chiquimula Análisis de Regresión y Corelacion Múltiple Estadística administrativa Lic. Alex Leonel Martínez G. 15-1 Se ha visto el tema del análisis de regresión simple: Precio de la casa = β0 + β1(Área de la casa) + ε Pero en general, una variable dependiente depende de más de una variable independiente: Precio de la casa puede depender de: Área Antigüedad Número de baños Área del garaje Etc. 15-2 Para tratar este tipo de problemas se requiere expandir el análisis de regresión: Regresión Lineal Simple Regresión Lineal Múltiple 15-3 y = β0 + β1x1 + ε y = β0 + β1x1 + β2x2 + ……… + βpxp + ε 15-4 Objetivos Explicar la construcción de modelos usando el análisis de regresión múltiple. Aplicar el análisis de regresión múltiple en la toma de decisiones de negocios. Analizar e interpretar los resultados de programas estadísticos para un modelo de regresión múltiple. Evaluar la significancia de las variables indepen-dientes en un modelo de regresión múltiple. Reconocer problemas potenciales en el análisis de regresión múltiple y tomar acciones para corregirlos. 15-5 Modelo de Regresión Múltiple Objetivo: Examinar la relación lineal entre una variable dependiente (y) y dos o más variables independientes (xi) Modelo poblacional: Y-intercepto Pendientes Error aleatorio y β0 β1x1 β2 x2 βk xk ε Modelo de regresión múltiple muestral: Valor de y y-intercepto estimado Pendientes estimadas Error muestral yi b0 b1x1i b2 x 2i bk x ki ei 15-6 Modelo de Regresión Múltiple Objetivo: Examinar la relación lineal entre una variable dependiente (y) y dos o más variables independientes (xi) Modelo poblacional: Y-intercepto Pendientes Error aleatorio y β0 β1x1 β2 x2 βk xk ε Modelo de regresión múltiple estimado: Valor estimado o predecido de ŷ y-intercepto estimado Pendientes estimadas ŷ b0 b1x1 b2 x2 bk xk 15-7 Modelo de Regresión Múltiple Modelo de dos variables: y ŷ b0 b1x1 b2 x2 x2 Llamado hiperplano de regresión x1 15-8 Modelo de Regresión Múltiple (continuación) Modelo de dos variables: y Observación muestral yi ŷ b0 b1x1 b2 x2 < < yi e = (y – y) x2i x1 La ecuación de mejor ajuste, y, es hallada minimizando la suma de cuadrados del error, e2 < x1i x2 15-9 Modelo de Regresión Múltiple Poblacional Supuestos: Los términos de error (ε) son realizaciones estadísticamente independientes de una variable aleatoria para cada nivel de x. Para un valor dado de x, pueden existir muchos valores de y, por lo tanto muchos valores posibles para e. La distribución de los posibles errores del modelo para cualquier nivel de x es normal. Las distribuciones de los posibles valores de los errores e tienen igual varianza en cada nivel de x. Las medias de la variable dependiente y, para todos los valores especificados de x, pueden ser conectados con una línea la cual es el componente lineal del modelo de regresión poblacional. 15-10 Conceptos Básicos para la Construcción de Modelos 15-11 Método de mínimos cuadrados Conceptos Básicos para la Construcción de Modelos Los modelos son usados para evaluar cambios sin implementarlos en el sistema real. Los modelos pueden ser usados para predecir “outputs” basados en “inputs” específicos. El proceso de construcción de modelos consiste de 3 etapas: Especificación del modelo Ajuste del modelo Diagnóstico del modelo 15-13 Conceptos Básicos para la Construcción de Modelos Las 3 etapas: Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción del modelo Cálculo de los coeficientes de correlación entre las distintas variables, dependientes e independientes. Ajuste del modelo a la data. Estimación de la ecuación de regresión múltiple. Diagnóstico del modelo Pruebas estadísticas para determinar la bondad de ajuste del modelo a la data. Verificación de los supuestos de regresión múltiple. 15-14 Especificación del Modelo A veces referido como identificación del modelo Es un proceso para establecer la estructura del modelo Decidir qué se quiere hacer y seleccionar la variable dependiente (y). Determinar las potenciales variables independientes (x) para el modelo. Recolectar los datos muestrales (observaciones) para todas las variables. Sugerencia: Tamaño muestral de al menos 4 veces el número de variables independientes. 15-15 Construcción del Modelo Es el proceso de contruir la ecuación para los datos. Puede incluir todas o algunas de las variables independientes (x). El objetivo es explicar la variación en la variable dependiente (y) a través de la relación lineal con las variables independientes seleccionadas (x). 15-16 Diagnóstico del Modelo Analizar la calidad del modelo (efectuar las pruebas de diagnóstico). Evaluar el grado en que los supuestos se satisfacen. Si el modelo es inaceptable, iniciar el proceso de construcción del modelo nuevamente. Usar el modelo más simple que satisfaga las necesidades. El objetivo es ayudar a tomar mejores decisiones. 15-17 Ejemplo Un distribuidor de pies (postres) desea evaluar los factores que se cree influyen en la demanda 15-18 Diagramas de Dispersión 15-19 Ejemplo:Especificación del Modelo Un distribuidor de pies (postres) desea evaluar los factores que se cree influyen en la demanda Variable dependiente: Ventas (unidades / semana) Variables independientes: Precio ($) y Publicidad ($100) Modelo de Regresión múltiple Poblacional: Ventas = β0 + β1(Precio) + β2(Publicidad) + ε 15-20 Ejemplo: Construcción o Formulación del Modelo Modelo de Regresión Múltiple (Muestral): Ventasj = b0 + b1(Precioj) + b2(Publicidadj) + errorj Modelo de Regresión Múltiple Lineal Ventas = b0 + b1(Precio) + b2(Publicidad) 15-21 Interpretación de los Coeficientes Estimados Pendientes (bi) Estiman el cambio en el valor promedio de “y” como b i unidades por cada unidad de incremento en xi manteniendo las otras variables constantes. Ejemplo: Si b1 = -20, entonces se espera que las ventas promedio (y) se reduzcan en 20 pies por semana por cada $1 en que se incremente el precio (x1), manteniendo constante la variable publicidad (x2). y-intercepto (b0) Estima el valor promedio de y cuando todas las variables x i son iguales a cero (suponiendo que el valor cero está dentro de los rangos de valores que pueden tomar los xi). 15-22 Formulación del Modelo Los datos de 15 semanas son recolectados…. 15-23 Formulación del Modelo Semana Venta de pies Precio ($) Publicidad ($100s) 1 350 5.50 3.3 2 460 7.50 3.3 3 350 8.00 3.0 4 430 8.00 4.5 5 350 6.80 3.0 6 380 7.50 4.0 7 430 4.50 3.0 8 470 6.40 3.7 9 450 7.00 3.5 10 490 5.00 4.0 11 340 7.20 3.5 Venta de Pies 12 300 7.90 3.2 Precio 13 440 5.90 4.0 Publicidad 14 450 5.00 3.5 15 300 7.00 2.7 Modelo de Regresión Múltiple: Ventas = b0 + b1 (Precio) + b2 (Publicidad) Matriz de correlación: Venta de pies Precio Publicidad 1 -0.44327 1 0.55632 0.03044 1 15-24 Matriz de Correlación Las correlaciones entre la variable dependiente y las variables independientes seleccionadas pueden obtenerse usando Excel: Datos / Análisis de datos / Coeficiente de correlation Puede evaluar la significancia estadística de la correlación con una prueba t 15-25 Matriz de Correlación: Ventas de Pies Ventas de pies Ventas de pies Precio Publicidad Publicidad 1 -0.44327 1 0.55632 0.03044 1 Ventas vs. Precio : r = -0.44327 Precio Hay una asociación lineal negativa entre las ventas y el precio Ventas vs. Publicidad : r = 0.55632 Hay una asociación lineal positiva entre las ventas y la publicidad 15-26 Estimación de la Ecuación de Regresión Lineal Múltiple Programas estadísticos (computadora) son generalmente usados para generar estimados de los coeficientes y medidas de bondad de ajuste de la regresión múltiple Excel: Datos / Análisis de datos / Regresión 15-27 Estimación de la Ecuación de Regresión Lineal Multiple (continuación) Excel: Datos / Análisis de datos / Regresión 15-28 Regresión Múltiple: Excel (Resultado) Ventas 306.526- 24.975(Precio) 74.131(Publicidad) 15-29 Regresión Múltiple: Excel (Resultado) (continuación) Ecuación estimada de regresión múltiple: Ventas 306.526- 24.975(Precio) 74.131(Publicidad) Donde: Ventas (número de pies por semana) Precio ($) Publicidad ($100’s) b1 = -24.975: Las ventas decrecerán en promedio 24.975 pies por semana por cada $1 incrementado en el precio, manteniendo constante la publicidad b2 = 74.131: Las ventas crecerán en promedio 74.131 pies por semana por cada $100 incrementado en publicidad, manteniendo constante el precio 15-30 Usando el Modelo para hacer Predicciones Predecir las ventas de una semana en la cual el precio es $5.50 y la publicidad es $350. Ventas 306.526 - 24.975(Precio) 74.131(Publicidad) 306.526 - 24.975 (5.50) 74.131(3.5) 428.62 La venta predecida es 428.62 pies Nota: La publicidad está en $100’s, entonces x2 = 3.5 significa $350 15-31 Coeficiente de Determinación Múltiple (R2) Reporta la proporción de la variación total en y que es explicada por todas las variables (juntas) x consideradas en el modelo SSR Suma de cuadrados de regresión R SST Suma total de cuadrados 2 15-32 Coeficiente de Determinación Múltiple (R2) (continuación) SSR 29460.0 R 0.52148 SST 56493.3 2 El 52.1% de la variación en las ventas es explicada por la variación en los precios y la publicidad 15-33 R2 Ajustado R2 nunca decrece cuando una nueva variable x es añadida al modelo Esto puede ser una desventaja cuando se compara modelos ¿Cuál es el efecto neto de agregar una nueva variable? Se pierde un grado de libertad cuando una nueva variable x es añadida ¿La nueva variable x aporta suficiente poder explicativo para compensar la pérdida de un grado de libertad? 15-34 R2 Ajustado (continuación) Muestra la proporción explicada de la variación en y por las variables x’s tomando en cuenta la relación entre el tamaño de muestra y el número de variables independientes n 1 R 1 (1 R ) n k 1 2 A 2 (Donde n = Tamaño muestral, k = Número de variables independientes) Penaliza el uso excesivo de variables independientes no importantes Es más pequeña que el R2 Útil en la comparación entre modelos 15-35 Coeficiente de Determinación Múltiple: Excel (Resultado) R 2A 0.44172 El 44.2% de la variación en las ventas es explicada por la variación en los precios y la publicidad, tomando en cuenta la relación entre el tamaño de muestra y el número de variables independientes 15-36 Diagnóstico del Modelo: Prueba F (Significancia General) Prueba F para la significancia del modelo (general) Muestra si hay una relación lineal entre todas las variables x (consideradas en forma conjunta) e y Usa el estadístico de prueba F Hipótesis: H0: β1 = β2 = … = βk = 0 (No hay relación lineal) HA: Al menos un βi ≠ 0 (Existe relación lineal entre (y) y al menos un xi) 15-37 Diagnóstico del Modelo: Prueba F (Significancia General) (continuación) Estadístico de prueba: SSR MSR k F SSE MSE n k 1 Donde: Los grados de libertad de F son: glnumerador = k gldenominador = (n – k – 1) 15-38 Diagnóstico del Modelo: Prueba F (Significancia General) (continuación) MSR 14730.0 F 6.5386 MSE 2252.8 Con 2 y 12 grados de libertad Valor P para la prueba 15-39 Diagnóstico del Modelo: Prueba F (Significancia General) (continuación) H0: β1 = β2 = 0; HA: β1 o β2 es diferente de cero = 0.05 glnumerador= 2 gldenominador = 12 Valor crítico: F0.05 = 3.885 = 0.05 0 Estadístico de prueba: No rechazar H0 F Rechazar H0 F MSR 6.5386 MSE Decisión: Como F = 6.53 > 3.89 = F0.05 , entonces se rechaza H0 Conclusión: Hay suficiente evidencia para concluir que el modelo de regresión explica parte de la variación en la venta de pies (al menos una de las pendientes de regresión no es cero) 15-40 Diagnóstico del Modelo: ¿Las Variables Individuales son Significativas? Usar la prueba t para evaluar la significancia de cada pendiente Muestra si hay una relación lineal entre la variable xi e y Hipótesis: H0: βi = 0 (No hay relación lineal) HA: βi ≠ 0 (Existe relación lineal entre xi e y) 15-41 Diagnóstico del Modelo: ¿Las Variables Individuales son Significativas? (continuación) H0: βi = 0 (No hay relación lineal) HA: βi ≠ 0 (Existe relación lineal entre xi e y) Estadístico de prueba: bi 0 t sbi (gl = n – k – 1) 15-42 Diagnóstico del Modelo: ¿Las Variables Individuales son Significativas? (continuación) El estadístico de prueba t para el Precio es -2.306 (valor p = 0.0398) El estadístico de prueba t para la Publicidad es 2.855 (valor p = 0.0145) 15-43 Diagnóstico del Modelo: ¿Las Variables Individuales son Significativas? (continuación) H0: βi = 0; HA: βi 0 g.l. = 15-2-1 = 12 /2=0.025 /2=0.025 = 0.05 Rechazar H0 t/2 = 2.1788 No rechazar H0 -tα/2 0 tα/2 Rechazar H0 2.1788 -2.1788 Excel (Resultado): Coeficientes Error típico Estadístico t Valor p Precio -24.97509 10.83213 -2.30565 0.03979 Publicidad 74.13096 25.96732 2.85478 0.01449 Decisión: Para cada variable se rechaza H0 Conclusión: Hay evidencia suficiente para concluir que cada variable individual (Precio y Publicidad) afecta a la venta de pies, dada la presencia de la otra para =0.05 15-44 Intervalos de Confianza para las Pendientes El intervalo de confianza para la pendiente poblacional β1 (efecto sobre las ventas de pie respecto a cambios en el precio): b i t / 2 sb i Donde t tiene (n – k – 1) g.l. Ejemplo: Las ventas semanales de pies se reducirán entre 1.37 a 48.58 pies por cada incremento de $1 en el precio 15-45 Desviación Estándar del Modelo de Regresión La estimación de la desviación estándar del modelo de regresión está dada por: SSE se MSE n k 1 ¿Este valor es grande o pequeño? Para evaluarlo se debe comparar con el promedio de y 15-46 Desviación Estándar del Modelo de Regresión (continuación) La desviación estándar del modelo de regresión es 47.46 15-47 Desviación Estándar del Modelo de Regresión (continuación) La desviación estándar del modelo de regresión es 47.46 Un rango de predicción para las ventas de pies en una semana se puede aproximar por 2(47.46) 94.2 Considerando que el promedio muestral de pies por semana es 399.3, un error de ±94.2 pies es problablemente grande para ser aceptado. El distribuidor podría querer buscar variables adicionales que puedan explicar más de la variación en las ventas. 15-48