Subido por ALEX LEONEL MARTINEZ GONZALEZ

Regresiòn y correlación Lineal-Multiple

Anuncio
Centro Universitario
Chiquimula
Análisis de Regresión y Corelacion
Múltiple
Estadística administrativa
Lic. Alex Leonel Martínez G.
15-1
Se ha visto el tema del análisis de regresión simple:
Precio de la casa = β0 + β1(Área de la casa) + ε
Pero en general, una variable dependiente depende de más de una
variable independiente:
Precio de la casa puede depender de:
 Área
 Antigüedad
 Número de baños
 Área del garaje
 Etc.
15-2
Para tratar este tipo de problemas se requiere
expandir el análisis de regresión:
Regresión Lineal Simple
Regresión Lineal Múltiple
15-3
y = β0 + β1x1 + ε
y = β0 + β1x1 + β2x2 + ……… + βpxp + ε
15-4
Objetivos

Explicar la construcción de modelos usando el análisis de regresión
múltiple.

Aplicar el análisis de regresión múltiple en la toma de decisiones de
negocios.

Analizar e interpretar los resultados de programas estadísticos para un
modelo de regresión múltiple.

Evaluar la significancia de las variables indepen-dientes en un modelo de
regresión múltiple.

Reconocer problemas potenciales en el análisis de regresión múltiple y
tomar acciones para corregirlos.
15-5
Modelo de Regresión Múltiple
Objetivo: Examinar la relación lineal entre
una variable dependiente (y) y
dos o más variables independientes (xi)
Modelo poblacional:
Y-intercepto
Pendientes
Error aleatorio
y  β0  β1x1  β2 x2    βk xk  ε
Modelo de regresión múltiple muestral:
Valor de y
y-intercepto
estimado
Pendientes estimadas
Error muestral
yi  b0  b1x1i  b2 x 2i    bk x ki  ei
15-6
Modelo de Regresión Múltiple
Objetivo: Examinar la relación lineal entre
una variable dependiente (y) y
dos o más variables independientes (xi)
Modelo poblacional:
Y-intercepto
Pendientes
Error aleatorio
y  β0  β1x1  β2 x2    βk xk  ε
Modelo de regresión múltiple estimado:
Valor estimado o
predecido de ŷ
y-intercepto
estimado
Pendientes estimadas
ŷ  b0  b1x1  b2 x2    bk xk
15-7
Modelo de Regresión Múltiple
Modelo de dos variables:
y
ŷ  b0  b1x1  b2 x2
x2
Llamado hiperplano de regresión
x1
15-8
Modelo de Regresión Múltiple
(continuación)
Modelo de dos variables:
y
Observación
muestral
yi
ŷ  b0  b1x1  b2 x2
<
<
yi
e = (y – y)
x2i
x1
La ecuación de mejor ajuste,
y, es hallada minimizando la
suma de cuadrados del error,
e2
<
x1i
x2
15-9
Modelo de Regresión Múltiple
Poblacional
Supuestos:

Los términos de error (ε) son realizaciones estadísticamente
independientes de una variable aleatoria para cada nivel de x.

Para un valor dado de x, pueden existir muchos valores de y, por
lo tanto muchos valores posibles para e. La distribución de los
posibles errores del modelo para cualquier nivel de x es normal.


Las distribuciones de los posibles valores de los errores e tienen
igual varianza en cada nivel de x.
Las medias de la variable dependiente y, para todos los valores
especificados de x, pueden ser conectados con una línea la cual
es el componente lineal del modelo de regresión poblacional.
15-10
Conceptos Básicos
para la
Construcción de Modelos
15-11
Método de mínimos cuadrados
Conceptos Básicos para la
Construcción de Modelos

Los modelos son usados para evaluar cambios
sin implementarlos en el sistema real.

Los modelos pueden ser usados para predecir
“outputs” basados en “inputs” específicos.

El proceso de construcción de modelos
consiste de 3 etapas:



Especificación del modelo
Ajuste del modelo
Diagnóstico del modelo
15-13
Conceptos Básicos para la
Construcción de Modelos
Las 3 etapas:

Especificación del modelo

Especificación del modelo de regresión poblacional.

Recolección de la data muestral.

Formulación o construcción del modelo
 Cálculo de los coeficientes de correlación entre las distintas variables,
dependientes e independientes.
 Ajuste del modelo a la data. Estimación de la ecuación de regresión
múltiple.

Diagnóstico del modelo
 Pruebas estadísticas para determinar la bondad de ajuste del modelo
a la data.
 Verificación de los supuestos de regresión múltiple.
15-14
Especificación del Modelo

A veces referido como identificación del modelo

Es un proceso para establecer la estructura del
modelo

Decidir qué se quiere hacer y seleccionar la variable
dependiente (y).

Determinar las potenciales variables independientes (x)
para el modelo.

Recolectar los datos muestrales (observaciones) para
todas las variables. Sugerencia: Tamaño muestral de al
menos 4 veces el número de variables independientes.
15-15
Construcción del Modelo

Es el proceso de contruir la ecuación para los
datos.

Puede incluir todas o algunas de las variables
independientes (x).

El objetivo es explicar la variación en la variable
dependiente (y) a través de la relación lineal con
las variables independientes seleccionadas (x).
15-16
Diagnóstico del Modelo

Analizar la calidad del modelo (efectuar las pruebas de
diagnóstico).

Evaluar el grado en que los supuestos se satisfacen.

Si el modelo es inaceptable, iniciar el proceso de
construcción del modelo nuevamente.

Usar el modelo más simple que satisfaga las
necesidades.
 El objetivo es ayudar a tomar mejores decisiones.
15-17
Ejemplo
Un distribuidor de pies (postres) desea evaluar
los factores que se cree influyen en la demanda
15-18
Diagramas de Dispersión
15-19
Ejemplo:Especificación del Modelo
Un distribuidor de pies (postres) desea evaluar los
factores que se cree influyen en la demanda

Variable dependiente:
Ventas (unidades / semana)

Variables independientes: Precio ($) y Publicidad ($100)
Modelo de Regresión múltiple Poblacional:
Ventas = β0 + β1(Precio) + β2(Publicidad) + ε
15-20
Ejemplo: Construcción o Formulación del Modelo
Modelo de Regresión Múltiple (Muestral):
Ventasj = b0 + b1(Precioj) + b2(Publicidadj) + errorj
Modelo de Regresión Múltiple Lineal
Ventas = b0 + b1(Precio) + b2(Publicidad)
15-21
Interpretación de los
Coeficientes Estimados

Pendientes (bi)
 Estiman el cambio en el valor promedio de “y” como b i unidades
por cada unidad de incremento en xi manteniendo las otras
variables constantes.
 Ejemplo: Si b1 = -20, entonces se espera que las ventas
promedio (y) se reduzcan en 20 pies por semana por cada $1
en que se incremente el precio (x1), manteniendo constante la
variable publicidad (x2).

y-intercepto (b0)
 Estima el valor promedio de y cuando todas las variables x i
son iguales a cero (suponiendo que el valor cero está dentro de
los rangos de valores que pueden tomar los xi).
15-22
Formulación del Modelo

Los datos de 15 semanas son recolectados….
15-23
Formulación del Modelo
Semana
Venta
de pies
Precio
($)
Publicidad
($100s)
1
350
5.50
3.3
2
460
7.50
3.3
3
350
8.00
3.0
4
430
8.00
4.5
5
350
6.80
3.0
6
380
7.50
4.0
7
430
4.50
3.0
8
470
6.40
3.7
9
450
7.00
3.5
10
490
5.00
4.0
11
340
7.20
3.5
Venta de Pies
12
300
7.90
3.2
Precio
13
440
5.90
4.0
Publicidad
14
450
5.00
3.5
15
300
7.00
2.7
Modelo de Regresión Múltiple:
Ventas = b0 + b1 (Precio)
+ b2 (Publicidad)
Matriz de correlación:
Venta de
pies
Precio
Publicidad
1
-0.44327
1
0.55632
0.03044
1
15-24
Matriz de Correlación

Las correlaciones entre la variable dependiente
y las variables independientes seleccionadas
pueden obtenerse usando Excel:


Datos / Análisis de datos / Coeficiente de correlation
Puede evaluar la significancia estadística de la
correlación con una prueba t
15-25
Matriz de Correlación:
Ventas de Pies
Ventas de
pies
Ventas de pies
Precio
Publicidad

Publicidad
1
-0.44327
1
0.55632
0.03044
1
Ventas vs. Precio : r = -0.44327


Precio
Hay una asociación lineal negativa entre las
ventas y el precio
Ventas vs. Publicidad : r = 0.55632

Hay una asociación lineal positiva entre las
ventas y la publicidad
15-26
Estimación de la Ecuación de
Regresión Lineal Múltiple

Programas estadísticos (computadora) son
generalmente usados para generar estimados
de los coeficientes y medidas de bondad de
ajuste de la regresión múltiple

Excel:

Datos / Análisis de datos / Regresión
15-27
Estimación de la Ecuación de
Regresión Lineal Multiple
(continuación)

Excel:

Datos / Análisis de datos / Regresión
15-28
Regresión Múltiple: Excel
(Resultado)
Ventas  306.526- 24.975(Precio)  74.131(Publicidad)
15-29
Regresión Múltiple: Excel
(Resultado)
(continuación)
Ecuación estimada de regresión múltiple:
Ventas  306.526- 24.975(Precio)  74.131(Publicidad)
Donde:
Ventas (número de pies por semana)
Precio ($)
Publicidad ($100’s)
b1 = -24.975: Las ventas decrecerán en
promedio 24.975 pies
por semana por cada
$1 incrementado en el
precio, manteniendo
constante la publicidad
b2 = 74.131: Las
ventas crecerán en
promedio 74.131 pies
por semana por cada
$100 incrementado
en publicidad,
manteniendo constante el precio
15-30
Usando el Modelo para hacer
Predicciones
Predecir las ventas de una semana en la cual
el precio es $5.50 y la publicidad es $350.
Ventas  306.526 - 24.975(Precio)  74.131(Publicidad)
 306.526 - 24.975 (5.50)  74.131(3.5)
 428.62
La venta predecida es
428.62 pies
Nota: La publicidad
está en $100’s,
entonces x2 = 3.5
significa $350
15-31
Coeficiente de Determinación
Múltiple (R2)

Reporta la proporción de la variación total en y
que es explicada por todas las variables (juntas)
x consideradas en el modelo
SSR Suma de cuadrados de regresión
R 

SST
Suma total de cuadrados
2
15-32
Coeficiente de Determinación
Múltiple (R2)
(continuación)
SSR 29460.0
R 

 0.52148
SST 56493.3
2
El 52.1% de la variación en las
ventas es explicada por la variación en los precios y la publicidad
15-33
R2 Ajustado


R2 nunca decrece cuando una nueva variable x
es añadida al modelo
 Esto puede ser una desventaja cuando se
compara modelos
¿Cuál es el efecto neto de agregar una nueva
variable?
 Se pierde un grado de libertad cuando una
nueva variable x es añadida
 ¿La nueva variable x aporta suficiente poder
explicativo para compensar la pérdida de un
grado de libertad?
15-34
R2 Ajustado
(continuación)

Muestra la proporción explicada de la variación en y por las
variables x’s tomando en cuenta la relación entre el tamaño
de muestra y el número de variables independientes
 n 1 
R  1  (1  R )

 n  k  1
2
A
2
(Donde n = Tamaño muestral, k = Número de variables independientes)



Penaliza el uso excesivo de variables independientes no
importantes
Es más pequeña que el R2
Útil en la comparación entre modelos
15-35
Coeficiente de Determinación
Múltiple: Excel (Resultado)
R 2A  0.44172
El 44.2% de la variación en las ventas es
explicada por la variación en los precios y
la publicidad, tomando en cuenta la
relación entre el tamaño de muestra y el
número de variables independientes
15-36
Diagnóstico del Modelo: Prueba F
(Significancia General)
Prueba F para la significancia del modelo (general)

Muestra si hay una relación lineal entre todas las
variables x (consideradas en forma conjunta) e y

Usa el estadístico de prueba F

Hipótesis:


H0: β1 = β2 = … = βk = 0 (No hay relación lineal)
HA: Al menos un βi ≠ 0 (Existe relación lineal entre (y)
y al menos un xi)
15-37
Diagnóstico del Modelo: Prueba F
(Significancia General)
(continuación)

Estadístico de prueba:
SSR
MSR
k
F

SSE
MSE
n  k 1
Donde: Los grados de libertad de F son:
glnumerador = k
gldenominador = (n – k – 1)
15-38
Diagnóstico del Modelo: Prueba F
(Significancia General)
(continuación)
MSR 14730.0
F

 6.5386
MSE
2252.8
Con 2 y 12 grados de
libertad
Valor P para
la prueba
15-39
Diagnóstico del Modelo: Prueba F
(Significancia General)
(continuación)
H0: β1 = β2 = 0; HA: β1 o β2 es diferente de cero
 = 0.05
glnumerador= 2
gldenominador = 12
Valor crítico:
F0.05 = 3.885
 = 0.05
0
Estadístico de prueba:
No rechazar H0
F
Rechazar H0
F
MSR
 6.5386
MSE
Decisión: Como F = 6.53 > 3.89 = F0.05 , entonces se rechaza H0
Conclusión: Hay suficiente evidencia para concluir que el modelo de regresión
explica parte de la variación en la venta de pies
(al menos una de las pendientes de regresión no es cero)
15-40
Diagnóstico del Modelo:
¿Las Variables Individuales son Significativas?

Usar la prueba t para evaluar la significancia de
cada pendiente

Muestra si hay una relación lineal entre la variable
xi e y

Hipótesis:

H0: βi = 0 (No hay relación lineal)

HA: βi ≠ 0 (Existe relación lineal entre xi e y)
15-41
Diagnóstico del Modelo:
¿Las Variables Individuales son Significativas?
(continuación)
H0: βi = 0 (No hay relación lineal)
HA: βi ≠ 0 (Existe relación lineal entre xi e y)
Estadístico de prueba:
bi  0
t
sbi
(gl = n – k – 1)
15-42
Diagnóstico del Modelo:
¿Las Variables Individuales son Significativas?
(continuación)
El estadístico de prueba t para el
Precio es -2.306 (valor p = 0.0398)
El estadístico de prueba t para la
Publicidad es 2.855 (valor p = 0.0145)
15-43
Diagnóstico del Modelo:
¿Las Variables Individuales son Significativas?
(continuación)
H0: βi = 0; HA: βi  0
g.l. = 15-2-1 = 12
/2=0.025
/2=0.025
 = 0.05
Rechazar H0
t/2 = 2.1788
No rechazar H0
-tα/2
0
tα/2
Rechazar H0
2.1788
-2.1788
Excel (Resultado):
Coeficientes
Error típico
Estadístico t
Valor p
Precio
-24.97509
10.83213
-2.30565
0.03979
Publicidad
74.13096
25.96732
2.85478
0.01449
Decisión: Para cada variable se rechaza H0
Conclusión: Hay evidencia suficiente para concluir que cada variable individual (Precio y Publicidad) afecta a la venta de pies, dada
la presencia de la otra para  =0.05
15-44
Intervalos de Confianza para las
Pendientes
El intervalo de confianza para la pendiente poblacional
β1 (efecto sobre las ventas de pie respecto a cambios
en el precio):
b i  t  / 2 sb i
Donde t tiene
(n – k – 1) g.l.
Ejemplo: Las ventas semanales de pies se reducirán
entre 1.37 a 48.58 pies por cada incremento de $1 en
el precio
15-45
Desviación Estándar del Modelo
de Regresión

La estimación de la desviación estándar del
modelo de regresión está dada por:
SSE
se 
 MSE
n  k 1

¿Este valor es grande o pequeño? Para evaluarlo
se debe comparar con el promedio de y
15-46
Desviación Estándar del Modelo
de Regresión
(continuación)
La desviación estándar del
modelo de regresión es 47.46
15-47
Desviación Estándar del Modelo
de Regresión
(continuación)

La desviación estándar del modelo de regresión
es 47.46

Un rango de predicción para las ventas de pies en
una semana se puede aproximar por  2(47.46)  94.2

Considerando que el promedio muestral de pies
por semana es 399.3, un error de ±94.2 pies es
problablemente grande para ser aceptado. El distribuidor podría querer buscar variables adicionales que puedan explicar más de la variación en las
ventas.
15-48
Descargar