REGRESIÓN LINEAL MULTIPLE(VER EJEMPLO 2 RESUELTO AQUÍ)

Anuncio
5. REGRESION LINEAL MÚLTIPLE
Existe una variable dependiente (Y) para dos ó más variables independientes (x).La teoría es una
extensión de la Regresión Lineal Simple. Una vez más esta operación se refiere al desarrollo de
una ecuación que se puede utilizar para predecir valores de y respecto a valores dados de las
diferentes variables independientes.
El objetivo de las variables independientes adicionales es incrementar la capacidad predictiva
sobre la de la regresión lineal simple.
La ecuación de regresión tiene la forma:
Y '  a  b1 1  b2  2  b3  3  b4  4  ...+ bk  k
donde a = intersección de la recta con el eje
b1 , b2 , b3 , b4 ....bn
= pendiente ó estimadores de los parámetros.
k = número de variables independientes.
PRUEBA DE HIPÓTESIS DE LA REGRESIÓN LINEAL MÚLTIPLE EN FORMA GENERAL ( PARA
EL MODELO DE PREDICCIÓN)
Ho = b1 = b2 = b3 = b4 =........bk = 0 (El modelo no es adecuado)
H1 = b1  b2 b3  b4 ........ bk  0 (El modelo es adecuado)
ESTADÍSTICA DE PRUEBA
F = MSR / MSE
MSR = SSR / ∂1
MSE = SSE / ∂2
Donde:
MSR = Cuadrado medio de regresión
MSE = Cuadrado medio del error
SSR = Suma de cuadrados de regresión
SSE = Suma de cuadrados del error
∂1 (grados de libertad del numerador) = k
∂2 (grados de libertad del denominador) = n – (k+1)
Fα,∂1, ∂2
f (F )
∂1
∂2
1-α
F
Fα (de tablas)
5.1 DETERMINACION DE LA BONDAD DEL MODELO (r2)
O ≤ r2≤ 1
r2 
SSR
SST
donde:
SST= Suma Total de los cuadrados
SST = SSE + SSR
5.2 ERROR ESTANDAR DE ESTIMACIÓN MÚLTIPLE
error =
SSE
n  (k  1)
∂2 (grados de libertad del denominador)
TABLA ANOVA
Fuente
gl
SS
MS
F
Regresión
K
SSR MSR= SSR/k
MSR/MSE
Error(Residuos) n-(k+1) SSE MSE= SSE/[(n-(k+1)]
Total
n-1
SST
Ejemplo 1:
El señor Wide es el presidente de la unión de profesores de una universidad de Estados Unidos.
Para preparar las próximas negociaciones le gustaría saber cuál es la estructura de los salarios
de los maestros. El piensa que hay tres factores de los que depende el salario de un maestro:
años de experiencia, una calificación a su competencia como maestro dada por el director, y si
tiene o no grado de maestría. En una muestra aleatoria de 20 maestros se obtuvieron los
siguientes datos
Salario en
(miles de $)
Años de
experiencia
X1
Calificación
del
director X2
Grado de
Maestría
X3
21.1
23.6
19.3
33
28.6
35
32
26.8
38.6
21.7
15.7
20.6
41.8
36.7
28.4
23.6
31.8
20.7
22.8
32.8
8
5
2
15
11
14
9
7
22
3
1
5
23
17
12
14
8
4
2
8
35
43
51
60
73
80
76
54
55
90
30
44
84
76
68
25
90
62
80
72
0
0
1
1
0
1
0
1
1
1
0
0
1
0
1
0
1
0
1
0
sería bueno eliminar alguna de las variables.
*1 =sí, 0 = no.(variables tontas)
a) ¿Qué variables tienen una fuerte
correlación con la variable
dependiente?
b) Determine
la
ecuación
de
regresión.¿ Cuál sería el salario
estimado para un profesor que
tiene cinco años de experiencia,
una calificación de 60 por el
director, y que no tiene grado de
maestría?
c) Realizar una prueba de hipótesis
global para determinar si alguno
de los coeficientes es distinto de
cero.
d) Realice una prueba de hipótesis
individual para determinar si
Solución:
Para poder hacer el análisis, procesamos los datos en Excel:
a) ¿Qué variables tienen una fuerte correlación con la variable dependiente?
Para esto se tiene que calcular la correlación entre la variable dependiente, y cada una de las
variables independientes, como si fuera una Regresión lineal simple, de este modo se
obtendrían las gráficas con su respectiva línea de regresión, para cada una de las variables
Variable X 2 Curva de regresión ajustada
Variable X 1 Curva de regresión ajustada
50
50
y = 0.9766x + 18.453
R2 = 0.8289
y = 0.2007x + 15.204
R2 = 0.3297
40
30
30
Y
Y
40
20
20
10
10
0
0
0
5
10
15
Variable X 1
20
25
0
20
40
60
Variable X 2
80
100
Variable X 3 Curva de regresión ajustada
Y
50
40
30
20
10
0
y = 4.38x + 25.54
R2 = 0.1062
Se puede observar claramente
que la variable X1 que se
refiere a la antigüedad es la
que tiene mayor correlación con
la variable dependiente
Y
Pronóstico para Y
0
0.5
1
1.5
Variable X 3
Lineal (Pronóstico
para Y)
b) Determine la ecuación de regresión.¿ Cuál sería el salario estimado para un profesor
que tiene cinco años de experiencia, una calificación de 60 por el director, y que no
tiene grado de maestría?
de acuerdo a los resultados obtenidos en Excel:
Y '  9.9152  0.8993 X 1  0.1539 X 2  0.6673 X 3
por lo tanto el salario del profesor sería:
Y '  9.9152  0.8993(5)  0.1539(60)  0.6673(0)
Y '  $23,645.70
c) Realizar una prueba de hipótesis global para determinar si alguno de los coeficientes
es distinto de cero.
Ho = b1 = b2 = b3 = b4 =........bk = 0 (El modelo no es adecuado)
H1 = b1  b2 b3  b4 ........ bk  0 (El modelo es adecuado)
El valor F calculado, sería :
F
para
MSR 301.064

 52.721, este valor lo comparamos con el valor crítico obtenido en tablas
MSE
5.710
Fα,∂1, ∂2 = F
en este caso tomaremos .05 nivel de significancia,3 gl para el
.05,3,16
numerador, y 16 gl para el denominador .
el valor crítico será: 3.24
f (F )
∂1
∂2
1-α
F
3.24
52.72
Se puede observar que H0 se rechaza y que el valor
crítico
(valor
p
global)
es
muy
pequeño
(0.00000001623,prácticamente cero).Es obvio, ya que
52.72 está muy alejado de 3.24. por lo que se concluye
que no todos los coeficientes de correlación son cero.
Decimos que no todos pues si observas la columna que
dice probabilidad(es el valor p), se puede ver que la
variable X3 cae dentro de la zona de aceptación, ya
que es mayor que α (0.59). Desde un punto de vista
práctico,
esto
significa
que
las
variables
independientes(Antigüedad, Maestría,etc), Sí pueden
definir apropiadamente los salarios que se asignarán a
los maestros. La prueba global, esto nos asegura.
d) Realice una prueba de hipótesis individual para determinar si sería bueno eliminar
alguna de las variables.
Para esto utilizaremos los resultados que nos da Excel acerca del valor p para cada una de las
variables. Se observa que la variable X3 cae en la zona de aceptación, por lo que ésta variable no
tiene correlación con el Salario de un maestro, por lo que podría eliminarse. vea que el valor p (
0.59) es mucho mayor que α =.05
Se utilizara la distribución t
más adelante para probar individualmente los coeficientes de
regresión, por lo pronto aprenderemos a interpretar los resultados de Excel.
t
Coeficient es
Desviación estándar
Ejemplo 2: La tabla siguiente enlista de precios de venta (Y), en base a 7 variables predictoras para 50 residencias
de una zona de Eugene, Oregon. Se obtuvo con el fin de obtener un modelo para estimar el valor de las residencias
GARAGE
PRECIO DE SUPERFICIE
RESIDENCIA
i
VENTA
y(X$1000)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
10.2
10.5
11.1
15.3
15.8
16.3
17.2
17.7
18
18.1
18.4
18.4
18.9
19.3
19.5
19.9
20.3
20.3
20.8
21
21.5
22
22.1
22.5
22.8
22.8
22.9
23.2
23.5
24.9
25
25.1
26.6
26.9
26.9
27.8
28
28.7
29
30.1
32
33.8
35.3
37.1
37.5
38
38.4
39
43
55
PIES CUAD.
X1(X 100)
8
9.5
9.1
9.5
12
10
11.8
10
13.8
12.5
15
12
16
16.5
16
16.8
15
17.8
17.9
19
17.6
18.5
18
17
18.7
20
20
21
20.5
19.9
21.5
20.5
22
22
21.8
22.5
24
23.5
25
25.6
25
25
26.8
22.1
27.5
25
24
31
21
40
TOTAL
1 = TIENE
DORMITORIOS BAÑOS CUARTOS EDAD 0 = NO
X2
X3
2
2
3
3
3
3
3
2
3
3
3
3
3
3
3
2
3
3
3
2
3
3
3
2
3
3
3
3
2
3
2
3
3
3
2
3
3
3
3
3
4
2
3
3
3
4
3
4
4
5
X4
1
1
1
1
2
1
2
1
2
2
2
2
2
2
2
2
1
2
2
2
1
2
2
3
1
2
2
2
2
1
2
1
2
2
1
2
2
2
2
2
2
2
2
2
2
2
2
3
2
3
X5
5
5
6
6
7
6
7
7
7
7
7
7
7
7
7
7
7
8
7
7
6
8
7
8
6
7
7
7
7
7
7
7
7
7
6
7
7
8
7
7
8
8
7
8
8
8
8
9
9
12
5
8
2
6
5
11
8
15
10
11
12
8
9
15
11
12
8
1
18
22
17
11
5
2
6
16
12
10
11
13
8
9
10
6
15
11
17
12
11
15
12
8
6
18
12
10
13
25
18
22
VISITA
X6
X7
0
0
0
0
0
0
0
1
0
0
0
0
1
0
1
0
1
1
1
0
0
1
0
1
0
0
0
1
1
1
0
1
0
1
1
1
0
0
1
1
1
0
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
1
0
0
0
0
0
0
0
1
0
0
0
0
1
0
0
0
a) Obtenga el modelo en Excel para obtener estimaciones del valor de cada una de las siguientes
cinco residencias de Eugene (no forman parte de las 50 anteriores). Los datos se dan en la
siguiente tabla.
RESIDENCIA
SUPERFICIE
DORMI-
PIES CUAD.
TORIOS
X1
X2
X3
X4
1
22.4
4
2
7
18
1
1
2
15.3
3
2
7
6
0
0
3
17.2
4
1
7
4
1
0
4
31.7
5
3
9
24
0
0
5
20.0
4
2
8
11
1
1
i
BAÑOS
TOTAL
EDAD
GARAGE
VISTA
CUARTOS
X5
X6
X7
b) Realizar una prueba de hipótesis global para determinar si alguno de los coeficientes es
distinto de cero.
Solución:
a) Los resultados que arroja Excel son los siguientes:
por lo tanto, la ecuación de regresión es:
Y’ =-13.858+0.951x1+0.79413374x2-2.807x3+3.06x4+0.070x5+0.6536x6+1.0263x7
sustituyendo en el modelo anterior, la variables que caracterizan cada residencia, obtendremos
los siguientes costos:
RESIDENCIA
SUPERFICIE
DORMI-
PIES CUAD.
TORIOS
X1
X2
X3
X4
1
22.4
4
2
7
18
1
1
$29.36603
2
15.3
3
2
7
6
0
0
$19.3006
3
17.2
4
1
7
4
1
0
$25.2222
4
31.7
5
3
9
24
0
0
$41.0582
5
20.0
4
2
8
11
1
1
$29.65363
i
BAÑOS
TOTAL
EDAD
GARAGE
VISTA
CUARTOS
Costo$
(miles de
X5
X6
X7
dólares)
Se puede observar que la residencia 4 tiene un costo mayor a pesar de ser la más antigua, esto
se debe a que la superficie en pies cuadrados es mayor, esto lo podemos afirmar ya que ésta
variable presenta el coeficiente de correlación más alto, así como la variable 4 con 9 cuartos en
total.
b) Realizar una prueba de hipótesis global para determinar si alguno de los coeficientes
es distinto de cero.
Ho = b1 = b2 = b3 = b4 =........bk = 0 (El modelo no es adecuado)
H1 = b1  b2 b3  b4 ........ bk  0 (El modelo es adecuado)
El valor F calculado, sería :
F
para
MSR 490.904

 54.098 , este valor lo comparamos con el valor crítico obtenido en tablas
MSE
9.074
Fα,∂1, ∂2 =F
en este caso tomaremos .05 nivel de significancia,7 gl para el
.05,7, 42
numerador, y 42 gl para el denominador .
Se puede observar que H0 se rechaza y que el valor
crítico (valor p global) es muy pequeño (5.58E19,prácticamente cero).Es obvio, ya que 54.098 está
muy alejado de 2.25. por lo que se concluye que no
todos los coeficientes de correlación son cero.
Decimos que no todos pues si observas la columna que
dice probabilidad(es el valor p)
el valor crítico será: 2.25
f (F )
∂1
∂2
1-α
F
2.25
54.098
Prueba de hipótesis individual:
se puede ver que las variables X2, X5, X6, y X7 cae dentro de la zona de aceptación, ya que sus
valores de probabilidad(valor p) son mayores que α =0.05, por lo que se concluye que éstas
variables su correlación es igual a cero.
Intercepción
Variable X 1
Variable X 2
Variable X 3
Variable X 4
Variable X 5
Variable X 6
Variable X 7
Probabilidad
0.00016531
1.1766E-10
0.41341474
0.0316483
0.00072083
0.47721757
0.52122032
0.49598421
Desde un punto de vista práctico, esto significa que las variables independientes 1, 3 y 4 son las
que definen el Costo de las residencias.
para concluir esto, también nos apoyamos en el estadístico t, el cual se obtiene en Excel mediante
la fórmula:
Intercepción
Variable X 1
Variable X 2
Variable X 3
Variable X 4
Variable X 5
Variable X 6
Variable X 7
t
Coeficient es
Desviación estándar
Error típico ó
Estadístico
Coeficientes Desviación.Estandar
t
13.8583569
3.35011176
-4.1366849
0.95172059
0.11211768
8.48858645
0.79413374
0.96130274
0.8261016
2.80781456
1.26303907
-2.2230623
3.06486574
0.83981068
3.64947221
0.07058774
0.09842058
0.71720505
0.65366781
1.01047093
0.64689423
1.02636173
1.49441373
0.68679892
haciendo mediante un valor crítico obtenido de tablas para α =0.05 y n-1=49 g.l.
X5=0.717
X6=0.646
X2=0.82
X4=3.64
t
-2.021
X3=-2.22
2.021
X7=0.686
X1=8.48
Observe como las variables que
ya habíamos mencionado:
X2, X5, X6, y X7 caen dentro de
la zona de aceptación, lo que
indica que no son aptas para el
modelo.
Ejercicio 5.1
1. El gerente de ventas de una empresa grande fabricante de coches está estudiando las
ventas de los automóviles. El quisiera saber cuáles son los factores que determinan el
número de coches que se venden en una representación. Para investigar esto, toma
aleatoriamente una muestra de 12 representantes. De cada uno de ellos obtiene la
información de cuantos coches vendió en el último mes, los minutos de publicidad
radiofónica que pagó en el último mes, el número de vendedores de tiempo completo que
tiene, y si la representación se encuentra o no en la ciudad. La información obtenida es la
siguiente:
Coches
vendidos
en el último
mes
Y
127
138
159
144
139
128
161
180
102
163
106
149
Publicidad
X1
18
15
22
23
17
16
25
26
15
24
18
25
Vendedores
X2
10
15
14
12
12
12
14
17
7
16
10
11
Ciudad
X3
1
0
1
1
0
1
1
1
0
1
0
1
a) determine la ecuación de regresión.¿Cuántos coches esperaría que se vendieran en una
representación en la que hay 20 vendedores, paga 15 minutos de publicidad y se encuentra en la
ciudad?
b) realice una prueba de hipótesis global para determinar si alguno de los coeficientes de
regresión es distinto de cero. Use el nivel de significancia de 0.05.
c) Utilice los datos obtenidos en Excel, para hacer una prueba de hipótesis individual. Pensaría
en eliminar alguna de las variables independientes
5.3 PRUEBA DE HIPOTESIS PARA UN PARAMETRO INDIVIDUAL bi
Ho: bi = 0 (Xi no es adecuada para el modelo)
Ha: bi ≠ 0 (Xi es adecuada para el modelo)
ESTADÍSTICA DE PRUEBA
t
Coeficient es
Desviación estándar
usando la distribución t, podemos probar individualmente los coeficientes de regresión
t=
bi  bi 0
b
 i
Sb i
Sb i
donde :
bi 0 = es el valor que toma la Hipótesis nula H0 , que en este caso será cero
S bi = desviación estándar de la distribución de los coeficientes de regresión neta
bi = representa cualquiera de los coeficientes de regresión neta.
Ejemplo 3: Salsberry Realty vende casas a lo largo de la costa este de EU. Una de las preguntas
que con frecuencia hacen los posibles compradores es: ¿Si compramos la casa, cuanto tenemos
que gastar en calefacción en invierno?.se pidió al departamento de investigación de Salsberry que
desarrollara algunos lineamientos respecto al costo de calefacción de casas. Se peso que eran
tres las variables relacionadas: 1) La temperatura ambiente, 2) las pulgadas de material aislante
en el ático, y 3) el tiempo de vida que tuviera el calefactor. Para investigar, Salsberry tomó una
muestra de 20 casas
Antigüedad
Costo calef Temperatura Aislante
cal
250
35
3
6
360
29
4
10
165
36
7
3
43
60
6
9
92
65
5
6
200
30
5
5
355
10
6
7
290
7
10
10
230
21
9
11
120
55
2
5
73
54
12
4
205
48
5
1
400
20
5
15
320
39
4
7
72
272
94
190
235
139
t
60
20
58
40
27
30
bi  0  4.5827

 5.93
Sb i
0.7723
8
5
7
8
9
7
6
8
3
11
8
5
Descargar