regresiony_correlacion.ppt

Anuncio
Qué es el análisis
de correlación
lineal ?
Es una herramienta estadística que podemos
usar para describir el grado de relación
lineal entre las variables.
Variable
Independiente
(X)
Tipos de Variables
(determinística, es
decir no aleatoria.)
Variable
Dependiente
(Y)
aleatoria
Ejemplos
X: Número de llamadas telefónicas realizadas por un vendedor
promocionando un producto.
Y: Unidades vendidas por el vendedor.
X: Tiempo que dedica un estudiante a una materia.
Y : Evaluación que obtiene el estudiante en la materia.
Ejercicio Modelo
En una ciudad de Canadá, las personas al comprar casas se interesan por
el precio del costo de la calefacción. Se ha determinado que un grupo de
factores pueden estar relacionados con el costo ( en dólares):
•Temperatura exterior. (Grados Fahrenheit)
•Aislante térmico en el desván. (en pulgadas)
•Antigüedad del calefactor.
•Área de la sala principal del apartamento. (en metros cuadrados).
Un cliente le ha preguntado a un vendedor:
Si usted me brinda la información de las variables anteriores de un
apartamento, ¿cómo puedo saber yo aproximadamente cuanto pagaré en
calefacción?. ¿Cuan confiable será la información que usted me brinde?
Pasos en el Análisis de Correlación
1. Determinar cuál es la variable dependiente. Y: Costo.
2. Seleccionar una muestra de tamaño n de ambas variables X e Y, con lo
que se obtienen n pares de observaciones
(x1 , y1) , (x2 , y2)… (xn , yn).
En nuestro ejemplo se tomo una muestra de 20 apartamentos. Se
midieron todas las variables independientes para cada uno de ellos.
3. Mostrar la relación en un diagrama de dispersión: Gráfico de X vs. Y.
Se aprecia de manera descriptiva el sentido y la intensidad de relación
entre las variables.
Se realizaran los 4 gráficos que corresponden a cada una de las variables
independientes consideradas.
Temperatura Exterior vs. Costo
450
400
Relación Inversa
fuerte
r = -0.812
350
Costo
300
250
200
150
100
50
0
0
10
20
30
40
Temp
50
60
70
Aislante térmico vs. Costo.
450
Relación Inversa
débil
r = -0.257
400
350
Costo
300
250
200
150
100
50
0
0
2
4
6
Aislante
8
10
12
14
Antiguedad del calefactor vs. Costo
Relación Directa
moderada
r =0,512
450
400
350
Costo
300
250
200
150
100
50
0
0
5
10
Antiguedad
15
20
Tamaño sala vs. Costo
Relación directa
fuerte
aunque se
aprecia una
tendencia no
lineal
r = 0.991
450
400
350
Costo
300
250
200
150
100
50
0
0
5
10
15
Tamaño
20
25
4. Calcular un coeficiente de correlación lineal r a partir de la muestra,
como aproximación de la verdadera relación lineal ρ (rho) entre las
variables.
r
n x
n  xy    x  y 
2
  x 
2
 n y
1  r  1
2
  y
2

Interpretación:
1. El valor absoluto de r indica la fuerza de la relación entre Y y X.
2. El signo la dirección de la relación (directa o inversamente proporcional)
(tener cuidado con relaciones espúreas)
r=1
r = -1
r=0
correlación positiva perfecta.
correlación negativa perfecta.
no hay relación lineal entre Y y X.
Si hay presencia de varias variables independientes, entonces podemos
agrupar todas las correlaciones en la Matriz de Correlaciones.
Costo
Temp
Aislante
Antigüedad
Costo
1.00
Temp
-.812
1.00
Aislante
-.257
-.103
1.00
Antigüedad
.537
-.486
.064
1.00
Tamaño
.991
-.831
-.253
.482
1.000
Interpretación de las Correlaciones lineales e Identificación de las
Variables independientes con mayor correlación lineal.
Temperatura.
Una correlación de -0,812 indica alta correlación, inversamente proporcional:
A mayor Temperatura exterior, menor el costo en calefacción y viceversa.
Aislante.
La correlación de 0,257 es baja, así que no existe relación lineal entre las
variables.
Antigüedad.
Una correlación de 0,512; es moderada, directamente proporcional, a mayor
antigüedad del calefactor, mayor costo y viceversa.
Tamaño de la sala principal.
Una correlación de 0,991; es alta y directamente proporcional: A mayor tamaño
de la sala, mayor costo de la calefacción
5. Prueba de Hipótesis para analizar si las correlaciones son
significativamente diferentes de cero.
H 0 :   0

H 1 :   0
Las correlaciones que son significativas aparecen reflejados en el
cálculo de la matriz de correlaciones
Costo
Costo
1.000
Temp
-.812
Aislante
-.257
Antigüedad
.537
Tamaño
.991
± .444 critical
value Seleccionamos
.05 (two-tail)
Conclusión
Parcial:
a
las variables
Temperatura
y Tamaño
± .561 critical
value .01 (two-tail)
para continuar el análisis acerca del
Esto quiere decir que la correlación de -,812 entre
Costo.
Temperatura y Costo y la de ,991 entre Tamaño y
Costo es significativa si consideramos un nivel de
confianza del 99% (α = 0,01) si bajamos el nivel de
confianza a un 95% (α = 0,05), también es
significativa la relación de ,537 entre Antigüedad y
Costo.
Qué es el análisis
de regresión lineal
?
Es modelar la dependencia de la variable Y
de la variable X a través de una recta
a. Cálculo de la recta de regresión que expresa la relación entre:
Temperatura y Costo.
Y  α 0  α1X  ε
α0 y α1 parámetros ; ε error aleatorio.
α0 y α1 son estimados a partir de la muestra
obteniendo la recta
Constante de
regresión
Y = a0 + a1X + e
Coeficiente de
regresión
Interpretación de la pendiente:
Cuánto cambia la variable dependiente Y, por cada unidad que varíe la
variable independiente X.
Estimación de los parámetros: Método de los mínimos cuadrados.
La recta de regresión hace mínimos los cuadrados de las distancias verticales
desde cada punto de una observación a la recta.
Yi es un valor observado real de la variable Y
Yˆi es un valor de la recta predicho por la ecuación

2
(Y

Y
)
 i i  min
min es el número más pequeño que se puede
obtener si se suman estas desviaciones
verticales elevadas al cuadrado entre los
puntos y la recta.

Yi  Yi
Los coeficientes a1 y a0 se obtienen mediante las expresiones
a1 
n  xy    x  y 
n x
2
  x 
2
a 0  y  a1x
Aplicamos MegaStat para realizar el Análisis de Regresión
MegaStat
Correlation/Regresión
Regresión Análisis
Y marcamos en la nueva ventana las
opciones que aparecen en la pantalla
siguiente que nos mostrarán todas las
salidas que son de nuestro interés para el
análisis de regresión
Salida
r²
0.659
Adjusted r²
0.640
r
-0.812
Std. Error
63.553
20
observations
1
predictor variable
Costo
is the dependent variable
Salida
ANOVA table
Source
SS
Regression 140,214.9411
Residual
72,700.8089
Total
212,915.7500
df
1
18
19
MS
F
140,214.9411 34.72
4,038.9338
Regression output
variables
intercept
Temp
coefficients
388.8020
-4.9342
std. error t (df=18)
34.2408 11.355
0.8374 -5.892
p-value
1.41E-05
confidence interval
p-value 95% lower 95% upper
1.22E-09 316.8646 460.7393
1.41E-05 -6.6936 -3.1748
Recta de regresión estimada
Ŷ  388,8020 - 4,9342X
Esta es la ecuación de la recta de regresión pintada en el diagrama
de dispersión, que fue mostrada anteriormente
Note que la pendiente -4.9342 tiene signo negativo, lo cual refleja que la
relación es inversa, análogo al signo del coeficiente de correlación
(-.812).
El valor de la pendiente significa que por cada grado que descienda la
temperatura exterior habrá un aumento promedio de 5 dólares en el
costo de la calefacción.
b. Cálculo del error estándar de la estimación
Mide la variabilidad o dispersión de los valores observados alrededor
de la línea de regresión.
 Y  Ŷ 
2
Se y sobre x 
n - k -1
Si se trabaja con una recta, se puede calcular el error mediante
Se y sobre x 
2
y
  a 0  y  a 1  xy
n2
En nuestro
el error
estándar
estimación
se comete
al usar
Mientrasejemplo
más grande
sea
el error de
estándar
de la que
estimación,
mayor
serálala
recta
para estimar
el puntos
costo esalrededor
de 63,553
dispersión
de los
de$la línea de regresión
c. Cálculo del Coeficiente de Determinación
Mide el poder explicativo del modelo de regresión, es decir, la
parte de la variación de Y explicada por la variación de X
El valor de r2 ha de estar entre 0 y 1, si r2 = 0,70 significa que el 70%
de la variación de Y está explicada por las variaciones de X. Es
evidente que cuanto mayor sea r2, mayor poder explicativo tendrá
nuestro modelo.
En nuestro ejemplo
Si analizamos el valor del coeficiente de determinación r ² = 0.659,
apreciamos que aproximadamente el 66% de la variabilidad del
costo esta determinado por la variabilidad en la Temperatura
exterior.
d. Prueba de Hipótesis para analizar si la pendiente es significativa
H 0 :  1  0

H1 : 1  0
Para tomar una decisión podemos comparar el valor de un estadístico con
un percentil, o utilizar un criterio equivalente, usado en los paquetes de
Estadística: Comparar el p-valor con el nivel de significación
Regla de Decisión: Rechazar Ho si p < α
En el ejemplo p = 1.41E-05 < 0.05, así que rechazamos H0 por lo que el
valor de la pendiente es significativamente diferente de cero.
Conclusión: La relación entre la Temperatura Exterior y el Costo es
significativa.
e. Predicciones
e.1) Cálculo de una predicción puntual.
Suponga que se desea un estimador puntual del costo de un
apartamento, si la temperatura exterior es de 35 grados
Sol: Sustitución del valor de x = 35, en la ecuación de la recta para
obtener un valor ŷ
y  8,8020 - 4,9342x
y  8,8020 - 4,9342 * 35
y  216,05
e.2) Cálculo de un intervalo de Predicción
Se desea calcular una estimación por intervalo con un nivel del confianza
del 95% para el apartamento específico en un día considerado con
temperatura de 35 grados. Aquí calculamos un intervalo de predicción.
Yˆ  t1 / 2 (n  2) * S p
Sp  Se
1
1 
n
x  x 
2
0
x
2
 nx
2
e.3) Cálculo del Intervalo de Confianza para el Costo Promedio de todos
los apartamentos, para una temperatura dada.
Se desea calcular una estimación por Intervalo, del costo promedio de la
calefacción de todos los apartamentos considerados en los que la
temperatura es de 35 grados. Aquí calculamos un intervalo de confianza.
Con el Uso del Programa MegaStat
Marcar en la ventana correspondiente a Análisis de Regresión el valor de
predicción de interés, en nuestro caso 35.
La salida obtenida con el programa es
Predicted values for: Costo
95% Confidence Interval
Temp
35
Predicted
216.105
lower
186.000
95% Prediction Interval
upper lower upper
246.211 79.234 352.976
Leverage
0.051
Conclusiones
Nota: Observe que el tamaño del intervalo de confianza (para todos los
apartamentos
con
temperaturade
exterior
de 35 grados),
es menor quede
el35
e.1 El costo por
la calefacción
un apartamento
con Temperatura
intervalo
(para un solo apartamento con temperatura
grados esde
depredicción
216,105 dólares.
exterior
de 35
grados).
Es de una
mucho
ya que habrá
e.2 Con un
nivel
de confianza
del amplitud
95% el costo
por menor,
la calefacción
de un
mayor
variación
el estimadode
del
para
una entre
observación
para
apartamento
conen
Temperatura
35costo
grados
oscila
79,234 yque
352,976$
un grupo.
e.3 El costo promedio de la calefacción de los apartamentos para una
temperatura de 35 grados se encuentra entre 186,000 246,211 $; con una
confianza del 95%.
Análisis de las suposiciones realizadas para la recta de regresión
Debemos comprobar que se cumplen dos condiciones fundamentales:
a. Los residuos siguen una distribución aproximadamente Normal.
Para ello realizamos el gráfico de Probabilidad Normal, obteniendo
Normal Probability Plot of Residuals
150,0
Se aprecia que se ajustan
aproximadamente a la recta
x = y, por lo que puede
concluirse que los residuos
tienen una distribución
aproximadamente normal.
100,0
Residual
50,0
0,0
-50,0
-100,0
-150,0
-3,0
-2,0
-1,0
0,0
Normal Score
1,0
2,0
3,0
b. La variabilidad de los residuos y - ŷ no varía en dependencia del
valor estimado ŷ
Esto lo apreciamos en el gráfico de los residuos. En este caso nuestro valor
estimado ŷ, es el costo estimado
Efectivamente se observa un
comportamiento aleatorio de los
residuales
Residuals by Predicted Costo
Residual (gridlines = std. error)
190,7
Con esto se concluye que todo el
análisis de regresión efectuado
hasta el momento es valido.
127,1
63,6
0,0
-63,6
-127,1
0
100
200
Predicted Costo
300
400
Un análisis análogo podemos realizar para analizar la relación entre el Tamaño
de la sala principal y el costo del calefactor, dado que la correlación obtenida
es alta: 0,991. Sin embargo el análisis seria muy similar, excepto algo muy
importante que es el análisis de los residuales.
Veamos los gráficos
a. Grafico de Probabilidades Normales
Se observa un comportamiento
análogo al anterior, es decir los
residuales siguen una distribución
normal.
Normal Probability Plot of Residuals
40,0
30,0
Residual
20,0
10,0
0,0
-10,0
-20,0
-3,0
-2,0
-1,0
0,0
Normal Score
1,0
2,0
3,0
b. Gráfico de los valores estimados vs. Residuos.
Residual (gridlines = std. error)
Residuals by Predicted Costo
44,4
29,6
14,8
0,0
-14,8
-29,6
0
100
200
Predicted Costo
300
400
Esto
significa
no essí
En
este
caso losque
residuos
valido el variación
modelo de
muestran
en
regresión realizado
dependencia
de los valores
previamente.
Las vemos
estimados
del costo,
consecuencias
de no
que
valores muy pequeños
este
análisis es
orealizar
muy altos
tienen
que las estimaciones
de
variabilidad
mayor que los
los están
coeficientes
dede
la un
que
alrededor
regresión
pueden
nono
ser
costo
de 200,
es decir
adecuados
y las
hay
un comportamiento
predicciones pueden ser
aleatorio.
incorrectas.
Descargar