Efectos de la colinealidad en el modelado de regresión y su

Anuncio
Culcyt// Modelos
EFECTOS DE LA COLINEALIDAD EN EL MODELADO DE
REGRESIÓN Y SU SOLUCIÓN
Dr. Jorge L. García A. 1, Ing. Hernando Chagolla G.1, Dr. Salvador Noriega M.2
Resumen
La regresión lineal es una de las técnicas más empleadas cuando se busca determinar una variable
dependiente en función de una o varias variables independientes; sin embargo, tradicionalmente se emplea la
técnica de mínimos cuadrados ordinarios, la cual enfrenta problemas cuando las variables independientes
presentan multicolinealidad; por lo cual en este artículo se describe el problema de la colinealidad y sus
efectos en los modelos generados, se discuten las principales técnicas de diagnostico y se presentan los
procedimientos más empleados para manejarla o eliminarla.
Palabras clave: colinealidad, regresión ridge, mínimos cuadrados ordinarios.
Abstract
The linear regression is one of the most used techniques for determinate the relation between a dependent
variable and one or several independent variables; nevertheless, traditionally the least square technique is
used, which faces problems when the independent variables present multicollinearity; that’s why in this article
we describe the problem of the collinearity between the independent variables and it’s main effects in the
regression model generated, the main techniques for diagnose it are discussed and appears the procedures for
handle and sometimes to eliminate it.
Keywords: collinearity, ridge regression, ordinary least square.
1. Introducción
parámetros de las VI que explique la VD
Frecuentemente existe la necesidad de
es la técnica de mínimos cuadrados
explicar una variable o conjunto de
ordinarios (MCO); sin embargo, uno de
12
Cuando
los principales supuestos en el modelado
una variable es explicada por otras, se
de regresión es que las VI no poseen
dice que existe una relación entre ellas; la
ningún tipo de dependencia lineal entre
primera se denomina variable dependiente
ellas.
(VD)
variables
correlación con otra ú otras ó puede ser
independientes (VI). Uno de los métodos
explicada como una combinación lineal
más
de algunas de ellas, se dice que el
variables en función de otras.
y
las
comunes
segundas,
para
encontrar
los
Cuando
una
VI
posee
alta
conjunto de datos presentan el fenómeno
1
denominado
Departamento de Ingeniería Industrial, Instituto Tecnológico
de Querétaro.
Av. Tecnológico S/N Esquina con M. Escobedo, Col. Centro.
CP.76000, Querétaro, Qro, México. Tel. (+52) 442 2163597
Fax (+52) 442 2169931. [email protected]
2
Instituto de Ingeniería y Tecnología, Universidad Autónoma
de Cd. Juárez. Henry Dunant 4016, Zona Pronaf, Cd. Juárez,
Chihuahua, México. C.P. 32310. Tel:(+52) 656 688-2100.
[email protected]
CULCyT//Septiembre–Diciembre, 2006
multicolinealidad,
según
Wang (1996); sin embargo, Kaciranlar y
Sakallioglu (2001) aseguran que no existe
una definición totalmente aceptada sobre
23
Año 3, No 16-17
este fenómeno, aunque el enfoque general
sobre la superioridad de algunas técnicas
que
sobre
proporciona
es
semejante
al
anteriormente definido.
otras
parámetros
en
que
la
estimación
de
son
estimados
en
Según Akdeniz (2001), cuando se
presencia de colinealidad en las VI,
emplean los MCO en la estimación de los
Wichern y Churchill (1978), Delaney y
parámetros de regresión y existe el
Chatterjee (1986) y Krishnamurthi y
problema de multicolinealidad en las VI,
Rangaswamy (1987) y
se
Wijekoon (artículo aceptado para su
pueden
observar
problemas
de
inestabilidad de los mismos, signos
incorrectos
en
los
parámetros
Jahufer y
publicación).
y
El objetivo de este artículo es
frecuentemente elevados errores estándar,
presentar los principales efectos que tiene
lo que conduce a generar modelos con
la multicolinealidad en la estimación de
muy poco poder explicativo o de difícil
parámetros de regresión lineal y como
interpretación.
puede ésta ser detectada o diagnosticada
Para resolver el problema anterior
en las VI, así como los
principales
se han propuesto varias técnicas que
procedimientos adoptados para manejarla
incluyen la detección y diagnostico del
o eliminarla.
fenómeno de la multicolinealidad y su
El artículo está organizado de la
solución, sin que exista un procedimiento
siguiente
objetivo o generalmente aceptado, aunque
introducción, en la segunda sección se
bajo evaluaciones mediante simulación,
discuten las principales consecuencias de
unas técnicas son más eficientes que
la colinealidad en la regresión lineal y su
otras. Por ejemplo, Hoerl y Kennard
impacto en la eficiencia de los modelos
(1970) han propuesto una metodología
generados, en la sección tres se discuten
denominada ridge regresión (RR) donde
las principales técnicas de detección y
se sacrifica sesgo de los parámetros por
diagnóstico
una reducción de error estándar de los
literatura, en la cuarta se analizan las
parámetros estimados,
técnicas
Liu (1993) y
manera;
de
que
después
se
de
reportan
corrección
o
en
esta
la
manejo
Kaciranlar et al. (1999) han propuesto
empleadas y finalmente, en la quinta
nuevos estimadores sesgados que mejoran
sección se discuten los resultados.
al RR y otros han realizado simulaciones
CULCyT//Septiembre–Diciembre, 2006
24
Año 3, No 16-17
2.
Principales
Efectos
de
negativa o positiva entre las
la
Colinealidad en Modelos de Regresión
variables, el FIV también se
Cuando se sospecha de la presencia de
incrementa,
multicolinealidad
este
denominador tiende a cero a
fenómeno debe ser investigado antes de
medida que r tiende a uno
generar un modelo de regresión, ya que
(correlación perfecta). Algunos
puede generar errores en los pronósticos y
autores recomiendan que los FIV
dificultar
sean menores a 10, de lo contrario
la
en
las
VI,
interpretación
de
la
ya
importancia de cada una de las VI en el
se
modelo. Según Wang y Akabay (1994),
multicolinealidad.
•
las principales consecuencias de las altas
concluye
que
que
el
existe
Los coeficientes estimados pueden
colinealidades entre las VI son las
ser insignificantes o de signo
siguientes:
contrario
al
esperado
consecuentemente
•
son
y
muy
En un modelo de dos variables, el
sensibles a cambios en los datos
error estándar de los coeficientes
muestrales. Esto es debido a la
estimados es muy grande; esto es
colinealidad de las VI, entonces
debido a que al coeficiente de
los errores estándar serán grandes
variación tiene un factor de la
y consecuentemente el estadístico
forma 1 /(1 − r 2 ) , donde r es el
de prueba t será pequeño. Los
coeficiente de regresión entre las
coeficientes estimados con error
dos VI y su valor está en el
estándar
intervalo [-1,1]. Este índice es
inestables; además, una adición de
comúnmente denominado factor
nuevas observaciones o puntos
de inflación de la varianza (FIV).
muestrales
Cuando
existe
cambios en los valores de los
son
parámetros estimados y algunas
r=0
colinealidad,
no
las
VI
muy
grande
provoca
serán
grandes
veces en el signo.
ortogonales y su FIV es igual a 1.
•
A medida que el valor absoluto de
Cuando existe colinealidad en las
r se incrementa en valor absoluto,
VI
es decir, existe una correlación
adecuadamente la importancia de
CULCyT//Septiembre–Diciembre, 2006
25
es
difícil
estimar
Año 3, No 16-17
•
éstas en el modelo generado,
3. Principales Técnicas de Detección
especialmente cuando existe signo
La literatura provee muchas técnicas para
contrario al esperado en uno de
manejar y diagnosticar la presencia de la
los coeficientes estimados. Por
colinealidad,
ejemplo, se espera que a mayor
desde reglas de eliminación de variables
calidad de un producto terminado,
al cálculo de índices complejos. Algunos
la demanda se incremente si el
de los más ampliamente usados son el
precio se mantiene constante; sin
análisis de la matriz de correlaciones de
embargo,
encontrarse
todas las VI, otros se basan en el análisis
mediante un modelo de regresión
de la eigenestructura de los datos de la
lineal empleado como pronostico,
matriz X, incluyendo factores de inflación
que a mayor calidad del producto
de la varianza, traza de (X´X)-1 y el
la demanda disminuya, lo cual es
número de condición; los cuales se
ilógico.
discuten a continuación.
puede
las
cuales
comprenden
Cálculo de los coeficientes de
La colinealidad de las VI puede
sugerir al usuario de los modelos
correlación.
generados
excluyan
solamente dos VI, se puede estimar su
importantes variables en éstos. Sin
coeficiente de correlación para determinar
embargo,
puede
el grado de colinealidad. En algunos
generar modelos menos objetivos
casos la construcción de una matriz de
o que no representa la realidad,
correlación y la representación gráfica es
dado que estadísticamente no son
de gran utilidad. Mason y Perreault
suficientes.
(1991) recomiendan que sea eliminada
que
este
proceso
En
un
modelo
con
la
una de las variables que tenga un
colinealidad de las VI no es la única
coeficiente de correlación mayor a 0.8
fuente de inestabilidad y grandes errores
con
estándar en los coeficientes estimados;
correlaciones, generalmente se construye
cuando otros supuestos del modelado de
una matriz de correlaciones como la que
regresión se han violado, esos errores
se indica en la Tabla 1, donde las
estándar serán grandes también y los
variables se colocan en filas y columnas y
parámetros eran inestables.
sus intercepciones deben representar el
Es
importante
señalar
CULCyT//Septiembre–Diciembre, 2006
que
26
otras.
Para
conocer
esas
Año 3, No 16-17
coeficiente
de
regresión
lineal
que
correlación con la variable X2 (0.824215);
obtienen. En este caso se presenta una
por lo que de acuerdo a lo propuesto por
matriz de correlaciones para un conjunto
Mason y Perreault (1991), una de las
de datos en que se tienen dos VI y una
variables se puede eliminar. Obsérvese
VD, en este caso la variable X1 tiene alta
que los valores de la diagonal es un uno.
X2
X1
Y
X1
1.000000
0.824215
0.964615
X2
0.824215
1.000000
0.891670
Y
0.964615
0.891670
1.000000
Tabla 1. Matriz de Correlaciones
Asimismo, es de gran utilidad la
observar la lejanía o cercanía a de los
construcción de una matriz con los
puntos a dicha línea. Debe mencionarse
diagramas de dispersión de los datos. En
que este tipo de matrices de correlación y
la Figura 1 se ilustra el caso de un
de dispersión son fácilmente generados
diagrama de dispersión para un conjunto
por
de veinte observaciones, donde además se
MINITAB,
ha agregado una línea de ajuste obtenida
STATISTICA.
programas
tradicionales
SPSS,
NCSS
como
y
por mínimos cuadrados y se puede
CULCyT//Septiembre–Diciembre, 2006
27
Año 3, No 16-17
Y
X1
X2
Figura 1. Matriz de Dispersión
por la ecuación (1), donde R2k es el
Inspección de las R2 y estadístico
F. Cuando los valores de R2 y el
coeficiente
estadístico F son grandes, esto indica una
variable Xk como VD sobre las demás VI
fuerte relación entre las VI analizadas.
y el factor (1- R2k) es conocido como
Además, si algunos de los coeficientes
factor de inflación de la varianza (FIV).
son insignificantes (valores pequeños o
Así, a medida que R2k incrementa su
muy grandes) y los valores de R2 y F son
valor, el FIV tienda a cero y por estar éste
grandes, esto es un indicativo de que
en el denominador, la varianza del
algunas VI poseen alta correlación y se
parámetro estimado se incrementa, dado
puede sospechar de la multicolinealidad.
que σ2 se mantiene constante.
de
determinación
de
la
La varianza de cada uno de los
parámetros estimados puede ser obtenida
CULCyT//Septiembre–Diciembre, 2006
28
Año 3, No 16-17
σ2
^
var(β ) =
∑
(1)
−
i
( X ki − X ) 2 (1 − R 2 k )
Por su parte Marquardt (1970) sugirió un
Finalmente, Willan y Watts (1978)
valor máximo admisible para el FIV de
proponen que la raíz cuadrada del
10 y para valores superiores a este límite,
determinante de las VI sea usado como
se considera que existen problemas de
una medida de la eficiencia general del
colinealidad. En la actualidad existe
modelo de regresión generado. Este
software que considera ese valor como
índice es interpretado como un radio de
límite, después de lo cual recomienda
confidencia generado por el modelo
estimaciones sesgadas de los parámetros.
generado en relación al generado sobre un
Por su parte,
Willan y Watts
diseño ortogonal hipotético. El valor de
(1978) han proveído una extensión de la
X ´X
interpretación que se tiene sobre los FIV,
diagonal de la matriz (X´X)
significa que el modelo tiene poca
y han
eficiencia, ya que en un diseño ortogonal
desarrollado un análisis del determinante
el valor sería 1.
de la matriz X´X. Especialmente, ellos
Análisis del eigensistema. Por su parte
han interpretado FIV 1 / 2 como una medida
Belsley et al. (1980) propuso un índice
de perdida que tiene cada una de las
denominado número de condición (η), el
variables debida a la multicolinealidad
cual está basado en la descomposición de
que pueda tener con otras VI. Esta
valores singulares de la matriz de datos
medida tiene la ventaja de proporcionar
X, mismo que es definido como una
información para cualquier variable en
relación entre el máximo eigenvalor y el
particular y es también más fácil de
mínimo, tal como se indica en 2. Algunos
interpretar que el número de condición η
autores consideran que un η < 5 puede ser
propuesto por Belsley et al. (1980) y que
ignorado, para valores de 5<η<10 existe
se discute en párrafos posteriores.
CULCyT//Septiembre–Diciembre, 2006
toma valores en el intervalo de [0,
1], esto es, si el índice es pequeño,
los cuales son los elementos de la
-1
1/ 2
una colinealidad débil, para valores
29
Año 3, No 16-17
10<η<30 se califica como moderada, para
permiten la regresión ridge, como NCSS,
30<η<100 se considera fuerte y para
consideran
η>100 se considera muy fuerte. Además,
diferente al de MCO cuando η>100.
conveniente
otro
análisis
algunos programas computacionales que
η=
λmax
λmin
(2)
Otras técnicas de diagnostico incluyen el
la matriz de correlación simple; dado que
análisis del determinante de (X´X), el
σ2 es constante, se puede observar en 3
cual en presencia de colinealidad tiene un
que
valor pequeño y valores elevados en los
relacionada con los elementos de la
elementos de la diagonal de la inversa de
diagonal
la
varianza
esta
directamente
(X´X)-1.
de
Var (β) = σ2(X´X)-1
(3)
4. Técnicas de corrección o manejo de
multicolinealidad. Así por ejemplo, la
la colinealidad
variable
Muchos investigadores se han planteado
recalculada como y t = Ln( y t ) − Ln( y t −1 ) y
técnicas y algoritmos parar corregir la
también para cada una de las VI en la
colinealidad en los datos; sin embargo,
matriz X, x t = Ln( x t ) − Ln( x t −1 ) .
dependiente
puede
ser
algunos procedimientos funcionan en un
modelo, mientras que en otros no. Wang
Incorporación de información priori en
(1996) propone las siguientes reglas para
el modelo. En este caso se pretende
tratar la colinealidad de los datos.
incorporar información o valores que han
sido estimados en modelos anteriores en
Transformación de las variables por
el nuevo modelo, la cual puede ser para
diferenciación. En algunos casos, la
cualquiera de los regresores. Por ejemplo,
diferenciación
puede saberse por medio de un modelo
consecutiva
de
cada
variable del conjunto de datos puede
reducir
el
impacto
de
CULCyT//Septiembre–Diciembre, 2006
anterior que el valor de β1 sea un dos.
la
30
Año 3, No 16-17
Agregar datos adicionales o nuevos en
eigenvalores de la matriz X se estima el
la muestra. Algunas veces el problema
poder de explicación de cada una de las
de colinealidad puede ser eliminado
VI. Este enfoque es aceptado por ser
mediante la obtención de una nueva
reduccionista y simplificar el modelo, sin
muestra u obteniendo más información
embargo reduce el rango de X y esto lo
para la ya existente. Este procedimiento
puede convertir en una técnica que genere
tiene el impedimento de que muchas
un modelo con menor poder explicativo.
veces la obtención de nueva información
Sin
no tiene fundamento económico.
embargo,
muchos
otros
autores han propuesto sacrificar ciertas
características
Eliminar variables del análisis.
de
los
estimadores
Este
obtenidos mediante MCO, como es el
procedimiento cosiste en eliminar una o
caso del sesgo. En la figura 2 se observa
más
del
el caso en que se tiene un parámetro β
análisis. Para la determinación de las
insesgado pero con un error estándar muy
variables que se integrarán en el nuevo
grande, mientras que en la figura 3 se
modelo,
emplean
observa el caso de un parámetro β que es
técnicas de análisis multivariable, como
sesgado pero que tiene un menor error
el análisis factorial, donde en base a los
estándar.
variables
correlacionadas
generalmente
se
Error
estándar
Error
estándar
Figura 2. Parámetro β insesgado
CULCyT//Septiembre–Diciembre, 2006
31
Año 3, No 16-17
Figura 3. Parámetro β sesgado
La principal técnica empleada
teorema de Gauss-Markov, cuando los
para obtener parámetros sesgados fue
parámetros son obtenidos por MCO, éstos
propuesta por Hoerl y Kennard (1970) y
son insesgados; entonces a medida que
se denominada regresión ridge, donde se
los valores de k crecen, el sesgo de los
agrega un sesgo a los parámetros
parámetros estimados por RR también
estimados con la finalidad de reducir el
crece, así que se pretende minimizar los
error estándar de éstos, donde agrega una
valores de k para minimizar el sesgo y a
matriz constante k, con valores que se
su vez el error estándar. Los parámetros
encuentran entre 0 y 1. En el caso en que
del modelo pueden ser estimados según
los valores de k son 0, entonces RR es
(4).
igual a MCO. Lógicamente, según el
β = ( X ´ X + kI ) −1 X ´Y
(4)
Otra técnica ha sido propuesta por Liu
segundo parámetro para disminuir aun
(2003) donde se mejoran los parámetros
más los efectos de la colinealidad, al que
estimados por RR; este método considera
denomina d. Las fórmulas para obtener el
que aún después de admitir un sesgo
estimador de Liu se listan a continuación
mediante k en RR, se requiere de un
en
(5),
β k , d = ( X ´ X + kI ) −1 * ( X ´Y − dβ )
CULCyT//Septiembre–Diciembre, 2006
32
(6)
y
(7).
(5)
Año 3, No 16-17
k=
λ1 − 100 * λ p
(6)
99
p
∑ ((λ (σ
i
d=
2
R
− kα 2 Ri )) /(λi + k ) 3
i =1
p
∑ ((λ (λ α
i
i
(7)
2
Ri
+σ
2
R )) /(λi
+ k)
4
i =1
regression. Communications in Statistics: Theory
5. Resultados y Conclusiones
En
artículo
principales
se
han
efectos
multicolinealidad
discutido
que
de
las
tiene
and Methods, 30: 1171-1183.
los
Belsley, D. A., Kuth, E. and Welsh, R. E. 1980.
la
Regression diagnostics –identifying influencial
variables
data and sources of collinearity-. New York, Jhon
independientes en la eficiencia de los
Wiley & Sons, Inc.
parámetros estimados mediante mínimos
Delaney, N. J. and Chatterjee, S. 1986. Use of the
cuadrados ordinarios, se han planteado
bootstrap and cross validation in ridge regression.
los
principales
procedimientos
Journal of Business and Economic Statistics, 4:
de
255-262.
diagnóstico reportados en la literatura y
Hoerl, A. E. and Kennard, R. W. 1970. Ridge
se han expuesto las principales técnicas
regression: biased estimation for nonorthogonal
para manejarla o corregirla; por lo que se
problems. Technometrics, 12: 55-67.
concluye que una vez detectada la
Jahufer, A. and Wijekoon, P. A Monte Carlo
multicolinealidad,
deben
evaluation of new biased estimators in regression
seguirse
model. Article accepted by Indian Journal of
procedimientos de alternos a mínimos
Statistics (To be published).
cuadrados, tales como aquellos que
Kaciranlar,
reportan parámetros sesgados pero con
Combining the LIU estimator and the principal
menor error estándar.
component regression estimator. Communications
S.
and
Sakallioglu,
S.
2001.
in Statistics: Theory and Methods, 22: 393-402.
Kaciranlar, S., Sakallioglu, S., Akdeniz, F., Styan,
6. Bibliografía
G. P. H. and Werner, H. J. 1999. A new biased
Akdeniz, F. 2001. The examination and analysis
estimator in linear regression and a detailed
of residuals for some biased estimators in linear
analysis of the widely-analyzed dataset on Prtland
CULCyT//Septiembre–Diciembre, 2006
33
Año 3, No 16-17
cement. Sankhya, Series B. Indian Journal of
Wang,
G.
C.
S.
1996.
Statistics, 61: 443-459.
multicollinearity in regression modelling. The
Kinshnamurthi, L. and Ranganwamy, A. 1987.
Journal of Business Forecasting, Spring.
The equity estimators of marketing research.
Wang, G. C. S. and Akabay, C. 1994.
Marketing Science, 6: 336-357.
Autocorrelation:
Liu, H. 1993. A new class of biased estimate in
regression analysis. The Journal of Business and
linear regression. Communications in Statistics:
Forecasting Methods and Systems. 13(4): 18-26.
Theory and Methods, 22: 393-402.
Willan, A. R. and Watts, D. G. (1978).
Liu, K. 2003. Using Liu-Type estimator to combat
Meaningful
collinearity. Communications in Statistics: Theory
Technometrics, 407-412.
and Methods. 32(5): 1009-1020.
Winchern, D. W. and Churchill, G. A. 1978. A
Marquardt, D. W. 1970. Generalized inverses,
comparison
ridge regression and linear biased estimation.
Technometrics, 20: 301-311.
problems
How
and
multicollinearity
of
ridge
regression
to
handle
solution
in
measures.
estimators.
Technometrics, 12: 591-612.
Mason,
C.
C.
and
Perreault,
W.
1991.
Collinearity, power and interpretation of multiple
regression
analysis.
Journal
of
Marketing
Research. 28: 268-280.
CULCyT//Septiembre–Diciembre, 2006
34
Año 3, No 16-17
Descargar