Culcyt// Modelos EFECTOS DE LA COLINEALIDAD EN EL MODELADO DE REGRESIÓN Y SU SOLUCIÓN Dr. Jorge L. García A. 1, Ing. Hernando Chagolla G.1, Dr. Salvador Noriega M.2 Resumen La regresión lineal es una de las técnicas más empleadas cuando se busca determinar una variable dependiente en función de una o varias variables independientes; sin embargo, tradicionalmente se emplea la técnica de mínimos cuadrados ordinarios, la cual enfrenta problemas cuando las variables independientes presentan multicolinealidad; por lo cual en este artículo se describe el problema de la colinealidad y sus efectos en los modelos generados, se discuten las principales técnicas de diagnostico y se presentan los procedimientos más empleados para manejarla o eliminarla. Palabras clave: colinealidad, regresión ridge, mínimos cuadrados ordinarios. Abstract The linear regression is one of the most used techniques for determinate the relation between a dependent variable and one or several independent variables; nevertheless, traditionally the least square technique is used, which faces problems when the independent variables present multicollinearity; that’s why in this article we describe the problem of the collinearity between the independent variables and it’s main effects in the regression model generated, the main techniques for diagnose it are discussed and appears the procedures for handle and sometimes to eliminate it. Keywords: collinearity, ridge regression, ordinary least square. 1. Introducción parámetros de las VI que explique la VD Frecuentemente existe la necesidad de es la técnica de mínimos cuadrados explicar una variable o conjunto de ordinarios (MCO); sin embargo, uno de 12 Cuando los principales supuestos en el modelado una variable es explicada por otras, se de regresión es que las VI no poseen dice que existe una relación entre ellas; la ningún tipo de dependencia lineal entre primera se denomina variable dependiente ellas. (VD) variables correlación con otra ú otras ó puede ser independientes (VI). Uno de los métodos explicada como una combinación lineal más de algunas de ellas, se dice que el variables en función de otras. y las comunes segundas, para encontrar los Cuando una VI posee alta conjunto de datos presentan el fenómeno 1 denominado Departamento de Ingeniería Industrial, Instituto Tecnológico de Querétaro. Av. Tecnológico S/N Esquina con M. Escobedo, Col. Centro. CP.76000, Querétaro, Qro, México. Tel. (+52) 442 2163597 Fax (+52) 442 2169931. [email protected] 2 Instituto de Ingeniería y Tecnología, Universidad Autónoma de Cd. Juárez. Henry Dunant 4016, Zona Pronaf, Cd. Juárez, Chihuahua, México. C.P. 32310. Tel:(+52) 656 688-2100. [email protected] CULCyT//Septiembre–Diciembre, 2006 multicolinealidad, según Wang (1996); sin embargo, Kaciranlar y Sakallioglu (2001) aseguran que no existe una definición totalmente aceptada sobre 23 Año 3, No 16-17 este fenómeno, aunque el enfoque general sobre la superioridad de algunas técnicas que sobre proporciona es semejante al anteriormente definido. otras parámetros en que la estimación de son estimados en Según Akdeniz (2001), cuando se presencia de colinealidad en las VI, emplean los MCO en la estimación de los Wichern y Churchill (1978), Delaney y parámetros de regresión y existe el Chatterjee (1986) y Krishnamurthi y problema de multicolinealidad en las VI, Rangaswamy (1987) y se Wijekoon (artículo aceptado para su pueden observar problemas de inestabilidad de los mismos, signos incorrectos en los parámetros Jahufer y publicación). y El objetivo de este artículo es frecuentemente elevados errores estándar, presentar los principales efectos que tiene lo que conduce a generar modelos con la multicolinealidad en la estimación de muy poco poder explicativo o de difícil parámetros de regresión lineal y como interpretación. puede ésta ser detectada o diagnosticada Para resolver el problema anterior en las VI, así como los principales se han propuesto varias técnicas que procedimientos adoptados para manejarla incluyen la detección y diagnostico del o eliminarla. fenómeno de la multicolinealidad y su El artículo está organizado de la solución, sin que exista un procedimiento siguiente objetivo o generalmente aceptado, aunque introducción, en la segunda sección se bajo evaluaciones mediante simulación, discuten las principales consecuencias de unas técnicas son más eficientes que la colinealidad en la regresión lineal y su otras. Por ejemplo, Hoerl y Kennard impacto en la eficiencia de los modelos (1970) han propuesto una metodología generados, en la sección tres se discuten denominada ridge regresión (RR) donde las principales técnicas de detección y se sacrifica sesgo de los parámetros por diagnóstico una reducción de error estándar de los literatura, en la cuarta se analizan las parámetros estimados, técnicas Liu (1993) y manera; de que después se de reportan corrección o en esta la manejo Kaciranlar et al. (1999) han propuesto empleadas y finalmente, en la quinta nuevos estimadores sesgados que mejoran sección se discuten los resultados. al RR y otros han realizado simulaciones CULCyT//Septiembre–Diciembre, 2006 24 Año 3, No 16-17 2. Principales Efectos de negativa o positiva entre las la Colinealidad en Modelos de Regresión variables, el FIV también se Cuando se sospecha de la presencia de incrementa, multicolinealidad este denominador tiende a cero a fenómeno debe ser investigado antes de medida que r tiende a uno generar un modelo de regresión, ya que (correlación perfecta). Algunos puede generar errores en los pronósticos y autores recomiendan que los FIV dificultar sean menores a 10, de lo contrario la en las VI, interpretación de la ya importancia de cada una de las VI en el se modelo. Según Wang y Akabay (1994), multicolinealidad. • las principales consecuencias de las altas concluye que que el existe Los coeficientes estimados pueden colinealidades entre las VI son las ser insignificantes o de signo siguientes: contrario al esperado consecuentemente • son y muy En un modelo de dos variables, el sensibles a cambios en los datos error estándar de los coeficientes muestrales. Esto es debido a la estimados es muy grande; esto es colinealidad de las VI, entonces debido a que al coeficiente de los errores estándar serán grandes variación tiene un factor de la y consecuentemente el estadístico forma 1 /(1 − r 2 ) , donde r es el de prueba t será pequeño. Los coeficiente de regresión entre las coeficientes estimados con error dos VI y su valor está en el estándar intervalo [-1,1]. Este índice es inestables; además, una adición de comúnmente denominado factor nuevas observaciones o puntos de inflación de la varianza (FIV). muestrales Cuando existe cambios en los valores de los son parámetros estimados y algunas r=0 colinealidad, no las VI muy grande provoca serán grandes veces en el signo. ortogonales y su FIV es igual a 1. • A medida que el valor absoluto de Cuando existe colinealidad en las r se incrementa en valor absoluto, VI es decir, existe una correlación adecuadamente la importancia de CULCyT//Septiembre–Diciembre, 2006 25 es difícil estimar Año 3, No 16-17 • éstas en el modelo generado, 3. Principales Técnicas de Detección especialmente cuando existe signo La literatura provee muchas técnicas para contrario al esperado en uno de manejar y diagnosticar la presencia de la los coeficientes estimados. Por colinealidad, ejemplo, se espera que a mayor desde reglas de eliminación de variables calidad de un producto terminado, al cálculo de índices complejos. Algunos la demanda se incremente si el de los más ampliamente usados son el precio se mantiene constante; sin análisis de la matriz de correlaciones de embargo, encontrarse todas las VI, otros se basan en el análisis mediante un modelo de regresión de la eigenestructura de los datos de la lineal empleado como pronostico, matriz X, incluyendo factores de inflación que a mayor calidad del producto de la varianza, traza de (X´X)-1 y el la demanda disminuya, lo cual es número de condición; los cuales se ilógico. discuten a continuación. puede las cuales comprenden Cálculo de los coeficientes de La colinealidad de las VI puede sugerir al usuario de los modelos correlación. generados excluyan solamente dos VI, se puede estimar su importantes variables en éstos. Sin coeficiente de correlación para determinar embargo, puede el grado de colinealidad. En algunos generar modelos menos objetivos casos la construcción de una matriz de o que no representa la realidad, correlación y la representación gráfica es dado que estadísticamente no son de gran utilidad. Mason y Perreault suficientes. (1991) recomiendan que sea eliminada que este proceso En un modelo con la una de las variables que tenga un colinealidad de las VI no es la única coeficiente de correlación mayor a 0.8 fuente de inestabilidad y grandes errores con estándar en los coeficientes estimados; correlaciones, generalmente se construye cuando otros supuestos del modelado de una matriz de correlaciones como la que regresión se han violado, esos errores se indica en la Tabla 1, donde las estándar serán grandes también y los variables se colocan en filas y columnas y parámetros eran inestables. sus intercepciones deben representar el Es importante señalar CULCyT//Septiembre–Diciembre, 2006 que 26 otras. Para conocer esas Año 3, No 16-17 coeficiente de regresión lineal que correlación con la variable X2 (0.824215); obtienen. En este caso se presenta una por lo que de acuerdo a lo propuesto por matriz de correlaciones para un conjunto Mason y Perreault (1991), una de las de datos en que se tienen dos VI y una variables se puede eliminar. Obsérvese VD, en este caso la variable X1 tiene alta que los valores de la diagonal es un uno. X2 X1 Y X1 1.000000 0.824215 0.964615 X2 0.824215 1.000000 0.891670 Y 0.964615 0.891670 1.000000 Tabla 1. Matriz de Correlaciones Asimismo, es de gran utilidad la observar la lejanía o cercanía a de los construcción de una matriz con los puntos a dicha línea. Debe mencionarse diagramas de dispersión de los datos. En que este tipo de matrices de correlación y la Figura 1 se ilustra el caso de un de dispersión son fácilmente generados diagrama de dispersión para un conjunto por de veinte observaciones, donde además se MINITAB, ha agregado una línea de ajuste obtenida STATISTICA. programas tradicionales SPSS, NCSS como y por mínimos cuadrados y se puede CULCyT//Septiembre–Diciembre, 2006 27 Año 3, No 16-17 Y X1 X2 Figura 1. Matriz de Dispersión por la ecuación (1), donde R2k es el Inspección de las R2 y estadístico F. Cuando los valores de R2 y el coeficiente estadístico F son grandes, esto indica una variable Xk como VD sobre las demás VI fuerte relación entre las VI analizadas. y el factor (1- R2k) es conocido como Además, si algunos de los coeficientes factor de inflación de la varianza (FIV). son insignificantes (valores pequeños o Así, a medida que R2k incrementa su muy grandes) y los valores de R2 y F son valor, el FIV tienda a cero y por estar éste grandes, esto es un indicativo de que en el denominador, la varianza del algunas VI poseen alta correlación y se parámetro estimado se incrementa, dado puede sospechar de la multicolinealidad. que σ2 se mantiene constante. de determinación de la La varianza de cada uno de los parámetros estimados puede ser obtenida CULCyT//Septiembre–Diciembre, 2006 28 Año 3, No 16-17 σ2 ^ var(β ) = ∑ (1) − i ( X ki − X ) 2 (1 − R 2 k ) Por su parte Marquardt (1970) sugirió un Finalmente, Willan y Watts (1978) valor máximo admisible para el FIV de proponen que la raíz cuadrada del 10 y para valores superiores a este límite, determinante de las VI sea usado como se considera que existen problemas de una medida de la eficiencia general del colinealidad. En la actualidad existe modelo de regresión generado. Este software que considera ese valor como índice es interpretado como un radio de límite, después de lo cual recomienda confidencia generado por el modelo estimaciones sesgadas de los parámetros. generado en relación al generado sobre un Por su parte, Willan y Watts diseño ortogonal hipotético. El valor de (1978) han proveído una extensión de la X ´X interpretación que se tiene sobre los FIV, diagonal de la matriz (X´X) significa que el modelo tiene poca y han eficiencia, ya que en un diseño ortogonal desarrollado un análisis del determinante el valor sería 1. de la matriz X´X. Especialmente, ellos Análisis del eigensistema. Por su parte han interpretado FIV 1 / 2 como una medida Belsley et al. (1980) propuso un índice de perdida que tiene cada una de las denominado número de condición (η), el variables debida a la multicolinealidad cual está basado en la descomposición de que pueda tener con otras VI. Esta valores singulares de la matriz de datos medida tiene la ventaja de proporcionar X, mismo que es definido como una información para cualquier variable en relación entre el máximo eigenvalor y el particular y es también más fácil de mínimo, tal como se indica en 2. Algunos interpretar que el número de condición η autores consideran que un η < 5 puede ser propuesto por Belsley et al. (1980) y que ignorado, para valores de 5<η<10 existe se discute en párrafos posteriores. CULCyT//Septiembre–Diciembre, 2006 toma valores en el intervalo de [0, 1], esto es, si el índice es pequeño, los cuales son los elementos de la -1 1/ 2 una colinealidad débil, para valores 29 Año 3, No 16-17 10<η<30 se califica como moderada, para permiten la regresión ridge, como NCSS, 30<η<100 se considera fuerte y para consideran η>100 se considera muy fuerte. Además, diferente al de MCO cuando η>100. conveniente otro análisis algunos programas computacionales que η= λmax λmin (2) Otras técnicas de diagnostico incluyen el la matriz de correlación simple; dado que análisis del determinante de (X´X), el σ2 es constante, se puede observar en 3 cual en presencia de colinealidad tiene un que valor pequeño y valores elevados en los relacionada con los elementos de la elementos de la diagonal de la inversa de diagonal la varianza esta directamente (X´X)-1. de Var (β) = σ2(X´X)-1 (3) 4. Técnicas de corrección o manejo de multicolinealidad. Así por ejemplo, la la colinealidad variable Muchos investigadores se han planteado recalculada como y t = Ln( y t ) − Ln( y t −1 ) y técnicas y algoritmos parar corregir la también para cada una de las VI en la colinealidad en los datos; sin embargo, matriz X, x t = Ln( x t ) − Ln( x t −1 ) . dependiente puede ser algunos procedimientos funcionan en un modelo, mientras que en otros no. Wang Incorporación de información priori en (1996) propone las siguientes reglas para el modelo. En este caso se pretende tratar la colinealidad de los datos. incorporar información o valores que han sido estimados en modelos anteriores en Transformación de las variables por el nuevo modelo, la cual puede ser para diferenciación. En algunos casos, la cualquiera de los regresores. Por ejemplo, diferenciación puede saberse por medio de un modelo consecutiva de cada variable del conjunto de datos puede reducir el impacto de CULCyT//Septiembre–Diciembre, 2006 anterior que el valor de β1 sea un dos. la 30 Año 3, No 16-17 Agregar datos adicionales o nuevos en eigenvalores de la matriz X se estima el la muestra. Algunas veces el problema poder de explicación de cada una de las de colinealidad puede ser eliminado VI. Este enfoque es aceptado por ser mediante la obtención de una nueva reduccionista y simplificar el modelo, sin muestra u obteniendo más información embargo reduce el rango de X y esto lo para la ya existente. Este procedimiento puede convertir en una técnica que genere tiene el impedimento de que muchas un modelo con menor poder explicativo. veces la obtención de nueva información Sin no tiene fundamento económico. embargo, muchos otros autores han propuesto sacrificar ciertas características Eliminar variables del análisis. de los estimadores Este obtenidos mediante MCO, como es el procedimiento cosiste en eliminar una o caso del sesgo. En la figura 2 se observa más del el caso en que se tiene un parámetro β análisis. Para la determinación de las insesgado pero con un error estándar muy variables que se integrarán en el nuevo grande, mientras que en la figura 3 se modelo, emplean observa el caso de un parámetro β que es técnicas de análisis multivariable, como sesgado pero que tiene un menor error el análisis factorial, donde en base a los estándar. variables correlacionadas generalmente se Error estándar Error estándar Figura 2. Parámetro β insesgado CULCyT//Septiembre–Diciembre, 2006 31 Año 3, No 16-17 Figura 3. Parámetro β sesgado La principal técnica empleada teorema de Gauss-Markov, cuando los para obtener parámetros sesgados fue parámetros son obtenidos por MCO, éstos propuesta por Hoerl y Kennard (1970) y son insesgados; entonces a medida que se denominada regresión ridge, donde se los valores de k crecen, el sesgo de los agrega un sesgo a los parámetros parámetros estimados por RR también estimados con la finalidad de reducir el crece, así que se pretende minimizar los error estándar de éstos, donde agrega una valores de k para minimizar el sesgo y a matriz constante k, con valores que se su vez el error estándar. Los parámetros encuentran entre 0 y 1. En el caso en que del modelo pueden ser estimados según los valores de k son 0, entonces RR es (4). igual a MCO. Lógicamente, según el β = ( X ´ X + kI ) −1 X ´Y (4) Otra técnica ha sido propuesta por Liu segundo parámetro para disminuir aun (2003) donde se mejoran los parámetros más los efectos de la colinealidad, al que estimados por RR; este método considera denomina d. Las fórmulas para obtener el que aún después de admitir un sesgo estimador de Liu se listan a continuación mediante k en RR, se requiere de un en (5), β k , d = ( X ´ X + kI ) −1 * ( X ´Y − dβ ) CULCyT//Septiembre–Diciembre, 2006 32 (6) y (7). (5) Año 3, No 16-17 k= λ1 − 100 * λ p (6) 99 p ∑ ((λ (σ i d= 2 R − kα 2 Ri )) /(λi + k ) 3 i =1 p ∑ ((λ (λ α i i (7) 2 Ri +σ 2 R )) /(λi + k) 4 i =1 regression. Communications in Statistics: Theory 5. Resultados y Conclusiones En artículo principales se han efectos multicolinealidad discutido que de las tiene and Methods, 30: 1171-1183. los Belsley, D. A., Kuth, E. and Welsh, R. E. 1980. la Regression diagnostics –identifying influencial variables data and sources of collinearity-. New York, Jhon independientes en la eficiencia de los Wiley & Sons, Inc. parámetros estimados mediante mínimos Delaney, N. J. and Chatterjee, S. 1986. Use of the cuadrados ordinarios, se han planteado bootstrap and cross validation in ridge regression. los principales procedimientos Journal of Business and Economic Statistics, 4: de 255-262. diagnóstico reportados en la literatura y Hoerl, A. E. and Kennard, R. W. 1970. Ridge se han expuesto las principales técnicas regression: biased estimation for nonorthogonal para manejarla o corregirla; por lo que se problems. Technometrics, 12: 55-67. concluye que una vez detectada la Jahufer, A. and Wijekoon, P. A Monte Carlo multicolinealidad, deben evaluation of new biased estimators in regression seguirse model. Article accepted by Indian Journal of procedimientos de alternos a mínimos Statistics (To be published). cuadrados, tales como aquellos que Kaciranlar, reportan parámetros sesgados pero con Combining the LIU estimator and the principal menor error estándar. component regression estimator. Communications S. and Sakallioglu, S. 2001. in Statistics: Theory and Methods, 22: 393-402. Kaciranlar, S., Sakallioglu, S., Akdeniz, F., Styan, 6. Bibliografía G. P. H. and Werner, H. J. 1999. A new biased Akdeniz, F. 2001. The examination and analysis estimator in linear regression and a detailed of residuals for some biased estimators in linear analysis of the widely-analyzed dataset on Prtland CULCyT//Septiembre–Diciembre, 2006 33 Año 3, No 16-17 cement. Sankhya, Series B. Indian Journal of Wang, G. C. S. 1996. Statistics, 61: 443-459. multicollinearity in regression modelling. The Kinshnamurthi, L. and Ranganwamy, A. 1987. Journal of Business Forecasting, Spring. The equity estimators of marketing research. Wang, G. C. S. and Akabay, C. 1994. Marketing Science, 6: 336-357. Autocorrelation: Liu, H. 1993. A new class of biased estimate in regression analysis. The Journal of Business and linear regression. Communications in Statistics: Forecasting Methods and Systems. 13(4): 18-26. Theory and Methods, 22: 393-402. Willan, A. R. and Watts, D. G. (1978). Liu, K. 2003. Using Liu-Type estimator to combat Meaningful collinearity. Communications in Statistics: Theory Technometrics, 407-412. and Methods. 32(5): 1009-1020. Winchern, D. W. and Churchill, G. A. 1978. A Marquardt, D. W. 1970. Generalized inverses, comparison ridge regression and linear biased estimation. Technometrics, 20: 301-311. problems How and multicollinearity of ridge regression to handle solution in measures. estimators. Technometrics, 12: 591-612. Mason, C. C. and Perreault, W. 1991. Collinearity, power and interpretation of multiple regression analysis. Journal of Marketing Research. 28: 268-280. CULCyT//Septiembre–Diciembre, 2006 34 Año 3, No 16-17