MULTICOLINEALIDAD1 Ing. Lorenzo Castro Gómez2 El supuesto 10 del modelo clásico de regresión lineal (MCRL) plantea que no existe multicolinealidad entre los regresores incluidos en el modelo de regresión, los supuestos 7 y 8 son complementarios al supuesto de multicolinealidad. El supuesto 7, especifica que el número de observaciones debe superar al número de regresores (el tema de muestras pequeñas y el supuesto 8, que debe haber suficiente variabilidad en los valores de los regresores. En este tema consideramos en forma critica el supuesto de no multicolinealidad buscando respuestas a las siguientes preguntas: 1. ¿Cuál es la naturaleza de la multicolinealidad? 2. ¿Es la multicolinealidad realmente un problema? 3. ¿Cuáles son sus consecuencias prácticas? 4. ¿Cómo se detecta? 5. ¿Qué medidas remédiales pueden tomarse para aliviar el problema de multicolinealidad? También mostraremos la forma como los supuestos 7 y 8 se ajustan con el supuesto de no multicolinealidad. 1. NATURALEZA DE LA MULTICOLINEALIDAD Originalmente este término se refería a una relación lineal "perfecta" o exacta entre algunas de las variables explicativas de un modelo de regresión. Si las X son las variables explicativas y se cumple que 1 x1 + 2x2 + 3x3 +… +kxk = 0. Para no todos las s = 0. Ejemplo de colinealidad perfecta 1x1 + 2x2 + 3x3 = 0 implica que x2 = - (1 / 2) x1 - (3 / 2) x3. La colinealidad puede no ser tan perfecta, se tiene; 1x1 + 2x2+ 3x3 + v = 0; implica que x2 = - (1 / 2) x1 - (3/2) x3 - (v/2 ) Como ejemplo numérico, considérese la siguiente información hipotética: Ejemplo 1. 1 Apuntes preparados para la clase de Econometría para la carrera de Licenciado en Economía Agrícola y Agronegocios de la DCSE de la UAAAN. 2 Maestro titular del curso, del Departamento de Economía Agrícola de la DCSE - UAAAN. Saltillo, Coah. Méx. 1 X2 10 15 18 24 30 X3 50 75 90 120 150 X*3 52 75 97 129 152 La tercera columna se incrementó con números que se obtuvieron de una tabla aleatoria. Note que x3 = 5x2, el coeficiente de correlación entre x2 y x3 es igual a + 1 (colinealidad perfecta), y la correlación entre x2 y x3 es de 0.9959 "casi perfecta3". Ejemplo 2: Sea el siguiente modelo de regresión Y = 1x1 + 2x2 + Si a priori determinamos que x2 = 2x1 Y = 1 x1 + 2 (2x1 ) + Y = (1 + 22 ) x1 + Entonces solo 1 + 22 será estimable. No es posible obtener estimadores separados de 1 y 2 en este caso se dice que existe una multicolinelidad perfecta ya que x1 y x2 correlacionadas r2 12 = 1, en la practica r2 no es 1, pero tiene un valor muy próximo. Sean los siguientes datos hipotéticos. S11 = 200 S12 = 150 S22 = 113 S1y = 350 S2y = 263 Las ecuaciones normales son: 2001 + 1502 = 350 1501 + 1132 = 253 Los estimadores son: 1 = 1, 2 = 1. Sí se elimina una observación se tiene: S11 = 199 S12 = 149 S22 = 112 S1y = 347.5 S1y = 261.5 3 Ahora ya no hay colinealidad entre estas variables sin embargo las dos variables están altamente correlacionadas. R2 = 0.9959 2 Las ecuaciones normales son: 1991 + 1492 = 347.5 1491, + 1122 = 261.5 los estimadores: 1 = - 1/2, 2 = 3 Nota: variaciones muy pequeñas en la varianzas y las covarianzas producen cambios drásticos en los estimadores de los parámetros. Se sabe que r 2 12 = (150)2 / 200(113) = 0.995. La inclusión o eliminación de observaciones produce cambios en las varianzas y las covarianzas, esta es una consecuencia de la multicolinealidad. Gráfico de Ballentine de multicolinealidad. La multicolinealidad es perfecta sí los coeficientes de regresión de las variables x son indeterminados y sus errores estándares infinitos. Sí la multicolinealidad es menos que perfecta los coeficientes de regresión aunque determinados poseen-grandes errores estándares (en relación con los propios coeficientes) lo cual significa que no se pueden estimar con gran precisión. Si la multicolinealidad es perfecta suceden dos cosas a) No se 3 pueden estimar los parámetros y b) Las varianzas de los parámetros son infinitos las otras variables explicativas, una manera de averiguar cual variable x esta relacionada con otras x variables consiste en realizar una regresión de cada x con las restantes x y luego calcular el correspondiente R2 que aquí se designara como R2. Si dicho R2 es "alto" implica multicolinealidad. 2. LA MULTICOLINEALIDAD ES REALMENTE UN PROBLEMA. Si se satisfacen los supuestos de la regresión lineal (RL) y los mínimos cuadrados ordinarios (MCO), y los coeficientes de los estimadores de regresión lineal (MELI). Entonces la multicolinealidad no viola los supuestos básicos de la regresión. Los efectos tienen que ver con la dificultad de obtener los coeficientes estimados con errores estándares pequeños. Sin embargo el mismo problema se observa cuando se tiene pocas observaciones o al obtener variables independientes con varianzas pequeñas. Cualquier estimación es imposible cuando se tiene una población de n = 0. De esto se tiene: 1. Los estimadores de MCO son insesgados. 2. La colinealidad no distribuye la propiedad de varianzas pequeñas. 3. La multicolinealidad es esencialmente un fenómeno ( de regresión muestral). Que sí la variable x no esta relacionada en la población, lo puede estar en la muestra. Por ejemplo; El consumo que esta en función del ingreso y la riqueza, el ingreso y la riqueza están correlacionadas no en forma perfecta. Generalmente el que tiene riqueza tiende a tener mayores ingresos. En las muestras puede ser un problema difícil de distinguir las influencias por separado. 3. CONSECUENCIAS PRÁCTICAS En los casos de casi o alta multicolinealidad es posible que se presenten las siguientes consecuencias. 1. Aun cuando los estimadores MCO y MELI están presentes varianzas y covarianzas grandes, que hacen difícil la estimación precisa. 2. Debido a la consecuencia 1, los intervalos de confianza tienden a ser mucho más amplios conduciendo a una aceptación más fácil de la hipótesis nula de cero, (es decir que el verdadero coeficiente de probabilidad es cero). 3. También debido a la consecuencia 1, la razón t de uno o más coeficientes tiende a ser estadísticamente no significativo. 4. Aun cuando la razón t de uno o más coeficientes sea estadísticamente no significativos, el R2, la media global de bondad de ajuste puede ser muy alto. 5. Los estimadores MCO y sus errores estándar pueden ser sensibles a pequeños cambios en la información. Ejemplo No. 3 4 Se quiere explicar el consumo de un cierto bien en función del ingreso y de la riqueza y se tienen los siguientes datos. Consumo Y 70 65 90 95 110 115 120 140 155 150 Ingreso X1 80 100 120 140 160 180 200 220 240 260 Riqueza X2 810 1009 1273 1425 1633 1876 2052 2201 2435 2686 La regresión es: Y = 24.7747 + 0.9415 X1 - 0.0424 X2 (6.7525) (0.8229) (0.0807) ee 3.669 1.1442 - 0.5261 t R2 0.9635, gl = 7. La R2 = 0.96 nos dice que x1 y x2 explican conjuntamente un 96. 35 % de la variación del consumo, pero individualmente ninguno lo explica, ello implica que x1 y x2 están tan correlacionadas que no se puede aislar el efecto. Separando, el ingreso y la riqueza se puede correr x2 contra x1 por separado la regresión es: X2 = 7.5454 + 0.5091 X1 (29.4758) (0.1643) ee 0.2560 62.0405 t R2 = 0.9979 Si se corre Y contra x1 y x2 por separado se tiene: Y = 24.4545 + 0.5091 X1 (6.4138) (0.0357) ee 3.8128 14.2432 t R2 = 0.9621 Y = 24.348 + 0.0498 X2 (6.3837) (0.0037) ee 3.8141 13.3576 t 2 R = 0.9567 5 Note que la t calculada es muy alta para los parámetros de las x1 y x2 cundo se corren por separado contra Y, ello no sucede si se corren conjuntamente. La hipótesis 1 = 2 = 0. simultáneamente ésta puede ser rechazada al hacer el análisis de varianza ( ANVA). F.V Regresión Residual SC 8 565.5541 324.4459 gl 2 7 CM 4282. 777 46.3494 F 92.40 F = 4282.777 / 46.3494 = 92.4019 Como es obvio este valor F es altamente significativo. 4. COMO DETECTAR LA MULTICOLINEALIDAD Algunos métodos: Habiéndose estudiado la naturaleza y las consecuencias de la multicolinealidad, el interrogante natural es: ¿Cómo puede conocerse la presencia de colinealidad en cualquier situación dada, especialmente en modelos que contienen mas de dos variables explicativas? Aquí es útil tener en mente la advertencia siguiente: 1. La multicolinealidad es un problema de grado y no de clase. La distinción importante no es entre la presencia y la ausencia de multicolinealidad, sino entre sus diferentes grados. 2. Puesto que la multicolinealidad se refiere a la condición de las variables explicativas las cuales no son estocásticas por supuestos, esta es una característica de la muestra y no de la población. Por consiguiente, no es necesario <<llevar a cabo pruebas sobre multicolinealidad>> pero se puede, si se desea, medir su grado en cualquier muestra determinada. Puesto que la multicolinealidad es esencialmente un fenómeno de tipo muestral que surge de información principalmente no experimental, recopilada en la mayoría de las ciencias sociales, no se tiene un método único de detectarla o de medir su fuerza. Lo que se tiene en realidad son ciertas reglas prácticas, algunas informales y algunas formales, pero todas las reglas prácticas. Considérense a continuación algunas de estas. 1. Un R2 elevado pero pocas razones t significativas. Como se mencionó anteriormente, este es un síntoma <clásico> de multicolinealidad. Si el R 2 es alto, es decir, esta por encima de 0.8, la prueba F, en la mayoría de los casos, rechazara la hipótesis de que los coeficientes parciales de pendiente son simultáneamente iguales a cero, pero las pruebas t individuales mostraran que ningún coeficiente parcial de pendiente, o muy pocos de ellos son 6 estadísticamente diferentes de cero. Lo anterior se demostró claramente en el ejemplo de consumo ingreso-riqueza. Aunque este diagnóstico es razonable, su desventaja es que <<es demasiado fuerte, en el sentido de que la multicolinealidad se considera dañina únicamente cuando la totalidad de las influencias de las variables explicativas sobre Y no se pueden separar>>. 2. Altas correlaciones entre parejas de regresores. Otra regla práctica que se sugiere utilizar consiste en observar el coeficiente de correlación de orden cero o entre dos regresores. Si este es alto, digamos superior a 0.8, entonces la multicolinealidad es un problema grave. El problema con este criterio es que, aunque las altas correlaciones de orden cero pueden sugerir la presencia de colinealidad, no es necesario que dichas correlaciones sean altas por contar con la presencia de colinealidad en un determinado caso específico. Para plantear lo anterior en términos un poco técnicos, las correlaciones de orden cero elevadas son una condición suficiente pero no necesaria para la existencia de multicolinealidad debido a que esta puede existir, a pesar de que las correlaciones de orden cero o correlaciones simples sean comparativamente bajas (es decir, inferiores a 0.50). Para apreciar esta relación, supóngase que tenemos un modelo con cuatro variables: y supóngase que Y = + 1x1 + 2x2 + ... + kxk + X4 = l2x2 + l3x3 donde l2 y l3 son constantes, sin ser las dos iguales a cero. Obviamente, x4 es una combinación lineal exacta de x2 y x3, dado R24,23 = 1, el coeficiente de determinación en la regresión de x4 sobre x2 y x3. Ahora, recordando la fórmula R2 4-23 = (r2 42 + r243 + 2 r42 r43 r 23) / 1 - r223 Pero, puesto que R24.23 = 1 debido a la existencia de colinealidad perfecta, se obtiene 1 = (r242 + r243 - 2r42 r43 r23) / 1 - r223 No es difícil ver que se satisface con r242 = 0.5 y r243 = 0.5 y r223 = - 0.5, que no son valores muy altos. Por consiguiente, en los modelos que involucran mas de dos variables explicativas, la correlación simple o de orden- cero no proporcionara una guía infalible sobre la presencia de multicolinealidad. Claro esta que sí solamente existen dos variables explicativas, entonces las correlaciones de orden cero serán suficientes. 3. Examen de las correlaciones parciales. Debido al problema que se acaba de mencionar, cuando se basa en correlaciones de orden cero, se ha sugerido que se deben observar, en lugar de ellos, los coeficientes de correlación parcial. De esta forma, en la regresión de Y sobre x2 , x3 y x4, sí se encuentra que R2 1.234 es muy elevado pero r2 12.34 , r2 2 13.24 y r 14.23 son comparativamente bajos, esto puede sugerir que las variables x2 , x3 y x4 están altamente intercorrelacionadas y que por lo menos una de estas variables es superfua. 7 Aunque puede ser útil un estudio de correlaciones parciales, no hay garantía de que estas proporcionen una guía infalible sobre multicolinealidad, ya que puede suceder que tanto el R2 como todas las correlaciones parciales sean suficientemente altas. Sin embargo y tal vez más importante, se ha mostrado que la prueba de correlación parcial ineficaz en el sentido de que una determinada correlación parcial puede ser compatible con diferentes patrones de multicolinealidad. 4. Regresiones auxiliares. Puesto que la multicolinealidad surge debido a que uno o mas de los Regresores son combinaciones lineales exactas o aproximadas de los otros regresores, una forma de encontrar cual variable x esta relacionada con las otras variables x es efectuar la regresión de cada xi sobre las variables x restantes y calcular el R2 correspondiente, que se designa R2; cada una de estas regresiones se denomina regresión auxiliar, auxiliar a la regresión principal de Y sobre las x. Entonces, siguiendo la relación entre F y R2, la variable (R2x1x2x3 .. xk ) / (k - 2) Ra = ------------------------------------------------(1 -R2X1X2X3.. xk) / (n-k+ 1) sigue la distribución F con k - 2 y n - k + 1 gl. En la ecuación anterior n representa el tamaño de la muestra, k representa el numero de variables explicativas incluyendo el término intercepto y R2X2j 12x3 xk es el coeficiente de determinación en la regresión de la variable, Y sobre las variables x restantes. Si el F calculado excede al F crítico al nivel de significancia seleccionado, se dice entonces que la x particular es colineal con las demás x si no excede al F critico, se dice que esta no es colineal con las demás x, en cuyo caso podemos mantener la variable en el modelo. Si Fi es estadísticamente significativo, aun tendremos que decidir si la x que sé esta considerando debe eliminarse del modelo. Sin embargo, este método no deja de tener sus desventajas ya que “... si la multicolinealidad comprende solamente unas pocas variables, de tal forma que las regresiones auxiliares no sufren de multicolinealidad extensa, los coeficientes estimados pueden revelar la naturaleza de la dependencia lineal entre los regresores”. Desafortunadamente, si existen diversas asociaciones lineales complejas, éste ejercicio de ajuste de curva puede no tener gran valor puesto que será difícil identificar las interrelaciones separadas . En lugar de probar formalmente todos los valores R2 auxiliares, se puede adoptar la regla práctica que sugiere que la multicolinealidad puede ser un problema complicado solamente sí el R2 obtenido de una regresión auxiliar es mayor que el R2 global, es decir, aquel obtenido de la regresión de Y sobre todos los regresores. Por cierto, al igual que todas las demás reglas prácticas, ésta debe ser utilizada con buen criterio. 5. Valores propios e índice de condición. Si se examina el listado SAS4 de la función de producción Cobb-Douglas. Se vera que SAS utiliza los valores propios y el índice de 4 Es un paquete estadístico uno de los mejores que hay en el mercado <<el mejor>>. 8 condición para diagnosticar multicolinealidad. No se analizará aquí el tema de los valores propios puesto que llevaría a involucrarse en temas de álgebra matricial que están por fuera del alcance de estos apuntes, sin embargo, partiendo de estos valores propios, se puede derivar lo que se conoce como número de condición k definido. K = máximo valor propio / mínimo valor propio Y = el índice de condición (IC) definido como IC = (máximo valor propio) / mínimo valor propio) = k Entonces se tiene esta regla práctica. Si k esta entre 100 y 1000, existe una multicolinealidad que va desde moderada a fuerte, mientras que sí este excede a 1000, existe multicolinealidad severa. Alternativamente, sí el IC (= k) esta entre 10 y 30, existe multicolinealidad entre moderada y fuerte y sí excede 30, existe una multicolinealidad severa. Para el ejemplo ilustrativo, k = 3.0 / 0.00002422 o alrededor de 123,864 e IC = 123864 = alrededor de 352; en consecuencia, tanto k como IC sugieren multicolinealidad severa. Claro esta que k e IC pueden calcularse entre el máximo valor propio y cualquier otro valor propio, como se hace en el listado. ( Nota: En el listado no se calcula explícitamente k, pero este es simplemente IC elevado al cuadrado, a propósito, obsérvese que un valor propio bajo [en relación con el máximo valor propio] es generalmente una indicación de dependencias casi lineales en los datos). Algunos autores consideran que el índice de condición es el mejor diagnostico de multicolinealidad disponible. Sin embargo, esta opinión no es ampliamente aceptada. Entonces, el IC es solamente una regla práctica, quizá un poco mas sofisticada. 6. Factores de tolerancia y de inflación de varianza. Para el modelo de regresión con k variables [Y, el intercepto y los (k- 1) regresores], como se ha visto la varianza de un coeficiente de regresión parcial puede ser expresada como var (j) = (2 / x2j ) (1/1 - R2j) = (2 / x2j) ( FlVj ) donde j es el coeficiente de regresión (parcial del regresor xj R2J es el R2 en la regresión (auxiliar de xj sobre los restantes (k - 2) Regresores y FlVj es el primer factor de inflación de varianza, a medida que R2, aumenta hacia la unidad, es decir, a medida que aumenta la colinealidad de xj con los demás regresores, el FIV también aumenta y en el limite puede ser infinito. Algunos autores utilizan, por consiguiente, el FIV como indicador de la multicolinealidad: Entre mayor es el valor del FlVj mayor <<problema>> o colinealidad tiene la variable xj. ¿Pero, que tan alto debe ser el FIV antes de que un regresor se convierta en un problema?, Como regla práctica, sí el FIV de una variable es superior a 10 (esto suceder si R2J excede 0.90), se dice que esa variable es altamente colineal. 9 5. MEDIDAS REMEDIALES ¿ Qué puede hacerse sí la multicolinealidad es grave?, Cómo en el caso de la detección, no hay reglas infalibles porque la multicolinealidad es esencialmente un problema muestral. Sin embargo, se pueden ensayar las siguientes reglas prácticas, dependiendo su éxito de la gravedad del problema en colinealidad. 1. Información a priori. Supóngase que se considera el modelo Y = + 1x1 + 2x2 + donde Y = consumo, x1 = ingreso y x2 = riqueza. Como se menciono colineales. Pero supóngase que, a priori, se cree que, 2 = 0,10 1; es decir, la tasa de cambio del consumo con respecto a la riqueza es una décima parte de la correspondiente con respecto al ingreso. Se puede entonces efectuar la siguiente regresión: Y = + 1X1 + 2x2 + Y = + 1X1 + donde xi = x1 + 0.1x2 Una vez se ha obtenido 1 se puede estimar 2 a partir de la relación postulada entre 1 y 2 ¿Cómo se obtiene información a priori? Esta puede provenir de trabajo empírico anterior, en donde el problema de colinealidad resulto ser menos grave o de la teoría relevante que soporta el campo de estudio. Por ejemplo, en la función de producción tipo Cobb-Douglas, si se espera que prevalezcan los rendimientos constantes a escala, entonces (1+2) = 1, en cuyo caso se puede efectuar la - <<regresión>> - regresando la razón producto-trabajo sobre la razón capital-trabajo. Si existe colinealidad entre el trabajo y el capital, como generalmente es el caso en la mayor parte de la información muestral, dicha transformación puede reducir o eliminar el problema de colinealidad. Pero es preciso hacer una advertencia aquí con respecto a la imposición de esas restricciones o puesto que en general se desea probar las predicciones a priori de la teoría económica en lugar de imponerlas simplemente sobre los datos para los cuales ellas pueden no ser ciertas. 2. Combinación de información de corte transversal y de series de tiempo. Una variante de la técnica de información externa o a priori es la combinación de información de corte transversal y de series de tiempo, conocida como mezcla de datos. Supóngase que deseamos estudiar la demanda de automóviles en los Estados Unidos y supóngase que se tiene información de series de tiempo sobre el número de autos vendidos, el precio promedio del auto y el ingreso del consumidor. Supóngase además que: In Yt = a + 1 In Pt + 2 ln It + t donde Y = número de autos vendidos, P = precio promedio, l = ingreso y t = tiempo. El objetivo es estimar la elasticidad-precio 1 y la elasticidad-ingreso 2 . 10 En la información de series de tiempo, las variables precio e ingreso generalmente tienden a ser altamente colineales. Por consiguiente, si se desea efectuar la anterior regresión, sé deberá enfrentar el problema usual de multicolinealidad. Se dice que si se tiene información de corte transversal por ejemplo, información generada a través de grupos de consumidores o estudios de presupuesto realizados por diversas agencias privadas y estatales, se puede obtener una estimación relativamente confiable de la elasticidad-lngreso 1, puesto que con tal información que esta en un punto en el tiempo, los precios no varían mucho. Sea 2 la elasticidad-ingreso estimada a partir de los datos de corte transversal. Utilizando esta estimación, la anterior regresión de series de tiempo puede escribirse como Y*t = +1 ln P t + donde Y* = In y - 2 In 1, es decir, Y* representa ese valor de Y después de eliminarle el efecto del ingreso. Ahora se puede obtener una estimación de la elasticidad-precio 1 de la regresión anterior. Aunque esta es una técnica atractiva, la mezcla de datos de series de tiempo y de corte transversal en la forma recién sugerida puede crear problemas de interpretación porque se esta suponiendo implícitamente que la elasticidad- ingreso estimada a partir de datos de corte transversal es igual a la que se habría obtenido a partir de un análisis puro de series de tiempo. Sin embargo, la técnica ha sido utilizada en muchas aplicaciones y es particularmente valiosa en situaciones en donde las estimaciones de corte transversal no varían sustancialmente de un grupo a otro. 3. Eliminación de una(s) variable(s) y el sesgo de especificación. Al enfrentar el problema de multicolinealidad severa, una de las soluciones <<má simples>> consiste en omitir del modelo una de las variables colineales. Así, en el ejemplo consumo-ingresoriqueza, al omitir la variable riqueza, obtenemos la regresión, la cual muestra que mientras en el modelo original la variable ingreso no era estadísticamente significativa, ahora sé vuelve <<altamente>> significativa. Sin embargo, al eliminar una variable del modelo se puede estar incurriendo en un sesgo de especificación o error de especificación. El sesgo de especificación surge de la especificación incorrecta del modelo utilizado en el análisis. Así, si la teoría económica afirma que tanto el ingreso como la riqueza deben estar incluidos en el modelo que explica el gasto de consumo, al eliminar la variable riqueza se incurrirá en un sesgo de especificación. Existen otros métodos remediales pero por ahora solo se enunciaran ya que estos forman parte de otro curso. 4. Transformaciones de variables. 5. Datos nuevos o adicionales. 6. Reducción de la colinealidad en las regresiones polinomiales. Se ha dicho que si el único propósito del análisis de regresión es el pronostico o la predicación, entonces la multicolinealidad no es un problema grave puesto que entre mas alto sea el R2, mejor es la predicción. Pero esto puede suceder siempre que los valores de las variables explicativas para los cuales se desean las predicciones obedezcan las mismas 11 dependencias lineales casi exactas de la matriz x [de datos] de diseño original. Por tanto, entonces, en una muestra futura utilizada para pronosticar Y, x2, también debe ser aproximadamente igual a 2x3, una condición difícil de cumplir en la práctica, en cuyo caso la predicción se hará cada vez mas incierta. Adicionalmente, si el objetivo del análisis no es solamente la predicción sino también la estimación confiable de los parámetros, la presencia de alta multicolinealidad puede ser un problema porque, como se ha visto, conduce a grandes errores estándar en los estimadores. Sin embargo, existen situaciones en las cuales la multicolinealidad puede no representar un problema grave. Es el caso en el cual se tiene un R 2 elevado y los coeficientes de regresión son significativos individualmente como lo demuestran los altos valores t. Esto puede surgir si los coeficientes individuales resultan estar numéricamente por encima del valor verdadero, de tal forma que el efecto siga visible, a pesar de estar inflados los errores estándar y/o debido a que el valor verdadero mismo es tan grande que aun cuando se obtenga una estimación bastante subestimada, esta continua siendo significativa. 6. CONCLUSIONES GENERALES Uno de los supuestos del modelo clásico de regresión lineal es que no haya multicolinealidad entre las variables explicativas, las x. Interpretado en términos generales, la multicolinealidad se refiere a una situación en la cual existe una relación lineal exacta o aproximadamente exacta entre las variables x. 1. Las consecuencias de la multicolinealidad son las siguientes: Si existe colinealidad perfecta entre las X, sus coeficientes de regresión son indeterminados y sus errores estándar no están definidos. Si la colinealidad es alta pero no es perfecta, la estimación de los coeficientes de regresión es posible pero sus errores estándar tienden a ser grandes. Como resultado, los valores poblacionales de los coeficientes no pueden ser estimados en forma precisa. Sin embargo, si el objetivo es estimar combinaciones lineales de estos coeficientes, las funciones estimables, esto puede lograrse aun en presencia de multicolinealidad perfecta. 2. Aunque no hay métodos seguros para detectar la colinealidad, existen diversos indicadores de esta, como los siguientes: A) El signo mas claro de multicolinealidad es cuando el R 2 es muy alto, pero ninguno de los coeficientes de regresión es estadísticamente significativo con base en la prueba t convencional. Por supuesto, este caso es extremo. B) En los modelos que contienen apenas dos variables explicativas, puede tenerse una idea de colinealidad relativamente buena mediante el examen del coeficiente de correlación de orden cero, o simple, entre las dos variables. Si esta correlación es alta, la multicolinealidad es generalmente la culpable. C) Sin embargo, los coeficientes de correlación de orden cero pueden ser malos indicadores en modelos que contienen mas de dos variables X, puesto que es posible tener correlaciones bajas de orden cero y encontrar aun alta 12 multicolinealidad. En situaciones como estas, puede ser necesario examinar los coeficientes de correlación parcial. D) Si R2 es alto pero las correlaciones parciales son bajas, la multicolinealidad es una posibilidad. Aquí hay una o más variables que pueden ser superfluas. Pero si R 2 es alto y las correlaciones parciales son altas también, la multicolinealidad puede no ser fácilmente detectadle. a. Por consiguiente, se puede regresar cada una de las variables Xj sobre las variables X restantes en el modelo y encontrar los coeficientes de determinación correspondientes R2i un R2j elevado sugeriría que xj esta altamente correlacionado con el resto de las x. Así, se puede eliminar esa Xj del modelo, siempre y cuando no conduzca a un sesgo de especificación grave. 3. La detección de multicolinealidad es la mitad de la batalla. La otra mitad esta relacionada con hallar la forma de deshacerse del problema. Nuevamente, no existen métodos seguros, solamente unas pocas reglas prácticas. Algunas de estas reglas son las siguientes: (1) utilizar información obtenida a priori o externa al modelo, (2) combinar información de corte transversal y de series de tiempo, (3) omitir una variable si es altamente colineal, (4) transformar los datos (5) obtener información adicional o nueva. Naturalmente, saber cual de estas reglas funcionara en la práctica depender de la naturaleza de la información y de la severidad del problema de colinealidad. 4. Se mencionó aquí el papel de la multicolinealidad en la predicción y se señalo que a menos de que la estructura colineal continúe en la muestra futura, es peligroso utilizar una regresión estimada que haya sido contaminada por multicolinealidad para fines de proyección. 5. Aunque la multicolinealidad ha recibido extensa algunos dirían excesiva atención en la teoría, un problema igualmente importante que se ha presentado en la investigación empírica es el de la micronumerosidad, o pequeñez del tamaño de la muestra. Cuando un articulo de investigación acusa la presencia de multicolinealidad, los estudiantes deben ver si esa queja seria convincente si se sustituyera el concepto de micronumerosidad- por el de -multicolinealidad- Se sugiere que el estudiante decida, que tan pequeña debe ser n, el número de observaciones, antes de decidir que se tiene un problema de muestra pequeña exactamente en la misma forma en que uno declare que tan alto es un valor de R2- en una regresión auxiliar antes de declarar que el problema de colinealidad es muy severo. 13