Subido por Alessandra Espinal

Multicolinealidad

Anuncio
REGRESIÓN LINEAL
8. MULTICOLINEALIDAD
Los modelos de regresión se usan en una gran diversidad de aplicaciones. El uso y la
interpretación de un modelo de regresión múltiple dependen, en forma explícita o implícita,
de los estimados de los coeficientes individuales de regresión.
Un problema serio que puede influir mucho sobre la utilidad de un modelo de regresión es
la multicolinealidad, entre las variables de regresión.
La multicolinealidad implica una dependencia casi lineal entre los regresores, los cuales
son las columnas de la matriz X, por lo que es claro que una dependencia lineal exacta
causaría una matriz X'X singular. La presencia de dependencias casi lineales puede influir
en forma dramática sobre la capacidad de estimar coeficientes de regresión.
Si no hay relación lineal entre los regresores, se dice que éstos son ortogonales. Cuando los
regresores son ortogonales se pueden hacer con relativa facilidad inferencias como:
1. Identificación de los efectos relativos de las variables regresoras.
2. Predicción y/o estimación.
3. Selección de un conjunto adecuado de variables para el modelo.
Sin embargo, en la mayor parte de las aplicaciones de regresión, los regresores no son
ortogonales. A veces no es grave la falta de ortogonalidad, sin embargo, en algunos casos
los regresores tienen una relación lineal casi perfecta, y en esos casos, las inferencias
basadas en el modelo de regresión pueden ser engañosas o erróneas. Cuando hay
dependencias casi lineales entre los regresores, se dice que existe el problema de
multicolinealidad.
El problema de multicolinealidad fue mencionado al tratar la inadecuación de los modelos
de regresión, en esta parte se ampliará su descripción, se describirá una diversidad de
problemas y técnicas relacionados con este problema. Específicamente, se examinarán las
causas de la multicolinealidad, algunos de sus efectos específicos perjudiciales sobre la
inferencia, los métodos de diagnóstico o para detectar la presencia de multicolinealidad y
algunas técnicas o medidas correctivas para enfrentar el problema.
8.1 COEFICIENTES NORMALIZADOS DE REGRESIÓN
Se puede decir que es difícil comparar coeficientes de regresión en forma directa, porque la
magnitud de ˆ j refleja las unidades de medida del regresor x j por lo que a veces ayuda
trabajar con regresores y variables de respuesta escalados, que produzcan coeficientes de
regresión adimensionales. A esos coeficientes adimensionales se les suele llamar
coeficientes estandarizados de regresión y dos técnicas frecuentes de escalamiento son: las
de escalamiento normal unitario y de escalamiento de longitud unitaria.
Escalamiento normal unitario
El primer método emplea el escalamiento normal unitario para los regresores y la variable
de respuesta. Esto es,
zi j =
xi j − x j
, i = 1, 2,..., n,
sj
j = 1, 2,..., k
y
yi * =
yi − y
, i = 1, 2,..., n
sy
en donde
(x − x )
n
s 2j = i =1
ij
2
j
n −1
es la varianza muestral del regresor x j y
n
( y − y)
s y2 = i =1
2
i
n −1
es la varianza muestral de la respuesta. Nótese la semejanza con la estandarización de una
variable normal aleatoria. Todos los regresores escalados y la respuesta escalada tienen su
media muestral igual a cero, y varianza muestral igual a 1.
Con estas nuevas variables, el modelo de regresión se transforma en
yi * = b1 zi1 + b2 zi 2 + ... + bk zik +  i , i = 1, 2,..., n
Al centrar las variables regresoras y de respuesta restando x j y y , se elimina la ordenada
al origen del modelo (en realidad, el estimado de b0 por mínimos cuadrados es
bˆ = y* = 0 ). El estimador de b por mínimos cuadrados es
−1
bˆ = ( Z ' Z ) Z ' y *
Escalamiento de longitud unitaria
En este segundo método,
xi j − x j
wi j =
j = 1, 2,..., k
,
S 1/2
jj
y
yi0 =
yi − y
, i = 1, 2,..., n
SCT1/2
en donde
S j j =  ( xi j − x j )
n
2
i =1
es la suma de cuadrados corregida, para el regresor x j . En este escalamiento, cada nuevo
regresor wj tiene promedio w j = 0 , y longitud
 ( w − w ) = 1 . En función de esas
2
n
i =1
ij
j
variables, el modelo de regresión es
yi0 = b1wi1 + b2 wi 2 + ... + bk wik +  i , i = 1, 2,..., n
El vector de los coeficientes de regresión por mínimos cuadrados es
−1
bˆ = (W 'W ) W ' y 0
En el escalamiento de longitud unitaria, la matriz W'W tiene la forma de una matriz de
correlación, esto es,
 1 r12
r
1
W 'W =  21


 rk1 rk 2
r1k 
r2 k 


1
en donde
 ( x − x )( x − x ) =
r =
n
u =1
ij
ui
i
uj
(S S )
1/2
ii
jj
Sij
j
(S S )
1/2
ii
jj
es la correlación simple entre los regresores xi y x j . De igual modo,
 r1 y 
r 
2y
0
W 'y = 
 
 
 rk y 
en la que
 ( x − x )( x − y ) =
r =
n
u =1
jy
uj
j
( S SC )
1/2
jj
Sjy
u
( S SC )
1/2
jj
T
T
es la correlación simple entre el regresor xi y la respuesta y. Si se usa escalamiento normal
unitario, la matriz Z ' Z se relaciona en forma estrecha con W 'W ; de hecho,
Z ' Z = ( n − 1)W 'W
En consecuencia, los estimados de los coeficientes de regresión son idénticos, sin importar
qué escalamiento se use; ambos producen el mismo conjunto de coeficientes
adimensionales de regresión b.
En consecuencia, el escalamiento produce el conjunto de coeficientes adimensionales de
regresión b̂ .
A los coeficientes de regresión b̂ se les suele llamar coeficientes estandarizados de
regresión. La relación entre los coeficientes originales y los estandarizados de regresión es
1/2
 SC 
ˆ j = bˆ j  T  ,
 S jj 


j = 1, 2,..., k
y
ˆ = y −
0
k
 ˆ x
j =1
j
j
Muchos programas de cómputo para regresión múltiple usan este escalamiento para reducir
los problemas que se originan en errores de redondeo, en la matriz ( X ' X ) . Esos errores
−1
pueden ser graves, si las variables originales difieren mucho en su magnitud. La mayor
parte de los programas de cómputo muestran también los coeficientes originales de
regresión y los normalizados, a los que con frecuencia se les llama "coeficientes beta". Al
interpretar los coeficientes estandarizados de regresión se debe recordar que siguen siendo
coeficientes de regresión parcial, es decir, que b j mide el efecto de x j , dado que los
demás regresores xi , i  j , están en el modelo. Además, las b j se afectan por el intervalo
de valores de las variables regresoras. En consecuencia, puede ser peligroso usar la
magnitud de las b j como medida de la importancia relativa del regresor x j .
8.2 FUENTES DE MULTICOLlNEALlDAD
Se tiene el modelo de regresión múltiple en la forma
y = X +
en donde y es un vector de n × 1 de respuestas, X es una matriz de n × p de las variables
regresoras,  es un vector de p × 1 de las constantes desconocidas y  es un vector de
n×1 de los errores aleatorios, siendo  i
NID ( 0,  2 ) .
Resulta conveniente suponer que las variables regresoras y la respuesta se han centrado y
escalado a longitud unitaria, en consecuencia, X ' X es una matriz de correlaciones de p ×
p, entre los regresores, y X ' y es un vector de p × 1, de correlaciones entre los regresores y
la respuesta.
Sea X j la j-ésima columna de la matriz X, de modo que X =  X1 , X 2 ,..., X p  , entonces,
X j contiene los n niveles de la j-ésima variable regresora. Se definirá, formalmente, la
multicolinealidad en términos de la dependencia lineal de las columnas de X. Los vectores
X1 , X 2 ,..., X p son linealmente dependientes si hay un conjunto de t1 , t 2 ,..., t p no todas
cero, tales que
p
t X = 0
j =1
j
j
Si esta ecuación es exactamente válida para un subconjunto de las columnas de X, el rango
−1
de la matriz X ' X es menor que p, y no existe ( X ' X ) . Sin embargo, supóngase que la
ecuación es aproximadamente válida para algún subconjunto de las columnas de X. En ese
caso habrá una dependencia casi lineal en X ' X , y se dice que existe el problema de
multicolinealidad, nótese que la multicolinealidad es una forma de deterioro en la matriz
X ' X , además, el problema es de grado, indicando con esto que cada conjunto de datos
sufrirá cierto grado de multicolinealidad, a menos que las columnas de X sean ortogonales
(que X ' X sea una matriz diagonal), en general, eso sólo sucederá en un experimento
diseñado. Como se verá, la presencia de multicolinealidad puede hacer que el análisis del
modelo de regresión, por mínimos cuadrados, sea terriblemente inadecuado.
Hay cuatro fuentes de multicolinealidad principales:
1. El método de recolección de datos que se empleó.
2. Restricciones en el modelo o en la población.
3. Especificación del modelo.
4. Un modelo sobredefinido.
Es importante comprender las diferencias entre estas fuentes de multicolinealidad, porque
los datos y la interpretación del modelo resultante dependen, en cierto grado, de la causa
del problema (véase Mason, Gunst y Webster [1975], para más descripción de las fuentes
de multicolinealidad).
El método de obtención de datos puede originar problemas de multicolinealidad cuando el
analista sólo muestrea un subespacio de la región de los regresores definidos (en forma
aproximada) por la ecuación anterior.
La multicolinealidad causada por la técnica de muestreo no es inherente al modelo o a la
población que se muestrea. Las restricciones en el modelo o en la población que se
muestrea pueden causar multicolinealidad; por ejemplo, con frecuencia se presentan
restricciones en problemas donde intervienen procesos de producción o químicos, cuando
los regresores son los componentes de un producto y ésos suman una constante.
También se puede inducir la multicolinealidad por la elección del modelo. Por ejemplo, en
casos en que al agregar términos polinorniales a un modelo de regresión se produce un
deterioro en X ' X , además, si el rango de X es pequeño, al agregar un término en x2 puede
producirse una multicolinealidad importante. Con frecuencia se encuentran casos como
ésos, cuando dos o más regresores tienen dependencia casi lineal, y el retener esos
regresores puede contribuir a la multicolinealidad, en esos casos suele ser preferible algún
subconjunto de regresores, desde el punto de vista de la multicolinealidad.
Un modelo sobredefinido tiene más variables regresoras que observaciones. A veces se
encuentran esos modelos en la investigación médica y conductual, cuando puede que sólo
haya una pequeña cantidad de personas (unidades de muestra) disponibles, y se reúne
información de una gran cantidad de regresores en cada persona. El método común para
manejar la multicolinealidad en este contexto es eliminar algunas de las variables
regresoras. Mason, Gunst y Webster [1975] presentan tres recomendaciones específicas: 1)
redefinir el modelo en términos de un conjunto menor de regresores, 2) hacer estudios
preliminares usando sólo subconjuntos de los regresores originales y 3) usar métodos de
regresión del tipo de componentes principales, para decir cuáles regresores se van a quitar
al modelo. Los dos primeros métodos no tienen en cuenta las interrelaciones entre los
regresores y, por consiguiente, pueden conducir a resultados no satisfactorios.
8.3 EFECTOS DE LA MULTICOLlNEALlDAD
La presencia de multicolinealidad tiene una gran cantidad de efectos graves sobre los
estimados de coeficientes de regresión por mínimos cuadrados. Supóngase que sólo hay dos
variables regresoras, x1 y x2 . El modelo, suponiendo que se escalan x1 , x2 y y a longitud
unitaria, es
y = 1 x1 +  2 x2 + 
y las ecuaciones normales de mínimos cuadrados son
( X ' X ) ˆ = X ' y
1
r
 12
r12   ˆ1   r1 y 
 = 
1   ˆ2   r2 y 
en donde r12 es la correlación simple entre x1 y x2 , y rj y es la correlación simple entre x j
y y, j = 1,2. Ahora bien, la inversa de X ' X es
 1
 1− r2
( 12 )
−1
C =(X 'X ) = 
 −r
12

2
 (1 − r12 )
− r12 
(1 − r122 ) 
1 

(1 − r122 ) 
y los estimados de los coeficientes de regresión son
r − r12 r2 y
ˆ1 = 1 y
(1 − r ) ,
2
12
r − r12 r1 y
ˆ2 = 2 y
(1 − r )
2
12
Si hay fuerte multicolinealidad entre x1 y x2 el coeficiente de correlación r12 será grande.
De acuerdo con la ecuación, se ve que cuando r → 1 , Var ˆ = C  2 →  y
(
)
12
( )
j
jj
Cov ˆ1 , ˆ2 = C12 →  , dependiendo de si r12 → +1 o r12 → −1 , por consiguiente, la
2
fuerte multicolinealidad entre x1 y x2 da como resultado grandes variancias y covariancias
de los estimadores de coeficientes de regresión por mínimos cuadrados. Esto implica que
distintas muestras tomadas con los mismos valores de x podrían ocasionar estimaciones
muy diferentes de los parámetros del modelo.
Cuando hay más de dos variables regresoras, la multicolinealidad produce efectos
parecidos. Se puede demostrar que los elementos diagonales de la matriz C = ( X ' X )
son
Cjj =
1
,
1 − R 2j
j = 1, 2,..., p
−1
en donde R 2j es el coeficiente de determinación múltiple de la regresión de x j respecto a
las demás p – 1 variables regresoras. Si hay fuerte multico1inealidad entre x j y cualquier
subconjunto de los demás p – 1 regresores, el valor de R 2j será cercano a la unidad. Como
( )
−1
la variancia de ˆ j es Var ˆ j = C j j 2 = (1 − R 2j )  2 , una fuerte multicolinealidad implica
que la variancia del estimado del coeficiente de regresión ˆ j por mínimos cuadrados es
muy grande, por lo general, la covariancia de ˆ y ˆ también será grande, si los
j
i
regresores xi y x j intervienen en una relación multicolineal.
La multicolinealidad tiende también a producir estimados de ˆ j que son demasiado
grandes en valor absoluto; para visualizar eso, se examina la distancia de ˆ al vector 
del parámetro real, elevada al cuadrado, por ejemplo
(
)(
L12 = ˆ −  ' ˆ − 
)
La distancia esperada, elevada al cuadrado, E ( L12 ) es
(
)(
)
E ( L12 ) = E  ˆ −  ' ˆ −  


(
p
=  E ˆ j −  j
j =1
( )
p
=  Var ˆ j
j =1
)
2
2
=  2Tr ( X ' X )
−1
en donde la traza de la matriz es justo la suma de los elementos de la diagonal principal.
Cuando hay multicolinealidad, algunos de los autovalores (eigenvalues) de X'X serán
pequeños; como la traza de una matriz también es igual a la suma de sus eigenvalores, la
ecuación anterior se transforma en
E ( L12 ) =  2 
p
j =1
en donde  j  0
1
j
j = 1, 2, ... , p son los autovalores de X'X. Así, si la matriz X'X está mal
acondicionada por la multicolinealidad, al menos una de las  j será pequeña, y esta última
ecuación implica que la distancia del estimado mínimo cuadrático ˆ a los parámetros 
puede ser grande. En forma equivalente se puede demostrar que
(
)(
)
E ( L12 ) = E  ˆ −  ' ˆ −  


(
= E ˆ ' ˆ − 2ˆ '  + ˆ ' ˆ
)
o sea
(
)
E ˆ ' ˆ = ˆ '  +  2Tr ( X ' X )
−1
En general, el vector ˆ es más grande que el vector  , esto implica que el método de los
mínimos cuadrados produce coeficientes de regresión estimados que son demasiado
grandes en valor absoluto.
Si bien el método de los mínimos cuadrados producirá, en general, malos estimados de los
parámetros individuales del modelo cuando hay una fuerte multicolinealidad, eso no
necesariamente implica que el modelo ajustado sea mal predictor. Si las predicciones se
confinan a regiones del espacio de x donde la multicolinealidad es aproximadamente válida,
con frecuencia el modelo ajustado produce predicciones satisfactorias, lo que puede suceder
p
porque se logra estimar bastante bien la combinación lineal  j =1 ˆ j xi j , aun cuando los
parámetros individuales  j se estimen mal. Indica con esto que, si los datos originales
están aproximadamente sobre el hiperplano definido por
p
t X = 0 ,
j =1
j
j
las observaciones futuras que también estén cerca de este hiperplano se podrán predecir con
precisión, muy a menudo, a pesar de los estimad os inadecuados de los parámetros
individuales del modelo.
EJEMPLO. Suponga los datos
Gráfica de matriz de Y %, PCuerpo, PHigado, Dosis
150
175
200
0.8
0.9
1.0
0.6
0.4
Y%
0.2
200
175
PCuerpo
150
10.0
7.5
PHigado
5.0
1.0
0.9
Dosis
0.8
0.2
0.4
0.6
5.0
7.5
10.0
En la gráfica de dispersión múltiple, como los dos regresores, PCuerpo y Dosis están muy
correlacionados (la dosis real recibida por un animal fue determinada como 40 mg de la
droga por kilogramo de peso corporal), hay un problema potencial de multicolinealidad en
estos datos.
Cada uno de los regresores originales se escaló con el escalamiento normal unitario de la
sección 1 [restando el promedio (es decir, centrándolo) y dividiéndolo entre la desviación
estándar]. Los términos del modelo se generan a partir de los términos lineales escalados.
Como se dijo previamente, es conveniente centrar los términos lineales.
DIAGNÓSTICO DE MULTICOLlNEALlDAD
Se han propuesto varias técnicas para detectar la multicolinealidad. Las características
deseables en un método de diagnóstico son que refleje el grado del problema de
multicolinealidad, y que proporcione información de utilidad para determinar qué
regresores están implicados.
Examen de la matriz de correlación
Una medida muy sencilla de la multicolinealidad es la inspección de los elementos ri j no
diagonales en X'X. Si los regresores xi y x j son casi linealmente dependientes ri j será
próximo a la unidad
Correlación: PCuerpo, PHigado, Dosis
PHigado
Dosis
PCuerpo
0.500
0.990
PHigado
0.490
Factores de inflación de varianza
Los elementos diagonales de la matriz C = ( X ' X )
−1
son muy útiles para detectar la
multicolinealidad. Recordando que
Cjj =
1
,
1 − R 2j
j = 1, 2,..., p
2
Siendo R j el coeficiente de determinación cuando la regresión es respecto a los p – 1
regresores. Se puede considerar que Cjj es el factor en el que aumenta la varianza de beta
debido a dependencias casi lineales entre los regresores. Se define:
VIFj = C j j =
1
1 − R 2j
como Factor de Inflación de Variancia (VIF). Mide el efecto combinado que tienen las
dependencias de los regresores sobre la varianza de ese término. Si hay uno o más VIF
grandes, hay multicolinealidad. La experiencia indica que si cualquiera de los VIF es mayor
que 5 o 10, es indicio de que los coeficientes asociados de regresión están mal estimados
debido a la multicolinealidad.
Los VIF tienen otra interpretación interesante, referido a la longitud del intervalo de
confianza en la teoría normal.
Análisis del eigensistema de X'X (Teoría de Análisis Multivariante)
Otros diagnósticos
Hay otras técnicas que a veces se usan para diagnosticar la colinealidad. Se puede usar el
determinante de X'X como índice de colinealidad; ya que la matriz X'X está en forma de
correlación, el intervalo de posibles valores del determinante esta entre 0 y 1. Los
regresores son ortogonales si es 1, mientras que si es 0, hay una dependencia lineal exacta
entre ellos. El grado de multicolinealidad se agrava a medida que tiende a cero. Si bien esta
medida de multicolinealidad es fácil de aplicar, no proporciona información alguna sobre el
origen de la multicolinealidad.
MÉTODOS PARA MANEJAR LA MULTICOLlNEALlDAD
Se han propuesto varias técnicas para manejar los problemas causados por la
multicolinealidad.
Entre los métodos generales están el reunir más datos, la reespecificación del modelo y el
uso de métodos de estimación distintos de los mínimos cuadrados, diseñados en forma
específica para combatir los problemas inducidos por la multicolinealidad.
Recolección de datos adicionales
Se ha sugerido la recolección de datos adicionales como el mejor método para combatir la
multicolinealidad (véase, por ejemplo, Farrar y Glauber [1967], y Silvey [1969]). Los datos
adicionales se deben reunir en una forma diseñada para eliminar la multicolinealidad en los
datos actuales.
Reespecificación del modelo
Con frecuencia, la multicolinealidad se debe a la elección del modelo, como cuando dos
regresores muy correlacionados se usan en la ecuación de regresión, en estos casos la
reespecificación de la ecuación de regresión puede aminorar el impacto de la
multicolinealidad. Encontrar la relación entre regresore por ejemplo.
Otro método muy usado para reespecificar el modelo es la eliminación de variable. Esto
es, si dos o más son casi linealmente dependientes, la eliminación de un regresor, puede
ayudar a combatir la multicolinealidad. La eliminación de variable es frecuentemente una
técnica muy efectiva, sin embargo, podrá no producir una solución satisfactoria si los
regresores eliminados del modelo tienen un gran poder de explicación en relación de la
respuesta y, lo que significa que la eliminación de los regresores para reducir la
multicolinealidad puede dañar el poder predictivo del modelo. Se debe tener cuidado al
seleccionar las variables, porque muchos de los procedimientos de selección se distorsionan
mucho por la multicolinealidad y no hay seguridad de que el modelo final muestre menor
grado de multicolinealidad que la que había en los datos originales.
Descargar